该笔记整理:与 Scrapy 有关的杂记,及某些技术的概述。
执行带有 Javascript 的页面
Scraping Javascript Web Page With Scrapy + Splash
How can we execute javascript in scrapy?
Splash – A javascript rendering service
Scrapy & JavaScript integration through Splash
页面元素选择器
在使用 Scrapy 抓取网页时,需要执行的最常见任务是从 HTML 源中提取数据,这可以使用 BeautifulSoup 或 lxml 模块。
除此之外,Scrapy 带有自己的提取数据机制。这里将简单整理在 Scrapy 中用于提取网页中的数据的选择器。
与 CSS 中的选择器有些类似,在 Scrapy 中,有两种选择器:
1)XPath – XML Path Language (XPath)
2)CSS – Selectors Level 3