master
yihua.huang 2013-08-09 23:02:22 +08:00
parent 19d067fc5d
commit a9721036a4
1 changed files with 1 additions and 1 deletions

View File

@ -229,7 +229,7 @@ webmagic包括一个对于页面正文的自动抽取的类**SmartContentSelecto
* SeleniumDownloader
对于一些Javascript动态加载的网页仅仅使用http模拟下载工具并不能取到页面的内容。这方面的思路有两种一种是抽丝剥茧分析js的逻辑再用爬虫去重现它另一种就是内置一个浏览器直接获取最后加载完的页面。**webmagic-selenium**包中整合了Selenium到SeleniumDownloader可以直接进行动态加载页面的抓取。
对于一些Javascript动态加载的网页仅仅使用http模拟下载工具并不能取到页面的内容。这方面的思路有两种一种是抽丝剥茧分析js的逻辑再用爬虫去重现它另一种就是内置一个浏览器直接获取最后加载完的页面。**webmagic-selenium**包中整合了Selenium到SeleniumDownloader可以直接进行动态加载页面的抓取。使用selenium需要安装一些native的工具具体步骤可以参考作者的博文[使用Selenium来抓取动态加载的页面](http://my.oschina.net/flashsword/blog/147334)
#### Scheduler(URL管理)