Sat Aug 17 14:14:45 CST 2013 webmagic爬虫的入口类。 示例: 定义一个最简单的爬虫: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*")).run(); 使用FilePipeline保存结果到文件: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*")) .pipeline(new FilePipeline("/data/temp/webmagic/")).run(); 使用FileCacheQueueScheduler缓存URL,关闭爬虫后下次自动从停止的页面继续抓取: Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*")) .scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).run(); @author code4crafter@gmail.com
Date: 13-4-21 Time: 上午6:53 ]]>
)]]>