91 lines
3.2 KiB
XML
91 lines
3.2 KiB
XML
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
|
||
<javadoc>
|
||
<meta>
|
||
<date-generated>Sat Aug 17 14:14:45 CST 2013</date-generated>
|
||
</meta>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider]]></key>
|
||
<data><![CDATA[ <pre>
|
||
webmagic爬虫的入口类。
|
||
|
||
示例:
|
||
定义一个最简单的爬虫:
|
||
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*")).run();
|
||
|
||
使用FilePipeline保存结果到文件:
|
||
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*"))
|
||
.pipeline(new FilePipeline("/data/temp/webmagic/")).run();
|
||
|
||
使用FileCacheQueueScheduler缓存URL,关闭爬虫后下次自动从停止的页面继续抓取:
|
||
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*"))
|
||
.scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).run();
|
||
</pre>
|
||
|
||
@author code4crafter@gmail.com <br>
|
||
Date: 13-4-21
|
||
Time: 上午6:53
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider(us.codecraft.webmagic.processor.PageProcessor)]]></key>
|
||
<data><![CDATA[ 使用已定义的抽取规则新建一个Spider。
|
||
|
||
@param pageProcessor 已定义的抽取规则
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.create(us.codecraft.webmagic.processor.PageProcessor)]]></key>
|
||
<data><![CDATA[ 使用已定义的抽取规则新建一个Spider。
|
||
|
||
@param pageProcessor 已定义的抽取规则
|
||
@return 新建的Spider
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.startUrls(java.util.List<java.lang.String>)]]></key>
|
||
<data><![CDATA[ 重新设置startUrls,会覆盖Site本身的startUrls。
|
||
|
||
@param startUrls
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.setUUID(java.lang.String)]]></key>
|
||
<data><![CDATA[ 为爬虫设置一个唯一ID,用于标志任务,默认情况下使用domain作为uuid,对于单domain多任务的情况,请为重复任务设置不同的ID。
|
||
|
||
@param uuid 唯一ID
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.scheduler(us.codecraft.webmagic.scheduler.Scheduler)]]></key>
|
||
<data><![CDATA[ 设置调度器。调度器用于保存待抓取URL,并可以进行去重、同步、持久化等工作。默认情况下使用内存中的阻塞队列进行调度。
|
||
|
||
@param scheduler 调度器
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.pipeline(us.codecraft.webmagic.pipeline.Pipeline)]]></key>
|
||
<data><![CDATA[ 设置处理管道。处理管道用于最终抽取结果的后处理,例如:保存到文件、保存到数据库等。默认情况下会输出到控制台。
|
||
|
||
@param pipeline 处理管道
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.test(java.lang.String...)]]></key>
|
||
<data><![CDATA[ 用某些特定URL进行爬虫测试
|
||
@param urls 要抓取的url
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Spider.thread(int)]]></key>
|
||
<data><![CDATA[ 建立多个线程下载
|
||
|
||
@param threadNum 线程数
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
</javadoc>
|