magic-Dependency/zh_docs/us/codecraft/webmagic/Spider-cmnt.xml

91 lines
3.2 KiB
XML
Raw Blame History

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<javadoc>
<meta>
<date-generated>Sat Aug 17 14:14:45 CST 2013</date-generated>
</meta>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider]]></key>
<data><![CDATA[ <pre>
webmagic爬虫的入口类。
示例:
定义一个最简单的爬虫:
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*")).run();
使用FilePipeline保存结果到文件:
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*"))
.pipeline(new FilePipeline("/data/temp/webmagic/")).run();
使用FileCacheQueueScheduler缓存URL关闭爬虫后下次自动从停止的页面继续抓取:
Spider.create(new SimplePageProcessor("http://my.oschina.net/", "http://my.oschina.net/*blog/*"))
.scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).run();
</pre>
@author code4crafter@gmail.com <br>
Date: 13-4-21
Time: 上午6:53
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider(us.codecraft.webmagic.processor.PageProcessor)]]></key>
<data><![CDATA[ 使用已定义的抽取规则新建一个Spider。
@param pageProcessor 已定义的抽取规则
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.create(us.codecraft.webmagic.processor.PageProcessor)]]></key>
<data><![CDATA[ 使用已定义的抽取规则新建一个Spider。
@param pageProcessor 已定义的抽取规则
@return 新建的Spider
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.startUrls(java.util.List<java.lang.String>)]]></key>
<data><![CDATA[ 重新设置startUrls会覆盖Site本身的startUrls。
@param startUrls
@return this
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.setUUID(java.lang.String)]]></key>
<data><![CDATA[ 为爬虫设置一个唯一ID用于标志任务默认情况下使用domain作为uuid对于单domain多任务的情况请为重复任务设置不同的ID。
@param uuid 唯一ID
@return this
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.scheduler(us.codecraft.webmagic.scheduler.Scheduler)]]></key>
<data><![CDATA[ 设置调度器。调度器用于保存待抓取URL并可以进行去重、同步、持久化等工作。默认情况下使用内存中的阻塞队列进行调度。
@param scheduler 调度器
@return this
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.pipeline(us.codecraft.webmagic.pipeline.Pipeline)]]></key>
<data><![CDATA[ 设置处理管道。处理管道用于最终抽取结果的后处理,例如:保存到文件、保存到数据库等。默认情况下会输出到控制台。
@param pipeline 处理管道
@return this
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.test(java.lang.String...)]]></key>
<data><![CDATA[ 用某些特定URL进行爬虫测试
@param urls 要抓取的url
]]></data>
</comment>
<comment>
<key><![CDATA[us.codecraft.webmagic.Spider.thread(int)]]></key>
<data><![CDATA[ 建立多个线程下载
@param threadNum 线程数
@return this
]]></data>
</comment>
</javadoc>