57 lines
1.7 KiB
XML
57 lines
1.7 KiB
XML
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
|
||
<javadoc>
|
||
<meta>
|
||
<date-generated>Sat Aug 17 14:14:45 CST 2013</date-generated>
|
||
</meta>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Request]]></key>
|
||
<data><![CDATA[ <div class="zh">
|
||
Request对象封装了待抓取的url信息。<br/>
|
||
在PageProcessor中,Request对象可以通过{@link us.codecraft.webmagic.Page#getRequest()} 获取。<br/>
|
||
<br/>
|
||
Request对象包含一个extra属性,可以写入一些必须的上下文,这个特性在某些场合会有用。<br/>
|
||
<pre>
|
||
Example:
|
||
抓取<a href="${link}">${linktext}</a>时,希望提取链接link,并保存linktext的信息。
|
||
在上一个页面:
|
||
public void process(Page page){
|
||
Request request = new Request(link,linktext);
|
||
page.addTargetRequest(request)
|
||
}
|
||
在下一个页面:
|
||
public void process(Page page){
|
||
String linktext = (String)page.getRequest().getExtra()[0];
|
||
}
|
||
</pre>
|
||
</div>
|
||
|
||
@author code4crafter@gmail.com <br>
|
||
Date: 13-4-21
|
||
Time: 上午11:37
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Request(java.lang.String)]]></key>
|
||
<data><![CDATA[ 构建一个request对象
|
||
|
||
@param url 必须参数,待抓取的url
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Request.setPriority(double)]]></key>
|
||
<data><![CDATA[ 设置优先级,用于URL队列排序<br>
|
||
需扩展Scheduler<br>
|
||
目前还没有对应支持优先级的Scheduler实现 =。= <br>
|
||
@param priority 优先级,越大则越靠前
|
||
@return this
|
||
]]></data>
|
||
</comment>
|
||
<comment>
|
||
<key><![CDATA[us.codecraft.webmagic.Request.getUrl()]]></key>
|
||
<data><![CDATA[ 获取待抓取的url
|
||
|
||
@return url 待抓取的url
|
||
]]></data>
|
||
</comment>
|
||
</javadoc>
|