Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度
来源:百度文库 编辑:神马文学网 时间:2024/04/28 22:17:46
Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度
文章分类:互联网
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/629891
欢迎加入Heritrix群(QQ):10447185
Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.
下面就列出各个参数、说明和理想值
序号 配置名 理想值 说明
10 0 最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制
20 0 最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制
30 3 抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制
43 50 抓取的线程数,表示有多少个线程去抓取,一般50足够了
54.0 1.0 如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值
620000 2000 队列的最大延迟时间,单位为毫秒
72000 0 队列的最小延迟时间,单位为毫秒
830 5 URL抓取失败可以重试的次数,重试次数越少越好
90 0 总的 抓取速度(KB/秒)限制,0表示没有限制
100 0
每个域名抓取速度(KB/S)限制,0表示没有限制
1150 200 准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取
1221600 0 DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS
1386400 0 爬虫协议(robots.txt)有效时间,超过这个时间则要重新去读取robots.txt
文章分类:互联网
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.javaeye.com/blog/629891
欢迎加入Heritrix群(QQ):10447185
Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.
下面就列出各个参数、说明和理想值
序号 配置名 理想值 说明
1
2
3
4
5
6
7
8
9
10
每个域名抓取速度(KB/S)限制,0表示没有限制
11
12
13
Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度
说说用xml做配置文件的优劣
修改注册表加快Windows 7关机速度
网络行为分析可以加快解决网络问题的速度
加快網路連接的速度
加快網路連接的速度
log4j配置文件(xml版)
让你的电脑速度加快的好方法
Struts-config.xml配置文件《action-mappings》元素的详解 -...
闪电效果 加快你的windows启动速度
小技术 加快你的WinRAR解压缩速度
闪电效果--加快你的windows启动速度
教你如何加快IE7浏览网页的速度!~!~!~!~!~!_
小技术加快你的WinRAR解压缩速度
修改注册表值,立马加快宽带上网速度.0
史上最强的Vim 配置文件|最强,Vim,配置文件-中国源码
史上最强的Vim 配置文件|最强,Vim,配置文件-中国源码zz
利用Jakarta Commons Digester匹配xml配置文件信息与其对应的xml...
Struts2.0配置文件(web.xml)
ICTCLAS的源码分析
Linux SSH相关配置文件的修改 - 酷胖优惠码
Heritrix使用的初步总结
Heritrix使用的初步总结
Heritrix使用的初步总结