火车头采集

来源：百度文库编辑：神马文学网时间：2024/04/29 17:32:56

具体参考http://www.cnki.net.ru/html/jishu/teach/20070402/37_2.html 这里发图片麻烦

现在市面上一般分三种，cms内置式，网络语言编写的，还有一种是基于.net框架开发的，我这是这么分的

而在功能跟性能上的比较上，.net开发的是强的，也是灵活性最高的

.cms内置式的，有代表性的就是动易，新云，ecms,dede，这种采集器本身跟cms整合的非常好，但是，由于php跟asp在性能上有一些缺陷，所以在处理大数据量的集息的时候，会显的力不从心

而还有一种是独立于cms的采集器，代表性的有，小蜜蜂，跟sk，这种采集器的特别是独立于cms之外，相比cms内置的功能要强一些，但是这种采集器在发布的时候，一般都是采用直接写入数据库的方式，一般不懂得数据库结构的用户很难操作。

第三种就是用语言写的，大多数接触的都是基于.net框架的，也有用vb写的，这种代表性强的就是火车头了，这种采集器一般来说，灵活性是最好的，而且扩展性强，比如火车头，就可以基于web发布，以及直接写库，以及数据库转换

在采集器的选择上，不求都会，只精一种就行，个人推荐学会一种像火车头这种采集器，能用懂，充分利用，基本上，在采集数据上是不会再有障碍了。

现在说一下关于使用采集器要注意的问题

首先要有一定的html基础，也就是能看懂起码的html代码，因为这样有利于你分析目标内容的区域性。

再有就是采集回来的内容切记不要完全拿来主义，最好是再进行一次二次编辑或者修改，这样有利于搜索引擎的判断，你的内容是否完全镜像，也有利于，同一篇内容的多网站重复利用

有很多站长就说自己的垃圾站动不动就被k站，大多数的原因就是内容的重复性

采集虽然在一定程序上能提高你制作网站的效率，但是也会增加你无用功的风除，大量的重复copy，对你，以及对其它站长都是不利于发展的。、

搜索引擎是同意copy的，但是不能完全镜像。具体的大家可以自己思考一下，过多的同样内容，会占用大量的数据空间，对于搜索引擎也是如此，所以，它会使用一些手段去干掉大部份重复性的内容

对于采集回来的内容，有几个小技巧说一下

首先，在页面内容的组织上，比如title　description　keywords进行适当的修改

在主内容页上，不要去拷贝别人的模版，而自己重新设计，如果是div css的，可以把id class，改变名称

针对某些内容的关键字，利用采集器的替换功能，加上一些修饰代码，比如

目标，有句话是　在反复多次的演练后　而在采集器的规则制作过程中，可以将演练替换成演练
一些类似的手法

个人是不推荐使用别人发布的模版的，重复的模版，重复的内容，结果就是被k或者惨淡的收录效果

好了，不多说了，说火车头

对了，补充一下，不要为了堆积而采集

垃圾站只是一个名词，而不是形容词，你的站可以叫垃圾站，但不要内容也是，如果这样，不如干点别的，别浪费时间

我按火车头3.01来讲，因为最新的3.1在采集图片上有bug

一万篇内容完全镜像的数据，是顶不过一千篇进行过二次优过的内容的，排名，收录，完全两回事

我说的只是个人经验，不是真理

火车头有几个现在未修得的bug我说一下

不要把任务列表删空，这样会无法新架入站点以及任务

代理功能好像下载不了图片等数据，某些环境基本上无效

ok，首先点击站点选项，新建站点，拿中国新闻网来做例子

写个站点名称，点保存即可，如果此站大多数频道的模版是完全一样的，可以先制作内容采集规则。这样，在本站目录新建的任务，会继承，站点的内容规则。

点击中国新闻网，右键，从该站新建任务，出现任务窗口

新建任务名称

点击向导添加，我们以中国新闻网的娱乐频道来做例子，因为娱乐频道是单页列表，所以在单条网址中加入http://www.chinanews.com.cn/entertainment.shtml，点添加，然后点完成添加。

按上面图的例子发布

如果列表页是多页网址，

进行编写

为了确定列表的正确性，要对

打开http://www.chinanews.com.cn/entertainment.shtml列表源代码

找到列表的开始代码跟结束代码，最好使用唯一性，也是就代码的不重复性

点击开始测试，会出现新窗口
效对列表的正确性，如果正确，可以进行内容规则编写

选取任意一条内容页地址，右键，将该页转到规则测试

在ie中也打开这个页的地址

先进行标题规则的定义

在标题的定义上有个小技巧，就是一般来说之间都是标题

如果有类似蔡依林新恋情曝光－xxxx娱乐网

将标题的结束代码设置为-即可，这点，火车头在代码的处理上是非常好的

内容规则直接找到开始，结束代码即可，允许不唯一性

有个问题要交待一当前位置：织梦者>>DEDE技术应用>>基础教程>>文章内容

火车头采集教程
来源：作者：发布时间：2007-04-02

如果网页代码中有　类似的代码，一定要在内容标签中道先排除，否则会影响采集效果

内容中的排除标签功能很弱，个人建议手动加入排除代码，经如

会排除一切以table开始，>结整的代码

其它的以此类推

如果你要下载内容页的图片以及flash，切记要点选

自动改为随机文件名，任意

事实上火车头在规则制作上是非常简单的，唯一要注意的就是分页

全部列出指的是1 2 3 4 5 6此类的页码

而上下面，也就是说，内容页上有上一页，下一页这种

不好意思，中新网的新闻内容分页的太少，等我找个带内容分页的

ok，http://www.autohome.com.cn/news/200703/18937.html　汽车之家的

我们来看一下这页的分页代码

>>下一页

[第1页][第2页] [下一页]

因为是混合的，我们用全部列出模式

开始代码

结束代码html>[下一页]

或者[下一页]

有些内容分页在采集的时候，用[下一页]

，会形成内容页的重复采集，所以要采用html>[下一页]

，破坏掉其链接，这样火车头在分析分页的时候，就会忽略这个a链接

回车连接上下面，指的是采集的内容页为整页，无分页

自定义的功能为可以设置导入的目标cms的分页标识

比如某些cms的分页是<-next page->这样就可以这样设置
这样采集出来的内容页会自动加上分页标签

这个主要是针对论坛类的采集，选择内容标签循环匹配，可以采集到论坛的回贴，当然，所有的内容信息是在一页的

基本上规则的制作就是这些，然后就是数据发布

数据发布一般来说推荐web在线发布，这个一般用到全部发布的比较多

具本的登陆模块可以去火车头的论坛下载

有些下载的模块登陆不了，可以使用火车头的内置浏览器进行登陆后抓取cookie的模式，效果是一样的

对于要采集图片 flash等内容还要补充一点的就是

右键单击任务，选择任务高级设置

这里主要讲一下

这个是图片发到cms后，图片的链接地址，一般最好写绝对地址

比如发布的目标站的地址是http://www.xxx.com/upimg/xxx.jpg

其中upimg是在　图片相对保存文件夹中设置的

而http://www.xxx.com/upimg/要设置在
记得以/结束，有些人采集回来的图片显示不正常，就是因为这里没有设置造成的

在高级里还有一个自动更新，运用这个功能，加上一些可以自己定时刷新列表，发布同时生成静态页的cms，可以做出完全自动化更新的网站

这个就需要自己研究了

没了，发完，收工

另外，需要编写采集规则的，可以发目标站至我的信箱，dq1981@gmail.com
最好符上采集器一份,有的采集器我没有备份

当然在你采集前，有几个建议： 1.别人经常采的网站不要去采 2.太容易采的网站不要去采 3.不要一次采集太多，一定要注意后期处理 4.做好关键词，tag的采集分析 5.己网站要有己的定位，不采与己网站无关的内容 6.采集也要有持续，经常更新，动采集功能我们也有，但还是建议大家人工也参与一些审核，或定时，乱序发布后期处理方面 1.给标题。
内容分词 2.使用同义词近义词替换，排除敏感词，不同的标签之间数据融合，指如标题内容之间数据的相互替换 3.给文章加上摘要 4.为文章标题等生成拼音地址 5.采集一些其他编的网站，我们可以做到简繁体转化，可以采集中文网站翻译成英文(虽然比较垃圾，但应该可以算是原创) 我们也发现，高难度采集的网站一般内容质量都非常好，采集其实有时也是一件很有乐趣的事情，需要你学习一些采集相关的知识。
动采集搜索软件主要是指：数据采集、转移、处理及索引优化。

火车头采集几款网站采集器 et 狂人火车头小猪功能对比行动的“火车头” 采集重点 Web2DB数据采集服务 Web2DB数据采集服务学生信息采集卡视频采集卡知识网络新闻的采集采集常用技巧带状疱疹大全采集视频采集卡标本采集手册采集卡的问题深圳嵌入式软件成软件产业火车头数学文化--理性文明的火车头- 不是火车头的蒸汽小火车图纸吉水全力打造农业产业化“火车头” 新闻周刊：中国成拉动西方增长火车头李嘉诚：深圳是改革开放的火车头历史图片：青藏铁路美国火车头曝光采集模块--分布式采集模块的广泛应用人工采集和机器采集几点感受无线采集，模拟量采集，模拟量传输