火车头采集
来源:百度文库 编辑:神马文学网 时间:2024/04/29 17:32:56
具体参考http://www.cnki.net.ru/html/jishu/teach/20070402/37_2.html 这里发图片麻烦
现在市面上一般分三种,cms内置式,网络语言编写的,还有一种是基于.net框架开发的,我这是这么分的
而在功能跟性能上的比较上,.net开发的是强的,也是灵活性最高的
.cms内置式的,有代表性的就是动易,新云,ecms,dede,这种采集器本身跟cms整合的非常好,但是,由于php跟asp在性能上有一些缺陷,所以在处理大数据量的集息的时候,会显的力不从心
而还有一种是独立于cms的采集器,代表性的有,小蜜蜂,跟sk,这种采集器的特别是独立于cms之外,相比cms内置的功能要强一些,但是这种采集器在发布的时候,一般都是采用直接写入数据库的方式,一般不懂得数据库结构的用户很难操作。
第三种就是用语言写的,大多数接触的都是基于.net框架的,也有用vb写的,这种代表性强的就是火车头了,这种采集器一般来说,灵活性是最好的,而且扩展性强,比如火车头,就可以基于web发布,以及直接写库,以及数据库转换
在采集器的选择上,不求都会,只精一种就行,个人推荐学会一种像火车头这种采集器,能用懂,充分利用,基本上,在采集数据上是不会再有障碍了。
现在说一下关于使用采集器要注意的问题
首先要有一定的html基础,也就是能看懂起码的html代码,因为这样有利于你分析目标内容的区域性。
再有就是采集回来的内容切记不要完全拿来主义,最好是再进行一次二次编辑或者修改,这样有利于搜索引擎的判断,你的内容是否完全镜像,也有利于,同一篇内容的多网站重复利用
有很多站长就说自己的垃圾站动不动就被k站,大多数的原因就是内容的重复性
采集虽然在一定程序上能提高你制作网站的效率,但是也会增加你无用功的风除,大量的重复copy,对你,以及对其它站长都是不利于发展的。、
搜索引擎是同意copy的,但是不能完全镜像。具体的大家可以自己思考一下,过多的同样内容,会占用大量的数据空间,对于搜索引擎也是如此,所以,它会使用一些手段去干掉大部份重复性的内容
对于采集回来的内容,有几个小技巧说一下
首先,在页面内容的组织上,比如title description keywords进行适当的修改
在主内容页上,不要去拷贝别人的模版,而自己重新设计,如果是div css的,可以把id class,改变名称
针对某些内容的关键字,利用采集器的替换功能,加上一些修饰代码,比如
目标,有句话是 在反复多次的演练后 而在采集器的规则制作过程中,可以将演练替换成演练
一些类似的手法
个人是不推荐使用别人发布的模版的,重复的模版,重复的内容,结果就是被k或者惨淡的收录效果
好了,不多说了,说火车头
对了,补充一下,不要为了堆积而采集
垃圾站只是一个名词,而不是形容词,你的站可以叫垃圾站,但不要内容也是,如果这样,不如干点别的,别浪费时间
我按火车头3.01来讲,因为最新的3.1在采集图片上有bug
一万篇内容完全镜像的数据,是顶不过一千篇进行过二次优过的内容的,排名,收录,完全两回事
我说的只是个人经验,不是真理
火车头有几个现在未修得的bug我说一下
不要把任务列表删空,这样会无法新架入站点以及任务
代理功能好像下载不了图片等数据,某些环境基本上无效
ok,首先点击站点选项,新建站点,拿中国新闻网来做例子
写个站点名称,点保存即可,如果此站大多数频道的模版是完全一样的,可以先制作内容采集规则。这样,在本站目录新建的任务,会继承,站点的内容规则。
点击中国新闻网,右键,从该站新建任务,出现任务窗口
新建任务名称
点击向导添加,我们以中国新闻网的娱乐频道来做例子,因为娱乐频道是单页列表,所以在单条网址中加入http://www.chinanews.com.cn/entertainment.shtml,点添加,然后点完成添加。
按上面图的例子发布
如果列表页是多页网址,
进行编写
为了确定列表的正确性,要对
打开http://www.chinanews.com.cn/entertainment.shtml列表源代码
找到列表的开始代码跟结束代码,最好使用唯一性,也是就代码的不重复性
点击开始测试,会出现新窗口
效对列表的正确性,如果正确,可以进行内容规则编写
选取任意一条内容页地址,右键,将该页转到规则测试
在ie中也打开这个页的地址
先进行标题规则的定义
在标题的定义上有个小技巧,就是一般来说 之间都是标题
如果有类似蔡依林新恋情曝光-xxxx娱乐网
将标题的结束代码设置为-即可,这点,火车头在代码的处理上是非常好的
内容规则直接找到开始,结束代码即可,允许不唯一性
有个问题要交待一 当前位置:织梦者>>DEDE技术应用>>基础教程>>文章内容
火车头采集教程
来源: 作者: 发布时间:2007-04-02
如果网页代码中有 类似的代码,一定要在内容标签中道先排除,否则会影响采集效果
内容中的排除标签功能很弱,个人建议手动加入排除代码,经如
会排除一切以table开始,>结整的代码
现在市面上一般分三种,cms内置式,网络语言编写的,还有一种是基于.net框架开发的,我这是这么分的
而在功能跟性能上的比较上,.net开发的是强的,也是灵活性最高的
.cms内置式的,有代表性的就是动易,新云,ecms,dede,这种采集器本身跟cms整合的非常好,但是,由于php跟asp在性能上有一些缺陷,所以在处理大数据量的集息的时候,会显的力不从心
而还有一种是独立于cms的采集器,代表性的有,小蜜蜂,跟sk,这种采集器的特别是独立于cms之外,相比cms内置的功能要强一些,但是这种采集器在发布的时候,一般都是采用直接写入数据库的方式,一般不懂得数据库结构的用户很难操作。
第三种就是用语言写的,大多数接触的都是基于.net框架的,也有用vb写的,这种代表性强的就是火车头了,这种采集器一般来说,灵活性是最好的,而且扩展性强,比如火车头,就可以基于web发布,以及直接写库,以及数据库转换
在采集器的选择上,不求都会,只精一种就行,个人推荐学会一种像火车头这种采集器,能用懂,充分利用,基本上,在采集数据上是不会再有障碍了。
现在说一下关于使用采集器要注意的问题
首先要有一定的html基础,也就是能看懂起码的html代码,因为这样有利于你分析目标内容的区域性。
再有就是采集回来的内容切记不要完全拿来主义,最好是再进行一次二次编辑或者修改,这样有利于搜索引擎的判断,你的内容是否完全镜像,也有利于,同一篇内容的多网站重复利用
有很多站长就说自己的垃圾站动不动就被k站,大多数的原因就是内容的重复性
采集虽然在一定程序上能提高你制作网站的效率,但是也会增加你无用功的风除,大量的重复copy,对你,以及对其它站长都是不利于发展的。、
搜索引擎是同意copy的,但是不能完全镜像。具体的大家可以自己思考一下,过多的同样内容,会占用大量的数据空间,对于搜索引擎也是如此,所以,它会使用一些手段去干掉大部份重复性的内容
对于采集回来的内容,有几个小技巧说一下
首先,在页面内容的组织上,比如title description keywords进行适当的修改
在主内容页上,不要去拷贝别人的模版,而自己重新设计,如果是div css的,可以把id class,改变名称
针对某些内容的关键字,利用采集器的替换功能,加上一些修饰代码,比如
目标,有句话是 在反复多次的演练后 而在采集器的规则制作过程中,可以将演练替换成演练
一些类似的手法
个人是不推荐使用别人发布的模版的,重复的模版,重复的内容,结果就是被k或者惨淡的收录效果
好了,不多说了,说火车头
对了,补充一下,不要为了堆积而采集
垃圾站只是一个名词,而不是形容词,你的站可以叫垃圾站,但不要内容也是,如果这样,不如干点别的,别浪费时间
我按火车头3.01来讲,因为最新的3.1在采集图片上有bug
一万篇内容完全镜像的数据,是顶不过一千篇进行过二次优过的内容的,排名,收录,完全两回事
我说的只是个人经验,不是真理
火车头有几个现在未修得的bug我说一下
不要把任务列表删空,这样会无法新架入站点以及任务
代理功能好像下载不了图片等数据,某些环境基本上无效
ok,首先点击站点选项,新建站点,拿中国新闻网来做例子
写个站点名称,点保存即可,如果此站大多数频道的模版是完全一样的,可以先制作内容采集规则。这样,在本站目录新建的任务,会继承,站点的内容规则。
点击中国新闻网,右键,从该站新建任务,出现任务窗口
新建任务名称
点击向导添加,我们以中国新闻网的娱乐频道来做例子,因为娱乐频道是单页列表,所以在单条网址中加入http://www.chinanews.com.cn/entertainment.shtml,点添加,然后点完成添加。
按上面图的例子发布
如果列表页是多页网址,
进行编写
为了确定列表的正确性,要对
打开http://www.chinanews.com.cn/entertainment.shtml列表源代码
找到列表的开始代码跟结束代码,最好使用唯一性,也是就代码的不重复性
点击开始测试,会出现新窗口
效对列表的正确性,如果正确,可以进行内容规则编写
选取任意一条内容页地址,右键,将该页转到规则测试
在ie中也打开这个页的地址
先进行标题规则的定义
在标题的定义上有个小技巧,就是一般来说
如果有类似
将标题的结束代码设置为-即可,这点,火车头在代码的处理上是非常好的
内容规则直接找到开始,结束代码即可,允许不唯一性
有个问题要交待一 当前位置:织梦者>>DEDE技术应用>>基础教程>>文章内容
火车头采集教程
来源: 作者: 发布时间:2007-04-02
如果网页代码中有 类似的代码,一定要在内容标签中道先排除,否则会影响采集效果
内容中的排除标签功能很弱,个人建议手动加入排除代码,经如