[注意]搜索引擎很傻 小心被它误杀![傲龙站长论坛]

来源:百度文库 编辑:神马文学网 时间:2024/05/19 17:18:32
注意]搜索引擎很傻 小心被它误杀!
哪些情况是网站在无知的情况下被搜索引擎认定为复制网页?并有可能被误杀?
在本次纽约举行的搜索引擎战略大会SES上,很多与会者就复制网页的问题进行了讨论。以下是各位搜索引擎专家的见解:
Anne Kennedy:复制网页的情况包括不同URL下拥有同样的网站内容,或同一首页下有同样的内容,如index.htm, index.html等后缀下都是同样的内容。
Shari Thurow:搜索引擎对于复制网页的识别和判断也做了大量努力,如搜索引擎在比较两个网页时会排除一些干扰因素如导航区域,headers等,直接分析正文内容部分,其次搜索引擎还会通过分析网页内部和外部链接以判断是否每个站点的链接都不同。
Jake Baillie:很多网站为了方便用户对每篇文章都有一个“打印友好页”的相同内容页面,还有很多产品介绍页面只有产品图片没有文字介绍的内容,都有可能被搜索引擎视为复制网页。
解决复制网页的办法除了简单地不要复制相同内容,还可以在不得已需要复制的网页上通过robots.txt文件让搜索引擎不要索引该页面,或使用301重定向将复制的网页转化成“真实”的网页。
专家们认为现实情况是如果某个内容率先出现在一个普通网站上,随后被“权威网站”所转载,Google往往认定权威网站的内容是原始内容站,而真正的原始站点被认为复制网页。不过Google通常情况下不会惩罚复制网页,除非这个网站太过极端,比如做了N多的镜像网站。
搜索引擎在判断原始网页与复制网页上有不少漏洞。搜索引擎专家建议,为了避免被搜索引擎认为复制网页,如果一个html网页同时拥有一个PDF版本或设置了打印友好页,最好用robots.txt文件阻止搜索引擎索引重复内容文件;