网页不被Google收录的一个奇怪问题

来源:百度文库 编辑:神马文学网 时间:2024/04/30 16:05:08
一、起因
昨天丹丹同学找我说这个问题,抱怨其要潜水,问之何故?答因其网站放在MT双线主机的空间后不被Google收录,拾叁同学也无力帮忙向CP同学去协商解决,所以要潜水以示抗议。而CP同学看来并没有解决这个问题的意愿。
为了不让丹丹同学潜水,我决定还是亲自去查一下,虽然偶现在已经无视Search Engine,但是无视不是等于无动于衷,不要求它主动来收录,人家自己上门来还是可以欢迎的。
二、现象描述
1.两个最能说明问题的例子:
一个是bbs.pjhome.net,一个是www.lbsky.cn,它们是做什么的就不用我再说了,这两站都是在MT双线空间安的家。先看看Google的收录情况(小声透露一下关于site:指令的用法还是从某人那学来的^_^)


bbs.pjhome.net有5W注册ID,16W个贴子,只有300多页被Google收录,说出去鬼才信。lbsky也是这样,3K会员,1W贴子,不可能只有200多页收录。
用同样的指令在Baidu和Yahoo中,才会得到正常的结果。例如在Yahoo.cn中用site:www.lbsky.cn查找,显示收录6,380条,这才比较正常。在Baidu.com中中用site:bbs.pjhome.net查找,结果baidu收录了70,000篇,也属正常。
2.我们再举一个正面的例子:
host.rainbowsoft.org是这个月才上线的,网站很小只有一个程序在里面,也是在MT安家,不过是电信单线,没有用CName去智能解析。老样子在Google中查询site:host.rainbowsoft.org,结果居然有100多页,还是很让人满意的。

3.看看一个特殊的例子:
这就是Z-Blog的官方论坛bbs.rainbowsoft.org了,和前面不正常的例子一样,同是放在了双线空间,同是用CName解析,为什么在Google中收录就大相径庭?

关于这一点上,丹丹同学说对了,之所以Zblogger.BBS被收录这么多,是因为之前十月份某Party开会把大家都给水产死了,Z论坛在可爱的星星同学的帮助下在国外得以安家,脱离了MT双线空间,自然收录也就正常。通过细心的查找发现,Google大多收录的是些旧的页面,新的内容还是很少,所以说,问题还是出在双线空间及解析上面。
三、查找问题
查看网站当然第一件事,先是Ping一下啰,看看截图。

这是正常的,主机的IP的确是59.54.54.245,这里的解析是通过CNAME进行的,所以还会显示dns245.com。要不然不能正常访问,CP同学岂不是要变成人肉叉烧包了(来自某烧卖、棕子和包子的典故)。
再用WHOIS看看,在www.who.is上查询一下rainbowsoft.org这个米,看了一下具体情况,果然找到了不同之处。

http://www.who.is/whois-org/ip-address/rainbowsoft.org/
www.rainbowsoft.org明明被解析为了59.54.54.245(bbs.rainbowsoft.org同理),怎么会变成58.17.30.245呢?这个58.17.30.245是怎么来的?下面我们接着查,不把它查到誓不罢休^_^。

http://www.who.is/whois-com/ip-address/dns245.com/
我们再接着查询时dns245.com这个米时,显示的还是58.17.30.245,很惊奇吧?因为bbs.rainbowsoft.org被CName指向了dns245.com,而dns245.com还是登记在了58.17.30.245这个IP上,所以造成了bbs.rainbowsoft.org被指向了58.17.30.245。
联锁反应产生了:(,Google被骗迷了路,所以进不了网站。看看Google的网络管理员工具,它最能说明问题。

四、如何解决
CP同学要把dns245.com的解析IP指向59.54.54.245,而不是那个错误的58.17.30.245。至于这个58.17.30.245是怎么来的,要问问CP同学自己才清楚。
不过这里说的解析应该是一个域名与IP对应的登记工作,实际上你ping www.dns245.com时已经被解析为了59.54.54.245。要不然你打开www.dns245.com会看到某MM的Blog吗(不过dns245绑上了MM的Blog的确不够严谨)?
至于如何解决,那就在dns567.com里了,www.who.is的资料上显示的有,我就不再说下去了。再说下去我也不懂了-_-。
五、总结
为什么同一个环境,百度和Yahoo没有收录故障,而只有Google才有呢?原因嘛,大概是因为Google并不用我们正在使用的这套DNS体系,而是根据自有的DNS数据库进行收录,也就是说和你自己Ping域名的方法不同,你能访问正常的网站,对于Google来说,可能因为它拿到了一个错误的IP地址而不能访问,所以也就会出现这个问题。
CP同学的粗心大意,给了Google一个错误的IP,结果让Google每次上门都扑了空,但是偶尔也有特例,比如Google总会有那么一两次获得了实际上是正确的IP地址(至于这又是一个什么样的机制,我还不太明白),所以只会更新几页而已。
可怜我夜里5点还在帮丹丹同学查找问题,不知丹丹同学有啥奖励没^_^?