揭开谷歌站点管理工具报告的神秘面纱(四)--艾瑞网专家Erik Dafforn的博客专栏 ...

来源:百度文库 编辑:神马文学网 时间:2024/04/30 05:25:07
揭开谷歌站点管理工具报告的神秘面纱(四)[ 2009-9-10 11:43:00 ]2推荐本文

  这是关于谷歌站点管理工具报告的最后一篇文章。

  爬虫搜索状态显示Googlebot遇到的问题,其包含以下几个子报告:——每天爬虫索引的网页。这一报告显示,在过去的三个月里,每天Googlebot向多少网页发出要求。这一图表中没有准确的数字,但零肯定是错误的数字。因为谷歌的爬虫索引非常频繁,这主要是因为网页的大部分属于PageRank,你可能会看到频率在增加。

  ——每天爬虫索引的字节数。这与爬虫每天索引的网页不可能准确匹配,但它会显示一些相似性,比如相同的高峰与谷底。

  ——下载一个网页所需的时间。它显示用于Googlebot从你的服务器抓取特定URL所需的时间。一般,这一图表的高峰与谷底与上面讨论的两种情况无关。实际上,该图表中的峰值显示服务器问题,因为除非你的网页非常的大,否则Googlebot不会花费太长的时间进行下载。

  ——谷歌搜索引擎中你网页的PageRank.该部分显示你索引的所有网页,并将PageRank分类四种:高、中、低和尚未配置。

  所有的谷歌站点管理工具报告只是沧海一粟。网页需要7到8个PageRank进入“高”级别类。对于绝大多数的网站来说,绝大多数的网页会进入“低”或是“尚未配置”之列。但你不必过于担心,因为如果你已使用PageRank,你可能失去了一些重要的战略。

  ——有最高PageRank的网页。这份报告的目的是在于告诉你哪个网页有最高的PageRank.在99%的网站中,是主页。如果你看到列出了旧的网页,就在谷歌工具条中双击PageRank列表。

  HTML建议报告在分析你的标题和宏描述数据时有很好的价值。

  ——宏描述:该报告显示复制的宏描述太长或是太短。

  不要被数字迷惑。如果谷歌站点工具报告有600页的描述是复制的,它意味着两个网页有300种不同的可能性是复制数据,而600个网页不一定有相同的描述。

  ——标题标签:这一部分显示失去的、复制的、长和短的标题标签,尽管所有的都是自我陈述性的描述,但它很难区分什么字母或是单词包括在内。

  对于“非告知性标题标签”的不太了解,我要说两句。我相信,只有谷歌会发出告知,如果你在标题标签中有单词被反复提及,或与涉及的内容无关的话。在研究许多不同的网站档案时,我还没有找到其它的例子。

  ——非索引性内容。有了非指令性标题标签,我在查找URL范例时出现了问题,在谷歌中这种问题会做出实际汇报。最后,我发现一个网站有数百个入口,谷歌把他们社为图像进行标注,而实际上他们是部分网页跟踪URL.如果谷歌站点管理工具称,你的网站有重要的非索引性内容,就要对报告的URL进行认真分析。如果这些URL代表你想要索引的数据,就要考虑适合于爬虫索引的最好模式。如果这些URL不能代表这些数据,则要考虑通过robots.txt删除这些数据。

  我希望上述关于谷歌站点工具的文章会给你提供一些有益的信息。在第一部分中,我们讨论了“站点确认部分”,第二部分中讨论了“网络中你的网站”报告,第三部分讨论了“关于爬虫错误”报告的“诊断部分”。