Google即将开始深度Web索引

来源：百度文库编辑：神马文学网时间：2024/04/29 20:39:57

Google 从来都不会停止对信息的追求，去年共有100 Exabyte 的数据被 Google 消化（1Exabyte=1000000000Gigabyte）。据估计，仍有大量的在线数据是 Google 所无法获取的，如那些未被索引的网页，非文本内容，以及需要通过表单发布方可获取的动态内容，即所谓的深度Web。Google 近日在一篇博客文章中宣布，他们即将涉足这些深度Web数据。
在这篇博客文章中，Google 的 Jayant Madhavan 与 Alon Halevy 说，对于那些文本框，我们会从所在页选择一些词汇填写，对于选择框与复选框，我们会从 HTML 中选择一些值，一旦填写好表单，我们会尝试发布这个表单并对返回的合法，有意义的内容进行索引。
Google 同时强调，他们会一如既往地尊重 robots.txt 协议，任何在 robots.txt 被禁止的表单都不会被索引。
据估计，深度 Web 的规模是常规的公开 Web 的数倍，尽管在网络中，有很多数据是 Google 不应涉足的，但表单可以让 Google 在网络中更进一步，Matt Cutts 指出，我们这样做主要不是为了那些通过表单发布而返回的搜索结果，更多是为了发现一些通过常规手段所没能发现的新链接。
需要指出的是，Google 只索引那些使用 GET 协议的表单，而不会尝试去发布那些使用 POST 协议的表单，所以，你不必担心自己的在线反馈表单收到一堆来自 Google 的垃圾信息。

Google即将开始深度Web索引如何从Google索引中删除网页索引实质性教育改革即将开始亚洲通货膨胀即将开始 Google如何统治Web Google如何统治Web Google Picasa 数据库索引转移办法 Google Picasa 数据库索引转移办法 Google Picasa 3 即将到来? 什么时候开始反对Google？美国即将开始战略调整 Google Web APIs 参考中文版特别推荐：词频索引编制器（Web Frequency Indexer） AXIS开始Web 服务--转载雅虎搜索索引数量遭google和科研机构质疑 Google Purge-挖掘互联网不能索引的信息 Google拓展在线新闻索引与传统媒体合作 Google、雅虎和微软将采用相同网络索引协议 Google 官方宣布新的网页索引系统 Google开始威胁微软Office IT经理世界：Google百度中国市场深度撞击深度分析 Google潜在致命伤是什么? 深度分析 Google潜在致命伤是什么？深度分析 Google潜在致命伤是什么?