搜狗网页搜索3.0版本介绍-

来源:百度文库 编辑:神马文学网 时间:2024/04/30 11:13:29
搜狗网页搜索3.0版本介绍
时间:2006年12月07日15:43我来说两句


关注最火辣的网络话题
【来源:搜狐IT】
搜狗网页搜索3.0版本介绍
1. 面临的问题
搜索引擎已经是互联网上一个非常成熟的应用产品了,但是长期以来,中文用户对于搜索引擎的表现,却不尽如人意。在国外做的一次搜索引擎用户满意度调查中,发现英文搜索用户的满意程度大致在70%,但是在国内做的搜索引擎用户满意度调查中,用户满意度却只有大概40%。
这里面其实有一个很大的原因就在于页面的收录量,因为比如像Google这样的英文搜索引擎,它检索了大概200亿的英文搜索页面,可以评估英文的互联网网页的数量大概在300亿左右,这时可以看到Google已经覆盖了英文网页数据量的60%到70%,在这个前提条件下,它能做到的用户满意度也能达到60%到70%。
对于中文网页,现在各大中文搜索引擎,包括现在的搜狗、百度和Google,其页面收录量都在40亿到50亿之间。而互联网上中文网页有效数量大致在100到150亿之间,可以看到目前市场上各家搜索引擎对于中文数据的收录量远比英文数据的收录量低很多,导致了用户想要的信息找不到,这也就是中文搜索引擎的用户满意度要比英文的低很多的一个主要原因。
此外,由于Web2.0概念的普及,博客、论坛、社区、圈子等应用的涌现,互联网上越来越多的用户从信息的获取者变成了信息的发布者。经评估,目前互联网上网页数量每天新增1%,更新10%,而目前中文搜索引擎市场上没有产品能够支持每天上亿网页的数据更新,导致用户认为搜索引擎只能找到非常陈旧的信息,加剧了用户对于中文搜索引擎的不满意程度。
同时,面对如此巨大的网页收录量,很多关键字在搜索的时候,命中的结果都在百万千万数量级,大量的重复结果、作弊结果、无关结果,已经不可能再靠人眼一目十行的扫描来滤除。艾瑞市场咨询根据来自Keynote的数据显示,中国搜索引擎用户不满意的因素中,有50%的用户对搜索结果重复表示不满。同时,搜索结果排序欠佳、搜索结果太杂乱、搜索结果不合时宜的比例分别为43%、37%和36%。前十条搜索结果的不精准,成为了用户不满意中文搜索引擎的又一座大山。
2. 解决方法
为了解决广大中文网民面对的数据量大、更新慢、结果不精准这三大问题,搜狗将于2007年1月1日推出网页搜索3.0的版本。该版本的特点是:海量全、及时新、精准。
2.1. 海量全——收录百亿网页
历史上,搜狗就一直重视数据量的积累。但是由于搜狗起步较晚,因此在2004年的8月发布的时候,数据量实际上非常小,大概只有有2亿,以致当时刚刚用搜狗搜索引擎的用户普遍反映在搜狗上有很多内容查不出来。但是,一直致力于后台技术研发和数据积累的搜狗,只用了两年时间,在2006年8月份的时候,就成功支持了50亿中文网页的查询,成为了全球首个中文网页收录量达到50亿的搜索引擎。
我们知道,每一次数据量的大幅提升,都需要后台技术对于抓取、页面分析、滤重、索引、排序、反垃圾等一系列的功能模块进行全方位的升级,以支持更大的容量;因此,数据量的大小,从一定程度上反映了搜索引擎研发团队的技术实力。在2007年1月1日搜狗3.0发布的时候,搜狗更是将数据量拓展到了100亿,自主研发的超流水线并行抓取技术自主研发的并行协同抓取技术,进一步拉开了与竞争对手的差距。值得一提的是,由于采用了自行开发的文件系统和数据库,搜狗大幅提升了服务器利用率,用远少于竞争对手的投入,就达到了收录百亿网页目标。
搜狗对于数据量的积累,实际上是按照指数级的速度在增长的。而大家对互联网的一个普遍认识:中文互联网的网页数量也是按照指数级的方式在增长的。因此可以非常有信心地说搜狗的增长是能够跟上中文互联速度增长或者说爆炸速度的。
2.2. 及时新——每天更新五亿网页
我们知道,互联网上不同网页之间的更新速度差异是巨大的。比如新闻网站,每天都会有大量新内容的产生;而一个显示圆周率的网站,可能三年都不会更新一次。因此,在抓取速度上,搜狗通过智能分析技术,对于不同网站、网页采取了差异化的抓取策略,充分地利用了带宽资源来抓取高时效性信息,确保互联网上的最新资讯能够在第一时间被用户检索到。
此外,依托于搜狐内容频道这一中国最领先的,覆盖了几乎所有国内外重要新闻的新媒体资讯平台,搜狗能直接获取到最新的高质量新闻内容,在很大程度上保证了搜狗对于及时性超快的响应,成为搜狗网页搜索独一无二的优势。
在网页搜索3.0平台上,每天搜狗的服务器集群并行更新超过五亿的网页。在强大的更新能力下,用户不必再到专门的新闻搜索引擎上,就能获得最新的资讯。
为了满足对及时性要求极高的用户的需求,搜狗还特意提供了按时间排序的功能,使得搜狗网页搜索3.0强大的网页更新能力,能够帮助用户更快地找到想要的信息。
2.3. 精准——评测指标业内领先
众所周知,Google较之于第一代搜索引擎(如Yahoo! Directory)在搜索结果的准确性上有大幅提高,很大程度上得益于它名为“Page Rank”的网页排名算法。在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就应当高。这就是 Page Rank 的核心思想。但是,由于Google对于中文互联网的收录量不足,因此对于链接关系的考量不够全面,导致其中文搜索效果不如英文。
搜狗在搜索结果的排名上采用了被业界广泛认可的搜狗网页评级体系。网页评级是搜狗衡量网页重要性的指标,不仅考察了网页之间链接关系,同时考察了链接质量、链接之间的相关性等特性,是机器根据Sogou Rank算法自动计算出来的,值从0至100不等。网页评级越高,该网页在搜索中越容易被检索到。
搜狗网页评级依托搜狗百亿中文网页的储备,分析最全的中文互联网链接库,确保评级的客观公正。由于有了网页评级体系的保证,搜狗的搜索结果能够做到更加精准。
在学术界,网页搜索的查询被分为导航型和信息事务型两类。导航型是指用户输入“搜狐”、“搜狗”、“ChinaRen”等关键字的查询,他们预期在第一条结果得到准确的站点结果。信息事务型是指用户输入“绿茶”、“张靓颖”等关键字的查询,他们预期找到包含该关键字的各种网页,从中获取有用信息。经过人工对于随机选取的上千个查询词进行测试,搜狗在导航型和信息事务型查询的表现,分别达到了94%和67%的准确度,处于业内领先水平。
另外一方面,用户对于搜索结果的点击,代表了用户对搜索结果的认可。数据分析表明,用户每次搜索后,点击结果的次数越多,说明搜索结果越精准。搜狗从用户体验出发,将结果点击次数与搜索次数的比率,即点击通过率,作为评估搜索结果精准性的重要指标,进行优化,确保我们的算法满足用户对于“精准”的理解。
3. 效果
通过搜狗网页搜索3.0在海量在全、及时新、精准三方面的努力,搜狗网页搜索的效果得到了大幅提升,有效解决了中文搜索用户面临的三大困扰。
在海量方面,由于数据量大,保证了有价值的信息能被找到。比如搜索“中国站长大会”,搜狗的结果相对于百度的结果,明显能看见数据量大所产生的优势。
在及时性方面,搜狗在多次互联网热点事件后,均在第一时间内搜索到了大量相关结果,满足了网友对于新信息的获取。经过测试,互联网上的热点新闻,搜狗3.0仅需1分钟时间就能完成从抓取到页面分析到建立索引到上线的全部过程。在这样的速度下,每天搜狗的服务器集群并行更新了上亿的网页。在强大的更新能力下,用户不必再到专门的新闻搜索引擎上,就能获得最新的资讯。
在精准方面,用户对于搜索结果的点击,代表了用户对搜索结果的认可。数据分析表明,用户每次搜索后,点击结果的次数越多,说明搜索结果越精准。搜狗从用户体验出发,将结果点击次数与搜索次数的比率,即点击通过率,作为评估搜索结果精准性的重要指标,进行优化,确保我们的算法满足用户对于“精准”的理解。搜狗在3.0版本上线后,网页搜索的点击通过率提升了10%。从数据统计上,证明了网页搜索3.0的强大能力。