垂直搜索助号码百事通与商务领航 - CWEEK

来源:百度文库 编辑:神马文学网 时间:2024/04/30 00:23:41
中国电信股份有限公司广州研究院IT系统部 胡文胜 关键字:20060821-第31期   号码百事通和商务领航是中国电信向综合信息服务提供商转型过程中选择的面向个人用户和企业用户提供的综合信息服务业务,在这两个综合信息服务业务中存在信息源有限、信息利用困难的问题,这样就难以促进公众消费服务从而影响了后向收费,成为形成良性的盈利循环的障碍。本文针对这两个问题,通过对搜索技术的介绍和对两个信息服务业务的分析,提出以面向领域的搜索技术来解决这两个问题的思路,并概要性地给出了一个基于面向领域搜索技术的解决方案。

垂直引擎提高查全率和查准率
搜索之所以能够在今天的互联网上如此重要,关键在于它大大提高了人们对信息的访问速度。

所谓垂直搜索,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。比如:用户搜索广州天河区的可带宠物就餐的川菜馆的电话、菜单价格、交通指路等这就是一种垂直搜索。

搜索领域有句名言就是:用户无法描述他要找什么,除非让他看到想找的东西。曾有一名技术专家说:“75%的内容通用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。

跟通用搜索引擎相比,垂直搜索引擎有哪些数据特性?垂直搜索引擎的数据倾向于结构化和格式化。比如在某个购物类的垂直搜索引擎上输入“MP3”,就会出现该产品的相关属性,如:内存、尺寸、大小、电池型号、价格、生产厂家等相关技术属性,有的还提供比价服务。在某餐饮搜索引擎的高级搜索,针对一家餐馆的搜索属性设置多达300个选项,把你想到和没想到的都列出来了,这就把搜索服务专业化、细致化、个性化了。

当然,垂直搜索引擎的广告模式也不会再仅是通用搜索引擎的那些套路。除了排名和竞价之外,还很多种广告营利模式。比如,加盟收入、订单提成、会员会费收入、交易费用收入等。由于垂直搜索引擎能提供更为集中的受众群体,因此它的“单次点击有效率”相比通用搜索引擎更为有效,风险更小。

搜索引擎中的关键技术
通常网页搜索引擎由几个环节构成:数据采集、关键词分析、索引编制、搜索工具。这几个组成部分的功能如下:

数据采集,从互联网上采集页面,作为建立索引的依据;关键词分析,对采集的网页进行分析,提取其中的关键词;索引编制,为网页和分析出的关键词建立一个可供检索的索引库;搜索工具,为用户提供访问索引和获得结果的用户界面。

垂直搜索是传统搜索的延伸,它不仅仅包含传统搜索的特点而且要求这些特点更加鲜明。下面列出的各项技术是传统搜索的关键技术,同样也是垂直搜索的,不同的是,垂直搜索有它更进一步的要求。

信息采集技术——传统搜索引擎在信息采集的过程中,无须考虑信息所属的领域,只是收集,以数量取胜,也并未考虑是否为死链。而垂直搜索在信息采集过程中,要着重考虑信息质量,只收集相关网页而忽略不相关网页,也就是说垂直搜索的spider要更加专业,更加智能。

网页提取技术——对于传统搜索引擎而言,网页提取技术主要局限在对spider收集到的数据进行结构化操作;而对于垂直搜索,在结构化操作以后,还要对其进行数据挖掘,更进一步的分析,剔出不相关无意义的数据,从而提高信息的质量。例如商品的搜索,用户感兴趣的仅仅局限在价格、品牌等少数的几个方面,这便体现出网页提取技术的重要性。

语义相关性技术——传统搜索包含了包罗万象的信息,因此语义相关性较差,一词多义而造成搜索结果和用户本意差距较大的情况时常发生。而垂直搜索由于其只包含某个领域的信息,语言上一词多义的现象较少,这样完全有可能有必要进行这方面研究。

分词技术——百度对于中国的市场之所以能很自信,很大的原因就是中文分词上百度要领先其他知名搜索引擎。因此可以看出分词技术十分重要。而对于垂直搜索,由于其限定在某一个领域,这样就可以建立相关领域的专业词库或者是字典,这样大大增加了分词的准确性,这必然可以增进搜索结果的准确性。

索引——好的索引可以加快搜索速度,能够更准确地进行网页定位,从而减少执行的成本。垂直搜索所需要的信息只是传统搜索信息的一个子集,传统搜索上使用的索引方法就不一定适合垂直搜索;而且垂直搜索得到的数据结构化更强,怎样利用这样的优势,也是寻找适合垂直搜索的索引的原因之一。

除了这些共同的技术以外,还有些是传统搜索不能考虑的单垂直搜索可以考虑的问题。

保证一定领域内一定主题的覆盖。传统搜索信息涉及各个领域,因此没有明确的主题。垂直搜索正好相反,它们领域唯一,完全有能力通过手工或自动的办法保证主题的覆盖。这样就很难使用户无功而返,从而提高了搜索引擎的服务质量。

垂直搜索引擎及技术的发展方向
在经过更深化发展后,垂直搜索未来将发展到什么方向,是很多业内人士都在讨论的问题。笔者认为,它今后在应用上会向这几个方向发展。

首先,目录再分类。与早期的网址分类搜索引擎相似,垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。

其次,垂直搜索引擎的第二个发展方向是深度挖掘型搜索,其特点是“元数据模型再组织、再整合、深度数据挖掘、互动性”。

通过对元数据信息进入深度加工,该类垂直搜索引擎为用户提供网页搜索引擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布互动功能,能很好地满足了用户对专业性、准确性、功能性、个性化的需求。

第三,垂直搜索可以向本地搜索拓展,其特点是借助于地图元素来发展。

到目前为止,各大搜索引擎Google、Yahoo、MSN都推出了本地搜索而且都相对成熟。国内很多人把本地搜索理解等同于地图搜索,这是一种观念上错误。地图搜索只是本地搜索的一个功能元素,就像本地的天气预报一样。本地搜索的关键需求在于人们大多是在本地购物、就餐、娱乐、健身、修车、喝咖啡、工作等。

第四种可能,垂直搜索引擎可以向搜索交易平台发展。

垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合提供更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台。比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对的是小型商家,比如一家川菜馆,一个只有几个人的机票代理商,一家美容院。他们甚至没有自己的站点,有些电话号码都用的是私人的,传统的114无法查到,但他们确实需要通过开展电子商务来获得更多的顾客。(未完待续)