搜索引擎发展的随想--Software Test 软件测试

来源:百度文库 编辑:神马文学网 时间:2024/04/28 06:15:28
搜索引擎发展的随想
--北京博越世纪科技有限公司项目总监 朱红军
前段时间百度上市,使得本已硝烟四起的搜索引擎行业愈发的沸沸扬扬,一时间,几乎所有的媒体、网络都在关注着这一个IT行业的新热点。闲来无事,也想把自己的一些感受记录下来,凑凑热闹。
在我们许多人的印象里,似乎很多的新技术都来自一个地方——新的技术来自于哪里,去大学里看看,大学是新思想的一个主要来源。1990年由蒙特利尔的几个学生发明的Archie仅仅是自动索引互联网匿名FTP网站文件的程序,到麻省的3w wanderer,到斯坦福的excite概念搜索,到yahoo,到斯坦福的backRub项目蜕变的Google。无一不是著名高校的产物或者和学校的项目相关。(我国的高等教育成果有待加强啊!呃,扯远了,呵呵)
实际上今天的搜索问题跟五年前已是大不相同。现在网络上不光有书籍、论文,还有数字化的电视节目,这就要求搜索技术比以前更加优秀。人们希望找到可以信赖的信息,希望搜索工具可以对更加复杂的问题进行搜索。
搜索引擎要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,并且由于搜索引擎能拥有大量的用户,在注意力引导上有着天生的优势,这位新生的帅哥必然受到众多IT豪门的追捧。在我看来,搜索引擎的发展有以下几个方面:
1.智能搜索和个性化服务
我所说的智能搜索并非指信息智能代理这个较大的范畴,而是搜索的核心技术,目前在智能分析领域,语义分析过于复杂,一直没有成熟的产品出现,而基于神经网络的智能分析才刚刚起步,只有少数的国外先进搜索引擎技术提供商的模式匹配技术(以数学为基础的统计量化)成功走出了实验室并在全球成功商业化。他们中的部分技术不是真正的语义分析,但它使用的技术达到了语义理解的高度,也是目前智能分析领域的进步。而且只能搜索应该对多种格式存储的信息进行检索。
信息智能代理是一种综合利用互联网信息的机制。它使用自动获得的领域模型(如web知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤),并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行,也可以在服务器端运行。
2.交叉语言检索的研究和开发
交叉语言信息检索是指我用汉语文字提交查询,搜索引擎能在多种语言的数据库中进行信息检索,返回结果可以用母语显示。但是因为语言的区域特性,在表达方式和语义对应上的不同语言的差别很大,因此技术实现有相当的难度。但是对于网络互联,数据共享的目的而言,这似乎又是大众需要的一种目标。
3.提高信息查询的精度,提高用户输入查询条件的命中率
当我们在互联网上进行搜索的时候,我们更关注的是问题的答案,而不是给我们一个浩浩荡荡的查询结果列表,对于搜索引擎返回的大量繁杂的结果,用户不得不在结果中进行人工的分选,实际上还是花费了许多的时间。我认为一方面,用户本身需要提高搜索引擎使用的技巧,很多人不太关注这点,其实同样一个问题,两个人得到的搜索结果的质量可能有非常大的差别。另一方面,搜索引擎技术提供商和服务商要注意改进用户模型,追踪用户检索行为,使用相关度反馈机制,逐步求精。或者采用正文分类技术将结果分类,用户可以只浏览自己感兴趣的类别。再则是进行站点类聚或内容类聚,减少信息的总量。
4.从商业应用的模式上来看,可以做专注的技术提供商(比如杰出的autonomy),也可以做搜索的服务提供商;当前的搜索服务除了网站推介,门户搜索之外,在行业领域内的专业检索,政府和企业行业的垂直检索,政府和企业内的知识库检索都会有比较旺盛的需求,尤其是搜索引擎在对于语义分析的智能分析技术提高后,和KM的融合会有非常现实的客户效益,从而促进KM市场的发展。
欢迎访问我的BLOGhttp://kjolen.blogchina.com/