企业搜索技术 查找数据如探囊取物

来源:百度文库 编辑:神马文学网 时间:2024/04/25 14:45:02
企业搜索技术使得查找数据如同探囊取物。
3年前,中国电信研究院工程师陈勇还是一家软件公司的项目经理,当时,他曾主持过一家德国轮轴制造企业在华分公司的知识管理系统的设计与实施。那时,这家公司开始加大对中国市场的投资力度,不仅千里迢迢把研发中心搬到了中国,还一口气实施了知识管理系统、ERP系统和产品数据管理(Product Data Management,PDM)系统。时隔3年,当陈勇回访那家企业时,发现这家企业随着业务量和数据量的增大,出现了一系列当初大家始料未及的问题:尽管它在IT建设上投入了大笔资金,但企业内部却出现了数据混乱的局面,谁也不知道整个公司的信息系统中存放了多少数据,这些数据又具体在哪个系统里,又有多少数据间存在冲突,至于是否存在未经授权就使用数据的情况就更没人知道了。
“现在,企业内部的数据越来越多,每个信息系统里都有大量的数据,但想从这些系统里寻找想要的数据,简直像大海捞针一样。”陈勇说。一个花了大价钱进行信息化建设的企业,并且还是一贯严谨的德国企业竟然出现了这样的情形,多少有些尴尬和无奈。
孤岛效应
其实,这家德国企业碰到的尴尬,很多企业都正在面对。一家全球网络安全软件服务商的工程师Victor就为无法全文检索公司内部的信息而头痛。“我们公司的文档管理系统是自己研发的,全球各分公司和研究中心的文件、报告、会议记录都由这个系统来统一管理。这个系统虽然可以提供文档分类和资源检索的功能,但只能提供文档标题的查询,想全文检索信息就无能为力了。”他说。因此Victor所在的项目组每次接到新项目后,都要花相当大的精力把公司文档管理系统中所有的相关资料先下载到项目组的服务器上,然后再按工程师的不同需求分配到个人电脑上。“这样,文档管理系统、项目组服务器和个人电脑中就出现了一份文档的多份拷贝,我们经常不知道哪份文档已经更新了,需要重新下载。”Victor抱怨道:“如果项目中途出现人员变动,新的组员往往要重做一遍文档下载工作。这不仅加大了时间成本,还使得工作效率大打折扣。”
美国全文检索和智力资产服务公司Verity大中华区首席代表黄浩说:“如今,很多企业和机构都有大量的信息资产,它们以各种形式存储在数据库、文件服务器、Web服务器及CRM、ERP等各种应用系统中,因为缺乏有效的管理,这些信息散落在大小‘信息孤岛’上,不但没有体现出其应有的价值,有时反而会成为企业的一种负担。”
上文提到的那家德国轮轴公司在信息化过程中,由于信息系统之间是相互孤立的,所以数据也被分割在不同的“信息孤岛”上。“这样,它就无法对公司信息资产进行整体的掌控。”
百度企业软件运营总监王啸认为,这些企业中的信息存放在多个不同的信息源中,一旦查找起来,就要不停地在各个系统中切换,不仅无法实现全文检索,更做不到将检索后的信息进行自动分类整理。“即使在那些十分重视数据管理的企业里,CIO要求员工们在横跨多个业务平台工作时,时刻给文档加上详细的标签,以便日后检索。但实际上这种做法收效甚微,难以满足信息查找的要求。”
据IDC从2001到2004的调查表明,信息孤岛使得海量的数据沉睡在无人知晓的角落,这给企业带来了巨大的经济损失。以一个拥有1000个知识工作者的企业为例,其每年因为员工查找不到企业中已经存在的信息所带来的额外花费可达600万美元之多。这无疑大大增加了企业的支出。
企业搜索
面对企业进行信息资产查询、管理的各种困难,如何将数据、信息有效地结合起来,使这些数据、信息、知识、经验发挥最大的价值,一个能够对企业内各种信息进行汇聚、分类、检索、分析的搜索平台显得非常有意义。
黄浩希望企业搜索技术能帮助那家德国轮轴企业的CEO化解他在IT投入上的尴尬——“每天早上,他到达办公室时,按照他的需求,相关信息已经从各个业务部门提取出来并整理分类,以报表的形式展示在他的电脑里。如果他想进一步了解某个数据或分析结果,只需在电脑的搜索框里输入关键字,就能把所有企业内网中的关联信息逐个找出来。”
企业搜索是一种面向组织的搜索技术,它能帮助企业和各种机构有效地管理信息资产。有了它的帮助,企业查找想要的数据就能像探囊取物一般容易。企业搜索还是一个可以整合企业中所有信息资源的平台,它构建于原有的信息系统之上,既能够准确及时地找到已知的、存在的信息,还能揭示、发现未知的信息,并提供各种信息的分析和评估报告。
据统计,目前大约85%的企业信息是非结构化数据,包括纸张文件、报告、传真、视频、音频、图片。“传统的信息处理技术无法对这么复杂的数据进行有效处理。”王啸说。企业搜索不同于人们熟知的互联网搜索,特别是在文件的类型上,互联网搜索所需要处理的文件类型一般只有十几种,而企业搜索可能要面对几百种数据类型。要对几百种不同格式的文件进行检索,这就要依靠非结构化搜索引擎(Unstructured Search Engine)。它有点类似于互联网搜索引擎,不过是面向企业用户中各种各样的数据源,其最主要的功能是全文检索Office文件、音频、视频、邮件、图片等非结构化数据,并可以嵌入到OA系统或ERP等系统中,提供搜索服务。
整合原有信息系统是企业搜索的另一个技术难题,智能网关在这里就可以派上用场了。智能网关就如同一组接通各个系统数据库的“桥”,利用这一组“桥”,企业搜索平台可以直接访问数据库、内容管理、CRM、ERP、文件服务器、Web服务器以及各种应用系统中的数据并加以提取。
不过,仅具备了全文检索和整合功能还不能称为真正的企业搜索。黄浩指出:“在搜索框里输入关键字,返回上千甚至上万个查询结果,要使用者在其中分辨出有用的信息是一个繁重的工作。”企业搜索必须对查询结果具有分析功能——信息归类功能,它可以对各种信息进行整理和归类,既可以按照部门、地域、内容来进行人工分类,也可以通过语义聚类的方式对杂乱无章的数据进行智能识别。“CEO、CIO、CFO以及其他职员希望看到的信息侧重点不一样,企业搜索技术可以按照不同的需求来进行人工分类。在每个分类下,还可以利用语义聚类的智能识别功能让计算机整理资料。”这样,人工分类的灵活性和机器识别的高效性都同时得到了使用。
目前,已经有不少组织部署了企业搜索技术来解决信息资产的管理问题。美国国务院就有一个这样的搜索系统,工作人员只要登录系统就可以从2500多万份档案中查找并检索信息。这些档案包括1973年以来美国国务院与其在世界各地的办事机构之间的来往电报和电子邮件。
中国新华通讯社也部署了一个多媒体数据库。现在,每位新华社记者在采访前或写稿时,都有一个庞大的数据平台做支撑,各种新闻背景、各地法规、人物、公报、最新事件、文献资料、新华社及各类报刊发稿情况等都可以从这个平台中查询到,记者既可以从分类项目中找到,也可以通过关键词全文检索获得,而且这些资料随时处于变动更新状态。
技术背后
根据英国咨询顾问公司Ovum的预测,2006年全球企业搜索平台的市场将达10亿美元。虽然IT厂商为企业搜索应用描绘了一幅美好的蓝图,然而实现企业级搜索应用并不是一件轻而易举的事,不愿共享信息是实施企业搜索系统的组织遇到的最大阻力。一位电子商务网站技术总监对企业搜索技术的忧虑便来自这个阻力——“我们的市场人员都有自己的客户群,那是他们个人长期积累的资源,怎么可能轻易拿出来和同事们共享呢?”
一家全球移动通信网络供应商在华研究机构的工程师同时碰上了同事“独享”技术带来的困扰:有时,中国工程师遇上解决不了的问题时,不得不请美国的工程师来现场指导,但是问题解决了,知识却没有共享。“不少工程师都有一个笔记本,上面记满了‘独门秘籍’,不愿意公开,如果别的工程师遇上了同样的问题,只有再让美国工程师来现场。”
另外,安全性也是企业搜索技术要面对的一个很重要的挑战。和互联网搜索相比,企业内部的数据资源一般都必须有相应的授权才可以访问,如果任何人都可以无限制地访问所有的信息资源,“那就乱套了”。“其实,安全性在技术上是可以保证的,企业只要有严格的信息授权就可以解决安全问题。”黄浩说。
对企业的信息资产而言,企业搜索技术的确非常有效,但如果没有良好的信息管理机制和信息共享文化,再强有力的技术也解决不了信息资产“闲置”的现状,想探囊取物般轻松查找数据的梦想也无法实现。