信息检索初级篇

来源:百度文库 编辑:神马文学网 时间:2024/04/28 02:51:47
利用信息资源之基础篇——信息检索漫谈
修改时间:2006-7-29 23:04:46

利用信息资源之基础篇
——信息检索漫谈
■ 贾延霞 撰稿
编者按:
网络搜索固然是现代社会利用信息的便捷方式之一,与此同时,我们还希望更多关注数字图书馆资源的利用问题。各种花费巨额资金所购买的高质量数据库资源是否被用户高效利用?在查询信息的过程中,是否遇到过各种各样的问题?信息检索已经逐渐成为每个人都应该具备的一项基本技能。本刊欲推出系列内容,面向普通大众介绍文献信息检索的基础知识、主要工具和检索案例,力图建立信息服务人员实践经验探讨分享的环境,提升信息用户的检索技能,提高信息资源的利用效率。
一、信息检索发展回顾
今天,计算机和互连网络已经成为人们获取信息的基本工具,这种局势并不是一朝一夕形成的,而是经过了几十年的发展历史。现代信息检索工具和技术都在不断发展,但一些核心思路和方法现在仍然被广泛利用。所以,了解计算机信息检索的发展历史对于我们开展信息检索实践仍然有一定的意义。
从脱机检索到网络检索
计算机检索是在计算机技术和通信技术发展的基础上建立起来的,它产生于20世纪50年代,发展于80年代中期,90年代后随着国际互联网技术的发展而进入了一个崭新的时期。回顾计算机检索服务模式,发展历程大致可以概括为脱机批量处理、商业性联机检索、光盘检索和网络检索几个阶段。2 0世纪 90年代以来,因特网进入商业化时期,用户每年以 2 0 %以上的速度迅速增加。
随着网上信息量的激增,各种网上检索工具应运而生,网络信息检索逐渐发展成为信息检索领域的一个重要学科分枝。
信息检索服务方式的不断发展,为信息获取提供了广阔的空间,而检索技术的进步为人们利用信息提供更方便快捷的手段。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;二是信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。在信息检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术已取得了突破性发展。未来,多媒体信息检索、可视化检索、语义检索、基于网格的检索等将是网络信息检索研究发展的方向。
二、信息检索的基本知识
我们正进入一个飞速发展的信息时代,能否广泛、迅速地获取所需要的信息直接影响到学习、科研和工作的效率与成败。在较短的时间里获取最有价值的信息,是每一位现代科技工作者必须具备的基本能力。许多人都有查找资料的经验,例如,在计算机和网络未出现的年代,常去书店或图书馆,注意相应领域新书出版的情况,定期阅览书评与文献报道,了解学术会议的召开和论文交流情况等。这种方法虽然有效,但只限于本人所遇到的机会,发现有价值的资料带有一定的偶然性。网络环境下,人们查找资料的方式发生很大改变。互联网检索工具搜索引擎和网页目录的出现,给人们利用网络资源提供了极大的方便。搜索引擎以其使用方法简单、搜索范围广泛而成为人们利用网络资源的首选工具。然而,搜索引擎的很多检索技术和原理仍然来源于传统的计算机检索。掌握计算机检索的一些基本知识,不仅对于用户有效利用图书馆电子资源有很大帮助,对搜索引擎使用技能的提高也能起到很好的借鉴作用。
1、什么是信息检索?
通俗地说,信息检索(Information Retrieval)就是信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、知识的活动及过程。广义的信息检索则包括两部分,一是将信息按一定方式组织和存储起来,二是针对信息用户的特点需求查找出所需信息内容的过程。在网络环境下,信息检索将帮助用户从数字化的资源(包括数字图书馆、万维网和资料库)中得到他们有用的信息。
信息检索的内涵也随着时代发展而不断改变。20世纪中叶以前,信息的存贮和传播主要以纸介质为载体,信息检索活动主要围绕相关文献的获取和利用而展开,因此“文献检索”一词被广泛使用。20世纪50年代以后,信息传播和存储载体多元化,人们不再拘泥于载体研究信息检索,于是“情报检索”一词开始广泛使用。90年代以来,人们越来越倾向于使用信息检索这一含义更为广泛的概念。
信息检索研究的分枝学科有哪些?
在传统或者非万维网的世界里,信息检索主要是编制文本索引并且在一个数据库集合中查找有用的文献资料或信息。现在,信息检索研究的领域非常广泛,包括模型化、文档分类、搜索引擎、用户界面、数据可视化、信息过滤,自然语言处理、信息检索语言、信息检索系统体系构建等等。从数字化资源的角度来看,信息检索研究关注数据挖掘、多媒体信息检索和数字图书馆资源整合等问题。
什么样的机构在从事信息检索研究?
作为普通用户,接触到的是各种各样的数据库系统和相应的用户界面,如何使用这些数据库是用户关心的问题。但是,数据库系统的构建和用户界面的设计等确需要有专门从事信息检索研究的人或团体做大量探索开发工作。
(1)计算机科学学校或机构。他们的研究主要集中在计算机检索算法、数据结构和检索技术。
(2)信息科学类学校或机构。他们的研究可能集中在以用户为中心的检索相关问题解释,关注人们怎样理解和使用信息,即用户的信息行为。
(3)其它。比如经济学校或机构评价信息检索产品(搜索引擎、数据资源库等)的经济价值和效益,心理学研究团体研究用户心理,为改进用户界面提供参考。
2、有哪些类型的数据库?
现代信息检索依赖于各类数据库提供信息资源。数据库有不同的类型,根据数据库内容可分为全文数据库、目录数据库、事实数据库等等;根据信息载体的不同,还分为光盘数据库、网络数据库等。随着信息技术的发展,网络数据库占据着越来越重要的地位,越来越多的基于Web界面的文摘数据库、全文数据库涌现出来。目前,各种图书馆、文献机构都采购或建设了大量的电子资源,包括全文数据库、文摘数据库、电子图书等,提供网络化服务。
3、什么是检索语言?
说到检索语言,有些用户可能不知道确切的解释,其实在我们查找信息的过程中检索语言的作用可不小。图书的分类体系,一些检索工具书如《科学文摘》提供主题索引、《化学文摘》提供的化合物分子式、登记号等都是检索语言。检索语言是用来描述文献特征、表达主题提问的一种专门的人工语言。它可以是对自然语言作规范化处理后的词汇与技术术语;可以是某种分类体系的分类类目及分类号;或者是某类事物及其某方面特征的代码。常见的检索语言有:分类语言、主题语言、分类主题一体化语言、代码语言、引文语言等。
很多检索系统和检索工具是按一定的检索语言编制的。比如我们熟悉的《工程索引》(EI)提供的主题词表、叙词表、分类表等都是情报检索语言。
在网络环境下,情报检索语言仍然被广泛利用并不断发展。例如,分类法仍然是组织网络信息的一种重要方法,所用到的分类表(传统分类体系或适合网络环境的自编分类体系)就是分类检索语言,网页目录、分类搜索等广为熟知;几乎每一个搜索引擎都具有关键词检索功能 ,这意味着搜索引擎的索引数据库采用了关键词进行信息组织;分类主题一体化检索语言在搜索引擎、网络目录、元数据、联机数据库检索系统中也有广泛应用;搜索引擎Google正是开发并使用了基于引文索引语言的检索结果组织技术PageRank而一跃成为最优秀的搜索引擎。随着技术进步和大量全文数据库的出现,自然检索语言的使用越来越广泛。检索语言在网络检索中的重要发展趋势之一是受控语言——自然语言一体化。
检索语言综合利用的最终目的是为用户提供更快、更准、更全的文献信息。用户应该依据信息需求的类型、信息需求层次及信息需求的特点,熟悉并掌握更多的信息检索语言,不断提高检索效率。
4、你会使用这些检索技术吗?
大多数人都有过使用搜速引擎查找信息的经历,在Google中,输入“信息检索 发展趋势”便可以找到信息检索发展趋势的相关资源。在这样的查询过程中,实际上使用了布尔逻辑符“AND”,这其实就是一种检索技术。信息检索过程中,为了保证检索结果的快、全、准,仅靠一个检索词难以满足检索的需要,有时需要用各种算符将若干个检索词组成检索式进行检索。信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有布尔逻辑符检索、截词符检索和限制符检索等。
布尔逻辑符检索是用布尔逻辑算符将检索词进行逻辑组配,凡符合逻辑组配所规定条件的为命中文献。它是信息检索中最常用的一种检索方法。逻辑算符主要有:逻辑“与”(AND或*)、逻辑“或”(OR或+)、逻辑“非”(NOT或-)。利用检索词的词干或不完整词形进行查找的过程为截词检索,它可以起到扩大检索范围,提高查全率的作用。尤其在英文检索系统中检索时,若遇到名词的单复数形式,词的不同拼写法,词的后缀变化时,均可采用此方法。限制符检索是通过限制检索范围,达到优化检索结果的方法。比如可以用字段标题、文摘、作者、刊名等来限制检索的范围。
这些规则有着较长久的历史,在联机检索发展最迅速的时期有着非常广泛的使用。在网络环境下,各种检索系统包括网络数据库都开发出了用户界面友好的系统,对于用户检索技能的要求有所降低,但是这些常用的检索技术仍然被广泛使用。比如各种文献数据库、常用的搜索引擎基本上都支持布尔逻辑检索、截词检索和限制检索。所以,掌握这些基本的检索技术对于更好的利用网络数据库有着重要的帮助。
谈到信息检索就不能不谈到检索的资源问题,在今天的环境下,信息资源的构成发生了巨大的变化。互联网络的出现,改变了印刷版文献资源的霸主地位。目前,印刷型文献只占据信息总量中的一部分,除此之外,大量的电子资源和免费网络资源日益发展壮大,成为信息资源建设中非常重要的组成部分。互联网的出现,也改变了人们查找信息的方式和途径。越来越多的人通过在线的方式工作、学习和获取信息。谈到信息资源利用的途径时,我们不禁要问,用户到底是如何获取信息的呢?中科院文献情报中心针对科研人员的信息需求调查表明,使用搜索引擎的用户占17.73%,通过各类学术网站查询信息的用户为15.46%,同时仍有13.35%的用户利用图书馆查阅信息文献,通过相应数据库来获取信息的用户占到了12.72%。研究表明,科研人员在使用电子资源类型时,往往对一些学术质量高、获取方便、更新速度快的资源比较关注。2004年,中国互联网络中心(CNNIC)第十四次中国互联网发展调查报告表明,用户上网的主要目的中,获取信息占42.3%位居第一,休闲娱乐占34.5%位居第二,而学习则占9.1%,学术研究仅占1.1%。
基于上述内容,可以认为,图书馆电子资源因其来源可靠、后期有保障、信息组织规范、服务优秀等优点而更受科研学术人员青睐,免费网络资源因其信息更新迅速、内容丰富、类型多样、获取方便、使用费用低廉而更受普通信息用户喜爱。在利用信息资源的过程中,图书馆电子资源和免费网络信息资源都占据重要角色,是人们获取信息的重要来源。
全文电子化、检索网络化是信息服务的发展方向。通过上述内容的介绍,帮助大家了解信息检索的一般知识和我国科技文献资源的布局状况,期望能对充分利用这些宝贵资源、提高信息检索技能有所帮助。