计算机信息检索过程中常用的检索表达式

来源:百度文库 编辑:神马文学网 时间:2024/04/30 01:42:44
信息检索过程中常用的检索表达式
检索表达式是检索策略的具体体现之一,简称检索式。检索式一般由检索词和各种逻辑运算符组成。具体来说,它是用检索系统规定的各种算符将检索词之间的逻辑关系、位置关系等连接起来,构成的计算机可以识别和执行的检索命令式。检索式构造的优劣关系到检索策略的成败。
检索表达式主要有逻辑表达式、截词检索表达式、位置检索表达式等,其中,最为常用的是逻辑表达式。
1.逻辑表达式
逻辑表达式是指利用布尔逻辑算符,对检索词的关系进行表达,又称布尔逻辑表达式。布尔逻辑是目前计算机检索最简单、最基本的匹配模式,也是计算机检索领域广泛采用的逻辑表达方式。布尔算符有“逻辑与”(“AND”)、“逻辑或”(“OR”)、“逻辑非”(“NOT”)等。

A AND B                         A OR B                            A NOT B
图 布尔逻辑算符示意图
(1)逻辑“与”:表示它所连接的两个检索词必须同时出现在结果中,逻辑检索式可写为:A AND B。也有些数据库中用“*”或其他符号表示。例如,要查找关于“计算机检索”方面的信息,检索需求可以表述为:“计算机AND检索”。目前,在一些数据库(如中国期刊网)中提供的二次检索,实质上也是逻辑“与”的运算。逻辑“与”的检索能增强检索的专指性,使检索范围缩小。
(2)逻辑“或”:表示它所连接的两个检索词中任意一个出现在结果中就满足检索条件,检索式可写为:A OR B。在一些中文数据库中,用“+”表示逻辑“或”。例如,想检索关于“计算机”的信息,可以表达为:计算机+电脑。逻辑“或”主要用于表达检索词的近义词、同义词、全称和缩写等,以便全面、完整地表达相关的概念。
(3)逻辑“非”:表示它所连接的两个检索词中,应从第一个概念中排除第二个概念,检索式可写为:A NOT B。在一些中文数据库中用 “-”表示逻辑 “非”。例如,想查找关于“研究生教育”的资料,但要求不包括在职研究生,可以将检索式写为:“(研究生*教育)-在职研究生”或“研究生-在职研究生*教育”。逻辑 “非”表示具有不包含某种概念关系的一组组配,用来缩小检索范围。但在实际检索中要慎重使用。
逻辑表达式在实际检索过程中,易于理解,便于使用。例如,想检索“中国高等教育的发展趋势”,用逻辑表达式可写成:中国*高等教育*发展趋势。表示要求查找的文献的相应字段中同时包含“中国”、“高等教育”、“趋势”这三个词,而排列形式不限。
以上逻辑运算符中,其运算优先级顺序为“非”、“与”、“或”,但是可以用括号改变它们之间的运算顺序。还要注意的就是对于同一个逻辑运算式来说,不同的运算顺序有不同的运算结果。
2.截词检索表达式
截词检索表达式指在检索式中用专门符号(截词符号)表示检索词的某一部分,检索词允许有部分变化,检索词的不变部分加上由截词符号所代表的任何变化形式所构成的词汇都是合法检索词。截词检索表达式在西方语言检索中应用比较广泛,在中文信息检索中也有一定的应用。采用截词检索表达式,既能防止漏检,又能节省时间,是提高检索效率的有力措施。不同检索系统采用的截词符不完全相同,一般常采用“?”、“*”等。
截词方式有多种,按截断的位置来分,截词有前截断、中间截断、后截断等;按截断的字符数量来分,可分为有限截断和无限截断两种。
后截词,又称右截词、前方一致,允许检索词尾部有若干变化形式。例如检索式“Comput?”将检出包含Computer、Computing、Computed、Computerization等词汇的结果。
中间截词,允许检索词中间有若干变化形式,例如“wom * n”就可同时检索到含有woman和women的结果。
前截词,又称左截词、后方一致,允许检索词的前端有若干变化形式,例如检索 “*physics”就可检得包含physics、astrophysics、biophysics、chemicophysics等词的结果。
截词检索表达式在使用时,一定要合理使用,截断部分要适当,不要截得太短,以免增加检索噪音,查出很多无关的文献。
3.位置检索表达式
位置检索表达式表示两个检索词之间的位置邻近关系(不同的的检索系统采用的表达符号可能不同),常用的有:
W(nW):W是with的缩写,(W)表示其两侧的检索词必须按前后顺序出现在记录中,两词之间不允许插入其它词,只可能有空格或一个标点符号。(nW)表示两侧的检索词中间允许插入的词最多只能有n个,且检索词的位置不能颠倒。
N:是near的缩写,(N)表示其两侧的检索词位置可以互换,在两词之间不能插入其它词,但允许有空格或标点符号。(nN)表示允许在此运算符两策的检索词之间最多插入n个词,且两个检索词的位置可颠倒。
L:是link的缩写,(L)表示其两侧的检索词之间有主从关系,前者为主,后者为副。L可用来连接主、副标题词。
F: 是field的缩写,(F)表示其两侧的检索词必须出现在同一个字段中,但两个检索词的词序不限,且两个检索词之间的单词数量也不限制。如,两个检索词必须同时出现在篇名字段、文摘字段或叙词字段。
S:是subfield的缩写,(S)表示两侧的检索词必须出现在同一个子字段中,如同一个句子或短语中,但词序不限,且两个检索词之间可有若干个其它词。
在某些检索系统中,还使用双引号“ ” 标示不可分割的词组或短语,如“civil engineering”,在检索结果中civil engineering必须是连在一起的词组。