视音频信息自动标引与检索技术

来源：百度文库编辑：神马文学网时间：2024/04/25 15:58:56

一、前言
媒体资产管理系统中有两个非常重要的模块，即编目检索模块。所谓编目就是编制目录。它是建立在信息标引的基础上的。也就是说，要将信息有序的组织起来，提供检索，首先要对信息资源的形式及内容特征进行分析、选择和记录，并赋予某种检索标识，这个过程称之为标引；然后再将这些描述信息按照一定的规则有序化的组织起来，这个过程就是编目。编目是检索的基础。
视音频信息的标引主要包括两个方面的内容，一个方面是关于磁带、录像带等载体的形式特征信息或者是数字化视音频信息的数据格式信息（如，磁带或录像带类型、视音频码率、文件格式等），另一个方面就是视音频本身反映的内容信息（如，题名信息、主题词信息、分类信息等等），在分析的基础上，选择、记录有价值的或者是具有检索意义的信息，从而实现对视音频资料的描述。
由于视音频信息的多维特性，使得视音频信息标引的难度加大，工作量剧增。另外随着我国新闻、影视业的快速发展，我国的视音频信息正在成倍的增长，每天的数据量都是相当可观的。这对视音频的编目标引工作而言是一个巨大的挑战。每天要处理数量很大的视音频资料需要大量的人力物力。因此，利用计算机来辅助人们从事复杂的视音频信息的标引工作是非常必要。目前有的系统部分地实现了计算机自动编目，主要采用了如下的一些技术，包括视频中的字幕识别、语音识别及转换为文本、自动提取关键帧、镜头自动切割等。在字幕识别和语音识别，然后转换为文本的基础上，我们可以进行更深层次的自动标引工作，即对视音频信息内容的提取与提炼。下面将重点介绍基于内容的视音频信息自动标引和检索技术。
二、自动标引技术
1.自动分类
自动分类标引就是由计算机代替人工对视音频信息进行分类，赋予其分类标识，以描述视音频信息主题内容的过程。先分析被分类的视音频对象的特征，然后将其与一个分类表或一个分类标准进行比较，最后将被分类的视音频对象划归为特征最相近的一类，并赋予相应的分类号。当然，视音频信息的自动分类目前仍然需要建立在有文本的基础上的。自动分类一般经过如下几个过程：
1）文本的向量化表示。在对文本数据进行学习或分类前，需要把它表示成向量形式。它的处理方法是：对所有训练文档进行分词处理，统计每个词的文档出现频率等信息，然后构造每篇文本的向量。对文档进行分词，得到一个词集合，对词进行词频统计，同时过滤停用词，剔除虚词，如语气词、副词、介词、连词等，以及把出现频率低于一定范围的词排除掉。由于单字词在分类时候不是很重要，也被过滤掉了。由于分词算法的限制，文档有很多具有分类价值的词或短语没有被识别出来，如人名、地名、组织结构名称等。为了提高分类的准确率，需要扩展分词词典，现在有很多分词词典都具有一定的开放性，允许进行扩展。
2）特征抽取。特征抽取是文本分类中最重要的问题，它具有降低文本向量空间维数、简化计算等作用。利用评估函数对特征集中的每个特征独立计算评估值，然后对所有特征根据评估值大小进行排序，选取预定数目的最佳特征作为结果的特征子集。在进行特征抽取时，程序在一定范围内，自动地选择不同的阈值，对特征进行过滤，然后进行分类测试。根据最后分类的效果，选择最佳的特征过滤阈值。
3）分类器。分类器的功能是根据一个文档的特征向量，计算该文档的类别。包括Naive Bayes法、Rocchio法、kNN方法、决策树、神经网络法、支持向量机SVM、基于投票的方法和线性分类算法等。
自动分类的具体过程如下（参见图1）：

(1) 首先把训练语料分成正反两种类型（属于该类或不属于该类），然后统计文档的词（词串）的词频,得到一个词频统计文件。
(2) 根据词频统计文件，计算每个词的特征值。
(3) 选取特征值最大的前n 个词（词串）作为特征。对训练文档进行处理，构造每个文档的特征向量，得到一个特征向量的训练文件。
(4) 采用分类器反复进行训练，选择合适的分类阈值大小，以及特征集合的大小n，以达到最优化的分类效果。
(5) 对每个类重复以上（1）~（4）的步骤。
2.自动抽词
自动抽词标引是自动从文本中抽取词或短语来表达文本主题内容。在手工标引中，标引员一般会尽量选择那些能很好指示文本内容的词或短语作为标引词。影响他们选择时做出决策的因素有：词语在文本中出现的频率，词语在文本中出现的位置（如标题中、文摘中、图表解说词中等），词语的语言环境等。而自动抽词标引主要是靠计算机来完成的。计算机要完成这项任务，某种程度上需要模仿人类的思维过程。所以根据自动抽词标引时所采用的标准，可以分为下面几种：
1）绝对频率法
由计算机程序将文本与停用词表对照，除去非名词（冠词、介词、连词等类似的词类），然后计算出某一文本中词语出现的频率，再将词语出现的频率进行排序，排在最前面的词为“高频词”，被选作文本的“标引词”。
当在某一数据库范围内进行考察时，绝对频率法具有一个很明显的缺点，就是虽然一些词语在某一文本中经常出现，但同时在整个数据库中也经常出现，那么，根据绝对频率法抽取出来的这些高频词可能无法很好的区分数据库中的不同文本。从检索角度而言，这些高频词可能并不具有检索意义，它们会降低文本的查准率。举一个典型的例子：在政治新闻数据中，“中国”和“中共”出现的次数很多，但它们并不能很好的区分这个文本集合中的单个条目。而“信访调研”可能出现的次数很少，但它却比“中国”和“中共”这两个词更能区分文本集合中的不同文本。所以，它将是一个很具有检索价值的词。而在使用绝对频率法进行抽词标引时，“信访调研”因为在文本中出现的次数较少，而很有可能被遗漏。为了弥补绝对频率的这种不足，可以采用相对频率法。
2）相对频率法
从上文可以看出，一个词在文本中出现的绝对频率并不是计算机在处理文本时唯一需要关注的频率。有时，这个词在整个数据库中出现的频率甚至更为重要。当某个词或短语在一篇文本中出现的频率高于它们在整个数据库中出现的比率时，这个词或短语就可以被选作标引词，这就是所谓的相对频率法。例如，某个词在含有10，000，000个词的数据库中只出现了大约5次，在一篇5，000字的新闻文章中只出现了一次，但因为它在文本中出现的频率1/5000，高于它在整个数据库中出现的比率1/2000000，所以这个词将被选作这篇新闻文章的标引词。
使用相对频率法不必使用停用词表。那些经常出现的名词以及所有的介词、连词、冠词等虽然会在个体的条目中频繁出现，但它们也会在整个数据库中频繁出现，因而它们将自动被排除出去。
相对频率法比绝对频率法更为复杂，因为随着新的文本不断的加入到数据库中来，计算机程序需要不断的计算出每个词在数据库中出现的频率（与出现在数据库中的词语的总数量有关），并比较这个出现频率与每个词在某一特定文本中出现的频率。
基于相对频率从一篇文本中抽取出来的词或短语会不同于基于绝对频率抽取出来的词或短语。因为利用相对频率法可以抽取出来那些在某一特定文本中出现次数较少（或许只有一次），但在整个数据库中出现的比率更小的词，而不会抽取出那些在一篇文本中经常出现，在整个数据库中经常出现的词。利用绝对频率法所产生的结果则与之相反。但它们所抽取的多数词将会是相同的，不会有本质上的差别。因为为了实现有效的信息检索，我们不仅希望选择的标引词能够很好的区分不同的文本，还希望能够形成有效的文本聚类，实现族性检索。
3）位置法
利用词语在文本中出现的位置来进行选择。例如，从标题、文摘、图表解说词、主题句中进行词语的抽取。一般说来，出现在标题中的名词和动词表达文章主题的能力比出现在正文中的其他词要强。另外，主题句中的关键词也能很好地表达文本的内容。在进行自动抽词标引时，可以只处理每一段的第一句和最后一句。有研究已经表明，第一句是“主题句”的比率为85%，最后一句是“主题句”的比率为7%。而这里所说的“主题句”是指能够提供有关文本内容的最多信息的句子。
3.自动赋词
大多数人工标引不是抽词标引而是赋词标引。所谓赋词标引就是从某种形式的受控词表中选取词语来表达文本主题内容。自动赋词标引则是指由计算机来自动完成这一过程。它与自动抽词标引的最大的一个区别就是，所使用的标引词来自于某一受控词表，而不是来自文本本身。
1）基于关联词表
基于关联词表的自动标引过程包括下面两个环节：
为受控词表中的每一个叙词建立一个关联词表。也就是这个叙词的同义词和相关词。当对一篇文本进行标引时，利用计算机根据词频法从文本中抽取出来的重要的词语，与受控词表的关联词表集合进行匹配，当某个叙词的关联词表与之匹配超过一定阈值时，就将这个叙词赋予这篇文本。
2）基于中介词典
在进行赋词标引时，使用一个中介词典（如语义词表），与文本中的词进行匹配，同时将中介词典的词与某一个主题词表的词进行对应，这样通过中介词典，就可以将文本词指引向受控词表中的词。利用中介词典虽然可以将自然语言词转换为受控词表词，但中介词典的覆盖面一般比较小，难以编制一个能满足各方的词典，所以利用中介词典进行的自动赋词标引一般会局限于某一特定的学科领域。
事实上，大多数的自动化标引系统不是真正“自动化”的，也就是说不是由计算机来代替人类的工作，而是趋向于由计算机来辅助人类标引员。这就是所谓的“机助”标引系统。一般来说，机助标引主要有以下两种方法：
（1）用计算机提供各种类型的联机显示，并辅助标引员。实时的识别标引员的错误（例如，使用非标准词或使用主标题词/子标题词的无效组合），并立即通知标引员。
（2）利用计算机程序阅读文本（可能只有标题或文摘），通过抽词程序或赋词程序选择标引词。然后由人类标引员来检查被选定的词。标引员可以进一步的增加计算机不能分配的词，或删除程序错误分配的词。
4.自动摘要
所谓自动摘要就是利用计算机自动地从原始文献中提取文摘。自动摘要的目标就是“从信息源中提取内容，采用压缩的形式和与用户（或应用）需求相关的方式，将最重要的内容呈现给用户”。在文本检索中，自动摘要有助于用户快速评价检索结果的相关程度。自动文摘主要可以分为两种：一是自动摘录（Automatic Extration），另一个是自动文摘（Automatic Abstraction）。
自动摘录（Automatic Extration）就是通过从源文本中提取句子的方法，生成文摘。目前研究的比较多的是基于语料库的句子提取方法。自动摘录（Automatic Extration）虽然实现起来比较简单。但是如何将提取出来的零散句子组成连贯的摘要是一个无法回避的问题。
自动文摘（Automatic Abstraction）不同于自动摘录（Automatic Extration）的主要特点在于： Automatic Abstraction含有输入文本中所没有的句子。所以，为了构建一个abstract，人或机器需要理解原文本。因为基于abstraction 方法的智能程度要比extraction 高，所以也更为困难。几种常用的自动文摘（Automatic Abstraction）方法：样板法、Term 重写法、事件关系法、概念分级法。
下面将详细地介绍自动摘录（Automatic Extraction）的方法和步骤：
自动摘录(Automatic Extraction)将文本视为句子的线性序列，将句子视为词的线性序列。它通常分4步进行：
1）计算词的权值。进行自动摘要学习前需要进行文本的向量表示，主要采用词集表示法和词串表示法。然后对词进行词频统计，同时过滤停用词，剔除功能词，如语气词、介词、连词、助词等。对于词频少于1的词，可以将其过滤。并按词频大小对词或词串进行排序。词的权重由词在当前文档的相对词频和在训练文档库中的词频共同决定。
2）计算句子的权值。在自动摘录中，选择文摘句的依据有下面几种：
● 有效词数量。能够指示文章主题的词称为“有效词”。任何文献中都有不少"介词"、"连词"、"助词"等虚词。这些词在一般情况下，都不是有效词。对实词，其作为有效词的价值也是不同的，可给予不同的价值。有效词往往是高频词。根据句子中有效词的个数可以计算句子的权值，这是自动摘录方法的基本依据。
● 标题。标题是作者给出的提示文章内容的短语，标题中出现的有效词需要特别加权。出现这些有效词的句子也需要特别加权。
● 位置。有调查显示：段落的论题是段落首句的概率为85%，是段落末句的概率为7%。因此，需要提高段落首句的权值。另外，文献中用括号括起来的部分，如： XML（可扩展标记语言）；用破折号引出来的部分，如“数据的自动识别输入--条码技术”；用“所谓”所引出的部分，如"所谓的有效词"，其中的实词往往也应当给予特别的加权。
● 句法结构。句式与句子的重要性之间存在着某种联系，比如文摘中的句子大多是陈述句，而疑问句、感叹句等则不宜进入文摘。
● 指示性短语。各种"指示性短语"如"本文讨论了"、"综上所述"等所在的句子往往是很好的文摘候选句。因为其中往往高度地概括了文献主题。
以上五种特征是自动摘录的依据，它们从不同角度指示了文章的主题，但都不够准确全面。将上述各种特征结合起来综合加权，就能够提高摘录的质量。
3）对原文中的所有句子按权值高低降序排列，权值最高的若干句子被确定为文摘句。
4）将所有文摘句按照它们在原文中的出现顺序输出。
三、文本信息检索技术
1.全文检索
全文检索也称为自然语言检索，不对信息资源进行人工标引，由计算机直接对文本正文进行匹配查找。全文检索解决了一般非结构化文字信息内容的查询问题，有效解决了关系数据库管理系统不能很好查询非结构化信息的问题。全文检索通常有两种方式：一是文本正文用分词词典进行自动切词，使用停用词表排除无检索意义的词语，将所有有用的词建立索引，实际检索时，不是在文本中检索，而是在词语索引中检索。二是不建立索引，直接对检索文本逐字进行匹配。
为了满足用户在检索过程中出现的查全、查准的要求，文本检索系统发展了一系列检索的技术方法。包括：
1) 精确检索。就是要与用户的检索词精确匹配。在英文检索中对大小写敏感。
2) 布尔检索。即按照布尔逻辑，采用逻辑运算符将检索提问转换为相应的逻辑表达式进行检索。一般包括逻辑与（概念的限定）、逻辑或（概念的联合）、逻辑非（概念的排除）。通过逻辑运算，可以对信息资源进行确切的查找。
3) 截词检索。采用截断的方式，利用词的片段进行检索。截词检索是一种用字面相似检索相关资料的检索方法。在西文检索中使用较为普遍，例如在西文中利用词根进行检索。中文检索系统中的模糊检索实际上就是一种截词检索。
4) 限定范围检索。可以通过限定检索范围（或字段），缩小检索范围，使检索更具有针对性。几个字段的逻辑组合检索及位置检索也属于限定范围检索。
5) 相关检索。即提供各种相关资料检索的手段。包括：在显示检索结果时，也显示相似检索结果，供用户扩大检索范围；在显示检索结果的同时显示相关词，只有当用户点击这些相关词时，系统才利用这些相关词检索并显示相关检索结果。
6) 二次检索。这是目前的全文检索系统中使用最为广泛的一种检索方法。就是对检出的结果进一步加以限定，改进查准率。
上述的检索方式，从不同的角度提供了改善检索效果的方法，使得用户可以在文本检索的基础上，通过对各种方法的使用，扩大或缩小检索范围，满足不同的需要。
另外，在全文检索系统中，检索结果的显示也是影响检索效果的一个重要方面。检索结果的排序方式有很多种，如：按时间排序、按检索词在命中资源中的词频排序、按范畴分组排序等。目前，较多的是采用相关度排序。它以检索词与信息资源的相关性为依据对检索结果排序，相关性是对词频、词语在信息资源中出现的位置以及其它的一些因素加权得到的结果。
衡量全文检索系统的优劣，主要包括如下几个方面：
(1) 查全率，即系统在进行某一检索时，检索出的相关资料量与系统资料库中相关资料总量的比率。
(2) 查准率，是系统在进行某一检索时，检索出的有用资料数量与检索出资料总量的比率。
(3) 响应时间，指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达到"千万汉字，秒级响应"。
(4) 用户负担，指用户在检索过程中付出精力的总和。（5）输出形式，指全文检索系统的检索结果的排序方式和显示方式。
在全文检索系统中查全率并不是一个很突出的问题。查准率却显得日益重要。查全率与查准率是互为消长的。也就是说，当要保证系统有较高的查全率时，必然会牺牲系统的查准率，反之亦然。当信息量非常大时，查全率高不仅要牺牲系统的查准率，还会给用户带来比较大的负担。因为，用户需要从数量巨大的检索结果中挑选其真正需要的信息。虽然，系统可以通过改进相关性排序的算法，来减少用户的挑选时间，但是对于相关性的判断却具有很强的主观性，不同知识结构的和不同需求的用户对同一资源的相关性判断可能会不同。因此，提高系统的查准率是非常重要的。上面提到的几种检索方式，在一定程度上对查准率有提高，但是并不能从根本上解决问题。为了更好的解决这个问题，一些全文检索系统引进了后控词检索技术。
2.后控词检索
“后控”是相对于“先控”而言的，是在标引阶段不进行控制，而在检索阶段进行控制，一般的后控检索在后台都有一个后控词表。如图2所示。在标引阶段，类似于自然语言的标引阶段，通过自由标引，利用作者语言或标引员的语言来描述文本（也可以不标引）。在检索阶段，抛弃了自然语言不作任何控制的作法，而是借鉴了先控语言的思想，在用户概念化其信息需求，形成自己的检索表达式之后，由检索系统自动用事先已经建立好的后控词表，进行同义检索、等级检索和相关检索。

之所以要在全文检索系统中使用后控词检索技术，主要是因为：
1）在全文检索系统中，由于没有进行同义控制，同一主题文献在检索系统中大量分散。系统的查全率也相应降低。
2）非同一主题的文献由于没有区分多义词和词义含糊词而混用。在全文检索系统中，只是一种简单的字面匹配，必然会造成在检出的条目中有大量的无用信息，这样在很大程度上降低了检索系统的查准率，增加了用户的检索负担。
3）扩检、缩检和改变检索范围很困难。由于自然语言检索所用的词语都是相互独立的，词语之间缺乏关系的控制与揭示，所以，在全文检索系统中难以灵活地进行扩检、缩检和改变检索范围。
4）检索者的智力负担比较重。由于没有办法进行扩检和缩检，就要求用户能够清晰、准确地表达自己的信息需求，较好地构造检索表达式，也就是对检索者的要求相对较高。检索输出的条目信息数量非常大，也增加了检索者判断和挑选的时间，从这个角度讲，也增加了检索者的智力负担。
利用后控词表进行检索，既可以提高查全率，又可以提高查准率。后控词表主要通过进行词间关系控制，来实现检索时的后控作用。包括：
等级关系控制。指上下位概念之间的关系。作用是用于揭示主题词之间的属分关系，通过对它们的显示，引导用户扩大和缩小检索范围，提高检索的灵活性。等级关系涉及的类型包括：具有属种关系的词汇之间，具有整部关系的词汇之间，集合概念与个体概念之间，包含概念之间的关系等。例如，“国际组织”、“联合国”和“联合国安理会”之间就是等级关系。“联合国”的上位词是“国际组织”，下位词是“联合国安理会”。
等同关系控制。用于等同关系的词汇之间。作用是通过对同义关系词的联结，增加检索入口，提高检全率，等同关系涉及的类型包括：语义同义词之间、近义词之间、学称与俗称之间、全称与简称之间、外文与中文名之间以及先组式短语和它的各种组配形式之间等多种情况。例如，在新闻中同时出现“拉登”和“拉丹”，这两个词有一个将会被确定为标准词，另一个词作为它的等同关系词。当用户用其中的任何一个词进行检索时，系统将自动利用这两个词同时进行检索。
相关关系控制。指主题词之间除等同关系、等级关系之外语义相关的一种关系。相关关系是揭示主题词之间各种联系、扩大检索范围、进行相关资料查找的重要手段。相关关系涉及范围广、种类多、灵活性大，很难严格界定，一般无法也没有必要做到完全意义上的相关关系控制。
在有后控词检索的全文检索系统中，当用户输入检索词后，系统不直接用来检索，而是先与后控词表里的词进行匹配，如果词表中有这个检索词，系统将自动利用这个词及其等同词进行检索，同时在检索结果中显示等级关系词和相关词，供检索用户参考、选用。这样将大大提高检索系统的查全率和查准率。
四、自动分词技术
由于汉语在书写时词与词之间不留空格，计算机在切分一串连续的汉字字符时，可能会有多种切词方案。计算机自动切词问题是汉语自然语言标引与检索、汉语文本自动标引和自动翻译、汉语自然语言理解等研究工作的基础和前提。实际上，它现在已经成为汉语信息处理的"瓶颈"，亟待解决。汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看，分词系统的输入是连续的字符串，输出是汉语的词串。下面将简单介绍几种目前广泛使用的分词算法：
1.基于词表的分词。词典匹配方法主要是基于字符串匹配的原理进行的，即它以一部词典为依据，采用一定的处理策略将汉语文本中的字串与词典中的词逐一匹配，若成功，便认定该字串为词。最常用的方法有最大匹配法、逆向最大匹配法、双向扫描法、逐词遍历匹配法、最佳匹配法等。其中的最大匹配（MM）有着广泛应用，该方法依据一个分词词表和一个基本的切分评估原则，即"长词优先"原则，来进行分词。这种评估原则虽然在大多数情况下是合理的，但也会引发一些切分错误。这种切分方法，需要最少的语言资源（仅需一个词表，不需要任何词法、句法、语义知识），程序实现简单，开发周期短，是一个简单实用的方法。
2.基于统计的分词。这种方法首先切分出与词表匹配的所有可能的词，这种切分方法称为"全切分"，运用统计语言模型和决策算法决定最优的切分结果。这种方法的优点是可以发现所有的切分歧义，但是解决歧义的方法很大程度上取决于统计语言模型的精度和决策算法。需要大量的标注语料，并且分词速度也因搜索空间的增大而有所缓慢。
3.基于规则和基于统计相结合。这种方法首先运用最大匹配作为一种初步切分，再对切分的边界处进行歧义探测，发现歧义。再运用统计和规则结合的方法来判别正确的切分，运用不同的规则解决人名、地名、机构名识别，运用词法结构规则来生成复合词和衍生词。目前这种方法可以解决汉语中最常见的歧义类型：单字交集型歧义。并对人名、地名、机构名、后缀、动词/形容词重叠、衍生词等词法结构进行识别的处理，基本解决了分词所面临的最关键的问题。
五、图像检索技术
基于内容的视频数据检索在很大程度上是建立在基于内容的图像检索之上的，因此，此处笔者将简单的介绍图像检索的基本技术。图像检索经历了两个阶段：第一阶段是以关键字为基础的检索。第二阶段是以图像自身的内容为基础的检索。
在基于关键字的图像检索系统中，需要先对所有的图像进行关键字标注，然后才能使用全文检索技术对图像进行搜索。这种方法存在两个方面的问题:一是这种方法需要较多的人工参与，而且随着图像数目的增加，这种方法很难实现；第二个问题在于图像所包含的信息量庞大，不同的人对于同一张图像的理解也不相同，这就导致对图像的标注没有一个统一的标准，因而检索的结果不能很好地符合用户的需求。
基于内容的检索不同于基于关键字的检索，它不需要过多的人工参与，而是通过对图像自身的特征抽取,并建立相应的索引，来进行检索。基于内容的图像检索技术实际上是一种模糊查询技术，通过对图像提取一定的特征，找出在特征空间中与查询要求最接近的图像。图像的特征分为两种，一种是图像的低层特征，如图像的颜色、纹理及其形状等。另一种是图象的高层特征，即图像的语义特征。基于内容的图像检索技术可以分为以下几类：
1.基于颜色特征的方法。颜色在基于内容的图像检索中起着重要的作用。颜色特征和图像的大小、方向无关，而且对图像的背景颜色不敏感，因此颜色特征被广泛应用于图像检索。通常颜色特征的提取是通过计算颜色直方图，即每一种颜色在整个图像中所占的比例，根据直方图的差异来判断两幅图像的相似程度，为了降低运算复杂度，可以对颜色空间进行量化，使用直方图的主要部分，使用低分辨率的直方图等。颜色直方图的优点是计算简单，缺点是无法表述颜色分布的空间信息。
2.基于纹理的方法。纹理是由大量可见基元均匀地紧密地排列在一起所组成的一种视觉模式，它在图像中通常表示不同材质的区域，它包含了物体表面的组织结构以及与周围环境之间的关系。常用的方法有相关矩阵法，粗糙度、对比度等纹理表示方法，以及小波变换等。使用纹理特征首先需要将图像进行纹理分割，而这是一项相当困难且计算量很大的工作。
3.基于边缘/草图的方法。基于草图的查询是用户提交一幅想要查询的物体的大致轮廓，由系统找出与此轮廓相匹配的图像。草图的查询可以通过计算图像的边缘图来实现，首先将彩色图转换为单波段的灰度图，再用Canny边界算法计算二值化边界图，并将边界图大小降到64x64，然后将库中的边界图与草图进行模版匹配，检索相似的图像。这种方法的缺点是没有方向和尺度的不变性，类似的图像可能因为方向和尺度的不同而被遗漏，这种问题需要有复杂的边缘表示和匹配算法来消除。
4.基于形状的方法。形状是描述物体轮廓和它们的物理结构的重要特征，在图像检索应用中，形状特征可以分为全局和局部特征两类。全局特征是从整个形状得出了特性，如圆度、中心矩和偏心度。局部特征是从形状的部分处理而导出的特性，包括连续边界段的方向、弯曲点、角点和转角度，形状特性对于像颜色和纹理都类似的医学图像来说相当重要。然而，基于形状的检索仍然是一个困难的问题，因为缺乏严格的数学定义来描述人类感知的形状的相似性。
5.基于空间关系的方法。对于包含多目标的图像，目标之间的空间关系是又一种描述图像内容的特征。描述物体间的空间关系首先需要对图像进行目标分割和识别，然后可将图像转化成采用2维串（2D String）编码的符号图像，2维串描述物体间的关系是通过一系列算子（上、下、左、右等），图像的检索问题变成了一个2维串匹配的问题。2维串的匹配是基于一个简单的分级方案，然而用于生成2维串的算法需要对象分割和识别，计算量相当大。
6.基于图像的语义特征。现在运行的商用系统通常采用关系型数据库，这些系统中图像的属性包括图像来源、拍摄时间和地点、媒介类型、分辨率、输入设备、压缩方式、以及与图片相关的注释信息，注释信息对于用户来说是非常自然的描述，这些特征都属于图象的语义特征。
用户在检索图像时，可以用关键字查询，也可以提交一张感兴趣的图像，系统将根据提交的查询，在图像数据库中找到一些最相似的图像返回给用户。提交的查询将首先转换成为一个由低层特征和高层特征结合的向量，然后分别与数据库中图像的向量计算相似度。相似度的计算分类两步完成：一是计算低层特征的相似度，二是计算高层语义特征的相似度，然后采用线性组合的方法得到最后的相似度。相似度高的图像成为检索的结果

视音频信息自动标引与检索技术关键词自动标引信息检索评测技术概述网络信息资源的自动标引研究 3.2 音频信息的采集与编辑音频信息的采集与编辑 3.2 音频信息的采集与编辑信息检索信息检索基于内容的音频检索基于内容的音频检索基于内容的音频检索网络文史信息检索、浏览与存储技巧网络文史信息检索、浏览与存储技巧贵大光信息科学院与技术自动分类技术的发展与展望文献信息检索18 文献信息检索21 文献信息检索22 文献信息检索23 信息检索初级篇科技信息检索信息检索初级篇网络信息检索技巧