Microsoft 全文搜索技术

来源:百度文库 编辑:神马文学网 时间:2024/03/29 17:18:52
白皮书
发布时间:2001年6月 引言
本白皮书介绍了全文搜索的基本概念,并解释了不同 Microsoft® 产品是如何应用全文搜索的。这些信息可以帮助您确定哪个 Microsoft 产品最适合您的信息检索需求。
Microsoft 全文搜索技术已经应用于多个服务器和客户端产品。提供的具体功能取决于每个产品的具体要求。这些不同也反映出该技术的发展。但是,所有产品都因为利用全文索引来有效检索非结构化的文本数据的共同优点而受益。
下列 Microsoft 产品利用了不同的 Microsoft 全文搜索技术: Index Server,用于Microsoft Windows® 的索引服务 Microsoft SharePoint™ Portal Server 2001 Microsoft SQL Server™ 7.0 和 SQL Server 2000 Microsoft Exchange Server 2000 Microsoft Site Server 3.0 Microsoft Office XP
您选择什么产品取决于您的用途。例如,您可能是要搜索 Intranet 站点或 Internet 站点、Exchange 公共文件夹,或者要搜索结构化数据或非结构化数据。您可能需要迎合内部团队,或者需要通过 Extranet 站点满足客户需求。这些考虑和其他考虑可帮助您决定什么产品是适合您的最佳产品。 全文搜索
全文搜索的任务是根据用户的需求,提供一组来源中的相关信息。对此需求的表达通常是文本查询,在此组来源的每个文档中搜索每个(或所有)查询词。处理查询时有一个简单的方法可打开并扫描每个文档,寻找每个查询词。但是,在处理查询时打开每个文档并搜索查询词会很费时间。此方法并不比个人用户自己在少量文档中搜索高明。
一个简单的解决方案是事先完成大部分工作。实现方法是,提出每个文档中的术语信息并用一种便于检索的方法保存此信息。那么处理查询时就不用扫描每个文档了。唯一的要求是用反向索引相互比较文档,并选择与查询最有关联的文档。
事先完成大部分工作这个原则是全文搜索技术(包括 Microsoft 全文搜索)的基础。要想高效,搜索技术必须: 从各种文档存储区获得文档。 从各种文档格式中提取文字。 用文档术语更新索引。 给文档排序,把最相关的文档放在列表最前面。
好的搜索技术可以对各种语言、不同类型以及存储在多种文档知识库中的文档执行这些任务。好的搜索技术必须返回真正与用户需求相关的文档。最佳情况下,全文搜索技术是个完整的知识解决方案,获得的直接文本查询正是用户所需要的。用户需要的信息用高级机制解释,并返回结构化和非结构化信息。
Microsoft 全文搜索技术中的以下组件提供了绝佳的全文搜索解决方案: 协议处理程序。协议处理程序可以通过特定协议或从特定存储区访问数据。常见的协议处理程序包括文件协议、超文本传输协议 (HTTP)、消息处理应用程序编程接口 (MAPI) 以及 HTTP 分布式编辑和版本控制 (HTTPDAV)。协议处理程序处理收集程序传递给它的 URL。 收集程序。收集程序维护将通过协议访问的 URL 队列。例如,爬行一个 Web 站点可能包括数百个页面,而且会因为每次访问一个 Web 页而造成网络通信流量。为了更有效,收集程序会交叉排列远程 Web 位置的 URL 与其它 Web 位置的 URL,或者交叉排列远程 Web 位置的 URL 与对文件系统文档或其它存储区的访问。收集程序可能会使用额外的逻辑来提高爬行效率,比如 SharePoint Portal Server 适应性爬行。它会对收集进程给爬行目标服务器造成的负载保持平衡。收集程序维持着待处理的 URL 队列,并管理联合爬行。对访问的每个文档,收集程序连续从协议处理程序获得内容,并传递给相应的筛选器。 筛选器。 筛选器(也叫做 Ifilter)从特定的文档格式中提取文字信息,比如 Microsoft Word 文档或文本文件。例如,Microsoft 提供了 Microsoft Office 筛选器,它可从 Word、Microsoft Excel 和 Microsoft PowerPoint® 文件中提取术语。其它筛选器处理 HTML 或电子邮件。还有第三方筛选器,比如 Adobe 提供的 PDF 筛选器。
筛选器的任务是从文档中提取文字信息流,放弃非文字信息和格式信息。筛选器生成文字串和属性/值对,并把它传递给索引引擎。所有筛选器都是针对某个应用程序编程接口 (API) 编写的,它是 Microsoft 平台软件开发工具包 (SDK) 的组成部分。有关详细信息,请参见“Using Custom Filters with Indexing Service”,网址是http://msdn.microsoft.com/library/psdk/indexsrv/ixufilt_912d.htm。
断字程序和词干程序。断字程序是一个判断查询或待爬行文档的连续字符中字词边界的组件。词干程序从给定的词中提取词根。例如,“running”、“ran”和“runner”都是“run”的变体。有些语言中,词干程序可以将词的词根形式扩展为另外的形式。
SharePoint Portal Server 提供了英语、法语、西班牙语、日语、泰语、朝鲜语、繁体中文和简体中文的断字程序。Windows 2000 Server 索引服务的断字程序用于荷兰语、意大利语、瑞典语和德语。当 SharePoint Portal Server 爬行多语种文档时,每种语言的自定义断字程序可以使最后的术语整理结果对该语言来说更精确。如果只有某个语系的断字程序,而没有特定语言的断字程序,则使用主要语言。例如,法语断字程序会被用于处理加拿大法语文本。如果没有特定语言的断字程序,则使用中性断字程序。字词按中性字符(比如空格和标点符号)来断字。判断在何处断字的代码是 Microsoft Search (MSSearch) 服务内置的,不可更改。
索引引擎。索引引擎的作用是准备内容的反向索引。反向索引是每个术语一行的数据结构。此行中有关于出现此术语的文档的信息、出现次数以及该术语在每个文档中的相关位置。反向索引可以应用统计和概率公式,以便快速计算文档的相关性。
诸如 Windows 或 Microsoft Outlook® 这样没有使用全文搜索的应用程序需要在查询时访问每个文档。这些应用程序要遍历每个文档,用筛选器或其它老技术查找查询词。与反向索引相比,这个过程很慢。反向索引提供了直接访问级别公式(而不是访问源文档)的能力。
级别。查询评估最终将形成一组相关文档。在关系数据库中,每一行都会在或不在结果集合中。例如,当用户查询“所有余额小于或等于 $30,000 的帐户”时,它明确表达了应返回帐户表中的哪些行。而全文搜索任务却更微妙。查询并未明白体现所需的信息,而且检索到的文档在相关性方面也各不相同。相关性最强的文档排在结果集合的最上面,而相关性较差的文档对用户仍然有用,所以排在下面。
在排列这个级别的时候,不同 Microsoft 全文搜索产品使用的算法也各不相同。Index Server 和 Site Server 3.0 使用基于矢量的级别算法,而后期的产品则采用先进的概率算法。
查询语言
要想向系统表达信息请求,用户要用一种语言来描述对查询词的限制和条件。例如,用户可能对上周发布的所有文档感兴趣。要想查询这些文档,用户必须同时表达文档的“发布”概念和精确的时间范围(比如从上个周一开始,到上个周日为止)。
Microsoft 全文搜索产品的发展经历了三种不同的查询语言: Query Dialect 1 结构化查询语言 (SQL) 全文扩展 Query Dialect 2
有关查询语言的详细信息,请参见“Platform SDK”,网址是http://msdn.microsoft.com/library/psdk/indexsrv/ixqlang_92xx.htm。
以下各节讨论采用了 Microsoft 全文搜索技术的 Microsoft 产品。每节都包括产品概述、目标用户以及全文搜索技术与该产品的集成方式。 Microsoft SharePoint Portal Server
概述
SharePoint Portal Server 是一个灵活的门户解决方案,允许您方便地查找、共享和发布信息。有了 SharePoint Portal Server,您可以有效地使用现有信息,并用适合您业务的新方法获得信息。此外,您可以快速部署现成的仪表盘站点,并方便地使用 Web 部件技术来自定义贵单位基于 Web 的视图。
有关 SharePoint Portal Server 的更多信息,请参见http://www.microsoft.com/sharepoint。 目标
SharePoint Portal Server 的目标是 Intranet 门户解决方案,从团队门户开始,直到企业门户。 搜索功能
SharePoint Portal Server 提供了最新、最丰富的搜索和信息查找功能。
数据访问。SharePoint Portal Server 利用协议处理程序和收集程序来爬行不同内容来源的数据,并对这些数据进行搜索。现成的 SharePoint Portal Server 可以爬行以下来源的数据: 文件系统 Web 站点 Exchange 2000 Server 和 Exchange Server 5.5 计算机 Lotus Notes 服务器 其它 SharePoint Portal Server 工作区
虽然 SharePoint Portal Server 不能直接访问 OLE DB、开放式数据库连接 (ODBC) 和其它关系数据访问标准,但它能使用 HTTP 爬行数据库信息。为此,您必须创建一个呈现数据库中每行信息的 Active Server Page (ASP) 页。
Microsoft SharePoint Portal Server SDK 记录协议处理程序接口。这个接口允许开发人员为使用其它特有数据访问方法(比如文档管理系统或归档解决方案)的文档知识库编写协议处理程序。SharePoint Portal Server 的资源工具包中有一些协议处理程序,可以用于爬行文件传输协议 (FTP) 站点和 SharePoint Team Services 站点。 筛选器。 SharePoint Portal Server 中还有用于 Microsoft Office 文档、HTML 文件、标记图形文件格式 (TIFF) 文件和文本文件的筛选器。TIFF 筛选器使 SharePoint Portal Server 可以爬行基于光学字符识别 (OCR) 技术的已保存的传真数据。从 Exchange 公共文件夹筛选消息时,SharePoint Portal Server 可使用多用途 Internet 邮件扩展 (MIME) 筛选器,此程序是与 Windows 2000 一起提供的。SharePoint Portal Server 还支持第三方和自定义文件类型,比如 Adobe PDF 筛选器。有关 PDF 筛选器的详细信息,请访问 Adobe Web 站点。 级别。SharePoint Portal Server 提供了一个概率级别高级算法,它基于 Microsoft 研究队伍获得的信息检索成果。此算法可保证在搜索结果顶部返回与用户查询相关性最强的文档,提高了用户的效率和满意度。
级别公式是由 Microsoft 研究人员和城市大学教授Stephen Robertson 一起开发的,后者是著名的计算机专业兴趣组协会信息检索 (ACM SIGIR) 2000 Salton 奖项获得者。Microsoft 全文搜索采用的级别公式就是这项研究的直接成果。在计算文档的可能相关性时,此公式采用了以下几个因数: 文档长度 查询词在整个文档集合中出现的频率 含有查询词的文档的数量 整个文档集合中的文档数量
最佳匹配。此功能让有相应权限的用户将单个文档标记为最适合特定查询或类别的文档。即使在最先进的概率级别环境中,某些文档还是缺乏文字信息,不能在特定查询词的搜索结果中突出出来。最佳匹配功能可以最有效地解决这个问题,它有两个方法,一是将特别标定的文档放在搜索结果列表的最上面,或者在用户浏览类别时突出显示这些文档。SharePoint Portal Server 的现成仪表盘站点也能在文档级别非常高时凸显出最佳匹配文档。 自动分类。除了简单的搜索外,SharePoint Portal Server 还提供了自动分类。此功能允许用户定义类别层次,然后在层次结构内用文档集合示例作为培训示例。培训后,存储在服务器上的文档和爬行后的文档会被自动标记并显示在类别层次结构中。 方案支持。SharePoint Portal Server 使用升级和降级方法提供了与 Office 兼容的简化了的方案管理工具。用户可以定义文档配置文件和相关属性。在升级过程中,Office 文档的属性值被复制到一个 SharePoint Portal Server 文档配置文件的属性中。在降级时,SharePoint Portal Server 文档配置文件中的属性值被复制到 Office 文档。SharePoint Portal Server 中的全文搜索与这个方案紧密集成。高级搜索使用属性和文档配置文件。 可扩展性和可编程性。SharePoint Portal Server 仪表盘站点基于 Microsoft 数字仪表盘技术。Microsoft 数字仪表盘技术允许您将商业应用程序和自定义内容方便地与 SharePoint Portal Server 的内置全文搜索功能集成在一起。它以 Web 部件的形式提供查询提交和搜索结果,可以与自定义 Web 部件一起方便地在仪表盘站点上共存。但是,查询提交和搜索结果这两个 Web 部件必须相互依存才能使用,因此必须位于 SharePoint Portal Server 计算机上。SharePoint Portal Server SDK 支持通过记录搜索 API 来开发自定义搜索解决方案。您可以使用 ActiveX® 数据对象 (ADO)、OLE DB 或基于 Web 的分布式编辑和版本控制 (WebDAV) 协议来操作搜索。SharePoint Portal Server 没有为管理其搜索、文档管理和仪表盘站点功能提供自动接口。 查询语言。SharePoint Portal Server 使用 SQL 全文扩展。查询用分布式编辑和版本控制搜索和定位 (DASL) 请求(HTTPDAV 的一部分)提交。有关详细信息,请参见 SharePoint Portal Server SDK。 订阅。SharePoint Portal Server 订阅功能使用户可以订阅文档、文件夹、类别和搜索结果的更改信息。订阅将一直作为长期查询存在。出现更改时,订户将接到通知。要用编程方式添加订阅,请参见 SharePoint Portal Server SDK。订阅是使用 Persistent Query Service (PQS) 规则实施的。PQS 是一个反向查询处理器。它对单个文档评估一大组查询,判断哪些查询与该文档匹配。这样可以在每个新文档进入 SharePoint Portal Server 存储区时识别匹配的订阅。订阅提供了“推”模式,以匹配全文搜索的“拉”模式。 适应性爬行。Site Server 3.0 推出了增量爬行,它用比较时间戳的方法来只加入自上一次更新索引后更改的文档。增量更新减少了重复爬行时的索引工作量。但是,增量更新不能取消每次爬行时比较以前已爬行文档的时间戳的工作。适应性爬行则更进一步。爬行时,适应性爬行算法收集每个文档更改率的统计信息。在以后的适应性爬行中,算法只针对那些可能已经被更改过的文档。
SharePoint Portal Server 并不完全取代 Site Server 的功能,但 SharePoint Portal Server 中使用的搜索技术比 Site Server 使用的搜索技术要新得多。此外,SharePoint Portal Server 使用高级级别算法,并有允许搜索现成仪表盘站点的高级功能。这些高级功能包括最佳匹配、类别和 Office 方案集成。
SharePoint Portal Server 通过提供多线程索引引擎,提供了比 Site Server 3.0 优越得多的索引性能,适应性爬行的使用也大大减少了执行增量索引所需的时间。 Microsoft 索引服务
概述
索引服务是 Microsoft Windows 2000 对文件系统和 Web 服务器的一项基本服务。它以前叫做 Index Server,原来的功能是爬行和创建 Internet Information Services (IIS) Web 服务器内容的类别。索引服务现在可创建文件系统及虚拟 Web 站点内容和属性的类别。 目标
作为一个操作系统组件,索引服务的目标用户与 Windows 的目标用户一样广泛。索引服务的目标是用户桌面,为个人用户带来搜索存储在本地磁盘上信息的增强体验。在 Windows 中,当您单击“开始”菜单中的“搜索”按钮,按 CTRL + F,单击 Windows 资源管理器中的“搜索”按钮以及单击 Office XP 中的搜索任务窗格的时候,索引服务就出现了。索引服务提供管理和查询对象,利用它们可以快速开发自定义搜索应用程序。索引服务类别可以扩展,以包括远程文件共享中的信息。这样的自定义应用程序可以用于垂直应用程序或用户组,并可以爬行多个位置的信息。
索引服务可以从 Internet 站点提供全文搜索。索引服务可以用于驱动自定义搜索 Web 应用程序。除了查询语言支持外,索引服务还提供了面向自定义应用程序开发人员的全面编程功能:用于查询和管理的脚本对象、OLE DB 提供程序以及 ADO 兼容性。 搜索功能
数据访问。索引服务并不包括跨协议的收集组件。它可以访问文件系统中的所有数据,包括本地文件系统和远程计算机上的共享文件系统。索引服务利用 IIS 配置数据库 (Metabase) 来了解将哪些文件映射到 Web 站点内容,从而简化了 Web 站点内容的索引。然后索引服务根据 IIS 配置数据库的信息爬行本地 Web 站点。索引服务并不使用 HTTP 协议来爬行 Web 站点。因此,索引服务不能爬行动态呈现的内容(如引用数据库的 ASP 页)和每个用户各不相同的个性化内容。 筛选器。索引服务使用操作系统上已经安装的筛选器,包括新闻和电子邮件 MIME 筛选器、Office 文档的 Office 筛选器以及 HTML 筛选器。 级别。索引服务使用基于矢量空间模型的级别算法。该算法的有关信息在 Platform SDK 中。使用的默认算法是 Jaccard 公式。有关索引服务的级别公式的更多信息,请参见http://msdn.microsoft.com/library/psdk/indexsrv/ixqlang_5dtf.htm。 方案支持。索引服务提供丰富广泛的方案支持。使用 Microsoft 管理控制台 (MMC),用户可以查看来自文档的所有建立了索引的属性,并指定哪些属性要保存到属性高速缓存,以便迅速检索。 可扩展性和可编程性。索引服务为全文搜索应用程序提供了一个平台。它包括一个完整的编程接口集:用于管理和查询的脚本接口以及一个用于搜索的 OLE DB 提供程序。Platform SDK 中提供了与索引服务编程接口有关的更多信息。 查询语言。索引服务通过灵活的查询语言提供了快速访问文件的途径。索引服务支持 Query Dialect 1、Query Dialect 2 和 SQL 全文扩展。
Platform SDK 中有一个索引服务 3.0(与 Windows 2000 一起提供)的新功能列表。详细信息请参见http://msdn.microsoft.com/library/default.asp?url=/library/en-us/indexsrv/hh/indexsrv/ixintro_24og.asp。
开发自定义应用程序时要想提供对 Internet 站点内容的全文搜索,索引服务是一个高性能的解决方案。而对于主要采用结构化数据的应用程序,它就不太合适了。这类应用程序应考虑使用 Microsoft SQL Server 2000。若考虑的是立即就能使用,或者用于需要聚合不同来源和来源类型的内容的应用程序,SharePoint Portal Server 是合适的选择。
索引服务是一个可选的操作系统组件。文件系统内容的初始索引需要大量资源,会影响桌面应用程序的性能。因此,默认情况下并未启用索引服务。 Microsoft SQL Server 2000
概述
SQL Server 2000 是一个产品系列,它满足最大的数据处理系统和商业 Web 站点的数据存储和分析要求。SQL Server 2000 可以为个人或小企业提供便于使用的数据存储和分析服务。
有关 SQL Server 2000 的更多信息,请参见http://www.microsoft.com/sql。 目标
SQL 2000 中的全文搜索目标是对以结构化数据为主、但同时包括文字信息和非结构化信息的数据进行搜索。 搜索功能
SQL Server 2000 采用的搜索引擎与 SharePoint Portal Server 相同,利用了同样的高级级别算法的优点,并使用了 SharePoint Portal Server 使用的针对 SQL 的全文扩展子集。 数据访问。SQL server 中的全文搜索只能用于搜索存储在 SQL 列中的内容。 筛选器。SQL Server 2000 使用服务器上已经安装的筛选器来处理存储在数据库列中的文档。用户可以使用 IMAGE 类型的列来存储文档,然后另外用一列来指定文档类型。接着由全文搜索根据文档类型来应用相应的筛选器,比如 HTML、Office 或者第三方筛选器。此外,全文搜索可以应用于 [N]CHAR、[N]VARCHAR 和 [N]TEXT 类型的列内容。 可扩展性和可编程性。全文搜索 SQL 扩展与 T-SQL 语言集成在一起。用户可以指定 SQL 查询,这些查询跨越 SQL 表的结构化数据、以及 SQL 列中、列中嵌入的文档中以及来自文件系统的非结构化数据。
有关 SQL Server 全文搜索功能的更多信息,请参见http://www.microsoft.com/SQL/evaluation/features/fulltext.asp。
全文搜索是作为 SQL Server 7.0 的一个 SQL 服务器功能出现的。有关 SQL 7.0 中全文搜索的更多信息,请参见标题为“Textual Searches on Database Data Using SQL Server 7.0”的白皮书,网址是
http://www.microsoft.com/SQL/techinfo/development/70/textsearch.asp。有关用 SQL Server 全文搜索将文件系统和 SQL 表结合在一起的信息,请参见标题为“Textual Searches on File Data Using Microsoft SQL Server 7.0”的白皮书,网址是
http://www.microsoft.com/SQL/techinfo/administration/70/filedata.asp。 Microsoft Site Server
概述
Site Server 的设计目的是帮助您最佳利用企业 Intranet。Site Server 允许用户快捷地发布、查找和共享信息。它的功能包括巨大的搜索能力以及全面分析 Intranet 利用率和效率的多个工具。
Site Server Commerce Edition 是一个全面的 Internet 商务服务器,它允许您预定客户、进行商业交易并分析商务 Web 站点。Site Server Commerce Edition 具有高度的可伸缩性和安全性,简化并集成了您与分销商和供应商的在线交易。
详细信息请参见http://www.microsoft.com/siteserver。 目标
自 1998 年 5 月出现 Site Server 3.0 Standard Edition 和 Site Server 3.0 Commerce Edition 以来,Web 市场已经得到巨大发展。Site Server 3.0 Standard Edition 的目标是 Intranet 空间,它允许用户查找、分享信息并将信息发布到企业 Intranet 上。相比之下,Site Server 3.0 Commerce Edition 的目标是 Internet 空间,可以进行在线金融交易、分析交易并与消费者进行个性化互动。
从那以后,Intranet 市场需求发生了巨大变化,形成了一个门户市场,对核心服务和应用程序集成的需求越来越大,而且一直需要强健的企业范围搜索功能。因此,产品重点也发生了相应的变化。Site Server 3.0 Standard Edition 的搜索技术继续在 SharePoint Portal Server 中得以运用。Site Server 3.0 Commerce Edition 的电子商务和 Internet 功能现在可以用 Microsoft E-Commerce Business Solutions 得到最佳体现。详细信息请参见http://www.microsoft.com/business/。 搜索功能
数据访问。Site Server 推出了收集概念和协议处理程序概念。Site Server 可以爬行 Exchange Server 5.5 计算机和 Web 站点。收集程序可以处理层次结构(文件系统)和 Web 空间 (HTTP)。Site Server 不支持自定义协议处理程序。它的接口不能扩展以支持新的文档存储。
Site Server 可以用呈现数据库中各行信息的 ASP 页爬行数据库信息。
筛选器。Site Server 使用的筛选器与索引服务相同。Site Server 使用操作系统上已经安装的筛选器,包括新闻和电子邮件 MIME 筛选器、Office 文档的 Office 筛选器以及 HTML 筛选器。 级别。Site Server 使用的级别与索引服务相同。Site Server 使用基于矢量空间模型的级别算法。这一算法的有关信息在 Platform SDK 中。使用的默认算法是 Jaccard 公式。 方案支持。Site Server 提供丰富、广泛的方案支持。用户可以用它特有的管理界面定义 OLE DB 数据类型的属性。 可扩展性和可编程性。Site Server 有自己的对象模型。详细信息请参见
http://www.microsoft.com/siteserver/site/DeployAdmin/SearchDatabase.htm。 查询语言。Site Server 使用 Query Dialect 1 和 SQL 全文扩展。
Microsoft Exchange 2000 Server
概述
Exchange 2000 Server 与 Windows 2000 操作系统无缝地集成在一起,设计用于满足不同规模企业的消息传递和协作需求。与其客户端软件 Outlook 2000 一起使用时,Exchange 提供了一个非常可靠、可缩放并易于使用的消息传递和协作基础结构。
详细信息请参见http://www.microsoft.com/exchange。 目标
如果您的主要用途是爬行电子邮件消息,则应该使用 Exchange 2000 Server。利用 Exchange 2000 全文搜索,服务器可以在个人邮箱和所有用户使用的公共文件夹中搜索传递的邮件。
如果您希望搜索电子邮件和其它来源,请使用 SharePoint Portal Server。但是 SharePoint Portal Server 不支持爬行专用邮箱。 搜索功能
Exchange 2000 Server 使用的搜索技术与 SharePoint Portal Server 相同。它使用群集能力经过证明的版本。 数据访问。数据访问限于存储在 Exchange 公共文件夹和邮箱中的信息。 筛选器。Exchange 全文搜索使用 MIME 筛选器来爬行传递的邮件。附件的处理要根据其内容类型使用可用的筛选器。 级别。Exchange 2000 Server 使用的高级概率级别算法与 SharePoint Portal Server 相同。此算法可保证在搜索结果顶部返回与查询相关性最强的文档,提高了用户的效率和满意度。 可扩展性和可编程性。Exchange 2000 Server 在搜索时使用 HTTPDAV 协议,特别是 DASL。详细信息请参见
http://msdn.microsoft.com/library/backgrnd/html/webstorewp.htm。 查询语言。Exchange 2000 中的全文搜索通过分布式编辑和版本控制 (DAV) 协议使用并支持 SQL 全文扩展。使用 Exchange 2000 时,Outlook 的高级搜索可以利用 Exchange 全文搜索。然后将自然语言查询直接提交到服务器。它没有 SQL 查询语言的客户端支持。
有关详细信息,请参见标题为“Best Practices for Deploying Full-Text Indexing”的白皮书,网址是
http://www.microsoft.com/exchange/techinfo/deployment/2000/BestIndexing.doc。 Microsoft Office XP 搜索
概述
世界领先的效率软件套件 Microsoft Office 可帮助您完成常见的工作任务,包括字处理、电子邮件、演示文稿、数据管理和分析等。 目标
如果您是 Office 用户,而且您希望在桌面工作,请使用 Office XP 搜索。Office XP 使您不仅可以搜索本地硬盘,而且还能搜索文件共享和 SharePoint Portal Server 计算机。 搜索功能
数据访问。在 Windows 2000 计算机上,如果启用了索引服务,它会创建一个本地磁盘索引。在运行 Microsoft Windows NT® 4.0 版本、Windows 98 或 Windows Millennium 的计算机上,Microsoft Office XP 提供一个 SharePoint Portal Server 上使用的搜索引擎版本,用于爬行本地磁盘。索引服务或 Office 搜索索引引擎则由用户自己激活。如果未启用索引,Office XP 则提供一个速度较慢、未建立索引形式的搜索。 用户界面。 Office XP 提供一个搜索任务窗格,可以通过 Word、Excel 和 PowerPoint 访问。 高级功能。任务窗格提供对用户本地硬盘、远程服务器(通过索引服务)、SharePoint Portal Server 计算机、SharePoint Team Services 站点(其全文搜索功能采用索引服务)和 Outlook 邮件(PST 文件或 Exchange 邮箱)的联合搜索。查询代理组件将搜索命令分配给每个存储区的搜索提供程序。 可扩展性和可编程性。Office 应用程序可以通过一个类似 FindFast API 的 API 对这些搜索查询代理进行编程。详细信息请参见
http://www.microsoft.com/office/ork/xp/five/wgtd01.htm。
结论
本白皮书介绍了全文搜索的基本概念,并解释了不同 Microsoft 产品是如何应用全文搜索的。这些信息可以帮助您确哪些 Microsoft 产品最适合您的信息检索需求。
附录 A 提供了以下产品的技术对比和功能对比: SharePoint Portal Server 索引服务 Site Server SQL Server 2000 Exchange 2000 Server Office XP
附录 A - 对比表
下面的这些表格显示了以下产品的技术对比和功能对比: SharePoint Portal Server 索引服务 Site Server SQL Server 2000 Exchange 2000 Server Office XP
技术对比
SharePoint Portal Server
索引服务
Site Server
SQL Server 2000
Exchange 2000 Server
Windows 2000 上的 Office XP
Windows 98 或 Millennium Edition 上的 Office XP
使用专门查询语言的全文搜索
 
 

 

 
 
 

 

 
使用 SQL 全文扩展的全文搜索
 

 

 

 

 

 
 
 
布尔型级别算法
 

 

 

 
 
 
 
 
高级概率级别算法
 

 
 
 

 

 
 

 
使用多个数据访问协议
 

 
 

 
 
 
 
 
功能比较
SharePoint Portal Server
索引服务
Site Server
SQL Server 2000
Exchange 2000 Server
Windows 2000 上的 Office XP
Windows 98 或 Millennium Edition 上的 Office XP
爬行:
 
 
 
 
 
 
 
 
文件系统
 

 

 

 
 
 

仅本地
 

仅本地
 
Web 站点
 

 

仅本地,通过文件系统
 

 
 
 
 
 
Lotus Notes
 

 
 
 
 
 
 
 
Exchange 5,5
 

公共文件夹
 
 

 
 
 
 
 
Exchange 2000
 

公共文件夹
 
 
 
 

公共文件夹和专用邮箱
 
 
 
SQL 表
 

通过 ASP
 
 

通过 ASP
 

 
 
 
 
SharePoint Portal Server 工作区
 

 
 
 
 
 

 

 
第三方协议
 

 
 
 
 
 
 
 
最佳匹配
 

 
 
 
 
 
 
 
类别
 

 
 
 
 
 
 
 
最终用户界面
 
仪表盘站点
 
Windows 2000 上的 Windows 资源管理器和自定义
 
自定义
 
自定义
 
Outlook(通过高级查找),自定义
 
Office 搜索任务窗格
 
Office 搜索任务窗格
 
有关详细信息,请参阅:http://www.microsoft.com/sharepoint/ 和
http://www.microsoft.com/technet/prodtechnol/sharepoint/default.asp。
本文档所包含的信息代表了在发布之日,Microsoft Corporation 对所讨论问题的当前看法。因为 Microsoft 必须顺应不断变化的市场条件,故该文档不应理解为 Microsoft 一方的承诺,Microsoft 不保证所给信息在发布之日以后的准确性。
本白皮书仅供参考。在本文档中,MICROSOFT 不做任何明示或暗示的保证。
用户必须遵守所有适用的版权法。在不对版权法所规定的权利加以限制的情况下,未得到 Microsoft 公司明确的书面许可,不得为任何目的、以任何形式或手段(电子的、机械的、影印、录制等等)复制、传播本文的任何部分,也不得将其存储或引入到检索系统中。
Microsoft 可能拥有本文档主题涉及到的专利、专利使用、商标、版权或其它知识产权。除非在 Microsoft 书面许可协议中明确提到,否则购买本文档并不向您提供其中的任何专利、商标、版本或其他知识产权。
此处作为例子提到的公司、组织、产品、人和事件均属虚构。决不意指任何实际的公司、机构、产品、人员和事件。
© 2001 Microsoft Corporation。保留所有权利。
Microsoft、ActiveX、Outlook、PowerPoint、SharePoint、Windows 和 Windows NT 是 Microsoft Corporation 在美国和/或其它国家(地区)的注册商标或商标。
此处提到的实际公司和产品名称可能是其各自所有者的商标。
_xyz