Lucene研究之二——系统结构分析初步

来源：百度文库编辑：神马文学网时间：2024/04/24 19:52:48

Lucene研究之二——系统结构分析初步
作者：陈光（holen@263.net）
时间：2004-08-26
本文主要讨论Lucene的系统结构，希望对其结构的初步分析，更深入的了解Lucene的运作机制，从而实现对Lucene的功能扩展。
1． Lucene的包结构
如上图所示，Lucene源码中共包括7个子包，每个包完成特定的功能：
Lucene包结构功能表
包名
功能
org.apache.lucene.analysis
语言分析器，主要用于的切词，支持中文主要是扩展此类
org.apache.lucene.document
索引存储时的文档结构管理，类似于关系型数据库的表结构
org.apache.lucene.index
索引管理，包括索引建立、删除等
org.apache.lucene.queryParser
查询分析器，实现查询关键词间的运算，如与、或、非等
org.apache.lucene.search
检索管理，根据查询条件，检索得到结果
org.apache.lucene.store
数据存储管理，主要包括一些底层的I/O操作
org.apache.lucene.util
一些公用类
2． Lucene的主要逻辑图
Lucene功能强大，但从根本上说，主要包括两块：一是文本内容经切词后索引入库；二是根据查询条件返回结果。
以下是上述两大功能的逻辑图：
STORAGE
（存储器）
ACCESS INDEX
（访问索引）
SERACHER
（查询器）
ANALYZER
（语言分析器）
QUERY PARSER
（查询分析器）
DOCUMENT
（文档结构）
SEARCHER
（查询）
INDEXER
（入库）
FS
BDD
RAM
Lucene功能逻辑图
查询逻辑
按先后顺序，查询逻辑可分为如下几步：
1．查询者输入查询条件
条件之间可以通过特定运算符进行运算，比如查询希望查询到与“中国”和“北京”相关的记录，但不希望结果中包括“海淀区中关村”，于是输入条件为“中国+北京-海淀区中关村”；
2．查询条件被传达到查询分析器中，分析器将将对“中国+北京-海淀区中关村”进行分析，首先分析器解析字符串的连接符，即这里的加号和减号，然后对每个词进行切词，一般最小的词元是两个汉字，则中国和北京两个词不必再切分，但对海淀区中关村需要切分，假设根据切词算法，把该词切分为“海淀区”和“中关村”两部分，则最后得到的查询条件可以表示为：“中国” AND “北京” AND NOT（“海淀区” AND “中关村”）。
3．查询器根据这个条件遍历索引树，得到查询结果，并返回结果集，返回的结果集类似于JDBC中的ResultSet。
4．将返回的结果集显示在查询结果页面，当点击某一条内容时，可以链接到原始网页，也可以打开全文检索库中存储的网页内容。
这就是查询的逻辑过程，需要说明的是，Lucene默认只支持英文，为了便于说明问题，以上查询过程采用中文举例，事实上，当Lucene被扩充支持中文后就是这么一个查询过程。
入库逻辑
入库将把内容加载到全文检索库中，按顺序，入库逻辑包括如下过程：
1．入库者定义到库中文档的结构，比如需要把网站内容加载到全文检索库，让用户通过“站内检索”搜索到相关的网页内容。入库文档结构与关系型数据库中的表结构类似，每个入库的文档由多个字段构成，假设这里需要入库的网站内容包括如下字段：文章标题、作者、发布时间、原文链接、正文内容（一般作为网页快照）。
2．包含N个字段的文档（DOCUMENT）在真正入库前需要经过切词（或分词）索引，切词的规则由语言分析器（ANALYZER）完成。
3．切分后的“单词”被注册到索引树上，供查询时用，另外也需要也其它不需要索引的内容入库，所有这些是文件操作均由STORAGE完成。
以上就是记录加载流程，索引树是一种比较复杂的数据存储结构，将在后续章节陆续介绍，这里就不赘述了，需要说明的一点是，Lucene的索引树结构非常优秀，是Lucene的一大特色。
接下来将对Lucene的各个子包的结构进行讨论。
3．语言分析包org.apache.lucene.analysis
Analyzer是一个抽象类，司职对文本内容的切分词规则。
切分后返回一个TokenStream，TokenStream中有一个非常重要方法next()，即取到下一个词。简单点说，通过切词规则，把一篇文章从头到尾分成一个个的词，这就是org.apache.lucene.analysis的工作。

Lucene研究之二——系统结构分析初步关于lucene 结构及内层的研究克夫命例之初步研究陈撄宁仙学初步之二——入门静功关于lucene 结构及内层的研究（一）意象之初步现象学分析陈撄宁先生仙学初步之二——入门静功陈撄宁先生仙学初步之二——入门静功a 【建立交易分析系统】之二【金叉、死叉、背离】复印机成像系统结构与原理篇(三)显影装置之二复印机成像系统结构与原理篇(三)显影装置之二0000 新系统也难逃蓝色灾难——Win7系统蓝屏代码全析之二克夫命例之初步研究-Cqchen陈剑命理占卜风水-搜狐博客 Netfilter之连接跟踪实现机制初步分析财务分析之二分析之二 Lucene 全文检索实践(二) 课堂行为分析技术的综述之二：课堂观察系统 [01-17] 建立自己的交易分析系统之二【金叉、死叉、背离,,.. 体适能的初步研究涨停板战法研究（十五）——分时量能结构牡丹结构图片资料之二思考：二买＝波浪理论里的ＡＢ底结构？ - 2买研究和实战 - 缠中说禅学社——中国最好股票... Science：5分钟初步分析你的大脑成熟水平-生物研究- 生物谷