请问哪里有关于 全文检索算法的资料,谢谢

来源:百度文库 编辑:神马文学网 时间:2024/04/29 05:19:52
CSDN -技术社区 -
主  题:请问哪里有关于 全文检索算法的资料,谢谢
作  者:csdn3ks (3ks)
信 誉 值:100
所属论坛:专题开发 数据结构与算法
问题点数:20
回复次数:16
发表时间:2002-02-21 16:13:00Z
请问哪里有关于 全文检索算法的资料,谢谢
回复人: DaNiao(鸿雁) ( ) 信誉:96 2002-02-21 17:30:12Z 得分:5
什么叫全文检索?KMP行吗?
Top
回复人: goldcattle(海边的云) ( ) 信誉:98 2002-02-22 21:41:54Z 得分:2
http://engineering.dartmouth.edu/~fangq/MATH/mindex.htm看看这个网站上有你想要的吗?
Top
回复人: benci26(本茨) ( ) 信誉:100 2002-02-28 10:19:21Z 得分:1
非常关注
Top
回复人: jiangtao(蒋涛) ( ) 信誉:100 2002-03-01 13:05:25Z 得分:1
中文资料很少,英文的到有一些
Top
回复人: anamnesis(化神奇为腐朽) ( ) 信誉:100 2002-03-04 11:31:38Z 得分:11
正在做相似的东西其实核心还是要先做分词下面的是和水木的几个网友讨论的结果其分词表是有限的其实还有种不要分词表的分词法query效率比较低匹配度也比较差搜索引擎目标:其基本目的是对数据库内的论文进行检索,论文有中英两种文字,主要为图像处理数字信号处理,图形学。提供 标题,作者(包括缩写),杂志,时间,摘要,全文,主题词检索概要设计:搜索引擎部分:首先对用户输入作分词使其粒度比库内文章的某些检索条件的粒度小不做分词有很多问题比如用户query “图像处理系统”则含有“图像系统”或“处理系统”或“图像处理”的就无法找到会使搜索引擎基本没有使用价值分词算法设计:1 英文无分词表的通用分词法因为英文虚词数目有限,约200个左右而且每个单词是个独立语义单位只有词组情况下才和其它词共同构成语义单位而论文中这种情况很少出现由于基本各词以空格分开则去除虚词,可得分完的词序列2 中英文带分词表的分词法分词表的词汇应该按层次分组,先匹配尽可能完整的词,如“太平间”,如果匹配不上,再用它的子词汇,这样就避免了“华人”在“中华人民共和国”里面。但是“纸里面包不住火”中含“里面”和“面包”就无法区分,应该予以容忍,或建立一成语词典、歇后语词典,把这这个词包含进去。但是方案越完整,代价就越高。由于是内部使用建议平衡一下。特别是做全文检索时分词表的来源: 专业词库,论文本身的信息然后向database query
Top
回复人: kya_2001(随遇而安) ( ) 信誉:100 2002-03-12 15:24:26Z 得分:0
谢谢
Top
该问题已经结贴 ,得分记录: DaNiao (5)、 goldcattle (2)、 benci26 (1)、 jiangtao (1)、 anamnesis (11)、