桌面搜索软件的PDF全文检索性能-月亮实验室
来源:百度文库 编辑:神马文学网 时间:2024/03/29 19:32:09
桌面搜索软件的PDF全文检索性能
放牛娃,2009年2月24日
由于我电脑里有几千份pdf文献和电子书,所以总想着通过最省事的方法快速找到自己需要的文件。但是文件数量太大,即使分类再好,在如此海量的文件中一篇所需的文献比大海捞针还难。可自从有了桌面搜索(DesktopSearch)以来,放牛娃才被从文件的海洋中解放出来。为了找到最适合自己桌面搜索引擎,我亲自尝试过了很多主流桌面搜索引擎,比如Googledesktop,百度硬盘搜索,Windows search以及Copernic desktopsearch。还尝试了一些非主流的搜索工具,比如Minidx文件管理系统以及Windows自带的索引服务。经过长时间的试用和比较,有了以下一些体会。
我对桌面搜索的需求很简单,即能快速准确的对pdf文件进行全文搜索。比较发现各个桌面搜索软件对英文pdf文件的搜索均表现良好。但是对于中文pdf文件Google desktop仍然会出现乱码的情况,Copernic desktopsearch索引中中文pdf几乎全是乱码,而百度硬盘搜索和基于foxit pdf ifilter的桌面搜索对中文pdf完美支持。
表中是各个桌面搜索引擎的性能指标。
Google desktop 5.8
百度硬盘搜索2.7
Windows search 4.0
Copernic desktop search
Minidx 文件管理系统
Windows索引服务
内存消耗
约15M
约15M
约40M
约40M
5M
5M
索引速度
★★★
★★★★
★★★★★
★★★★
★★
★★★★
检索速度
★★★★
★★★★★
★★★
★★
★★
★★★★
全文搜索
前10000个分词
前5000个分词
全文(foxit pdf ifilter)
全文(可设置搜索深度)
全文搜索(foxit pdf ifilter)
全文搜索 (foxit pdf ifilter
预览
有预览(快)
快照(最快)
预 览(速度慢)
加亮预览(快速)
加亮预览(较慢)
无
中文pdf 文件
支持(偶尔有乱码)
非常好
非常好
乱码
非常好
非常好
综合评价
★★★★
★★★★★
★★★
★★★
★★★
★★★★
可以看出,各个桌面搜索引擎各有优劣,选择谁,关键在于你的需求。或者可以通过一些方法打造一个自己喜欢的山寨桌面搜索引擎。
如果硬盘中主要是英文pdf文件,而且电脑有1G以上的内存,那么Copernic desktopsearch是最好的选择,尤其对于几百页的英文电子书更是适用。Copernic desktopsearch最大优点是可以设置搜索深度,这样就可以实现真正的全文搜索引擎,而且其在预览中加亮关键词,而且保持pdf原文件的格式,看起来很舒服。缺点是消耗系统资源太多,不支持中文。如果喜欢Copernic desktopsearch风格索引,但是又想搜索管理中文pdf文件,那该怎么办呢?我推荐使用Minidx文件管理系统,其功能类似FoxitLibrary,但是它基于微软iFilter抽取文本,因此和Windows search类似,如果需要检索pdf文件,首先需要安装pdfifilter,推荐foxit pdfifilter。Minidx的优点在于不仅可以进行全文搜索,而且可以建立书架,对资料进行管理。因为采用foxit pdfifilter所以对于中英文均能完美支持。但是当pdf文件很大的时候,搜索速度比较慢。
如果硬盘中英文文献均比较多,而且文件不大,那么百度硬盘搜索是最好选择。百度硬盘搜索速度快,占用内存小,中英文完美支持,其快照功能也特招人喜欢。除了不能设置搜索深度外,几乎没有缺点,是所比较桌面搜索中的佼佼者,可惜百度现在似乎不重视这个产品了,已经快两年没有更新了。
如果不想安装什么软件,又想快速的对硬盘中pdf文件进行全文检索和管理,有没有办法呢?当然有了!以 WindowsXP为例,将系统自带的搜索功能稍加改造即可。
具体步骤是:
1.下载安装foxit pdfifilter作为pdf全文搜索的过滤器,它的优点是读取pdf准确,而且速度极高,几乎不占系统资源,微软已经正式采用foxit pdfifilter了,其能力可见一斑。
2.在“安装/删除Windows组件”中安装索引服务。然后按照以下方法设置:
(1)“我的电脑”—右键—“管理”—…“索引服务”—新建编目(为了存放索引文件,最好选择一个固定盘,例如:如果pdf文件主要存放在D盘,那么将编目选在E盘一个目录中,而且E盘不让索引。这样做可以避免循环更新索引,也可以减少磁盘的读取)
(2)新建目录(所要索引的数据文件夹或者盘符);
(3)设置搜索选项:“索引服务”—右键—“属性”—选择“生成摘要”;“索引服务”—右键—“属性”—选择“所有任务”—“调整性能(可以根据实际情况进行选择,以我个人为例,我搜索的频率比较高,因此我将索引速度选择最低,而将查询速率选择最高,这样索引过程可以不影响搜索。)”。
这样等待索引完成后,即可随时检索pdf全文检索了。速度奇快,和Windowssearch相差无几,但仅仅占用约5M左右的系统内存。
对于Google desktop5.8,整体性能还算优异,5.8版本算是Google桌面搜索的一次蜕变,系统消耗明显降低,预览功能也是非常实用,美中不足是对于中文pdf的支持仍然有些问题。
如果特中意Google desktop,那么我想了一个办法可以让解决其中文pdf乱码问题,那就是用foxit pdfifilter来替换Google自己的pdf读取器,方法是先安装Googledesktop,然后删除其安装目录下的pdftodoc那个文件;再下载IFiltershop 开发的Google desktopPlugin(IFiltershopGdsPlugin_Beta.exe), IFiltershopGdsPlugin的作用是可以让Googledesktop采用微软的ifilter来抽取文件。再安装IFiltershopGdsPlugin时,会提醒填写需要用ifilter抽取的文件后缀,只要填写“pdf”即可。这样Googledesktop就可以快速的索引中英文pdf文件了。(如果无法下载到IFiltershopGdsPlugin_Beta.exe可以在moonlab.net中留言索取)
综合比较,百度硬盘搜索全面,适应范围广,适合常驻电脑中。为了管理文件方便,可以开启window索引服务,或者采用Minidx文件管理系统。2010年1月17日更新,最新版Google desktop5.9已经发布了,经过我详细测试,发现新版本进一步减少了内存,同时可以锁定搜索,更好的保护隐私。最重要的是极大的改善了对pdf文件的索引,出现乱码的几率非常小了。不特别声明时,本站所有文章均为原创文章,转载请注:转自月亮实验