桌面搜索软件的PDF全文检索性能-月亮实验室

来源:百度文库 编辑:神马文学网 时间:2024/03/29 19:32:09

桌面搜索软件的PDF全文检索性能

放牛娃,2009年2月24日

   由于我电脑里有几千份pdf文献和电子书,所以总想着通过最省事的方法快速找到自己需要的文件。但是文件数量太大,即使分类再好,在如此海量的文件中一篇所需的文献比大海捞针还难。可自从有了桌面搜索(DesktopSearch)以来,放牛娃才被从文件的海洋中解放出来。为了找到最适合自己桌面搜索引擎,我亲自尝试过了很多主流桌面搜索引擎,比如Googledesktop,百度硬盘搜索,Windows search以及Copernic desktopsearch。还尝试了一些非主流的搜索工具,比如Minidx文件管理系统以及Windows自带的索引服务。经过长时间的试用和比较,有了以下一些体会。

   我对桌面搜索的需求很简单,即能快速准确的对pdf文件进行全文搜索。比较发现各个桌面搜索软件对英文pdf文件的搜索均表现良好。但是对于中文pdf文件Google desktop仍然会出现乱码的情况,Copernic desktopsearch索引中中文pdf几乎全是乱码,而百度硬盘搜索和基于foxit pdf ifilter的桌面搜索对中文pdf完美支持。

表中是各个桌面搜索引擎的性能指标。

 

Google desktop 5.8

百度硬盘搜索2.7

Windows search 4.0

Copernic desktop search

Minidx 文件管理系统

Windows索引服务

内存消耗

约15M

约15M

约40M

约40M

5M

5M

索引速度

★★★

★★★★

★★★★★

★★★★

★★

★★★★

检索速度

★★★★

★★★★★

★★★

★★

★★

★★★★

全文搜索

前10000个分词

前5000个分词

全文(foxit pdf ifilter)

全文(可设置搜索深度)

全文搜索(foxit pdf ifilter)

全文搜索 (foxit pdf ifilter

预览

有预览(快)

快照(最快)

预 览(速度慢)

加亮预览(快速)

加亮预览(较慢)

中文pdf 文件

支持(偶尔有乱码)

非常好

非常好

乱码

非常好

非常好

综合评价

★★★★

★★★★★

★★★

★★★

★★★

★★★★

   可以看出,各个桌面搜索引擎各有优劣,选择谁,关键在于你的需求。或者可以通过一些方法打造一个自己喜欢的山寨桌面搜索引擎。

   如果硬盘中主要是英文pdf文件,而且电脑有1G以上的内存,那么Copernic desktopsearch是最好的选择,尤其对于几百页的英文电子书更是适用。Copernic desktopsearch最大优点是可以设置搜索深度,这样就可以实现真正的全文搜索引擎,而且其在预览中加亮关键词,而且保持pdf原文件的格式,看起来很舒服。缺点是消耗系统资源太多,不支持中文。如果喜欢Copernic desktopsearch风格索引,但是又想搜索管理中文pdf文件,那该怎么办呢?我推荐使用Minidx文件管理系统,其功能类似FoxitLibrary,但是它基于微软iFilter抽取文本,因此和Windows search类似,如果需要检索pdf文件,首先需要安装pdfifilter,推荐foxit pdfifilter。Minidx的优点在于不仅可以进行全文搜索,而且可以建立书架,对资料进行管理。因为采用foxit pdfifilter所以对于中英文均能完美支持。但是当pdf文件很大的时候,搜索速度比较慢。

   如果硬盘中英文文献均比较多,而且文件不大,那么百度硬盘搜索是最好选择。百度硬盘搜索速度快,占用内存小,中英文完美支持,其快照功能也特招人喜欢。除了不能设置搜索深度外,几乎没有缺点,是所比较桌面搜索中的佼佼者,可惜百度现在似乎不重视这个产品了,已经快两年没有更新了。

   在所有桌面搜索软件中,Windows search 4.0的索引速度非常快,是最快的,这可能得益于foxit pdfifilter。因为过去采用adobe pdf ifilter 读取pdf文件。Foxit pdfifilter抽取pdf文件的速度是adobe的5倍多。同时Windows search 4.0 因为采用Foxit pdfifilter,所以对中文的支持和百度一样出色。缺点是系统消耗太大。不过我们可以用Windows索引服务来替代Windows search。

   如果不想安装什么软件,又想快速的对硬盘中pdf文件进行全文检索和管理,有没有办法呢?当然有了!以 WindowsXP为例,将系统自带的搜索功能稍加改造即可。
具体步骤是:
    1.下载安装foxit pdfifilter作为pdf全文搜索的过滤器,它的优点是读取pdf准确,而且速度极高,几乎不占系统资源,微软已经正式采用foxit pdfifilter了,其能力可见一斑。
    2.在“安装/删除Windows组件”中安装索引服务。然后按照以下方法设置:
   (1)“我的电脑”—右键—“管理”—…“索引服务”—新建编目(为了存放索引文件,最好选择一个固定盘,例如:如果pdf文件主要存放在D盘,那么将编目选在E盘一个目录中,而且E盘不让索引。这样做可以避免循环更新索引,也可以减少磁盘的读取)
   (2)新建目录(所要索引的数据文件夹或者盘符);
    (3)设置搜索选项:“索引服务”—右键—“属性”—选择“生成摘要”;“索引服务”—右键—“属性”—选择“所有任务”—“调整性能(可以根据实际情况进行选择,以我个人为例,我搜索的频率比较高,因此我将索引速度选择最低,而将查询速率选择最高,这样索引过程可以不影响搜索。)”。
这样等待索引完成后,即可随时检索pdf全文检索了。速度奇快,和Windowssearch相差无几,但仅仅占用约5M左右的系统内存。

    对于Google desktop5.8,整体性能还算优异,5.8版本算是Google桌面搜索的一次蜕变,系统消耗明显降低,预览功能也是非常实用,美中不足是对于中文pdf的支持仍然有些问题。
如果特中意Google desktop,那么我想了一个办法可以让解决其中文pdf乱码问题,那就是用foxit pdfifilter来替换Google自己的pdf读取器,方法是先安装Googledesktop,然后删除其安装目录下的pdftodoc那个文件;再下载IFiltershop 开发的Google desktopPlugin(IFiltershopGdsPlugin_Beta.exe), IFiltershopGdsPlugin的作用是可以让Googledesktop采用微软的ifilter来抽取文件。再安装IFiltershopGdsPlugin时,会提醒填写需要用ifilter抽取的文件后缀,只要填写“pdf”即可。这样Googledesktop就可以快速的索引中英文pdf文件了。(如果无法下载到IFiltershopGdsPlugin_Beta.exe可以在moonlab.net中留言索取)
   综合比较,百度硬盘搜索全面,适应范围广,适合常驻电脑中。为了管理文件方便,可以开启window索引服务,或者采用Minidx文件管理系统。2010年1月17日更新,最新版Google desktop5.9已经发布了,经过我详细测试,发现新版本进一步减少了内存,同时可以锁定搜索,更好的保护隐私。最重要的是极大的改善了对pdf文件的索引,出现乱码的几率非常小了。不特别声明时,本站所有文章均为原创文章,转载请注:转自月亮实验