我与“e书库”文献检索服务系统

来源:百度文库 编辑:神马文学网 时间:2024/04/28 18:29:50
    我与“e书库”文献检索服务系统汤勤福
2005-12-16 04:02:25 阅读 1695 次
 我主编的“e书库”文献检索服务系统(下简称“e书库”)于日前正式出版了。在“e书库”软件设计与出版过程中,我先后在四川成都四川大学、黑龙江大学、华东师大及上海师大数次学术会议上,进行了演示,引起了学界朋友的极大兴趣,如美国夏威夷大学的成中英教授、韩国延世大学的金裕哲教授、德国慕尼黑大学的宋馨教授、台湾郑阿财教授,都对此极有兴趣。许多学界熟识的朋友都问我:你一个搞文科研究的,尤其是整天都与古籍打交道的人,怎么也“混入”计算机软件设计行当中去了?回想往事,感慨万千,写下这篇小文,以答学界诸位友人。                一、与计算机结缘  我接触计算机颇早。上世纪九十年代初,我在南开大学历史系在杨翼骧先生门下攻读博士学位,因研究需要,我购买了一台在当时属于相当先进的386计算机,从此与计算机结下了缘份。
到上海工作,计算机是我工作的伙伴,随着科研工作进程的发展,我感到有必要稍微学一点计算机知识,于是就到书店里购买了不少有关书籍,工作、科研之余,我就翻开计算机书籍自学自练,既是学习,又是休息。自然,由于没有老师指导,学习起来颇感困难,许多术语的理解、公式的理解都是反反复复阅读和操练才逐渐有了一点了解。
  记得当时从最简单的学起,如dos系统入门、操作软件如wps、中文之星以及到后来的windows都进行过学习。当时为了自己修理计算机,还购买了诸如《实用电脑技巧大全》、《电脑实用操作技术大全》等书籍,一边学习,一边实践。因此,当时我在上海师大古籍所还算一个“电脑通”,同事朋友电脑出了问题,大多叫我帮助修理。在实践中,我确实积累了一些知识与技巧。
后来,我又自学了pascal、C语言等程序设计,设计过一些小程序,为自己科研使用。
总之,与计算机结缘的十余年,使我了解了除自己学问之外是山外有山、天外有天。学问之道无穷尽也。                二、设计“e书库”的缘起与过程  2003年初,原来我在江西工作单位的一些学生来找我,他们到上海来“闯世界”了,创立了“上海通仁信息科技有限公司”,计划在软件工程方面做些事。我了解他们,这批学生中有学理工科的,有学文科的,后来都转到了计算机方面,闯荡多年,积累了一些资金,也拥有了比较精湛的计算机技术(不少人竟然成了计算机硕士)。当然,我也没有“权力”给他们几个项目做,难以给予他们什么帮助。
其实,早在九十年代中后期,我就接触到一些中文数据库软件,虽然这些软件对我学术研究有过不少帮助,但感到这些软件功能实在太简单了,无法适应文科研究的真正需要。计算机技术的飞速发展,应该对文科研究起重大的革命性影响,但事实上就目前来说仍是远远不够的。
  鉴于此,我十分婉转地告诉他们,如果他们能为文科研究作点贡献,设计一套对广大学者都有价值的软件,那么学术界会永远记住他们的。同时,我把我对数据库软件的看法与对新一代软件功能的设想对他们说了,他们答应研究一下。坦率说,当时我对他们信心不足,因为我提出的许多功能确实是当时所有数据库软件所没有的,要独立开发谈何容易!再加上开发时间长、资金量大,他们能承受吗?
不久,他们又来找我,说数据库功能的技术问题,理论上可以解决,他们也愿意从事开发,并聘请我担任学术顾问与主编。这样,我就把自己“陷进”了这个“泥坑”中去了,谁知一进就是三年。
  设计过程三年,是极其艰苦的三年。我从事文科研究,坦率说只是看书、摘资料、写文章,根本没有任何软件设计的体验。其实,软件设计比起我从事的所熟悉的有关研究来,确实难度要大得多。一项功能从最初设想到完成,要经过许多道工序,要反复测试(并与其它功能兼容,不可冲突)。记得当时我最初考虑的搜索功能是最为先进的“模糊搜索”方式,设计完成之后,我对此功能进行了测试,感觉不错。但过了若干天后,我突发奇想,“模糊搜索”一般采用三种方式,即是、或、非三类选择,但它与古籍数据库的建设及学者们研究的需要不完全吻合。因为在古籍整理过程中,学者标点是不一样的,而且在输入数据库时,还可能会产生一些误差,再加以有标点和无标点的区别,那么“模糊搜索”不能解决这个极为重要的问题。于是我提出能不能采用“忽视搜索”(这是我“创造”的术语),即无论两个字中间有什么符号,都有搜索出结果来。这个技术在当时根本没有人尝试设计过。我提出后,设计人员与我反复协商,共同研究,最终将这一极其有用的功能设计出来了。
  又如,设计一个个性化的数据库问题,也是随着设计进程而逐渐明确的。原来打算设计一个数据库,只是功能强大一些,数据内容则是“前定”(即预先导入进去)的,但随着“e书库”设计日益精细,我突然想到,为什么不给用户一个自由创造的天地呢?如果让一个学者建立自己个性化的数据库,不是对他们研究更有价值吗?于是,我又与他们商量,能否改变数据库形式。话是好说,但操作起来难度极大,因为这意味着过去相当长的一段时间中,许多设计工作都白做了,要重起炉灶。确实,我理解当时通仁公司的处境,他们拒绝我是有理由的。但是,我与他们商量多次,反复阐述我的观点:数据库软件真正与学者结合,只有走“个性化”道路,因为即使数据库越搞越大,内容越来越多,但作为一个研究者,真正需要的数据库内容并不是无限的,而是有限的。因此,建立一个研究者需要的个性化的数据库的价值极大,而且是目前数据库软件设计者们所没有想到的事,是“世界第一”。或许是我的“执着”感动了他们,他们最终同意改变软件设计。改变设计意味着重新全盘考虑设计思想、设计路线与功能,意味着更大的资金投入!但是从现在说来,这一改变确实是极为正确的,因为它把住了学者们研究所需要的“脉”。
  又如“关联词组”问题,《四库全书》软件有这个功能,但坦率说,该软件的关联功能混淆了异体字、繁简字与错别字的关系,是个错误的设计。于是我自己重加分类,一个个地找字词,终于设计成目前的“关联”功能。当然,这个“关联”功能还有补充修订的必要,但比起其它软件同类功能,确实要准确得多。
  上面仅是举了几个小例子,说明设计工作的“艰难困苦”,其实比起三年中那些日子,仅是一点浪花而已。我现在十分理解搞计算机软件设计者的话:下辈子再也不从事软件开发了!不过,现在“e书库”已经出版了,已经使用了该软件的学者反映相当好,如中国社会科学院的陈启能先生、上海师大的方广锠先生、台湾南华大学的郑阿财先生等等,使用后都十分赞赏这一软件,这已是对我最大的回报!当然,我们也不能忘记上海通仁计算机信息有限公司的这批为学界做出贡献的同仁,是他们为软件程序设计化费了近千个日日夜夜!              三、“e书库”使用中应该注意的几个问题  “e书库”是个崭新的软件,由于对该软件不熟悉,一些学者使用后遇到一些问题,在此作一答复。
  关于数据导入问题。在安装数据库后,可以按自己需要不断导入文本。导入前可在编辑器的“工具-数据库管理工具-文献编目管理”中自行建立一些子目录,以备以后导入使用。目录名称可以根据自己研究需要取名。然后打开文件(格式可以是txt或rtf、doc文本),导入书籍要设置“自动分析选项”,因为每本书籍结构可能存在着不同。因此设置前,应该对文本的结构有所了解,如一般古籍是按“卷一”到“卷×”为止,那么在“大纲格式”中第一级标题“起始标记”中设置“卷”字,“级别标记”中设置“自定义级别标记”,其它都不用设置,因为后面“级别关键字”有“*”,代表任意数字或文字。如“卷第一”到“卷第×”,那么设置“卷第”,后面也不必设置。因为系统会自动确认卷一之后的任意卷。如果是数字,而且超过“10”,那么就应该从“1”开始一直设置到“9”,后面不必设置,因为已经有了“*”,系统会自动确认1-9的所有标题。即11-19,一直到90-99,再到任意大,只要是段落起始是数字者,它都会自动设置成这一级标题。当然,在数字后面有“、”“•”(圆点)、“•”(下点)或其它记号,也可以把它与数字结合起来,这样分析更为准确。如果连续导入的文本级标题相同,那么在设置第一个文本时,在“自动分析选项”的“常规”中,选“保存当前设置为全局设置”,那么就不必再设置第二个文本的选项了。
  至于其它标题,如“第一章”、“第一辑”、“第一节”之类,可以在“起始标记”中设置“第”,在“结束标记”中设置“章”(辑、节),在“级别标记”中设置“一”(要区别大小写),左边方框中会出现“第一章”之类字样,即后面“第二章”起到任意“章”,都会自动分析出来。
如果文本除第一级标题外,还有若干级标题,那么也应该抓住关键字、词来设置,这样就可以逐级分析出准确的级别了。当然,分析后,最好再看一下左边分析的结构对不对,点击某一结构,它会出现以下一级结构,可以作些调整、删除或修改,使文本结构更为准确。这样导入进去的文本,在阅读时就会十分准确。系统允许各种记号可以作为各级标题,如“▲、△、▼、▽、◆、◇、○、◎、●、★、☆、§”等等,都可以作为级别的起始标记或结束标记。但一般用在起始标记为好。
  值得指出的是,系统分析是默认段首起始字词或任意记号,即只要某一段正文内容的起始与设置的标记一样,系统就会分析成相同的标题层次,因此,用户应该在分析完毕后查一下分析结果是否有误,以便导入的内容更为准确。
  导入外文(英日韩等国外文字或中外文混合),与中文一样,没有任何区别。不过也必须分清级别标记,否则导入后的级别标记会混乱。
  另外,关于导入数据保存问题。一般说来,数据库文本最好有个备份文件,即将“Data”文件夹中的两个文件拷贝到其它地方保存,以防误删或发生病毒时重新安装。因为“e书库”在关闭数据库(路径:开始-所有文件-通仁软件-关闭e书库后台数据)前,数据库“Data”文件夹中的数据是不能删除,也不能复盖或拷贝的,而在关闭数据库后允许拷贝(复盖或删除)数据库文件,这样就可以有效地保存导入进去的数据库了。值得注意的是,如果删除数据库,就会把数据库数据一起删除,因而也有必要事先备份“Data”中的数据。
  如果发现文本某一卷出现问题,没有必要把一本书都删除,然后再行导入。因为系统设置了“卷”导入的方式。即可以将某一出错的“卷”删除,再把正确的该卷重新导入,只是在分析前,设置成“分析为卷”,在分析完成后,确定导入“选择目标”时,要选“保存为卷”,确定后,再打开“工具-数据库管理工具-文献编目管理”,找到该书,新导入的“卷”在最后面,若需调整,则可点到该卷,再点上面的“属性”,在出现的对话框中选择“设置序号”,然后调整到所需要的位置,点击“应用”就可以了。
  在“工具-数据库管理工具-作者信息管理”中可以输入有关作者的生平事迹、生卒年月等内容,实际是做了一张张卡片,只要需要,都可以直接查询或拷贝,减少翻书查阅的麻烦。
  在阅读器中,软件并未设置拷贝字数限制,因此,只要是当前卷、章,都可以一次拷贝下来,最大限制在6万字(因为导入数据库时,每卷、章最大字数限制是6万字。若超过6万字,应该设法分开)。应该说数量是极大的,一般说来没有必要全部拷贝,除非用户想恢复文本原貌移作它用!
  系统的搜索功能十分强大,它允许用户选择最小搜索单位是“卷”,只要打开“针对指定类型的内容-限定篇目”,出现的对话框中可任意选定类、书、卷乃至注释、用户批注或卡片,用户可根据需要确定。“摘录匹配串附近文字”,是允许用户自行决定搜索结果(乃至做卡片)的字数。字数越多,当然搜索就会慢一些,但该系统搜索仍是十分快的(第一次搜索稍慢一些,因为它要调入所搜索的所有内容)。
  在“模糊搜索”中,符号选择应该是半角的“*”、“|”、“-”,不应该是全角。否则就不能进行正确的搜索。系统在搜索某一字词时,忽视字词的繁简,即无论输入繁体或简体字词,都可以准确搜索出来相同的内容。“忽视搜索”则不论两个字中有多少符号,都忽略不计。
  在阅读过程中,肯定会发现某些文本的错误,用户可以直接在数据库中加以修订。打开“笔记-修订正文(修订注释)”,即可用工具条上的“剪切”,也可以按“Delete”键,数据库文本会出现红色删除线,用户可以在后面导入正确的文字。“保存”后即可固定修订内容。一般说来,对文本错误不必一发现就马上删除某卷,再行导入。因为没有必要这样做,完全可以等一段时间积累较多后再一次性修改。修改时,可把这卷内容拷贝出来,在word文本中修订干净,再次导入,就可得到正确的某卷内容了。
  在卡片功能中,我建议用户更多地建立子目录(均可自行命名),把卡片分开存入各个子目录中,用这样的管理方式,可以提高研究效率。卡片应该经常调整位置,使它分类更为准确,这样使用起来就方便了。卡片做完后,系统设置了直接返回到原文的功能。即用户感到有必要逐条检查的话,可点击卡片中的每条“打开”(点击上面的“打开”是返回某一卷,点击下面的“打开”是回到原文之内),就会自动返回到原文中,这样用户就可以按自己需要摘录文字了。所摘录的文字还可以拷贝到卡片中该条之内,以保证该卡片资料的前后完整。
  在卡片功能中,与导入一样,它是以6万字为最大限度,因此,万一超过规定(也就是说搜索某一词、字的条目数量超过数百个,那么可以分别做成几个卡片。当然搜索出来的卡片数量太大,实际上说明这个词汇作标准是不妥当的。应该选择更为准确的字词当搜索标准(或采用模糊搜索方式)。另外,也应该在“选项”功能中设置一下“返回结果包括匹配项最大个数”,系统默认是2万项,其实这样大的数是没有用的,应该根据自己的经验设置成比较小的个数,如5千、1千之类,因为搜索结果太大,说明搜索的标准太宽,因此搜索的结果就可能没有太高的价值。
  我建议用户使用“选项-自动保持上次阅读场景”的功能,因为这样可以省去再次开机查询上次阅读地方的麻烦。如果打开内容过多,可以双击关闭一些内容。当然,如果用户使用“书签”功能,也是能十分方便地找到自己想阅读的地方。
  上面所说的一些注意事项,只是目前使用者反馈回来的一些信息,在此作答,以使学界友人们更好地使用“e书库”。倘若今后还有问题,自然可以与我交流,也可以进入“上海通仁信息科技有限公司”的官方网站的“e书库论坛”中返回使用信息,他们也会马上回答用户的疑难的。顺便告诉大家,我已经做了编辑器与阅读器使用的录像,上海通仁信息科技有限公司的官方网站上可以下载,下载后解压,只要双击该录像图标,就可演示,十分直观。
  上海通仁信息科技有限公司的官方网站地址是:
http://www.toneyinfo.com我的E-mail地址是:tqfuxx@online.sh.cn我希望学界友人们提出自己的一些建议或看法,因为现在已经着手做第二版了,争取设计出更为强大的功能,让学者们使用得更为方便一些。