数字化图书馆与非结构化数据库-中关村在线11

来源:百度文库 编辑:神马文学网 时间:2024/04/28 19:38:24
数字化图书馆与非结构化数据
类型:转载 作者: 日期:2001-08-13 15:41:31



一、数字化图书馆与非结构化数据
"数字化图书馆"英文为"Digital Library",简称"DL",它与电子图书馆(Electronic Library,简称EL)、虚拟图书馆(Virtual Library,简称VL)的含义大同小异,一般指用二进制编码的数字方式存贮处理文献内容,应用计算机、通讯和多媒体技术,提供电子网络检索和服务的信息系统。
作为图书馆发展的方向,数字图书馆以统一的标准和规范为基础,以数字化的各种信息为底层,以分布式海量资源库群为支撑,以智能检索技术为手段,以电子商务为管理方式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息传递到千家万户,给图书馆的发展带来全新的变革。同时,由于数字化图书馆应用了一系列数字处理技术和网络技术,其存贮对象、处理手段、检索手段、传播形态、服务方式及管理模式都与传统图书馆迥然不同。
与传统图书馆的馆藏拥有大量的传统的文本信息(图书、报刊、政府文献、会议论文、专利文献、学位论文、技术报告等)资料最大不同的是,数字图书馆所存贮的信息是可供计算机处理的数字信息,另一方面,对这些数字化信息资源进行的存储,是采用具有海量信息存贮技术的数据库对文献资源进行集中和分布存储,其存储内容不仅丰富,而且不再局限于目录、文摘等,还能达到全文、声像等多媒体信息。
对于以传统印刷型文献资料为主体的图书馆来说,要构建数字化图书馆,实现网络信息资源共享,展现图书馆数字化的馆藏特色魅力,必须组建数字化的信息资源库,必须实现信息的全文检索。没有数据库管理系统,无法建立完整的信息资源库,而没有信息资料的全文检索,数字化信息就无法充分发挥其数字化的威力和作用。因此,具有全文检索的数据库是把数字化图书馆引上互联网络的推进器,是互联网上开启数字化图书馆的一把金钥匙。
由于关系数据库底层设计的问题,严格的表格结构使关系数据库对数据类型的处理只局限于数字、字符等,而对图书馆领域内的大量文献类非结构化数据的处理,由于不支持重复字段、子字段和变长字段,对这些文献数据却只停留在简单的二进制代码文件的存储,特别是不能直接实现全文检索,显然不适合图书馆用户从简单的存储上升为识别、检索和深入加工的需要,因此,一种新的数据库管理系统应运而生,这就是北京国信贝斯软件有限公司开发的非结构化数据库数据库管理系统。
所谓非结构化数据库,是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。它从数据模型入手,采用子字段、多值字段以及变长字段的机制,允许创建许多不同类型的非结构化或者说任意格式的字段,从而突破了关系数据库严格的表结构,解决了关系数据库模型过于简单、不便表达复杂嵌套的问题;在其底层存储机制的变革基础上,采用先进的倒排档索引技术,从而实现了对于海量文献信息的快速全文检索的功能,并同时支持多种字段限定检索。对于多媒体信息的存储和管理,非结构化数据库系统采用外部文件方式,摈弃了传统关系型数据库采用二进制字段存储的方式,实现了对于图形、声音等多媒体信息的高效管理
正是由于非结构化数据库支持子字段、重复字段和变长字段,具有高效处理图书馆领域内数据的能力,加之内嵌全文检索引擎,支持对声音、图象等多媒体数据存储处理,使非结构化数据库成为众多图书馆进行数字化建设的首选系统。特别是非结构化数据库内嵌全文检索引擎,避免了图书馆使用关系数据库进行资源建设后,在提供全文检索服务时需要再选购一套全文检索系统的双重投资问题,从而得到许多图书馆的青睐。

二、非结构化数据库在图书馆资源建设中的意义

数字化图书馆就是具有多种媒体的丰富的数字化信息,具有网络环境下多种电子技术工具和服务手段,能为读者高效方便地提供数字化信息服务的机构。图书馆的数字化建设即要重视图书馆的网络化建设(硬件建设),同时也要重视信息处理能力建设(软件建设)和信息资源的建设(数据库建设)。而图书馆的资源数字化必须满足下列要求:信息管理的数字化和自动化;信息服务的网络化和多样化;信息内容的广泛性和丰富性,如各种多媒体信息;信息存储和用户访问的快捷化和跨时空性。
由于非结构化数据库在存储机制和索引机制上的变革,使得该数据库管理系统从技术方面满足了图书馆在信息资源建设中要求,具体表现在:
在数据库结构定义上,非结构化数据库系统解决了变长字段和重复字段的定义问题,实现了对于变长字段、重复字段和子字段的定义、存储和管理,并且记录的数目、长度,字段数目与长度以及字段可重复次数均可不受限制,允许数据项具有多值性和可包含子字段,充分满足了图书馆建立文献数据库的特殊管理要求。
在数据著录格式方面,非结构化数据库不仅支持国际标准(ISO-2709,MARC,CCF)和国内标准(CCFC)格式,而且支持最新的SGML和XML格式,具有可扩展性,可以与其他元数据单元(项目)连接使用,不仅适合中文全文检索系统平台的应用,同时也符合国际数字图书馆标准化的发展趋势,便于与国际交流与接轨,这对于图书馆数据库标准化和数据交换与共享,起着极其重要的作用。
在数据处理对象上,非结构化数据库采用面向对象技术,不仅可以处理TXT文本、DOC、EXCEL、PPT、PDF、S2、PS2等流行的文件类型数据,而且可对图象、音频、视频、计算机程序以及网址资源进行编目和数字化处理,复盖了图书馆领域内几乎所有的文献数据类型。同时,非结构化数据库支持外挂文件的全文检索,其独特的外部文件支持能力使图书馆能轻松实现二次文献挂接全文的功能。
在信息检索查询方面,非结构化数据库内嵌全文检索引擎,采用倒排档索引技术,不仅能够对整个字段进行查询,而且可以提供子字段、关键词、自由词、标引词、位置词和全文任意词的单项及组配检索。在自然语言处理技术和人工智能技术的支持下,非结构化数据库不仅检索功能强大,而且速度也非常快,一般不受文献量(上千万条记录)的影响,满足图书馆海量数据检索的需要。


在信息查全率和查准率方面,非结构化数据库采用自然语言处理和人工智能技术,提供基于内容的检索和ANY词检索方式,并在检索中实现对于特定类目相关词的利用,大大提高了系统的查全率。同时非结构化数据库支持的禁用词,可以过滤掉一些没有检索意义的英文虚词如"I、 TO"等,以提高查准率。
更为重要的是,非结构化数据库提供了后控制词表检索系统。后控制词表系统是提高自然语言全文检索效率,减轻用户负担的有效途径。该系统对于后控制词表采取数据库管理方式,与全文检索的检索式构造相连接。对每一个检索词提供用(UF)、代(USE)、属(BT)、分(NT)、参(RT)等关系词,用户可根据具体检索需求选取关系词,并将之增加到检索表达式中,从而实现检索表达式的优化,提高全文检索的效率,降低用户负担。该后控制词表检索系统的另一个特点是实现了基于网络的词表动态维护。多个用户可通过网络共享词表,根据检索的经验动态的维护词表,进一步进行具体的信息检索。
如何对图书馆海量文献信息资源进行有效地管理和便捷地检索,是困扰了人类几千年的问题,非结构化数据库高效的数据管理能力和和全文检索能力,为这一问题的全面解决提供了较为完满的答卷,同时也使非结构化数据库在图书馆信息检索和文献资料数字化进程中,具有了十分重要的意义。利用非结构化数据库,一方面可以对图书馆庞大的数据进行组织和管理,另一方面是有利于挖掘数字化图书馆自身的巨大信息储量,从而促进信息资源的开发和利用;强化信息交流;节省时间,提高效率;便于继承和借鉴前人的成果,避免重复研究或走弯路;协助管理者做出正确的决策。
三、非结构化数据库在数字图书馆服务中的应用
利用馆藏信息资源,充分发挥信息服务职能是传统图书馆向数字化图书馆发展必然趋势。以前读者利用图书馆,必须到图书馆去,单一、局限的服务方式造成馆藏信息资源的巨大浪费。而数字图书馆利用网络技术和数据库技术,使读者对数字图书馆拥有的信息和网络信息资源的利用,可以直接通过计算机通讯或计算机处理传递获得。"远距离信息服务"将成为数字图书馆最鲜明的服务特征。
结构化数据库不仅有强大的数据处理能力和高效的全文检索能力,同时它直接面向HTTP,将Internet直接集成于系统之中,使之具有WEB数据库的强大功能。利用非结构化数据建立起来的数字图书馆,完全可以在其基础上,轻松的开展各个层次的信息服务,具体包括如下方面:
●信息发布服务
利用非结构化数据库为基础,结合业界流行的ASP、JSP动态网页技术,图书馆可以实现信息资源的动态发布,为读者提供信息发布服务。
l建立以馆藏书目数据库和二、三次专业特色文献数据库为基础的网络联机信息检索服务。非结构化数据库高效的全文检索功能使接入到Internet的任何用户不仅能够检索查询本馆的书目信息,还可通过超级链接检索其他图书馆的资源,实现整个网络信息综合服务体系范围内对信息资源的公共检索。
● 建立在全文文献信息数据库和电子出版物的电子阅览和在线阅读服务。通过对重点馆藏文献信息资源的深层次开发,实现真正意义上的网上文献信息递送与获取,最大限度地方便读者和信息用户。
● 利用E-mail、Newsgroup、BBS和网络预约功能,借助于Internet应用平台,实现馆际互借,并解决图书馆Internet信息服务商之间、图书馆与读者间、读者与读者间的沟通和交流问题。可完成:原始文献信息的采集与交流、读者建议/推荐书刊、宣传馆藏、网上参考咨询服务、解答读者疑难等工作。
● 利用网络推送技术和E-mail,向用户提供定题信息服务。在非结构化数据库基础上,图书馆可以利用iBASE公司其它相关产品,实现用户信息资源定制,并将定制结果通过网络推送技术和E-mail,向用户提供定题信息服务。