Internet网上虚拟图书馆研究

来源:百度文库 编辑:神马文学网 时间:2024/04/29 09:08:49
层次和寻径(Routing).它实际上是由许多大小不等的计算机网互联而成.今天,它已联结美、法、英、德、日、韩、中国等70多个国家和地区,形成了由政府和商业组织资助的异种网络互联的网络体系.它的构成是:通信设施、计算机、信息源和网络管理.它由三个层次的网络组成:第一层,骨干网,由NSFNET担任,跨越美国.第二层,区域网,覆盖一定地区的网.第三层,用户动用网,主要是许多校园网和合伙网.用户就通过这三层网络来动用Internet.    Internet上的资源涉及到人类社会的方方面面,包括自然科学、技术科学、社会科学等各个领域.人们利用方便快捷的通讯手段,可以在家中、办公室获取所需信息,利用网上各种设备.可以说,Internet是解决信息爆炸,使无序信息走向有序的有效途径.
l         科学计算资源 数学、气象等众多科研工作都需要大量的科学计算,需要高速度、高容量的超级计算机.但不可能每所大学、科研机构都装备符合要求的超级计算机.
l         电子图书馆 目前全世界已有近百个国家和地区的6000多个图书馆加入了Internet网,用户通过联机可以免费检索这些电子图书馆的目录,提出借阅要求,图书馆将所需的书寄给读者.网上的书目主要是欧美一些大学校园网中的资源.这些目录索引有菜单式的用户界面,多个检索途径.
l         电子信箱 这类资源主要是为了满足人们交流的需要,人们可以通过电子信箱进行通信,这比邮政通信便捷得多.
l         数据库 Internet拥有大量数据库,包括科学研究、时事评论、社会科学、艺术创作等各式各样的主题.
Internet对图书馆发展的影响
Internet的出现对图书馆的发展产生了深刻的影响,将使“虚拟图书馆”的理想成为现实.“虚拟图书馆”又称“无墙图书馆”、“无纸图书馆”,它实际上是一种基本摒弃了纸质印刷信息体而通过各种网络获得信息的图书馆.在印刷时代,信息是以有形物理的实体传播,如图书、杂志.一经印刷,信息就以不变的固定态流存于世.因此,无论保存还是利用,图书馆一直在矛盾中发展着,一方面希望鼓励利用图书馆,另一方面又怕使用损坏了这一物理实体而加以保护,从而限制了图书馆的使用.电子媒介具有解决这种矛盾的潜力.电子信息的物理形式,至少在理论上,可以在广大的地区传播,同时保证信息存贮的不失真,一些图书馆不必购买印刷本图书,可通过信息网络获得该书,只要加入信息网络,掌握信息检索技术和方法,就可以从电子网络和电子书架上获取信息,这就是所谓的“虚拟图书馆”
WEB站点(WWW). World Wide Web,简称WWW、3W、W3或Web,是Internet上最为热门的应用。任何一台连入Internet、具有自己的IP地址的计算机,只要运行Web服务软件,便可以让Internet上所有的计算机通过浏览器浏览到其提供的文本、图像、声音及动画等信息。
随着互连网的延伸与应用,越来越多的个人或者学术团体将自己研究领域的成果,包括论文和心得等,放在Internet网站上。这和大量的网络数据库、电子期刊等加在一起,形成了庞大的多学科多文种而又异常分散的一次网络文献。而且,随着各国网络信息资源建设的加快,网络文献的增长也日益加速,并且呈爆炸趋势——“网络文献爆炸”已在所难免。而同时,对于科研工作者而言,其信息需求往往又局限与特定的研究范围之内。如何解决网络文献激增造成的积累与利用之间的矛盾,如何帮助用户从巨大的信息网络中迅速而准确地找到所需的特定信息,成为情报学研究的重点问题之一。
大量搜索引擎的出现,在一定程度上缓解了以上矛盾。利用搜索引擎,用户只要在给定的检索框内输入关键词及其组配,或者按照类目结构依次逐一选择,就可以得到适合需求的大量网站链接,即而通过点击这些超级链接而访问相关网站。这从一定程度上避免了用户网络浏览的盲目性,给用户信息搜索带来了方便。然而,在用户所得的检索结果中,往往包含了大量商业、文化娱乐等非学术性站点,用户信息选择依然存在较大难度。这是由于搜索引擎在扩充自己的待检数据库时,将学术性站点与非学术性站点同时囊括进来,因而降低了查准率。
如何更为有效的组织Internet信息? 设计和开发WWW虚拟图书馆是解决方式之一。
2.3虚拟图书馆与数字图书馆的比较
为了更好地阐述虚拟图书馆的概念,有必要对虚拟图书馆和数字图书馆这两个概念加以辨析说明。两者都是外来语,数字图书馆翻译自“digital library”,它是一个与传统图书馆相对应的概念,是伴随着计算机技术在图书馆中的应用而出现的,它的实现原理是利用键盘输入或光学字符识别输入将原有馆藏数字化,以数字化形式存储之后,并在硬件条件具备的情况下,将原有馆藏挂于互连网之上,并通过互连网供远程用户检索、查询和利用(即网络化)。虚拟图书馆则翻译自“virtual library”,它是伴随着Internet的产生而出现的概念,是将某一学科或领域的相关Internet资源的线索汇集之后,以主题树或数据库方式结合超文本链接提供给网页浏览者。两者相比,前者重点在于馆藏信息数字化、网络化;而后者则强调对相关Internet一次网络文献的网罗、搜集与组织。
最近国内的许多学者,往往将虚拟图书馆和数字图书馆等同起来。他们大多是从图书馆视角出发,认为图书馆经过数字化处理和网络化发展之后,由于其服务已经不再局限与物理意义上的馆藏,因而又可称数字图书馆为虚拟图书馆。这种想法从理论上讲有一定道理,但是现在人们在Internet上所见的各种形形色色的虚拟图书馆,实质上仍是指网络信息线索的汇集。
需要指出的是虚拟图书馆和数字图书馆并非各自孤立,二者都是计算机技术高度发展的产物,二者的目的都是为了向用户提供信息服务。图书馆在将馆藏资源数字化之后,紧接着是将馆藏电子文献上网,并专门设立网页,这样网上的数字图书馆资源也成为虚拟图书馆信息搜集对象的一部分。而图书馆员通过访问虚拟图书馆站点,又可以获得某一学科的大量信息,通过下载而充实自己的有机馆藏,从这个角度而言,虚拟图书馆和数字图书馆又是紧密相连的两个概念。
3.虚拟图书馆设计原理
虚拟图书馆是伴随着因特网的产生而出现的概念,其完成的主要功能是将某一学科或领域的相关网络资源的线索汇集之后,以主题树或数据库方式结合超文本链接提供给网页浏览者。因而对于虚拟图书馆设计和开发者而言,要做的工作包括:网络信息搜集和网络信息组织以及网络信息的发布。
(1)网络信息搜集,即对某一学科或领域有关研究机构、实验室、相关电子书籍、电子期刊、会议论坛、及专家学者等的URLs进行全面而完整的搜索。搜索工作可由人工完成;也可通过编制网络自动化搜索及索引软件,将繁琐的人工劳动交由计算机去完成。利用前种方式,链接站点经人工筛选,排误率较高,但效率较低;利用后种方式,可以节约大量搜索时间,但对软件编写提出了较高的要求。
(2)网络信息组织,包括两种方式:主题树方式和数据库方式。所谓主题树组织方式,就是将所有获得的资源按照某种事先确定的概念体系结构,分门别类地加以组织,用户通过浏览的方式逐层加以选择,层层遍历,直到找到所需要的信息线索;所谓数据库组织方式,就是将所有获得的资源按照固定的记录格式存储, 将数据方式和超媒体相结合,既避免了检索语言的复杂性,又在虚拟信息不稳定的情况下,可以对变化的数据记录加以注释或编制新的书目记录,用户通过关键词及其组配查询,就可以找到所需要的信息线索。利用前种方式,要求体系结构不能过于复杂,每一类目下的索引条目也不宜过多;后种方式,对于信息处理更加规范化,但对用户提出了一定的要求,要求用户掌握一定的检索技巧,包括关键词及其组配的选择等。虚拟图书馆建设常采用后者。
(3)网络信息的发布,一般采用WWW信息发布技术。WWW是环球网WorldWideWeb的缩小,是当前Internet上最受欢迎、最为流行、最新的信息检索服务系统。它把Internet上现有资源统统连接起来,使用户能够在Internet上查找已经建立WWW服务器站点(Site)所提供的信息资源。WWW把各种类型的信息(静止图像、文本、声音和影像)天衣无缝地集成起来,并提供图形界面下的快速查找,使用同样的图形用户界面可与Internet上其他服务器对接。WWW为世界提供了查找和共享知识的手段,形成了世界上各种组织机构、科研机关、大专院校、公司厂商甚至个人用于研究开发、共享的知识集合。WWW连接了世界各大图书馆,组成了20世纪最大的信息库。科技工作者通过环球网可以了解科技发展的最新动态,互相交流学术思想,进行广泛的国际合作。
4.虚拟图书馆关键技术
虚拟图书馆的建设涉及多方面的技术,包括元数据、数据库技术、WWW、XML、动态网页开发技术等。
4.1元数据。在虚拟图书馆中,中央数据库中每一个款目都是对某一特定网页的外部特征和内容特征所进行的描述,就象传统图书馆中卡片目录的每一张卡片和机读目录中的每一条记录一样。中央数据库中的这种款目称之为元数据(metadata)。元数据的一般定义是“关于数据的数据”(dataaboutdata)。从这个涵义上讲,传统图书馆中的卡片式目录、书本式目录及图书馆自动化系统中的MARC目录都属于元数据。笔者认为虚拟图书馆的元数据著录项目宜选用DublinCoreElementSet。都柏林核心元素集(DublinCoreElementSet),简称为都柏林核心(DC),是1995年国际组织DublinCoreMetadataInitiative拟定的用于标识电子信息资源的一种简要目录模式。在此之后,国际上又召开五次会议,使“都柏林核心元素集”更趋于完善。由于它简练、易于理解、可扩充及能与其它元数据形式进行桥接等优点,1998年9月,Internet工程专题组(IETF)将其作为一个正式标准予以发布。目前,它由15个数据单元(element)组成,其中内容7个元素:题名(Title)、主题词和关键词(Subject)、内容描述(Description)、资源类型(Type)、来源(Source)、关系(Relation)、范围(Coverage);知识产权4个元素:作者或创造者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限管理(Rights);例示4个元素:日期(Date)、格式(Format)、资源标识(Identifier)、语言(Language)(注:上述括号内为标识)。DublinCore的应用方式有两种,其一是著录数据与著录对象存在于不同的文件中,利用URL等方式联接;其二是著录数据与著录对象同时包含在一个文件中。虚拟图书馆宜采用第一种方式。虚拟图书馆的元数据著录项目宜选用都柏林核心元素集,原因如下:(1)虽然到目前为止,网络信息资源著录的元数据方案有多种,但越来越多的迹象表明都柏林核心元素集已成为一个事实上的标准。它一出现就被北美、欧洲、亚洲和澳洲20多个国家认同,不仅图书馆、博物馆,不少政府机构、商业组织正在或准备采用。中国数字图书馆工程及上海数字图书馆的元数据解决方案也均基于都柏林核心元素集。(2)它比较全面地概括了网络信息资源的主要特征,涵盖了资源的重要检索点(Title,Creator,Subject项)、辅助检索点或关联检索点(Publisher,Cont ributor,Identifier,Source,Relation项)以及有价值的说明性信息(Description,Date,Type,Format,Language,Coverage,Rights)。(3)它具有最大限度的简洁性和灵活性。它不仅避免了搜索引擎中著录过于简单而导致检索效率严重下降的弊端,而且也避免了机读目录的过分专业化和复杂化。非图书馆学专业人员不需要进行专业化训练就能对网络信息进行合理的著录。(4)都柏林核心元素集与标准的机读目录之间的转换的理论研究也取得了重大突破。这不仅使已大量存在的机读目录可转换为都柏林核心的元素集,从而实现网络存取,而且也为机读目录的发展提供了理论和实践的空间。
4.2 XML。HTML的局限性分析随着WEB文件的复杂化、多样化及智能化,HTML(超文本标识语言)已成为WEB信息组织与传输的瓶颈。用户可以在线获得各种信息,但要找到所需信息非常困难。因为客户端页面上的任何变化,都要先通过网络线路向服务器发出一个请求,服务器搜索出相应的表单,再通过网络线路发送至客户端。HTML的超链是简单链接,无法实现在当前页面的链接处插入所需的内容(如图片、文本等),更无法实现当目标页面为多个时,将它们显示出来供用户选择的功能。HTML仅描述WEB浏览器应如何在页面上安排文字、图片、按钮等,不能描述信息的语义。ML是W3C(WorldWideWebConsortium,即万维网联盟)在1998年初完成的用于WEB语义信息描述及组织的一个标准。W3C对XML进行了如下描述:“ExtensibleMarkupLanguage,缩写为XML,描述了一类被称为XML文档的数据对象,并部分描述了处理它们的计算机程序的行为。
XML是SGML(StandardGeneralizedMarkupLanguage[ISO8879])的一个应用实例或一种受限形式。从结构上说,XML文档顺从SGML文档标准。XML解决了HTML中的许多问题。(1)XML将结束万维网上的等待。目前WEB上的信息组织方式大多为HTML,采用传统的“CLIENT/SERVER”工作方式,客户端向服务器发出不同的请求,服务器分别予以响应。如果这些信息以XML的规范来组织,服务器所做的只是将数据封装进XML文件中。当客户端发出请求时,服务器只须发出一个XML文件,用户可根据自己的需求选择和制作不同的应用程序来处理数据,而将大量运算负荷分布在客户端。这不仅减轻Web服务器的许多负担,而且会大大减少网络流量。为理解其原理,我们以上文中的例子来说明。如果该情报学虚拟图书馆的关键词倒排档是以XML规范组织的,当用户访问该站点时,服务器只需将封装好的XML文档一次性地发给客户端,用户可下载并运行检索程序,在本地实现检索。(2)XML不仅支持类似于HTML中的简单链接,而且还支持更为广泛的扩展链接。XLink是XML中用于描述信息资源间链接的语言,它可以在用户点击的链接处插入文字或图片,而不是离开当前页面。XLink可以有多个链接终点,不仅可以从目标页面列表中选择用户要链接的页面,而且还可以将链接存储在独立于引用文档的数据库中。“另外,XLink将使作者能够使用间接链接,该链接指向中央数据库的条目,而不是链接到页面本身。当页面地址改变时,作者只需编辑数据库的一条记录,就能修改所有指向该记录的超链接,这将有助于消除HTML中由于超链接断开而产生的类似于‘FileNotFound’的错误”。(3)XML可通过标识(TAG)来精确地表现信息的各种含义。
4.3数据库。
数据库系统是一个实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质、处理对象和管理系统的集合体。它通常由软件、数据库和数据管理员组成。其软件主要包括操作系统、各种宿主语言,实用程序以及数据库管理系统。数据库是依照某种数据模型组织起来并存放二级存储器中的数据集合。这些数据为多个应用服务,独立于具体的应用程序。数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据管理员负责创建、监控和维护整个数据库,使数据能被任何有权使用的人有效使用。数据库管理员一般是由业务水平较高、资历较深的人员担任。数据库系统的个体含义是指一个具体的数据库管理系统软件和用它建立起来的数据库;它的学科含义是指研究、开发、建立、维护和应用数据库系统所涉及的理论、方法、技术所构成的学科。在这一含义下,数据库系统是软件研究领域的一个重要分支,常称为数据库领域。数据库研究跨越于计算机应用、系统软件和理论三个领域,其中应用促进新系统的研制开发,新系统带来新的理论研究,而理论研究又对前两个领域起着指导作用。
数据库系统的出现是计算机应用的一个里程碑,它使得计算机应用从以科学计算为主转向以数据处理为主,并从而使计算机得以在各行各业乃至家庭普遍使用。在它之前的文件系统虽然也能处理持久数据,但是文件系统不提供对任意部分数据的快速访问,而这对数据量不断增大的应用来说是至关重要的。为了实现对任意部分数据的快速访问,就要研究许多优化技术。这些优化技术往往很复杂,是普通用户难以实现的,所以就由系统软件(数据库管理系统)来完成,而提供给用户的是简单易用的数据库语言。由于对数据库的操作都由数据库管理系统完成,所以数据库就可以独立于具体的应用程序而存在,从而数据库又可以为多个用户所共享。因此,数据的独立性和共享性是数据库系统的重要特征。数据共享节省了大量人力物力,为数据库系统的广泛应用奠定了基础。数据库系统的出现使得普通用户能够方便地将日常数据存入计算机并在需要的时候快速访问它们,从而使的计算机走出科研机构进入各行各业、进入家庭。
4.4信息发布。虚拟图书馆信息的发布是采用数据库存储,以Web为发布平台,两者通过动态网页技术相连。在这方面有很多现成技术可用,ASP、PHP、JSP、CGI是目前常用的几种主要技术。
4.4.1  ASP
Active Server Pages (ASP,动态网页)是微软公司推出的一种用以取代CGI(通用网关接口,Common Gateway Interface)的技术。微软发布Win98时,同时推出了PWS4.0(个人WEB服务器,可在Win98光盘里的ADD-ONS目录里找到),它本身支持对ASP2.0的解释执行,所以大家不用去找免费的服务器就可以体验一下ASP的简单和方便了。
简单讲,ASP是位于服务器端的脚本运行环境,通过这种环境,用户可以创建和运行动态的交互式 Web 服务器应用程序,如交互式的动态网页,包括使用 HTML 表单收集和处理信息,上传与下载等等,就像用户在使用自己的CGI程序一样。但是他比CGI简单。更重要的是,ASP使用的ActiveX技术基于开放设计环境,用户可以自己定义和制作组件加入其中,使自己的动态网页几乎具有无限的扩充能力,这是传统的CGI等程序所远远不及的地方。使用ASP还有个好处,就在于ASP可利用ADO(Active Data Object,微软的一种新的数据访问模型,类似于DAO)方便地访问数据库,从而使得开发基于WWW的应用系统成为可能。
如何使用ASP?
还是让我们以一个例子来说明吧。我看到许多讲语言的书上都是以“Hello World”作为第一个例子,那么,就让我们也向世界问一声好吧。
第一步:打开一个文本编辑器(比如,Notepad),输入以下代码:
<% For i=3 To 7 %>
>
Hello World!

<% Next %>
然后以文件名HelloWorld.asp存盘。由于.asp文件要由服务器端的ASP环境来解释,所以——
第二步:你必须将它放在WWW服务器的目录下。在安装了PWS的Win98系统里,缺省路径是c:\wwwroot,你也可以自己建一个子目录,比如“asp”。
第三步:打开浏览器,输入 http://yourservername/asp/HelloWorld.asp,浏览器上立即显示“Hello World”,就这么简单。
现在,让我们回过头来分析一下上面的脚本,你会发现同HTML脚本比较,它多了两个符号<%和%>,这就是ASP的定界符,他将一般的HTML脚本同ASP代码分隔开来,中间的代码就是ASP“语言”,大家一定已经看到,他的语法跟Visual Basic差不多。ASP的脚本语言可以是任何Script语言,不过你得提供相应的引擎。ASP本身支持VBScript 和JavaScript,可以由你决定使用哪一种。你只需在使用ASP脚本前用一句