Web2.0技术图书馆应用分析

来源:百度文库 编辑:神马文学网 时间:2024/04/23 18:09:36
Web2.0 技术图书馆应用分析
刘炜 葛秋妍
上海图书馆 华东师范大学
kevenlw@gmail.com ecnugqy@gmail.com
摘要 近年来互联网技术与应用呈现出一些崭新的特点,被业界称为Web2.0。作为一个从
信息资源内容到服务手段形式都离不开互联网的图书馆行业来说,也面临“升级”的冲动。
本文通过对Web2.0 及其相关技术的全面梳理,重点探讨了其对于图书馆行业的影响及应用
前景,内容包括Web2.0 的技术实质、与数字图书馆技术的关系、主要特征等,着重讨论了
图书馆2.0 与Web2.0 的不同之处,以及图书馆2.0 的应用现状、问题和未来趋势等。最后提
出了图书馆2.0 应用的五项原则。作者认为,如同Web2.0 并非传统Web 的替代一样,图书
馆2.0 也不是传统图书馆业务模式的截然取代,而是建立在传统业务模式之上的,以图书馆
书目数据、二次文献和其他数字资源库的服务为基础的、结合了2.0 应用特点的一种整合模
式。2.0 技术强调与读者互动,强化图书馆读者的体验,直接作用于用户需求,必然对图书
馆自身的业务模式产生重要影响,诸如内容聚合、读者互动、社区营建、随需服务等是目前
2.0 应用中比较成熟应用形式,层出不穷的新形式也是2.0 应用的特点之一。作者进一步认
为,2.0 技术的开放性、广泛采用开源技术以及松散耦合的特点对于"图书馆自动化集成管理
系统"是一场根本性的变革,将对图书馆信息技术的应用模式带来深远影响。
主题词:图书馆2.0,Web 2.0,数字图书馆
1. 引言
现代图书馆发展的历史可以看成是信息技术应用的历史,这种趋势自从上世
纪九十年代以来有愈演愈盛之势。IT 技术从普遍性(Ubiquity)和深入性
(Pervasion)两方面影响着社会生活各个方面,基于互联网的应用,特别是近两
年出现的“Web 2.0”技术,以强调用户体验和社会性为特色,具有很强的渗透
力,图书馆行业可以说是最受其影响的行业之一。
根据Tim O’Reilly 对Web2.0 的阐述,Web2.0 的种种应用可以看成是一种核
心概念的社会生物进化(Meme),Web2.0 概念尽管云山雾绕,其核心无非是“网
络作为平台”、用户控制数据、以及由“六项核心竞争力”(提供服务而不是软件、
参与型架构、扩展的经济性、数据的可混合和转换、软件的设备独立性以及集体
智能的应用)构成的少数几个(参见图1:Web2.0 Meme Map),目前各类名单
上数千个Web2.0 的典型应用都是这些“文化基因”经过遗传、变异和选择的结
果。
图1:Web2.0 ”文化基因”图
从技术角度,我们可以把Web2.0 简单地看成是与互联网有关的一系列技术
发展到一定阶段,应用的门槛逐步降低、技术与需求得以很方便地结合,从而产
生的一次大规模的应用普及。这种普及带来经济、文化、思想理念和社会生活等
各方面的显著变化,被人们归纳统称为“Web2.0”。
图书馆2.0 通常被定义为Web2.0 的理念和技术在图书馆行业中的应用,尽管
有许多定义让人不知所云,但认为其是一种“思考方式”或“运营方式”(Michael
Casey)的远多于仅仅认为它是一些技术的组合,然而我们不得不看到正是信息
技术的变革促成了这些新生事物。图2 显示了近两年在Google 搜索引擎中对于
“Semantic Web”、“Digital Library”、“Web 2.0”和“Library 2.0”四个短语的搜
索频次统计图示,可以看到Web2.0 在2004 年被提出来之后,有近一年的时间处
在“蛰伏期”,而最近一年以来被大量检索。对“Library 2.0”的关注则是从2006
年开始出现,另外两个产生于上世纪90 年代的概念则基本保持稳中有降的关注
度。
图2:Google Trends 中几个Web2.0 相关概念的查询频度历年变化
雨后春笋般涌现的Web2.0 有一些共同的特点,例如互联网作为平台、利用
集体智慧、用户添加数据、支持社会性网络、丰富的用户体验等等,但所有这些
特点都不是所有Web2.0 应用所必备的,这是一个很奇怪的现象,充分说明了
Web2.0 是用户需求导向的(或者进一步可以总结为服务导向)而不是技术导向,
互联网相关技术的发展提供了无限多的可能性和创造力,仅仅依靠技术和业务的
融合(例如在Mashup Matrix http://www.programmableweb.com/ 中所看到的各种
可能的融合)就有如此纷繁复杂的应用,未来会如何发展的确很难预料。
2. Web2.0 与数字图书馆技术
2.1. Web2.0 的技术本质
通过对于数百个Web2.0 应用的考察可以发现,在这股Web2.0 应用的大潮中,
起决定作用的是技术、内容和用户三方面的相互作用,用户创造或附加内容,技
术提供内容组织和与用户交互的手段,内容或基于内容的互动满足用户需求。这
似乎是一种三角关系,但在图3 中将用户作“个人”到“社区”区分,对应于从
强调数据到强调技术的差别,用一个四象限图容纳所有的Web2.0 应用。任何一
个成功的Web2.0 应用都是这三方面结合的复杂有机体,任何单独的方面都难成
气候。特别对于技术和内容来说,还必须到达相应的阈值、具备一定的条件才行。
“技术”、“内容”与“用户”在Web2.0 应用中呈现出与以往完全不同的“互
动”特征,这些特征是这些年来Web 相关技术的发展(具体说来是语义Web 技
术、数字图书馆技术以及Web 服务技术)所带来的。
首先,在Web 上任何信息都可以被看成是“资源”,任何资源都是“可寻址”
的。对于数字图书馆来说也是这样,任何被管理的资源均被看成是有独立标识的
存在,其内部可以是简单或复杂的“包”结构,相互之间也可以有各种复杂的关
系,但其独立性与可管理性是同时存在的。我们可以看到在所有的Web2.0 应用
中,数据可标识、可管理性是一个基本特点,用户也是作为一类特殊的数据存在
于系统中,也是可以标识和管理的。
其次,除了数据与数据需要建立联系之外,数据与描述性数据(元数据)也
需建立起复杂但是可控的联系,这些联系常常用到大量的标准或非标准的
XHTML/XML 进行编码。这样的数据在系统层面就构成了信息甚至知识,通过
系统实现特定的功能,即产生了丰富的Web2.0 应用。
第三,各类数据及其相互之间的联系需要有想象力的组织模式把他们组织起
来。不同的数据组织方式也是不同的,Web2.0 的应用除了要满足数据的权威性
(可信的和可验证性)要求之外,也常常要满足动态的、随需产生的、自学习的、
多视图的组织要求。例如社会性网络就可以看成是以用户数据之间的某种联系建
立起的关系。
基于上述三点,结合目前语义Web、Web 服务和数字图书馆的相关技术,我
们可以管窥Web2.0 的未来发展路径,同时也可以预测图书馆2.0 的一些发展趋
势。
图3:Web2.0 应用图谱
2.2. 资源的可标识性(微结构化)
正如Tim Berners-Lee 所说的那样,他在最初设计Web 的时候就没有想过Web
只是少数人“出版”内容而大多数人消费内容的模式,而恰恰是Web2.0 这种人
人制作信息而有分享信息的模式。只是由于Web 技术设计的缺陷和过于强调简
单,造成了对于Web 的读与写的不对称。HTML/HTTP 这种专注于格式呈现的
标准和协议不利于大多数人把精力集中于内容上。而现在基于RSS 的各种应用
(Blog、Wiki、评论、网摘、多媒体等等)提供了一种极其简单的分离内容与格
式方法,使内容的发布变得前所未有的简单。
无论多么动态和复杂的内容到了客户端总归要以HTML 方式呈现,因而许
多数据格式以XML 来定义倒还不如以XHTML 方式定义来的更加直接,这就是
众多的包含语义的微结构和微格式产生的原因。这恐怕也是基于RDF1的RSS1.0
并不如RSS2.0 来的普及,以及基于RDF 的FOAF 不如基于XHTML 的XNF 来
的普及的原因吧。RSS、微结构、微内容2等专注于信息内容的描述,而把页面
的呈现交给CSS 去实现,使得内容单元构成的“数据”具有了独立的标识,具
有了独立性和可管理性,可被描述、发现、联系、重用、组合,这就是数字图书
1 RDF 通常是采用基于XML 的语言来描述的。
2 有人把RSS、FOAF 等也理解为微内容,并无不可,但是由于目前所指的微结构、微内容多基于XMTML,
在本文中进行一定的区分。
馆中所称的“数字对象”,也就是语义Web 中所称的“资源”。
资源的可被标识性是资源具有独立性的基础,也是资源的内容与形式分离的
必要条件。作为“数据的Web”和Data Inside 的特性,以及许多其它特性都就
来自于此。
进一步地,可标识的数字资源通过资源调度系统或服务注册系统进行发布、
解析、管理和自动发现,可通过支持OpenURL、SRU/W、OAI-PMH 以及他们的
组合(例如在通过CoINs、PiggyBank 代码等)实现灵活的、具有良好互操作性
的分布式应用。
2.3. 内容管理的社会性和语义化
数字图书馆解决方案基本上被公认为以内容管理为核心的软件系统,例如
IBM 数字图书馆软件改名为内容管理系统,美国数字图书馆先导研究计划(DLI)
的两个重要成果DSpace 和FEDORA 都发展成内容管理软件等等。Web2.0 的内
容管理除了上述“微结构”化的特点之外,语义化如支持tag 元数据标注,进而
支持Folksonomy 分类也是其鲜明的特色。
目前Web2.0 应用的内容来源很有特点,通常有以下三种情况:
1. 用户/客户创造内容(例如Blog/音乐);
2. 用户/客户添加内容(例如网摘/地图/ tagging);
3. 用户/客户的行为创造/添加了内容(点击/选择/评价而形成“群众智慧”)
对于某些Web2.0 应用来说,用户与客户是不尽相同的,例如音乐网站的音
乐提供者和音乐消费者,搜索网站的广告主和搜索客户,等等,内容的来源也可
能不同,因此在这里将用户和客户稍作区分。
所有的Web2.0 应用都旨在建立资源之间的联系,这就少不了元数据的应用。
采用任何方式对资源进行元数据标注都可以看成是语义化。传统的HTML 网页
数据是没有语义标注的,其传达的语义要靠人来识别。把tag 赋予资源就是一种
语义标注,其它的语义标注还有资源相互关系的标注、根据资源的使用情况有机
器自动赋予资源的标注等等。这些语义标注目前虽然还不能为机器所自动识别,
但是起码可以做到语义匹配,以及聚类等等。Tag 标注常常并不区分资源的属性,
直接标注属性值,而大量标注形成的Folksonomy 具有很强的社会性,目前大多
还是平面的词表形式,有一些Web2.0 应用已经开始赋予简单的层次结构。
仔细分析可以发现这种语义标注与传统图书馆的分类主题标引是多么的类
似,而且图书馆对于信息内容规范控制的手段和方法可以为Web2.0 提供大量的
经验,目前NKOS 的努力已经取得一定的成果,结合语义Web 技术,能够使
Web2.0 的内容管理更规范,更可信。
2.4. 客户端的复杂性(Ajax 化)
Web2.0 与传统的Web 应用最大的区别在于客户端(浏览器)的复杂化,简
单的HTTP 协议传输的信息已远不是HTML 文件那么简单,除了其中可能包含
各种微格式、展示信息、原数据之外,Ajax(Asynchronous + JAvascript + Xml via http)
能使浏览器接近于一台单独执行任务、与服务器交互的客户机。
Ajax 技术等于在客户端相应HTTP 获取服务器相关文件和代码之后,由客户
端根据用户的操作做出响应,进行逻辑处理,执行一些相对简单的程序,避免了
每次相应用户操作都需要与服务器多次交互,由于这实际上是在用户界面与服务
器之间有增加了一台虚拟的“机器”,所以实际上这种机制带来的好处还远远不
止节省一些与服务器的交互这么简单。
Ajax 所带来的好处可以从Web2.0 目前大量采用的与用户交互、收集用户行
为、汇聚集体智慧以及提供更为个性化的服务这些特性上可以看到。当然Ajax
技术本身是一个复杂的混合体,不断在增加新的内容,进一步可以与多种标准或
协议协同使用,例如同样采用REST 的SRU 元搜索标准,OpenURL 标准或嵌入
对OAI 的支持,以及对多种元数据标准的识别和解析等等,并且Ajax 对服务器
端和客户端的应用环境具有较强的依赖性。实际上类似于Ajax 的技术还有很多,
包括Macromedia 的Flex、微软的Atlas、Mozilla 社区的XUL、Laszlo 公司的Laszlo、
Java 的Swing 都是类似的实现方式。在目前基于SOA 的Web 服务架构下Web2.0
有着非常广阔的发展前景。
2.5. 体系的开放性
应用融合(Mashup,或称Remix)充分显示了Web2.0 的开放性,实际上就
是系统之间互操作问题的实现方式。开放性有开放数据内容(例如OAI 的Data
Provider 角色)和开放应用编程接口(API)两个方面,开放数据内容(即实现
数据的互操作)主要取决于数据格式、获取方式以及格式的解析三个方面,现在
大多数数据格式都采用XML 来定义,为互操作的解决提供了一个基础。获取方
式通常采用HTTP/SOAP 为基础的方式,结合简化的体系架构,也有应用专门的
API 的,标准的API 接口就可以规定为一种协议(例如Z39.50 或者OAI),通过
开放API 最终目的还是为了共享内容。内容格式的解析通常交给客户段的操作系
统去做,一般只要支持MIME 就可以了。由此可见这一套应用都是建立在Web
架构上的,是Web 技术的自然发展,称之为Web2.0 倒也理所当然。
目前的应用融合又出现了新的趋势,可以分成两类:服务器端的融合和浏览
器端的融合,前者又可称为Pre-coordinate,后者为Just-In-Time 的Post-coordinate,
目前的趋势似乎是逐渐偏重于后者,把应用的控制权交还给用户。服务器端可以
融合多个开放API 或数据的应用,提供特殊的增值服务,具有稳定性好,适合大
型、联系紧密地应用,例如基于Google Map 的许多服务。浏览器端是通过对内
容频道或运行代码进行融合的支持而组合各类应用和资源,目前功能稍差,应用
模式也比较简单,例如采用支持Greasemonkey 的js 用户代码、可定制的个性化
门户入口网站等等。
开放性也是数字图书馆的一个基本要求。对于数字图书馆来说,主要是出于
对于数据的系统独立性以利于永久保存、增强跨系统的互操作性等方面的考虑,
对于大多数Web2.0 应用来说,开放性则更具有商业上作用,这种商业上的作用
是一把双刃剑,一方面只有开放才会有大量的用户和客户的支持,以及用户和关
联应用的迅速增长,才会使服务在市场上更具有竞争力;但另一方面开放会遭来
模仿,一些行业巨人的模仿往往是致命性的,同时也容易受到攻击。
3. 图书馆2.0 技术前瞻
3.1. 图书馆2.0 与Web2.0 的比较
Ken Chad 和Paul Miller 在《图书馆