移动阅读电子文档格式

来源:百度文库 编辑:神马文学网 时间:2024/04/28 08:27:29
您的查询字词都已标明如下:pod 闪电 公司  (点击查询词,可以跳到它在文中首次出现的位置)
(百度和网页http://safelab.nku.cn/papers/kxllunwen.doc的作者无关,不对其内容负责。百度快照谨为网络故障时之索引,不代表被搜索网站的即时页面。)

南 开 大 学
硕 士 研 究 生 毕 业(学 位)论 文
姓 名:孔小玲
年 级:2000级
专 业:计算机软件与理论
研究方向:嵌入式系统与信息安全
论文题目:移动阅读电子文档格式
与标准探究
完成日期:2003年5月
导 师:李庆诚 教授
二零零三年五月
摘要
尽管网络出版和各式的电子书终端被媒体炒得火热,但电子书的产业链并未完全形成,主要瓶颈便是内容供应商/出版商与阅读终端之间如何衔接与架构.其中内容的格式起着重要的作用,然而格式内涵的不完整和不协调严重制约着网络出版和电子书产业的大规模发展.本文正是针对于此,聚焦在格式与标准方面进行了深入的研究,提出了格式封装及半流式版面的概念,完整了移动阅读电子文档格式的内涵,并对格式的兼容性以及各种格式之间的交换性等标准问题提出了看法,给出了基本描述模型及评估原则,通过对翰林电子书专有文档格式Wolf格式的剖析,证明了本文观点的完整与正确.
关键字
电子书,移动阅读,文档格式,格式封装,格式标准,Wolf格式,半流式版面
Abstract
Although network publishing and various eBook terminals are hot now, the industry chain of the eBook doesn‘t form entirely. The bottleneck of it is how to link up between the content providers/publishers and the reading terminals. Thereinto, the format of the content is the most important thing. However, the non-integrality and non-correspondence of the document format restrict the fast development of the network publishing and eBook industry. This document aims at this problem, analyses the document format and the format standard of the eBook, puts forward the concepts of the format encapsulation and half-flowing layout, integrates the intension of the document format of mobile reading, describes the compatibility of the document format and exchangeability of various document formats, puts forward the basic model of the document format and principles of format evaluation. At last, this document analyses the Wolf document format of the Hanlin eBook systemically to validate the point of this document.
Keywords
eBook, Mobile Reading, Document Format, Format Encapsulation, Format Standard, Wolf Format, Half-Flowing Layout
目录
前言
书的历史
书的历史可谓久远,《正字通》中云:"凡载籍谓之书."书籍是人类用来记录一切成就的主要工具,也是人类交融感情,取得知识,传承经验的重要媒介,对人类文明的发展,贡献至钜.因此,无论古今中外,对于书籍,人们总给予最高的肯定与特别的关注.
人类众多伟大的创造,大都经过漫长岁月的发展过程,并聚合无数人的心力,方能成长,壮大,书籍的发展也不例外.以我们中国为例,书籍的发展至少已有三千五百年以上的发展历史,其间人们所投入的智慧与劳力,更无与伦比.大体来说,历史上,除了某些为特殊目的所制作的图书之外,书籍的发展,略有脉络可寻.最早人们的交往,在彼此示意之时,可能只借手势或音量作为媒介.其后,从经验的累积,进而确定一些固定的音节,来表示某种特定的意义,于是人类跨出了有声无言的时代,进入到有言无文的社会.
有了语言,人类往往借助于记忆力,把听到的话,牢牢记住,再对别人复述出来;或将心中的理想,个人的经验,借语言加以传布.这种目的及办法,与日后书籍的功能相近,因此,可以称之为口传的活书.
但人类的记忆到底有限,又是更会走样,口传的活书,必然有许多缺陷,聪明的人类,于是起而发明许多帮助记忆的方法,其中最富代表性的便是结绳.以结绳的大小,松紧,多寡及涂上不同颜色等方式,来表示各种不同的意义,我们可称之为绳书.
绳书能传到远方,也能长期保存,比起语言,自有些长处.然而终因其式样变化有限,无法满足快速进步中的人类社会的需要.于是,人类再着手改进,乃从模仿天性里,描绘外界形象加以简化,使之蜕变成为简单的图像,再用它来作为意象的符号.这种图画,已有文字的雏形,一般人称之为文字画.之后,经过再改良演进,渐渐成为定型的象形文字.又经过长时期的发展,终于成就了无数的字体,供人们应用.文字的出现,既为人类文明开拓了崭新境界,也为书籍奠下坚实的基础.
有了文字,首先需要寻找写刻的材料.最早的书写材料都取自于自然界,如:石块,树皮,树叶,兽皮,兽骨以及动物的甲骨等等.但这些材料各有缺陷,无法充分发挥文字的记录功能.春秋战国时代,知识日渐普及,著书立说,大行其道,为应需要,简书和帛书乃相继产生."简"是用竹或木制成狭长的条片,书写时,由上而下,一片一片接续下来,然后再依顺序由右而左的排列,并以绳索加以编连,这样一部著作,便能连贯而完整.帛书是在丝织品上书写的书,由于帛柔软又轻便,携带及阅读均十分便利.只是简书笨重,帛书昂贵,都不利于知识的普及和书籍的长期发展,因而人们又发明纸张来取代它们.
纸的出现,大约在西汉时期,史书上正式的记录是公元105年,发明者是蔡伦.由于纸张具有轻柔及低廉的长处,因而,很快的成为生产书籍最主要的材料.纸出现以后,虽然解决了书籍生产方面的许多问题,但是生产书籍,仍停留在逐字逐本的抄写状态上,既费时又费力,仍然不方便.人们遂从长期使用印章和捶拓碑碣文字的经验中,启发了雕版与印刷技术的结合使用,便捷快速的书籍生产方法,终于发明.
雕版印刷术大约在初,盛唐时期出现,由于它是手工业时代生产图书的好方法,因此很快被推广利用,成为五代,两宋以后生产图书的主力.为了使印刷技术更便于美观,宋仁宗庆历年间(公元1041年~1048年),毕升发明了活字排版印刷.而元朝末年,更进步到彩色套印的印刷领域.从此以后,印刷术不但成熟周全,印刷成品更是鲜丽动人.
书籍在经过多次的创造改进,才有了今天的面貌.尽管如此,作为信息载体的书籍,其形式在几千年的发展过程中是没有本质上的变化的:将记载某些信息的特定薄片(从竹片到丝绢再到纸)装订成册.在我们的头脑中,似乎书就应该也只能是这个样子的.
然而在快速发展的今天,随着数字化时代的来临,互联网正在迅速地改变着人们的生活,数字科技的发展也早已改变了信息存储的基本形式,过去的活字排版已经越来越少,现在的书籍出版往往是把信息存储在电脑中,经过处理再经过印刷将其变成书籍.那么我们为什么不能更进一步的直接阅读电子格式的信息呢 如此这般,网络世界出现了一个新名词——eBook,即电子书.
移动阅读历史
自从有了书籍,就有了阅读的概念.而移动阅读的概念则是自帛书的出现才开始萌芽的.移动的本意是指改变原来的位置,移动阅读从字面上理解是指阅读的同时可以改变位置,其含义就是指人们可以随时随地,随心所欲地阅读.
书的最初雏形——绳书还没有文字的概念.到了用自然界中的石块,木块,甲骨书写的古书,因其材料的限制,还无法制造出富含信息量的书籍,自然没有移动阅读之说.而春秋战国时期的简书同样因为其笨拙的缺陷,无法达到移动阅读的目的.到了帛书的出现,因为其柔软而轻便,携带方便,才真正有了移动阅读的概念.然而帛书造价昂贵,无法达到普及的目的,而纸张和纸质书的发明,才真正大规模发展了移动阅读.
现代电子技术的发展促进了书籍的载体从纸向磁盘,光盘等电子介质转变,现在人们已习惯于直接在PC上阅读新闻等电子文档.然而,移动阅读的需求却并没有随着书籍载体的再一次改进而得到满足,由于PC体积较大,仅仅坐在PC前阅读电子文档不能满足人们随心所欲地阅读书籍的渴望,即使是笔记本电脑用来阅读电子文档也是十分笨拙的.而电子书就是为了满足人们移动阅读的需求而诞生的集硬件与软件一体的移动电子文档专用阅读器.
电子书(eBook,electronic Book)是一种轻便电子显示器,有如书本大小,携带方便,内存多本书籍,而阅读起来,与印刷书本一样的轻松不费眼神.
自二十多年前著名软件工程师Andsan·Fandamu第一次提出电子书的概念以来,电子书的发展已日渐成熟.现有的电子书从外型上非常接近传统的书籍,体积小,携带方便.其显示屏虽然还达不到纸张的效果,但也充分支持了图文混排效果.其翻页操作也与传统书籍非常类似,甚至可以进行跳转阅读,相当于传统书籍的书签功能.读者还可以在读书的同时记录读书心得,对书中精彩片段用高亮度或下划线等进行标注,同时可以在全书范围内进行搜索.一本电子书的存储容量通过扩充可以达到上万页书籍的容量,相当于几十本纸质书籍的内容,真正达到了便携的目的.
移动阅读相关技术
随着电子书的快速发展,与之相关的一些技术也迅速发展起来.在此,我们对数字版权保护,信息资源的存储,POD和文档格式等技术的发展进行粗浅的讨论.
数字版权保护
数字版权保护技术,即Digital Rights Management(DRM),是指通过加密,信息安全传递等技术,防止电子图书的非法拷贝,保护作者,出版社和网上书店之间的交易清算等1,是eBook发展技术的重中之重.
网络出版意义上的电子图书,为了保护作者与出版商的利益,一般采用一个制造商制作的产权保护程序.任何读者,都可从因特网上下载该电子图书,但只有合法获取电子图书的读者,才有阅读密钥,或阅读器,才能解开这一产权保护程序,从而真正阅读电子图书内容.这也是保证网络出版意义下的电子图书在销售之后才能使用的关键所在.
由于数字出版物的复制和传播较传统出版物更加快捷和方便,提供数字产品生产商的版权保护也就变得非常困难,因此必须要有一套严密的认证,支付体系和可靠的系统来保证数字产品的出版发行按正常商业形式运作.
目前的问题是,电子图书存在于网上,无论是网上的开架售书,还是免费提供,电子图书都必须是不能够非法拷贝,不能够被任意修改,以及不能够无限制的传播,这是保护数字版权的基础.读者下载电子图书后,如果可以被无限次的打印,数字版权一样会受到冲击.解决这些问题,保护数字版权,靠人为的手段或者规定显然是不现实的,而只有通过技术的方法来"对症下药".目前,包括北大方正等国内技术公司都在开发相关的技术,采用加密办法,防止非法拷贝,防止电子图书内容的非法传播.目前看来,国内企业的技术是没有问题的,完全可以利用科学的办法给电子图书加上一把锁2.
电子图书系统主要依赖于以下的网络和加密的技术.
Internet Web服务器和浏览器技术(TCP/IP,SSL,HTTP).
公开密钥和对称密钥密码加密(RSA,RC4,DES,SHA,PKCS/X509).
信息资源的存储
为了描述信息资源,人们提出了元数据(metadata)的概念.提出元数据的目的,是将图书情报领域的分类法和标引技术普及到一般的网页制作者,以组织庞大的网络信息资源.元数据系统被认为是一个用于抽取构成对象的属性和方便信息访问的强有力的通用机制.
较早出现的元数据格式是MARC(主要被用来详细著录书目),它是全球范围内公认的较为成熟的传统机读编目格式,其结构严谨,类目复杂;系统完善,但是并不适合对一般网络信息资源的描述.
为了研究一种适用于描述一般网络信息资源的元数据标准,制定一种通用的网络著录规则,1995年3月由OCLC与NCSA联合发起,52位来自图书馆界和电脑网络界的专家共同研究产生了都柏林核心元数据集(Dublin Core,简称DC).DC适合揭示各类型电子文献的内容和其它特性,能有效地对网上资源进行组织,分类,索引.
DC由15个基本元素组成,分成三大部分:内容描述部分有题名,主题,说明,来源,语种,关联和覆盖范围;知识产权部分有创建者,出版者,其他责任者和权限;外形描述部分有日期,类型,形式和标识符.
DC比较易于应用到网络信息资源的描述中,著录数据与著录对象可以存在于同一文件中,也可以存在于不同文件中.
DC的优点
● 结构简单.数据元素的含义,易学易记,非编目人员也能很快理解.对网络资源的描述性编目,主要由资源制作者在制作资源的同时提供,这不仅降低了记录的制作成本,又能适应网络信息资源巨量增长的需要.在资源制作者描述的基础上,信息工作者则把主要精力放在对质量较高,稳定性较好的网络资源的标引和规范控制上,为用户构建高效实用的检索系统.
● 可重复性.DC规定所有元素都是可重复的,因而解决了多著者或多版本等重复元素的著录问题.
● 可选择性.著录项目可以简化,只需确保最低限度的7个元素(题名,出版者,形式,类型,标识符,日期和主题)即可.
● 可扩展性.各个DC地方版可以在15个元素的基础上增加新的元素或新的修饰词.允许资料以地区性规范出现,并保持元数据的一些特性,以便日后有扩充的余地.
● 可以与其它元数据连接使用,以弥补其自身的不足.在统一资源描述框架(RDF)下,可以实现与其它元数据的连接.
POD
即时印刷,译自Print-On-Demand,简称POD,曾译为"按需印刷","即需即印"和"闪电印刷".所谓POD技术,就是将数字化内容(书籍,报纸,杂志等)通过POD设备印制成纸质品(书刊报纸等等).按需印刷就是根据客户的需求,在短时间内提供个性化制作和销售服务3.
与传统出版相比,POD以方便快捷,个性化的印刷模式,给出版业带来了一种全新的出版运作模式.POD版图书的成本是传统印刷的2-2.5倍.但由于POD不需要传统印刷那样打样,晒版,冲版,直到试车等繁杂工艺,所以印刷一份和任意多份的单个成本都是一样的,而传统印刷的单本成本是与印刷份数紧密相关的.而且可以相信,随着技术的发展,POD版的单本图书成本还会下降,直至接近或低于传统印刷所需的成本.目前POD设备主要有施乐公司,IBM公司和圣·路易斯公司生产的产品,它们的印刷速度为每分钟几百页,完成一本书的印刷,装订和切边仅需5-15分钟.
按需印刷的主要用途有:
提供电子图书的纸质图书;
提供绝版书,脱销书,或印量很小而难于购到的图书;
远距离销售,且不值得大量重印的图书,在当地少量按需印刷;
个性化服务,按用户需求制作的图书;
将不同图书按用户需要,重新组合印刷;
提供各种已绝版的报纸,杂志等;
提供发行量小的专业书.
POD使人类彻底告别了绝版,使小批量,个性化出版得以实现.无论何时何地,读者都可以借助POD买到所需的内容.POD改变了出版的概念和流程,改变了传统产业的物流体系,给出版业带来了一场革命.以数字技术为基础的按需印刷,正在并将进一步给出版业带来深远影响.
文档格式
目前市面上流行的多款eBook,如Gemstar公司的Rocket eBook, SoftBook,Adobe的GlassBook,津科公司的翰林电子书等等,彼此从外观到显示,功能等方面都有着显著的差别.而其中影响着电子书显示与功能的重要因素便是电子书的内部文档格式.电子文档的格式在很大程度上"是所有媒体碎片(文本,图像,表格,音视频,动画,声音等)以某种或多种阅读为目的的有效组织实体",在数字和网络的时代,它起着纽带和传统版权的象征,是未来行业强者必须争夺的制高点,哪一种格式的内容多就意味着技术被出版商的接受程度的高,也就意味着商机.
下面是目前市面上出现的多种电子书及其它们所支持的电子文档的格式4.
电子书
文档格式
Rocket eBook
Rocket HTML变体,OEB
SoftBook
SoftBook HTML变体,OEB
GlassBook
Adobe PDF
Infinite Ink (Win CE,Windows)
OEB
MS Reader (Pocket PC,Windows)
MS HTML变体,OEB
Noah‘s Reader
CWAVE HTML变体,OEB
翰林电子书
Wolf
掌上书房
OEB,HTML
表1.1 电子书及其支持的格式
从该表格我们可以看到,目前电子书文档格式的主流格式是OEB以及各种HTML变体.OEB格式是OEB组织成员为更好地开拓eBook市场而联合制定的eBook文档格式.OEB实际上是XML,HTML,Namespace,CSS,Dublin Core等的综合体.该文档格式是否能成为将来电子书文档格式的标准,是目前众多电子书出版商正在积极探讨的问题.
另外,由于PDF在PC机上的使用群数量巨大,加之Adobe公司正努力将PDF的强大功能引入手持设备市场,并且Glassbook也使用PDF格式,增加了PDF在移动阅读领域所占份额.
下面的表格是其中几种电子书文档格式的比较.
MS HTML变体
Rocket HTML变体
CWAVE HTML变体
PDF
Wolf
OEB
图片文字






动态图片





动画





3D向量动画
视讯


音乐档


声音档






超链结






内建索引





自建索引


书签





复杂排版格式

表1.2 几种电子书文档格式的比较
电子文档阅读器
电子文档的载体是文档阅读器.文档阅读器负责解析和显示电子文档,直接与读者打交道.在移动电子文档阅读器——电子书出现之前,电子文档阅读器是指用来阅读电子文档的一个软件,读者在一定的硬件设备上运行该软件阅读电子文档.这些硬件设备可以是:PC,笔记本电脑,PDA等等.由于PDA的显示区域要比其他阅读设备小很多,用来阅读长篇的小说等书籍显然非常吃力,因此,这里并不专门对应用于该种硬件设备的电子文档阅读器进行讨论.而应用于PC和笔记本电脑的阅读器基本相似,并且,移动电子文档阅读器中的文档格式与PC电子文档格式有着密不可分的关系,因此这里先对PC端电子文档阅读器进行粗浅的讨论.
PC端电子文档阅读器
PC阅读器和笔记本阅读器比较相似,目前很多公司都开发这类阅读器,较出名的国内阅读器有方正的Apabi Reader,亿书唐的亿书博览,国外的有Adobe公司的Acrobat Reader,微软的Microsoft Reader等等.由于PC和笔记本的CPU速度块,存储空间大,其上运行的阅读器可以具备十分强大的功能.这种阅读器不仅显示速度快,显示区域大小可变,页面能够无级缩放,读者还可以根据自己的喜爱设置字体,背景颜色,图案等,操作非常灵活.由于可以进行滚动显示,它能够准确地显示固定版式,便于阅读现有纸质书籍的电子版,使得读者更容易从纸质书籍过渡到电子书.另外读者还可以像阅读传统书籍一样,对一本书进行加书签,记笔记,画线,高亮显示等操作,这更符合读者的阅读习惯.除了和传统书籍相似的操作外,这类阅读器还能够提供快速归类,查询,检索等传统书籍无法比拟的功能.另外,还可以显示彩色图片,动画,以及音响效果等,使电子书的内容比纸质书籍更丰富生动.从版权保护方面来看,由于速度和内存空间不受限制,可以采用较复杂的加密算法和水印等技术来保证作者和出版商的利益.但是,这种阅读器却有一个致命的缺点,由于PC体积较大,不能方便移动,读者无法像阅读传统书籍一样随意阅读,而只能坐在显示器前以固定的姿势阅读.即使是笔记本如果用来阅读书籍也显得十分笨重.而且由于PC和笔记本的显示屏对人眼有一定的伤害,即使刷新频率再高,也不适合于长时间阅读.由于读书对于大多数普通人来说,时常是一种消遣和放松的方法,人们更希望能够在闲暇的时候,以各种舒适的姿势,随时随地的读书.由此很多厂商开始将目光转向了便于携带的PDA和专用的阅读设备5.
Adobe Acrobat Reader
Adobe的PostScript技术在80年代曾引发了桌面出版的革命.而由Adobe公司推出的PDF文档格式由于使用了PostScript语言的图像模式来描述文本和图形,因而有着强大的页描述和交互图形能力.
对普通读者而言,用PDF制作的电子书具有纸版书的质感和阅读效果,可以"逼真地"展现原书的原貌,而显示大小可任意调节,给读者提供了个性化的阅读方式.由于PDF文件可以不依赖操作系统的语言和字体及显示设备,阅读起来很方便. 这些优点使读者能很快适应电子阅读与网上阅读,无疑有利于计算机与网络在日常生活中的普及.
Adobe公司以PDF文件技术为核心,提供了一整套电子和网络出版解决方案,其中包括用于生成和阅读PDF文件的商业软件Acrobat和用于编辑制作PDF文件的Illustrator等.Adobe还提供了用于阅读和打印亚洲文字,即中日韩文字所需的字型包.Acrobat的功能远远不止是制作PDF文件.最新发布的Acrobat 5.0与Web紧密集成,支持XML,支持数字签名,同时具备强大的批处理功能,内含Reader及Business Tools,是以Adobe PDF格式创建,审阅,加密和在线共享PDF文件的完美解决方案.
图2.1所显示的是Adobe Acrobat Reader 5.0的界面.
日前,Adobe公司宣布推出了Acrobat Reader for Palm OS的公开测试版,用户能够通过Palm掌上电脑查看Adobe便携文档格式PDF所显示的信息,标志着Adobe将PDF的强大功能引入手持设备市场6.
Apabi Reader
方正Apabi Reader是用于阅读电子图书,电子公文等各式电子文档的浏览阅读工具,支持CEB,XEB,PDF,HTML,TXT等多种文件格式.方正Apabi Reader的界面友好,尽量使阅读的感觉接近于传统纸书的阅读习惯.其主要功能有翻页,加批注,加划线,加书签,查找等等.常用的中英文电子词典软件,可以通过屏幕取词,对方正Apabi Reader中的词进行翻译.
方正Apabi Reader由阅读器(Reader),藏书阁(Library)和网上书店(Shop)组成,左图所示是阅读器的界面7.

Microsoft Reader
Microsoft Reader是Microsoft公司出品的应用于PC机上的电子文档阅读软件,可以在安装了Windows 95,Windows 98及Windows NT的桌上/笔记本电脑上执行.而Microsoft最新的PDA平台——Pocket PC将带有Microsoft Reader,用以阅读电子格式的文档,使得Pocket PC可以成为一个电子文档阅读器.
Microsoft Reader内部采用的是其自己定义的lit文档格式,该文档格式是HTML的一个变体.同时,Microsoft Reader支持OEB文档格式.
Microsoft Reader拥有许多有用的浏览工具,例如新的Riffle控制,它允许用户通过拖动Riffle控制滑块来快速浏览全书内容.而且还能够通过章节跳转来进行有效的阅读控制.
Microsoft Reader同时还具备了强大的批注功能,用户可以设置书签或者对自己感兴趣的文字进行加色处理.书签功能能够在阅读界面旁边增加书签小图标,用户可以直接点击书签图标达到自己设置的位置开始阅读.全书同时能够显示的书签图标颜色只有5种,不过有超过5种的颜色可供书签图标选择,用户同时还可以对感兴趣的地方用5种颜色做出标记.左图所示是Microsoft Reader的界面.
移动电子文档阅读器
PDA和专用阅读设备都具备体积小,重量轻,便于携带的特性,读者可以随身携带,随时阅读,就像携带一本书一样方便,基本上满足了读者的需求.而且由于电子书的特性,一个PDA或者专用阅读设备可以存储很多本书籍,读者只需带一个小小的阅读设备就可以阅读大量的书籍,同时还可以翻查字典,大大减轻了读者的负担.除此之外,PDA阅读器和专用阅读器也可以提供诸如字体缩放,选择背景色以及加书签,记笔记,画线,高亮显示等操作.但是,由于速度和存储空间的限制,只能实现较简单的查询和检索功能.目前大部分阅读设备还都是黑白色,支持动画的阅读终端还很少.另外由于成本较高,价格对于大多数普通读者来说也稍微偏高.但是,电子技术的飞速发展,将会使目前遇到的技术问题不断改进,成本也会逐渐降低,最终符合大众的要求.由于PDA的显示区域要比专用阅读设备小很多,用来阅读长篇的小说等书籍显得有些吃力,所以从长远来看,用eBook专用便携式阅读器来阅读电子图书将会成为电子书发展的最终趋势.
Gemstar eBook
说到移动文档阅读器——eBook,我们不得不提到其催生者以及美国乃至全球eBook市场曾经的垄断者——美国NuvoMedia公司和SoftBook公司.NuvoMedia公司创建于1997年,1998年该公司推出了eBook产品——Rocket eBook;SoftBook公司创建于1996年,1998年推出了其主打eBook产品——SoftBook Reader.NuvoMedia和SoftBook公司还赢得了多项设计和发行系统大奖,它们还是全美Open eBook(OEB)标准的发起者.两款电子书都采用了自己定义的文档格式,同时支持基于XML技术的OEB文档格式.
电子出版最关键的问题是版权安全问题,NuvoMedia和SoftBook两大eBook巨头成功开发出的电子出版发行安全系统,保证了书籍出版商和作者的版权不受侵犯.畅销小说作家史蒂芬·金,阿瑟·戈登,弗兰克·麦克考特都曾欣然同意将自己的书籍做成电子版,这足以证明电子图书出版发行系统的安全性令人信服8.
2001年1月18日,Gemstar国际公司采用股票交换的方式收购了 NuvoMedia和SoftBook公司,宣布大举进军eBook市场.Gemstar在收购了Softbook和NuvoMedia之后推出了一种Gemstar eBook,取代原来的Softbook和Rocket eBook.
这种电子书分为两种,其中REB1100代替了NuvoMedia的带有笔输入的Rocket eBook;全彩的REB1200比REB1100更大一些,它代替了Softbook.这两种新的电子书具有比较大的显示屏和存储能力,使用方便.同时,这两种电子书还配有调制解调器,可以在Gemstar eBook个人帐目上登录购买和下载的书籍.消费者也可以在不同的网上零售商那里或亲自到书店里购买这些书籍.购买登录完毕后,书籍就被上载到消费者的Gemstar电子书目上去,然后就可以和用户其它的电子书一样被访问.
上图所示为Gemstar eBook外观.
翰林电子书
天津津科电子有限公司生产的翰林电子书是一种承载电子图书,文件并对承载内容进行阅读及管理的手持移动设备,是国内第一款阅读不耗电电子书.这种电子文档阅读器拥有超大容量内存,能够通过其特有的方式对存储卡书籍,网络出版书籍,光盘书籍,数字图书馆书籍以及网上书库书籍进行阅读,赋予了书籍全新的观念和形态.
其全新产品"翰林一号"电子书采用美国华裔科学家吴葆刚博士发明的快速多稳态液晶显示器,具有高分辨率,无闪烁,宽视角等特点,真正实现了电子显示器的类纸阅读,在阅读不耗电的同时能有效保护视力.翰林电子书操作简单,携带方便,其内部的文档格式采用了专有的基于XML的Wolf文档格式,可以集文字,图像,表格,多媒体为一体,呈现丰富的显示画面.在阅读的同时可以对字体进行缩放,添加书签,进行跳转阅读,并且可以查看书籍的封面图片.
上图所示是翰林一号电子书的外观与内部显示.
电子文档格式剖析
自从eBook的概念提出以来,eBook的发展已日渐成熟.从前面的介绍可以看出,众多电子书内部所采用的文档格式虽然表面上千差万别,其结构都同PC文档格式有着密切的联系,它们或者就是沿用了PC上流行的文档格式,或者从PC文档格式继承变体而来.因此,首先来分析一下主流PC文档格式是十分必要的.
主流PC电子文档格式
按照文档页面的固定与否,PC文档格式可以划分为固定版面和流动版面两种.目前比较流行的固定版面文档格式当属Adobe公司开发的PDF和Microsoft公司开发的RTF,以及国内著名的PDG格式.而流动版面方面比较流行的是HTML和数量正在迅速增加的XML.
固定版面
PDF与类PDF
PDF(Portable Document Format,可移植文档格式),是Adobe公司开发的电子文档格式.这种文档格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式.PDF格式文件目前已成为数字化信息事实上的一个工业标准.
Adobe公司设计PDF文件格式的目的是为了支持跨平台上的,多媒体集成的信息出版和发布,尤其是提供对网络信息发布的支持.为了达到此目的,PDF具有许多其他电子文档格式无法相比的优点.PDF文件格式可以将文字,字型,格式,颜色及独立于设备和分辨率的图形图像等封装在一个文件中.该格式文件还可以包含超文本链接,声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高.
PDF文件使用了工业标准的压缩算法,通常比PostScript文件小,易于传输与储存.它还是页独立的,一个PDF文件包含一个或多个"页",可以单独处理各页,特别适合多处理器系统的工作.此外,一个PDF文件还包含文件中所使用的PDF格式版本,以及文件中一些重要结构的定位信息.正是由于PDF文件的种种优点,它逐渐成为出版业中的新宠.
目前存在一些与PDF类似的文档格式,如由书生之家开发的sep,ifr电子图书格式,和北大方正开发的CEB文档格式.
a.文件结构
从其物理角度来看,一个规范的PDF文件包括四部分:单行的头部,主体,交叉引用表和尾部9.
头部:
PDF文件的第一行标明了该文件所用的PDF规范的版本号.版本号为 1.2,则相应PDF文件的第一行为"%PDF-1.2".
主体:
PDF文件的主体部分是PDF文件所有对象的集合地.该部分由一系列描绘文档的间接对象组成,这些对象由基本类型对象组成,用来描绘文档的一些组成成分如字体,页和样本图像.注释可以出现在PDF文件的主体部分的任意位置.注释可以与PostScript语言有相同的语法,他们可以由%字符开始,并且可能出现在一行的任意位置,所有出现在%字符后面一直到该行结尾处的文本都被视为注释.
交叉引用表:
交叉引用表中的信息用来允许对文件中的间接对象进行随机访问,这样访问文件中的特定对象不需要将文件全部读出.对于文件中的每个间接对象,该表都存有一个单行项目用来描述该对象在文件中的位置.
PDF文件含有一个交叉引用表,该表可包括多个部分.如果文件没有被更新,该交叉引用表只含有一个部分,而每次文件更新都会向该表添加一个部分.
交叉引用表是PDF文件中唯一含有固定格式的部分,这样允许对交叉引用表中的项目进行随机访问.表中的项目以含有关键字xref的一行作为开始,其定义如下:
::=
xref
+
::=


+
::=
|

::= n
::=

f
尾部:
PDF文件的尾部允许应用程序迅速找到交叉引用表和某些特殊的对象.该部分指明了交叉引用表的位置和PDF文件逻辑结构中"根"的位置,即指明了PDF文档解析的入口处.应用程序应该从这部分开始.尾部的定义如下:
::= trailer
<<
+
>>
startxref

%%EOF
其中包含从文件开始到最后一个交叉引用表部分的关键字xref的字节数,而的内容为Size,Prev,Root,Info,ID或Encrypt加上数值所组成的关键值对.
按其逻辑存储格式角度来看,PDF文件可以用树型结构来表示,如下图:
图3.1 PDF文件结构
其中,基本的树型结构是上图中的页树,它是PDF文件的基本逻辑组织结构.
b.一般特点
PostScript语言图像模式:
PDF使用PostScript语言的图像模式来描述文本和图形.PDF页描述就像一段PostScript语言程序一样通过在选顶的区域放置"paint"来生成页.PDF页标记操作符同PostScript语言中的标记操作符是类似的.PDF标记操作符同PostScript语言标记操作符区别的主要原因是PDF不是编程语言,不包括程序,变量或控制结构.PDF通过降低适应性来提高效率.典型的PostScript语言程序使用PostScript语言标记操作符来定义一组高层操作符.PDF定义它自己的一组足够描述大多数页的高层操作符.由于这些操作符是直接用机器码实现的,而不是用PostScript语言代码实现的,PDF页描述可以迅速的画出.由于任意的编程结构都是允许的,应用程序可以更有效更可靠地在PDF文档中定位文字串.
可携带性:
PDF文件可以是7-比特ASCII码文件,也可以是二进制文件.如果是7-比特ASCII码文件,只有7-比特ASCII码中可打印的部分加上空格,制表符,回车和linefeed可以使用.如果是二进制文件,所有的8-比特字符都可以使用.
ASCII码是最便于携带的形式,因为它是唯一可以在非8-比特信道或者不受行结束转换限制的信道上传输的形式,等等.而二进制文件就不能在这些情况下传输.
但不幸的是,当文件被标注为"text"时,有些代理没有道理地随意对待其中的内容.例如,邮件传输系统可能并不保护某些7-比特字符,并且可能改变行结束符.这就导致对PDF文件的损害.
因此,当有可能将PDF标注为二进制文件时,我们推荐这样做.一个鼓励这种操作的方法是在文件的开头部分插入一些二进制字符(代码大于127).这个方法保证了PDF文件在可能的情况下可以被当作二进制文件处理,而且保证文件可以在非二进制信道上无损的传输.
压缩:
为了减少文件体积,PDF支持多种工业标准的压缩过滤器:
JPEG压缩:适用于彩色和灰度图像
CCITT Group 3,CCITT Group 4,LZW和Run Length压缩:适用于单色图像
LZW和Flate压缩:适用于文本,图形和索引图像数据
所有这些压缩过滤器都生成二进制数据,这些数据可以用ASCII base-85编码保证可携带性.
字体独立性:
管理字体在文档交换中是一个基本挑战.通常,文档的接受者必须有与发送者建立该文档时使用的字体相同的字体.否则,使用缺省字体作为代替,产生令人不满意的效果,因为缺省字体同原来希望的字体的宽度是不同的.发送者可以在文档中包括所用的字体,但这样会使一个小文档变成一个非常大的文档.另一种方法是发送者可以将文档每一页转换成一个固定分辨率的图像,就像传真.但即使使用压缩,每一页图像仍然十分大.另外,这样的文件毫无智能可谈,使用者无法从文档中查找或提取文字.
PDF使用一种新的解决方法,可以使文档独立于创建时使用的字体.PDF文件为文档中使用的每种字体保留一个字体描述符,这个字体描述符包括字体的名字,字符宽度和风格信息.当缺乏某种字体时,这种信息可以用于模仿字体,而且每一项只有1-2K.
如果文档种使用的某种字体在查看文档的计算机上是可以获得的,那么使用这种字体就可以了.如果没有该字体,将使用一种多点控制的字体根据原始字体的粗细和宽度来逐字模仿该字体,并保持文档的整体颜色和格式.
单通道文件生成器:
由于系统的限制和考虑到效率问题,我们需要如PDF Writer这样的工具用来在单通道方式下生成PDF文件,这是由于有些应用程序只可以访问有限的存储空间或者不能打开临时文件.基于这个原因,PDF支持文件的单通道生成.由于PDF需要某些对象来容纳文件的长度信息(用字节表示),一种机制用来使对象后面的文件内容的长度可以定位.另外如文档中的页的数目信息可以在所有的页都被写到文件中后再写到文件中.
随机存储:
用来从PostScript语言程序解压和显示某一页的工具必须从第一页开始扫描程序直到找到需要的那一页.而PDF文件包含一个交叉引用表用来定位和直接防卫文件中的某一页和其他重要的对象.这个交叉引用表放在文件的结尾,允许应用程序用单通道生成PDF文件并很容易地存储,并允许应用程序容易地读取PDF文件和定位.使用交叉引用表,查看PDF文件中的某一页所需的时间几乎独立于文档的总页数.
增量更新:
应用程序可能允许用户修改一个上百页或更大的PDF文档.PDF允许对文档的修改附加在文件的尾部,而保持原始数据不便.附加的附录只包含修改的或添加的对象,并包括交叉引用表的更新.由于文件的原始内容仍然保存在文件中,我们可以通过删除一个或多个附录而去掉所做的更改.
可扩展性:
PDF被设计成可扩展的.毫无疑问地,开发者可能想要为PDF添加一些原来没有的特性.PDF被设计成不仅新的特性可以被加进去,而且只能解释PDF早期版本的应用程序在遇到它不知道的新的特性时也不会完全停止.
PDF与PostScript的不同:
尽管PDF和PostScript语言使用同样的图像模型,他们之间仍然有一些重要的不同:
PDF文件可以包含仅用于交互查看的对象(如超文本链接).
为了简化页描述的进行,PDF并不生成程序语言结构.
PDF严格规定文件结构以允许应用程序随机访问文档的某部分.
PDF文件包含如字体描述这样的信息以保证显示逼真度.
RTF
RTF(Rich Text Format,富文本格式),是一种使用业界标准文本标志语法的文本文件格式,它可以很方便地被Word或其它文字编辑器所调用,VB等开发工具甚至还提供了Richtxtbox的控件.RTF的结构并不复杂,但内容繁多.每个RTF文件都是一个文本文件,显示时由RTF阅读器格式化.文件开始处是"{\rtf",它作为RTF文件的标志是必不可少的,RTF阅读器根据它来判断一个文件是否为RTF格式.然后是文件头和正文,文件头包括字体表,文件表,颜色表等几个数据结构,正文中的字体,表格的风格就是根据文件头的信息来格式化的.每个表用一对大括号括起来,当中包含了很多用字符"\"开始的命令.文件头之后是正文,正文由版面格式化命令,文字和各种特殊命令组成.其中只有特殊命令用大括号括起来,而版面格式化命令和文字是"开放式"的,从而把文字和命令分离.文件结束时有一个"}",和第一个"{"对应.在整个文件中,"}"和"{"必须一一对应.这种格式是RTF阅读器和转换器算法的基础.RTF格式还有一个特别之处,就是有些字符在命令中有特殊的含义,所以当它们作为文本出现时需要在它们的前面加一个"\",例如"\"本身就要表示为"\\".事实上,这种形式在大多数编程语言中是很常见的.
RTF文件包括非格式化的文本,控制字,控制符号和组.为了方便传输,标准的RTF文件只包括7-比特ASCII字符10.
控制字:控制字是特殊的格式化的命令,RTF使用控制字来标记打印机控制代码,应用程序使用它们来管理文档.控制字的长度不能超过32个字符.控制字格式为:\字母序列
控制符号:控制符号包括一个反斜杠,后面跟一个非字母表字符.例如,"\~"表示一个非断点空格.控制符号不需要分隔符.
组:组包括由大括号括"{}"起来的文本和控制字或控制符号.左括号"{"表示组的开始,而右括号"}"表示组的结束.每个组指定了文本的效果和不同的属性.
RTF文件的语法如下:
::=
‘{‘‘}‘
::=
\rtf\deff

::=
* +
::=
* + (\sect )
::=
|
::=
* * (\subdocument | +) (\par )
::=
+ \row
::=
+ \cell
RTF文件的结构如下:
图3.2 RTF文件结构
PDG
PDG(图文资料数字化)格式是超星公司推出的一种图像存储格式,具有多层TIFF格式的优点,由于采用了独有的小波变换算法,图像压缩比很高.超星公司将PDG格式作为其数字图书馆浏览器的专有格式,开通了国内第一家互连网数字图书馆——瑞得超星数字图书馆.
自1993年超星公司开始开发PDG以来,超星转战信息数字化领域,实战磨练和技术应用的积累使他们的PDG技术不断成熟完善,形成了以小波图像压缩,OCR(汉字识别)剪裁,多层图像检索,版权保护技术,远程图像浏览为主干的一整套图文数字化解决方案,使低成本,大规模,工业化加工,积累,使用信息资源成为可能11.
超星图书浏览器是网上数字化图书馆的图书阅览器,它事实上是将原书完整地一页页扫描下来保存,保持了原书的原汁原味.它的文件格式比较奇特,文件名为100.001格式,其中扩展名为001,002等数字,表示书的页数."超星图书浏览器"提供了图书阅读,URL地址连接,图书下载的多窗口功能,还有书签,查询,及各种个性化的图书阅览界面.
流动版面
HTML
HTML(HyperText Markup Language,超文本标记语言)一出现就给信息发布带来了新景象:全世界的人都可以在英特网(Internet)上发布文档.HTML继承了"标准通用标记语言"(Standard Generalized Markup Language,SGML)的一些重要的优点,除了少数个别情况以外,HTML的元素类型都是通用的和描述性的,而不是像Microsoft Word中的那种格式化构件.这意味着HTML文档既可以在文本屏幕上显示,也可以在图形用户界面上显示,甚至可以用喇叭发声.
HTML的基本结构如下:
, , , ,
HTML文件的正文
HTML文件是标准的ASCII文件,它看起来像是加入了许多被称为标签(tag)的特殊字符串的普通文本文件.从结构上讲,HTML文件由元素(element)组成,组成HTML文件的元素有许多种,用于组织文件的内容和指导文件的输出格式.绝大多数元素是"容器", 即它有起始标记和结尾标记.元素的起始标记叫做起始标签(start tag),元素结束标记叫做结束标签(end tag),在起始标签和结束标签中间的部分是元素体.每一个元素都有名称和可选择的属性,元素的名称和属性都在起始标签内标明.
需要说明的是,HTML是一门发展很快的语言,早期的HTML文件并没有如此严格的结构,因而现在流行的浏览器(如Netscape,Mosaic等)为保持对早期HTML文件的兼容性,也支持不按上述结构编写的HTML文件.还需要说明的是,各种浏览器对HTML元素及其属性的解释也不完全一样.
一般来讲,HTML的元素有下列三种表示方法:
1)文件或超文本
2)文本成超文本
3)
第三种写法仅用于一些特殊的元素,比如分段元素p,它仅仅通知www浏览器在此处分段,因而不需要界定作用范围, 所以它没有结束标签.HTML3.0标准中,也定义了 标签,它用于需要界定作用范围的段落,比如增加对齐方式属性的段落.
HTML文件中,有些元素只能出现在头元素中,绝大多数元素只能出现在体元素中.在头元素中的元素表示的是该HTML文件的一般信息,比如文件名称,是否可检索等等.这些元素书写的次序是无关紧要的,它只表明该HTML是否有该属性.与此相反,出现在体元素中的元素是次序敏感的,改变元素在HTML文件中的次序会改变该HTML文件的输出形式.
HTML文档使用SGML中简单的尖括号作标记,这意味着作者可以用几乎任何文本编辑器和字处理软件来创建HTML文档.这种文档也与现存的绝大多数计算机系统兼容.
但另一方面,HTML只使用了固定数量的元素类型,不允许用户自行定义标记(或属性)来更好地从语义上修饰数据,即HTML无法扩展,因此也无法针对特定的文档类型进行裁剪,并且它在刚出现的几年中一直没有被精确地定义.等到用DTD来形式化地定义HTML时,已经有上千个网页使用了错误的HTML.
XML
XML(eXtensible Markup Language,可扩展标记语言)是一九八六年国际标准组织(International Standards Organization,ISO)公布的SGML的精简版/子集合.一九九八年二月,美国W3C组织正式公布XML的Recommendation 1.0版语法标准.XML掌握了SGML其延展性,文件自我描述特性,以及其强大的文件结构化功能,摒除了SGML过于庞大复杂以及不易普及化的缺点.字面上来看XML是一种标记语言,但严格来说它和SGML一样是一种"元语言"(meta-language).换言之,XML是一种用来定义其他语言的语法系统,它描述了特定领域标记的语言必须遵循的元语法结构.这正是XML功能强大的主因.
现今的HTML-based全球资讯网是"呈现导向"(presentation-oriented),换句话说,HTML语法是用来指定文件在浏览器上的呈现方式,这意味了人类可轻易地了解HTML的档案内容,但电脑软件本身却无法了解HTML档案资料的内容和意义为何.虽然HTML的简单轻便,助长了全球资讯网的迅速普及,但随着全球资讯网平台上之多媒体及编排上的多样化殷切需求,以及强调效率和精准的电子商务的兴起,HTML语法已逐渐显露其捉襟见肘的窘态.虽然许多程序设计人员利用自定的HTML标记以及专属的软件来获取网页中的资讯内容,但此法却无法满足普及化的需求,且造成各行其是的纷乱局面.若资讯本身未经过语意化和结构化来表达,许多的软件以及搜寻引擎将无法更有效地善用这些资讯.在XML的架构下,结构化的资料以及具有意义的资料标记,将使电脑和软件得以理解和利用网页或文件内的资讯,再透过代理程序以及其他自动化程序,电子商务资讯流的自动化将可有效地提升,并从本质上转变电子商务的环境.
XML文件由称为实体的存储单元组成,实体可以包含已析数据或未析数据12.已析数据由字符组成,其中一些字符组成字符数据,另一些字符组成标记.标记中包含了对文件存储格式(storage layout)和逻辑结构的描述.XML提供了一种机制用于约束存储格式和逻辑结构.
XML的设计目标如下:
XML应该可以直接用于因特网.
XML应该支持大量不同的应用.
XML应该与SGML兼容.
处理XML文件的程序应该容易编写.
XML中的可选项应无条件地保持最少,理想状况下应该为0个.
XML文件应该是人可以直接阅读的,应该是条理清楚的.
XML的设计应快速完成.
XML的设计应该是形式化的,简洁的.
XML文件应易于创建.
XML标记的简洁性是最后考虑的目标.
XML 1.0只是个开端,随之出现了一系列与XML相关的标准,如Namespaces,XSL,Xlink,XPath等等.XML以其本身显著的结构化特点吸引了众多开发者的目光.
移动电子文档阅读器文档格式
移动电子文档阅读器不同于PC,它的显示屏一般不具有彩色显示能力,分辨率一般达不到PC显示屏的能力,它的处理器速度也比较慢.这决定了其使用的文档存储格式相对于上面介绍的用于PC的文档存储格式会有所不同.
OEB
OEB是Open eBook的缩写,用于格式化和包装电子书的一种行业标准.OEB基于XML,定义了电子出版物的文本如何被标记,以及一本ebook的各部分(封面,目录,正文,说明,索引等等)应如何包裹在一起.OEB实际上是一个综合体,可以说是HTML 4.0,XML 1.0,Dublin Core,与CSS1.0的子集,主要是让编辑与系统商花最少的力气加入eBook行列,因为以上的语言都是它们所熟悉的.OEB 1.0版本仍偏重编排格式,即将制定的OEB 2.0,就完全以XML为主干,严谨地把编排格式与资料内容分开.
OEB1.0规范定义了电子书文件结构和格式结构规范,其基础标准包括:XML 1.0,XML名域,HTML 4.0(考虑了XHTML 1.0草案),CSS1样式表语言和CSS2的部分特征,Dublin Core元数据语言,Unicode字符集和特定的MIME媒体类型.
OEB 1.0规范中定义了两个XML DTD,即包DTD和基本OEB文档DTD.其中,包DTD构成完整出版物的"根",阅读器系统利用它来查找和组织出版物的各个组成部分.基本OEB文档DTD则从形式上定义了该规范中所描述的HTML子集13.
OEB包
OEB 1.0规范规定符合该规范的出版物中必须包含且仅包含一个OEB包文件,该文件可被用来指定OEB文档,图形以及组成OEB出版物的其他对象,还可用来指定它们彼此之间是如何相互关联的.
如果想很容易就能在组成某个出版物的文件组中识别出各种包文件,则建议所有包文件都使用同一扩展名".opf".包文件的MIME媒体类型都是"text/xml".该规范中并没有明确定义如何从物理上将各种文件捆绑在一起,以生成某一数据转换对象(比如使用.zip或者.tar文件).
尽管没有要求OEB包DTD在物理上包括所有出版物,但是,如果其中包括了所有出版物,则应从文件清单中进行引用.
OEB包文件的主要组成部分包括:
包标识:将OEB视作一个整体的唯一标识符;
元数据:有关出版物的元数据(标题,作者,出版商等);
文件清单:组成某个出版物的所有文件(包括文档,图形,样式表等)的一份清单,其中包括有关该规范中不支持的文件类型的反馈声明.
spine:有关文档的安排信息,可提供线性阅读次序.
tour:阅读出版物的交替阅读序列,比如用于各种阅读目的以及适于各种读者阅读技巧水平的可选择性视图.
guide:有关出版物基本结构的一系列指引信息,比如有关出版物的内容,前言以及目录等的表格.
OEB包必须是有效的XML文档,并且该文档必须符合OEB包DTD规定.OEB包的非正式大纲如下所述:
metadata
manifest
spine
tours
guide
OEB文档
OEB文档包括OEB基本文档和OEB扩展文档两种.OEB基本文档是指符合OEB 1.0规范中定义的基本OEB文档DTD的有效的XML文档;OEB扩展文档是指符合基本OEB文档DTD以外的其他DTD的有效的XML文档.
OEB 1.0规范中对基本OEB文档DTD给出了明确的定义.
基本OEB文档的结构如下:

HeadElements




BlockElements
InlineElements


Rocket
由NuvoMedia公司开发的Rocket eBook采用特殊的文档结构,可以集文字,图像,声音于一体.Rocket eBook预装了Rocket eBook User‘s Guide和两篇文档(《Alice‘s Adventures in Wonderland》和《eDictionary ver 2.0》).安装于PC上的RocketLibrarian允许使用者到网上购买Rocket eBook专用文档,还可以将HTML文档和纯文本文档转化为Rocket eBook可读的文档格式并下载到Rocket eBook上.
Rocket eBook的文档由两种组成:基本文档(*.rb)和注释文档(*.rh,*.rn和*.ra).
基本文档
1.固定字节部分:
基本文档的前300字节为文件头部分,包括了NuvoMedia有限公司的标志,文件长度,文件主体部分结构等信息.
2.主体部分
从第300字节开始为文件主体部分,主体部分由网页信息段,HTML段,显示关系段,文本信息段,图片信息段,图片段和声音信息段等组成.其格式为:
000000-newpage4.info…(网页信息)
000000-newpage4.html…(HTML)
000000-newpage4.hidx…(显示关系)
000002-hello.txt… (文本信息)
000001-x.png… (图片)
000003-music.wav… (声音文件)
每个信息后面有一些状态位,表示对应数据段长度等信息.
每个信息头部的数字表明了所代表的数据段的关系,数字相同的实质上属于同一个数据段.
随后的内容为按照先前信息列表列出的顺序组织的数据段.
.info数据段的内容为:
.html数据段的内容是经过改装的.html文档内容,改动之处为:
1)所有原标记及属性都统一为大写.
2)标记的属性按照某种顺序重新排列.
3)将标记改为包含标记,如:
4)在标记中添加一项:
5)更新所有的资源定位为内部数据段,如:
更新为:
.hidx数据段是Rocket eBook自建标记部分,格式为:
[T N]
其中,T的值可能为:tags,paragraphs,names;
N的值为数字.
若标记中的数字不为0,则标记后面跟着一些格式内容,如:
.txt数据段为.txt文档内容(原封不动地引入).
.png数据段为图像内容,所有图像全部转换为PNG图像格式存储.
.wav数据段为声音文件.
注释文档
注释文档存储读者对电子书所做的注释,书签及下划线等信息,其存储方式为每条信息由起始地址,结束地址长度,主题等部分组成.
文件名.rh:存储下划线信息,存储格式如下:
文件名.rn:存储注释信息,存储格式如下:
文件名.ra:存储书签信息,存储格式如下:
移动电子文档阅读器文档格式问题与趋势
从第一章中关于电子书文档格式的介绍以及本章中着重分析的几款电子书的文档格式结构来看,尽管移动电子文档阅读器的文档格式多种多样,但它们的基本结构不外乎是基于XML的类HTML结构以及延续PC端已经成为事实上的工业标准的PDF格式两个趋势.
事实上,这也是当今世界上关于电子书格式的争论焦点,也是微软和Adobe两大巨头在电子书格式上的竞争14.然而,虽然PDF格式在PC上着实风光,使用者众多(仅Acrobat Reader大概就有一亿六千万套装机量)15,其格式先天上就有"书"的架势(以页为单位,每一页包含文字,图表,线条等信息),但在电子书领域,PDF应用的范围还很小.Palm上虽然有程序可以打开PDF文档,但是阅读效果不佳,PDF被支持的可能性很小.
而微软倾向于基于XML标准的OEB格式.但是目前的OEB1.0还只是个过渡标准,它过度地继承了HTML4.0,其目的是最大可能地降低内容提供商和工具提供商的工作量,将阅读器系统开发商的研制负担降至最低点(他们可能会使用在功率和显示方面都会受到限制的各种设备),以期能够得到广泛的支持.然而,由前面的分析我们也可以看到,HTML由于其定义初期只是为了描述报刊结构,并且它在刚出现的几年中一直没有被精确地定义,以至于其结构存在很大的不合理性.而正是由于HTML4.0固有的缺陷造成了OEB1.0只能是过渡品.虽然OEB1.0中仍然定义了可以遵循其他XML DTD的扩展OEB文档,但它对于电子书产品所需要的版面控制信息并没有完整的定义.同时,OEB1.0由于基于的规范繁杂,导致其本身结构过于繁琐,复杂,而电子书硬件产品有其固有的客观限制,将OEB1.0应用于现有的电子书产品实在不是明智之举.从目前的市场情况也可以看出,众多的电子书产品都有其自己的文档格式.
移动阅读电子文档格式基本模型
电子书的格式标准是一个影响着电子书解释程序复杂度及显示画面质量的重要的问题.由前面的介绍可以看到,目前的电子书文档格式相当混乱,基本上是不同的电子书有着不同的文档格式,而这些不同格式的电子文档之间通常不能简单的相互转换.
而目前,将不同硬件设备所阅读的文档格式统一成一种单一的固定的文档格式尚不现实,因为考虑到不同硬件设备的客观能力,若要定义出一个统一的文档格式,其结构或者极端基础简单,否则将十分复杂.例如就目前国外发布的OEB来说,其内容复杂,样式繁多,令人眼花缭乱.当然,随着硬件条件的迅速发展,电子书文档格式势必将朝着大规模统一整合的方向发展,到那个时候,再来考虑如OEB等标准格式未尝不可,而如今,定义出电子书文档格式应当遵循的若干准则还是相当有益的.
标准相关概念
标准
根据GB3935.1-83《标准化基本术语第一部分》的规定,"标准是对重复性事物和概念所做的统一规定.它以科学,技术和实践经验的综合成果为基础,经有关方面协调一致,由主管机构批准.以特定形式发布,作为共同遵守的准则和依据."
国际标准化组织于1983年7月发布的ISO第二号指南(第四版)对标准的定义为:"由有关各方根据科学技术成就与先进经验,共同合作起草,一致或基本上同意的技术规范或其他公开文件,其目的在于促进最佳的公共利益,并由标准化团体批准."
标准化
根据GB3935.1-83《标准化基本术语第一部分》的规定,"标准化是在经济,技术,科学及管理等社会实践中,对重复性事物和概念通过制定,发布和实施标准,达到统一,以获得最佳秩序和社会效益."国际标准化组织于1983年7月发布的ISO第二号指南(第四版)中对标准化的定义是:"标准化主要是对科学,技术与经济领域内重复应用的问题给出解决办法的活动,其目的在于获得最佳秩序.一般说来,包括制定,发布与实施标准的过程."
标准化的历程
标准化是人类由自然进入社会共同生活过程中的必然产物,它随着生产的发展,科技的进步和生活质量的提高而发生,发展,受生产力发展的制约,同时又为生产力的进一步发展创造条件.
人类从原始的自然人开始,在与自然的生存搏斗中为了交流感情和传达信息的需要,逐步出现了原始的语言,符号,记号,象形文字和数字.从第一次人类社会的农业,畜牧业分工中,由于物资交换的需要,要求公平交换,等价交换的原则,决定了度量衡单位和器具标准统一.当人类社会第二次产业大分工,即农业,手工业分化时,为了提高生产率,对工具和技术规范化就成了迫切要求,如春秋战国时代的《考工记》就有青铜冶炼配方和30项生产设计规范和制造工艺要求.宋代毕升发明的活字印刷术,运用了标准件,互换性,分解组合,重复利用等标准化原则,更是古代标准化里程碑.
进入以机器生产,社会化大生产为基础的近代标准化阶段,科学技术适应工业的发展,为标准化提供了大量生产实践经验,也为之提供了系统实验手段,摆脱了凭直观和零散的形式对现象的表述和总结经验的阶段,从而使标准化活动进入了定量地以实验数据科学为基础的阶段,并开始通过民主协商的方式在广阔的领域推行工业标准化体系,作为提高生产率的途径.如1789年美国艾利·惠特尼在武器工业中用互换性原理以批量制备零部件,制定了相应的公差与配合标准;1834年英国制定了惠物沃思"螺纹型标准",并于1904年以英国标准BS84颁布;1897年英国斯开尔顿建议在钢梁生产中实现生产规格和图纸统一,并促成建立了工程标准委员会;1901年英国标准化学会正式成立;1902年英国纽瓦尔公司制定了公差和配合方面的公司标准——"极限表",这是最出现的公差制,后正式成为英国标准BS27;1906年国际电工委员会(IEC)成立,1911美国泰勒发表了《科学管理原理》,应用标准化方法制定"标准时间"和"作业"规范,在生产过程中实现标准化管理,提高了生产率,创立了科学管理理论;1914年美国福特汽车公司运用标准化原理把生产过程的时空统一起来创造了连续生产流水线;1927年美国总统胡佛就得出了"标准化对工业化极端重要"的论断.此后,荷兰(1916年),菲律宾(1916年),德国(1917年),美国(1918年),瑞士(1918年),法国(1918年),瑞典(1919年),比利时(1919年),奥地利(1920年),日本(1921年)等,到1932年已有25个国家相继成立了国家标准化组织,在这基础上1926年在国际上成立了国家标准化协会国际联合会(ISA),标准化活动由企业行为步入国家管理,进而成为全球的事业,活动范围从机电行业扩展到各行各业,标准化使生产的各个环节,各个分散的组织到各个工业部门,扩散到全球经济的各个领域,由保障互换性的手段,发展成为保障合理配置资源,降低贸易壁垒和提高生产力的重要手段.1946年国际标准化组织正式成立,现在,世界上已有100多个国家成立了自已的国家的标准化组织.
工业现代进程中,由于生产和管理高度现代化,专业化,综合化,这就使现代产品或工程,服务具有明确的系统性和社会化,一项产品或工程,过程和服务,往往涉及几十个行业和几万个组织及许多门的科学技术,如美国的"阿波罗计划","曼哈顿计划",从而使标准化活动更具有现代化特征.随着经济全球化不可逆转的过程,特别是信息技术高速发展和市场全球化的需要,要求标准化摆脱传统的方式和观念,不仅要以系统的理念处理问题,而且要尽快建立与经济全球化相适应的标准化体系,不仅工业标准化要适应产品多样化,中间(半成品)简单化(标准化)乃至零部件及要素标准化的辩证关系的需求,而且随着生产全球化和虚拟化的发展以及信息全球化的需要,组合化和接口标准化将成为标准化发展的关键环节;综合标准化,超前标准化的概念和活动将应运而生;标准化的特点从个体水平评价发展整体,系统评价;标准化的对象从静态演变为动态,从局部联系发展到综合复杂的系统.现代标准化更需要运用方法论,系统论,控制论,信息论和行为科学理论的指导,以标准化参数最优化为目的,以系统最优化为方法,运用数字方法和电子计算技术等手段,建立与全球经济一体化,技术现代化相适应的标准化体系.目前,要遵循世界贸易组织贸易技术壁垒协定的要求,加强诸如国家安全,防止欺诈行为,保护人身健康或安全,保护动植物生命产健康,保护环境等方面以及能源利用,信息技术,生物工程,包装运输,企业管理等方面的标准化,为全球经济可持续发展提供标准化支持.
模型架构
在此,我们提出移动阅读电子文档格式与格式标准的制约模型,如下图所示:
图4.1 移动阅读电子文档格式与标准模型
格式的标准严格控制着文档格式的定义,这也是为将来移动阅读电子文档格式走向统一奠定基础.而格式的定义决定着格式的封装与解析,并同时受封装与解析的影响.
格式标准
文档格式随着硬件不同而彼此不同,但其基本结构将受格式标准的制约与控制.格式标准需要对格式的交换性,兼容性,扩展性,介质依赖性等做出定义.
交换性
可交换性是指遵守同样的格式标准的不同文档格式彼此能够容易地进行相互转换.可交换性对电子书文档的传播有着重要影响.既然目前所有电子书使用统一文档格式的可能性不大,那么实现不同电子书文档的可交换性则不失为退而求其次的选择.
目前电子书市场的繁杂决定了不同电子书的文档格式因其硬件设备等外在因素的制约而彼此迥然不同,而影响着它们之间的可交换性的因素主要来自文档格式结构的不同.众多被称为HTML变体的电子书文档格式,其结构上没有章节的概念,而这正是"书"的最重要的特征之一,而基于XML的OEB标准目前也没有这方面的概念;以"页"为单位的PDF格式同样是有自己的一套结构框架,而不是章节结构.这些现状制约着不同文档格式彼此之间的转换.
因此,为了实现文档格式的可交换性,就要统一其结构.而为了接近传统书籍的结构,建议采用基于XML的以章节为单位的总体结构.文档格式结构上的统一并不意味着表现方式的统一,允许采用类似HTML中的尖括号或其他自定义的字符标记.
同时,为了便于电子图书的外部检索,建议文档格式中采用统一的元数据存储格式,前面介绍的DC是较好的格式选择.
兼容性
尽管众多文档处理软件宣称其兼容性,但真正能同时做到向上兼容与向下兼容的着实不多.文档格式的兼容性需要解释程序的支持.格式标准需要对文档格式的兼容性做出定义,以延长文档格式的寿命.
文档格式的向上兼容是指新版的解释器能够解释旧版的文档格式16.该项指标要求文档格式在添加新的功能时要与旧版的文档格式保持一致性.当文档格式需要做重大修改而无法与旧的文档格式保持一致性时,则需要在文档格式的版本上做标记,以便新的解释器能够对版本加以区分而采用不同的解释程序.
文档格式的向下兼容是指旧版的解释器能够解释新版的文档格式17,该项指标严重影响着电子书的质量.若旧的解释器不能正确解释新的文档格式,读者可能不得不购买新的解释器(硬件或软件),长久下去,读者必定对该电子产品失去兴趣,即使新的解释器完全免费,也容易给读者造成不便的麻烦,影响了产品的形象.要实现文档格式的向上兼容性,必须对文档格式有着长远的规划.文档格式的组成单元要有版本和类型的概念,用来指导解释器的行为,而解释器需要对其"不认识"的内容进行正确的回避或忽略.
对于文档格式的向下兼容性,有着两种级别的要求,低级要求是能够正确判断文档格式的版本而对无法解释的版本进行忽略.高级要求则是正确忽略新增加的内容.这两种要求都有一个前提,即不能出现错误的解释.
文档格式的向上兼容性相对较容易实现,需要注意的问题是保持解释器的轻便性.而文档格式的向下兼容性则相对比较难实现,特别是高级要求.
扩展性
可扩展性是考察文档格式良好的一个重要指标.事物都是随着时间的推移而不断更新演变的.文档格式如何在保持其基本特性不变的情况下增加对新的内容的支持,是可扩展性所要考虑的问题.可扩展性同时也影响了文档格式在兼容性方面的表现.
文档格式在制定初期不可能会对未来的发展方向有着全面的认识,而随着硬件条件的提高,文档格式在特定时期则需要对当前版本进行一定的修正和扩充.例如,电子书专用文档格式最初制定之时可能没有想到未来某一天电子书还会支持动态画面或者实现有声读物,而并没有在格式中对多媒体内容进行支持.而文档格式不能简单地添加多媒体内容而不顾原来的解释器能否支持,同时,因为新增加的内容,新版解释器也要做相应扩展,如何将扩展解释器的工作量降低到最低也是电子书专用文档格式需要考虑的.因此,制定一个具有良好扩展性的电子书专用文档格式既是文档格式兼容性的保证,同时也是降低解释器开发工作量的基础.
介质依赖性
格式标准应对文档格式的介质依赖性做出定义,以保证在此标准控制下的文档格式有着比较广泛的承载介质适用范围.对于某些过于依赖介质的特性应作为文档格式的扩充内容加以实现,而不应成为文档格式的基本内容,例如对多媒体的支持.
文档格式
在格式标准的制约下,文档格式所要考虑的问题是:结构,版面,个性化,水印以及压缩等问题.同时,格式的制定要受到格式封装和解析的影响.
文档结构
文档格式的结构涉及到元数据,封面,目录的存储,内容实体的组织,以及各种控制体的存储.
为了实现不同文档格式的可交换性,以及电子文档的外部检索,建议元数据格式采用国际标准格式.
内容实体的组织又可分为两大主流方向:结构化组织方式和流动式组织方式,前者的代表如前面分析的PDF文档格式,后者的代表如前面分析的RTF,OEB等文档格式.
结构化组织方式的特点:
数据的结构化组织方式使电子文档的结构完整,并且抵御外界破坏的能力加强.但相应地,这种完整性的代价是文档的表现需要更多的控制.如PDF,其文档的基本组织单元为对象,每个对象的位置和它与其他对象的关系以非常结构化的格式存储,这使显示时解释程序要对每个对象的显示位置和多种控制属性进行复杂的计算和变换.
流动式组织方式的特点:
数据的流动式组织方式使电子文档的直观性加强,但相应地,其文档的整体性却不强,且其内容容易遭到外界破坏.如RTF,其文档的基本组织方式如流水一般,所有内容随着其显示的位置的增加而相应地存储在文档,这使解释程序能比较容易地控制其显示.
控制体的作用是为文档的封装和解析提供指引信息.文档格式中需要的控制体主要分为几类:组织结构控制体,版面控制体,压缩控制体,加密控制体,附加控制体等.
版面控制
电子书文档的版面格式可以划分为固定版面格式和流动版面格式.固定版面的代表是Adobe公司开发的PDF文件格式,其优点是版面稳定而优美,解释程序相对简单,缺点是文档制作程序相对复杂.流动版面的代表是OEB,其优点是文档制作程序相对简单,缺点是需要靠复杂的解释程序来获得较好的版面控制.
个性化信息
个性化信息是指读者在阅读电子书期间对电子文档所标注的注释,书签等附加信息.目前电子书对注释信息采用单独的存储方式,即另存在一个文件或多个文件中,例如Rocket eBook将注释信息存在*.rn文件中,将下划线信息存在*.rh文件中,将书签信息存在*.ra文件中,而Microsoft Reader将注释信息,高亮度信息,书签信息和绘图信息存在*.obe文件中.这些注释信息的存储方式基本类似,即一条注释信息由标题,位置,长度等信息组成,注释信息之间可以通过特定字符分隔,如Rocket eBook中用0D和0A来区分,也可以固定注释信息的长度,如Microsoft Reader中每200个字符为一条注释信息.这两种方法各有利弊,前者节省空间,但需要按字节搜索,定位困难,而后者一般会浪费一定空间,但搜索方便.
对注释信息进行单独存储有利于保证原文档的完整性.
水印信息
数字水印技术是目前信息安全技术领域的一个新的研究应用方向,其研究目的是通过数字水印技术将某些标识信息嵌入数字媒体中,以解决数字媒体的版权保护和来源认证等安全问题.该技术是通过在原始数据中嵌入秘密信息——水印 (watermark)来证实该数据的所有权.这种被嵌入的水印可以是一段文字,标识,序列号等,而且这种水印通常是不可见或不可察的,它与原始数据(如图像,音频,视频数据)紧密结合并隐藏其中,并可以经历一些不破坏源数据使用价值或商用价值的操作而能保存下来.数字水印技术除了应具备信息隐藏技术的一般特点外,还有着其固有的特点和研究方法.在数字水印系统中,隐藏信息的丢失,即意味着版权信息的丢失,从而也就失去了版权保护的功能,也就是说,这一系统就是失败的.由此可见,数字水印技术必须具有较强的鲁棒性,安全性和透明性.在移动阅读电子文档格式中嵌入水印信息是防止侵权,抵抗不明篡改的有利工具18.
压缩
文档格式所要考虑的一个重要问题是压缩问题,其方法可分为整体压缩和部分压缩两种方法.移动阅读器的存储空间一般有限,合理地对电子文档进行压缩是十分必要的.
整体压缩是指文档通篇采用某种压缩算法,其功能类似于用winzip等压缩工具对文件进行压缩.其优点是实现简单,时间复杂度小,但压缩比可能不大.部分压缩是指在文档格式中对各种不同类型的内容分别采用不同的压缩算法,例如对于其中的文字内容和图像内容等采用分别的压缩算法,而对于一些控制体信息则可以不进行压缩.该种压缩方法的优点是压缩比较高(不同格式内容压缩算法的不同可以分别达到其最大压缩比),而缺点是实现起来相对复杂.
封装与解析
封装和解析决定了文档格式的外在表现.
封装
电子图书在制作完成之后面临的就是从出版到发行再到销售的过程.而电子图书在此过程中需要进一步的包装,即所谓的封装.
封装所要解决的问题包括版权保护,销售模式,来源追踪等问题.
版权保护
电子书产业中的版权保护是为了防止电子图书的非法拷贝,篡改以及无限制的传播.下面所示是电子图书的版权保护流程.
图4.2 电子图书的版权保护流程图
出版商将制作好的电子书籍经过加密,产生加密后的电子书籍以及密钥,分别放置于出版商网络平台和密钥库中.读者通过Internet网下载所需书籍,同时向密钥库付费并提供某种信息以获得相应的独一无二的解密密钥,解密电子书籍用于阅读.
其中读者向密钥库提供的某种信息可以是电子书ID,SIM卡ID等等,用以防止电子图书被非法拷贝.而在加密过程中所采用的加密算法保证了电子图书在被非法篡改之后的不可用性.同时,在电子图书中设置一定的信息位可以防止电子图书被无限制的传播.
销售模式
随着密钥分发机制的不同,电子图书的销售模式可以是:网络销售,存储卡销售,光盘销售等.而销售模式的不同决定了其中的版权保护机制的不同.
来源追踪
电子图书的来源追踪是保证作者利益的基本手段.目前可以应用于电子图书的来源追踪手段主要是信息隐藏技术中的数字水印技术,数字水印技术如今已成为多媒体信息安全研究领域的一个热点,也是信息隐藏技术研究领域的重要分支.
在电子图书的文档格式中预留有关水印的信息将有助于在封装过程中对电子图书的内容嵌入数字水印,从而实现未来的来源追踪问题.
解析
文档的解析解决的是电子文档在最终阅读器上的显示任务.解析所要考虑的问题包括提高速度,保持兼容等.提高速度要求文档格式本身的结构清晰并尽量简单,而保持兼容则更加与格式本身有着密切的联系.
速度问题
速度问题对于硬件条件有一定限制的解释器是非常重要的,而电子书对于电子图书的解释速度对于读者是非常敏感的.影响解释器速度的因素包括:硬件条件,文档格式结构,解释器结构等等.
文档格式结构的复杂性严重影响着解释器的速度.由于目前电子书硬件条件的限制,文档格式结构越简洁,对于电子图书的解释速度越有利,而我们推荐基于XML的文档结构,因为符合XML的文档格式是结构化的,可扩展的,内容与表现是分离的,而且在解释XML方面已经也有很深入的研究.同时电子书专用文档格式不能因为其简单性的要求而忽略了其内容的丰富性,应充分考虑到未来电子书硬件的发展速度.
目前,大多数电子书的文档格式都是没有页的概念的,其版面是流动版面.而在电子书终端上的显示是完全模拟传统书籍的"页"显示,这就涉及到文档的页处理问题.如果将页处理放置在终端上,将大大影响速度.即使是每本书只进行一次页处理,也要大大花费终端解释器的时间和空间.比较好的解决方法是将页处理放在PC同步软件中,而将页信息存储在文档格式中.
解释器本身结构的好坏也影响了解释器的速度.解释器应该是能够满足文档格式基本要求的,可扩展的,具有兼容性的软件.
兼容性
在讨论文档格式的兼容性时提到,文档格式的兼容性是需要靠解释器来协同实现的.在文档格式的定义中要充分说明文档格式的未来发展方向,提出解释器的解释原则,用以指导解释器的行为.
评估指标
对文档格式的评估需要从以下几方面来考虑:交换性,兼容性,扩展性,内容表达,解析速度等.鉴于前面所提到的文档格式对电子书产业发展的重要性,建立对文档格式的评估体系是十分必要的.
对于文档格式的评估要求如下表所示19.
基本要求
高级要求
交换性
元数据可交换
元数据可交换,基本内容可交换
兼容性
向上兼容
向上兼容,向下兼容(低级)
扩展性
可扩展(保证向上兼容)
可扩展(保证向上兼容与向下兼容)
内容表达
文字,图像
文字,图像,动画,多媒体等
解析速度
满足人的阅读速度要求
人不可觉察
表4.1 文档格式评估要求
Wolf文档格式框架及其特点
由南开大学津科电子有限公司研制生产的翰林电子书内部采用的是Wolf文档格式.该格式充分考虑到了前面所阐述的文档格式标准的若干准则,提供了强大的PC同步转换软件,能够将多种文档格式转换到Wolf文档格式以便阅读,提出了标记类型的概念,以保障格式的向上兼容与向下兼容性,同时也保障了其可扩展性.其数据的组织采用了直观的流动式组织方式,其版面控制吸取了固定版面与流动版面的优点,提出独特的固定版面与流动版面结合的版面控制方式,能够存储书签信息并提供跳转功能.此外,Wolf文档格式内部存储了元数据信息,以便对电子文档进行外部检索.同时,提出了附加字库的概念,提高了电子文档的普遍适用性与灵活性.
Wolf文档格式是对前面提出的移动阅读电子文档格式模型的一个应用.通过市场反馈的意见可以看出,该格式基本满足了用户对于移动阅读电子书文档内容的要求,并且其良好的可扩展性与兼容性也保障了其较长的生命期.
下面显示的分别是Wolf文档格式1.0版本,2.0版本和3.0版本在翰林电子书PC模拟器上的显示图.
图5.1 Wolf 1.0和2.0
图5.2 Wolf 3.0
基本结构
基本文档与注释文档的分离
基本文档包含了有关电子图书经转换后的全部原始信息,如元数据,内容,页表信息等,而注释文档则包含了读者所做的各种个性化操作的信息.由于基本文档一经生成,便基本不会有变化,而注释文档则经常发生变化,故将电子图书的基本文档与注释文档分离,形成现在的文档结构.
元数据的存储
元数据元素可用来提供有关电子文档制作,出版的信息.翰林电子书Wolf文档格式中的元数据存储在基本文档中的文档信息段中,由于元数据只在该段中出现,其存储格式采用了一种类似简化HTML的形式,每条元数据只有一个开始标记,其中tag可以是:title,subject,author,adapter,translator,time_write,publisher,time_publish,rights,charset,patent,introduction,ISBN,publishing_corporation等,每条元数据的结尾以0dh和0ah结束,并可以任意次序出现.
翰林电子书Wolf文档格式中的元数据类型参考了Dublin Core规范.Dublin Core被设计用来将作者和出版商的编目负担降至最低点,同时还能提供更多的有用数据.
文档信息段是可扩展的.
正文结构
翰林电子书Wolf文档格式中基本文档的正文部分的结构采用了类HTML的结构,并吸收了XML结构化的优点.
翰林电子书Wolf文档格式中基本文档的正文部分的基本结构如下:







Wolf格式文档正文由和标记界定,中间由章组成,每章由段落组成,段落中可以包含图像,表格,文字等内容.这种结构保证了Wolf格式与其他有着类似章结构的文档格式之间的可交换性.
半流动式版面——Pagetable的提出
电子书专用文档可以按照版面格式分为固定版面格式和流动版面格式.版面固定与否,可以通过考察该种电子文档是否在不同时间,不同环境下所呈现的版面样式都是相同的来决定.
翰林电子书专有格式Wolf文档格式吸取了固定版面和流动版面的优点,制定了独有的流动版面和固定版面的结合体——半流动式版面,其具体表现就是页表——Pagetable的提出.
由于电子书硬件条件的限制,其对电子文档的显示字体与字号一般只能是有限的几种,根据这种实际情况,我们对电子文档在电子书上的显示状态进行一个提前计算,对其在电子书上多种字体与字号情况下的分页情况做出提前计算,将分页数据存储在电子文档之中,而电子书在显示电子文档时,可根据该段内容获取电子文档的版面信息.该段内容就是Pagetable.Pagetable的提出简化了电子书文档的格式,并提供给阅读器一个"阅读参考坐标".
实验证明,在有页表的情况下,Wolf文档的解析速度明显高于无页表的情况.
版权保护的实现
翰林电子书的版权保护是通过翰林电子书系统的本质安全来实现的.翰林电子书系统的本质安全特征是针对与知识产权,版权,和运营商的权利的,权力方彼此之间相互联系,相互认证,相互制约.权力方采用身份识别机制.所谓身份识别机制是指在电子书体系中,终端,运营,版权拥有者各自分配有一个身份唯一的ID信息,充分保证各自的利益不被侵害,而整个体系的三种ID信息的结合,更能避免任何恶意的盗版,仿造,攻击等行为.参见下面的是意图:
图5.3 翰林电子书三种ID示意图
书卡ID的版权保护,是通过严谨的书籍格式(例如:Wolf格式,XEB格式等)和通过此书卡唯一ID加密的个性化电子书籍来保障的,只有在合法的终端环境(合法的终端ID)和运营环境(合法运营商SIM卡及ID信息)下才能正常解密和阅读,任何形式的复制,解密,都只能破坏其正常阅读环境,使其失效.
终端ID的产权保护,是通过产权拥有者授权给生产厂生产时在电子书终端上设定的唯一标识,并被记录到数据库中,供以后电话查询,网上查询和追踪,配合运营商发行的SIM卡和正常版权的电子书阅读,任何形式的仿造都不能建立起完整的运行环境,使其不能正常运行.
运营商ID和SIM卡,是通过在具有加密功能的Smart卡上保存合法运营商的标识信息和授权的操作系统关键信息,只有合法的SIM卡拥有者才能获得具有和SIM卡ID相互识别的唯一操作系统关键信息,只有合法的并且具有合法存储信息的SIM卡才能被终端识别,才能构造起正确的运行环境.任何形式的仿造都不能获得完整的存储信息,也不会被终端识别.
附加字库
翰林电子书阅读程序3.2版本及其之前的版本支持GB2312-80汉字内码.GB2312-80码共收录6763个简体汉字,682个符号,其中汉字部分:一级字3755,以拼音排序,二级字3008,以偏旁排序.
中国古代书籍中包含大量繁体字,这些繁体字在GB2312-80中没有定义.对于这类电子文档的转换,翰林电子书文档格式提供了附加字库的解决方式.附加字库的解决方式提高了电子文档的普遍适用性与灵活性.由于Windows95/98简体中文版的字库表层编码采用的是GBK汉字内码,可以很容易的获得没有包含在GB2312-80中的文字的字库信息,因而就可以很容易地嵌入Wolf文档中.
翰林电子书最新版本支持GBK汉字内码扩展规范.GBK基本上采用了原来GB2312-80所有的汉字及码位,并涵盖了原Unicode中所有的汉字20902,总共收录了883个符号,21003个汉字及提供了1894个造字码位.由于GBK的编码中属于GB2312-80的部分采用了与GB2312-80完全相同的码序,所以GBK是与GB2312-80兼容的.
虽然GBK已经包含了几乎所有的汉字及符号,但附加字库的提出与实现都具有积极的意义.
个性化阅读
读者一般都有在所阅读的纸质书籍上做一些标记的习惯,如对某些字句进行圈划,对某些段落进行标注,添加心得体会,或将书签插入书籍中以备将来之需等等.这些行为可以定义为将书籍进行个性化.电子书既然作为传统纸质书的发展,读者必然同样希望对电子书进行个性化.
注释的结构有两种:固定长度注释与变长注释.固定长度注释是指每条注释的长度都是固定的,这种结构的优点是可以迅速随机查找所需注释,其缺点也是显而易见的,即对空间会有一定浪费.变长注释是指每条注释的长度是不固定的,由注释内部的长度信息来提供,这种结构的优点是节省空间,其缺点是无法对某条注释进行随机查找.
翰林电子书Wolf 1.0版本目前只支持添加删除书签操作,因此当前的注释文档采用固定长度注释格式.
翰林电子书Wolf 2.0版本将支持添加或删除书签,注释,高亮度等功能的注释文档格式,其结构将采用变长注释格式.
下图为含有书签的Wolf文档.
图5.4 含有书签的Wolf文档
交互性
Wolf文档格式提供了用于交互功能的内容,其2.0版本是专为中小学提供的试卷格式,其中包括选择题,是非题等客观题和填空题,简答题,连线题,论述题等主观题.文档中包括了题目的答案和分数等属性,阅读器可以根据读者的做答和题目的属性给出读者的分数.
下图显示的是读者做答示例和最终得分示例.
图5.5 等待读者做答第5题
图5.6 读者选择答案A
图5.7 读者成绩
性能分析
交换性
多种文档格式都可以很容易地转换到Wolf文档格式,通过翰林电子书PC同步软件,RTF,PDF,TXT,HTML,EML以及多种图像文件都可以转换为Wolf文档格式从而在电子书上阅读.目前,通过翰林虚拟打印,所有可以打印的文档都可以转换为内容为图像的Wolf文档格式,既保证了原有文档的版面信息,又具有一定的清晰度.
同时,Wolf文档格式采用了与DC相近的元数据存储格式,便于其外部检索.
兼容性
Wolf文档格式的兼容性通过其版本号和标记的类别来控制.
Wolf文档格式的版本号主要用于实现Wolf文档格式的向上兼容性,新的解释器通过版本号控制文档格式的解释行为.目前,1.0版本是"翰林1号"电子书基本文档格式;2.0版本是试卷文档格式,含有交互信息,用于电子试卷的使用;3.0版本是多媒体电子书文档格式,含有丰富的多媒体元素,用于高端电子书.同时,通过版本号可以实现低级向下兼容性,旧的解释器可以根据版本号决定是否解释新的文档格式.
标记的类别用于实现Wolf文档格式的高级向下兼容性.旧的解释器在解释新的文档格式时,根据标记的类别进行忽略或者跳过行为.
扩展性
由于Wolf文档格式定义了标记的类型,使得Wolf文档格式是容易扩展的.扩展性其实所要考虑的是扩展以后的兼容性问题.而Wolf文档格式充分考虑了其向上兼容性与向下兼容性问题.
内容表达
Wolf文档格式1.0版本包含了文字,图像,表格等元素,能够充分表达传统书籍的内容.同时,Wolf文档格式包含了章节的概念,允许读者做书签等标记,使得读者阅读起来得心应手.
Wolf文档格式2.0版本包含交互元素,实现了传统书籍无法达到的交互功能.
Wolf文档格式3.0版本包含了丰富的多媒体元素,使得读者在读书的同时可以欣赏音乐,影像等娱乐资料.
速度
考虑到硬件条件的限制,Wolf文档格式在保证包含必要的文字,图像,表格等元素的基础上,尽力实现其结构的简洁性,以便提高解析速度.
同时,由于页表概念的提出,使得Wolf文档格式的解释速度大幅提高,对于同一篇Wolf文档,在不考虑硬件刷屏延迟的前提下,任意跳转N页的时间将提高N倍.
由于将页表的制作放置在PC同步软件中,其花费的时间微乎其微,作为对比,Rocket eBook则将文档的预分页处理放在了终端,大大影响了读者的阅读.
结论与展望
eBook文档格式前瞻
在纵观形式多样的电子书文档格式之后,我们可能会思考这样一个问题:未来电子书的文档格式究竟会是哪一种.有一个事实很明显,在OEB规范推出后,电子书的文档格式迅速地从以前的多种集中到目前的两种,就是OEB和PDF,而究竟这两种格式今后如何发展,我们只有拭目以待了.
然而对于网络出版和电子书产业来说,当前电子书文档格式的混乱局面严重影响了电子书产业的大规模发展.
本文针对这种混乱局面,提出了移动阅读电子文档格式模型,阐述了格式标准与格式本身之间的制约关系,并提出了文档格式的封装与解析,给电子书文档格式的制定者指明了文档格式制定的若干原则.
而通过对Wolf文档格式的分析可以看到,在坚持文档格式标准的基础上建立起来的电子书文档格式是具有良好的性能的.
相信不久的将来,随着电子书硬件体系的发展,电子书的文档格式势必朝着大规模整和的方向发展.
eBook发展前瞻
尽管eBook具有很多的优势,但是与eBook预言相反的事实却让人们无法乐观.随着纳斯达克网络泡沫的破灭,互联网陷入了极度的严寒.电子图书将何去何从 这是摆在概念炒作后今天的现实.
其实,eBook之于传统印刷媒体并没有本质意义上的区别.它并不单纯指某一项产品,而是关系到一条巨大而冗长的产业链,包括作家,出版社,技术提供商,内容制作商,销售商和阅读设备生产商等,在这些参与者中,任何一方的作用都是无法替代的.这就构成了eBook的特殊性.其中,最为突出的就是eBook制作与传输的低成本和图书的知识产权保护之间难以调和的矛盾,尤其在eBook发展的初期,铺天盖地的盗版成为eBook发展的大敌.在目前我国电子图书市场和人们的消费观念都不成熟的时候,任何过分的要求,不管是对消费者还是eBook本身,都显得很苍白.在国内,免费和未经授权eBook的繁荣从一个侧面反映了人们对电子图书的渴望;在国外,eBook的发展速度更加惊人,在网络出版发展最早的美国,目前几乎所有的出版社都有自己的网站并出版eBook.同时,由于微软,Adobe Systems等软件霸主以及兰登书屋(Random),西蒙和舒斯特(Simon & Schuster),时代华纳(TimeWarner),贝塔斯曼(Bertelsmann AG)等传媒巨头和电子商务先锋亚马逊(Amazon)等著名公司的先后介入,eBook开始风风火火闯世界.
网络时代,对任何一种新产品的预言都有可能是保守的.这意味着,幻想可能明天就会实现.虽然人们对电子图书什么时候成功,以什么样的模式成功可能会见仁见智,但是无论如何,谁也无法否认eBook灿烂的明天.当电子图书的消费成本,人们的阅读习惯,文档格式标准,知识产权保护以及阅读设备等阻碍eBook发展的壁垒真正消除时,当电子纸张(electronic paper),电子油墨(electronic ink)等全新的技术真正商品化时,电子图书必将成为知识传播的主要形式之一.而新技术的不断诞生,也必将使得电子图书能够被人们接受的并不仅仅只是阅读方式的改变.未来,eBook必将成为传统媒体无法替代的文化消费,宽带和无线网络的繁荣将为eBook带来勃勃生机.
参考文献
[1] 《认识数字版权保护》,[EB/OL],http://www.bookwide.net
[2] 周劲,《网络时代的出版延伸线》,[EB/OL],http://www.cppi.com.cn
[3] 《按需印刷,彻底告别绝版时代》,[EB/OL],http://www.cnbook.com.cn
[4] 王丰昌,《电子书的制作,保护及阅读》,[EB/OL],http://china1.e21times.com
[5] 张海云,《基于便携式阅读器的电子书网络传播技术研究》,[D],天津:南开大学信息技术与科学学院,2001年5月
[6] 《Adobe将PDF的强大功能引入手持设备市场》,[EB/OL],http://www.IAsia.com.cn
[7] 《方正Apabi电子书手持阅读器解决方案》,[EB/OL],http://www.apabi.com
[8] 程新潮,《ebook:阅读的革命》,[EB/OL],2001年8月13日,http://www.sina.com.cn
[9] Tim Bienz,Richard Cohn,James Meehan,《Portable Document Format Reference Manual Version 1.2》,[EB/OL],1996年,http://www.adobe.com
[10] 《Rich Text Format (RTF) Specification and Sample RTF Reader Program》,[EB/OL],1999年,http://msdn.Microsoft.com
[11] 杨蔼新,《世纪超星:抢占数字图书市场》,[EB/OL],2001年11月,http://www.jinzhoukan.com
[12] Elliotte Rusty Harold,W.Scott Means,《XML技术手册》,[M],北京:中国电力出版社,2001年11月,P10~20
[13] 肖明,李红辉,林守勋,黄铁军,《Open eBookTM(开放式电子图书)出版物结构1.0》,[S],2000年6月
[14] 《"清晰"与"酷"的较量》,[J/OL],2001年第5期,http://www.cpcw.com
[15] 那福忠,《电子书的PDF与XML之争》,[EB/OL],2000年9月20日,http://www.brainnew.com.tw/Article
[16] 《Upward Compatible》,[EB/OL],http://www.webopedia.com
[17] 《Downward Compatible》,[EB/OL],http://www.webopedia.com
[18] 戴元军,《信息隐藏与数字水印技术》,[EB/OL],2002年1月,http://www-900.ibm.com/developerWorks
[19] 《SD Memory Card Specifications Part II ePUBLISH SPECIFICATIONS Version 1.01》,[S],2002年10月,SD Card Association
工作总结
自2000年5月起,参与天津津科电子有限公司电子书项目的开发,从事PDF和RTF文档的解析与转换工作,以及翰林电子书Wolf文档格式的定义工作,期间参与国家标准《开放式电子图书结构》的制定.从2002年1月起参与翰林电子书PC端同步软件的开发,负责PC端模拟阅读软件的开发,并与2002年10月开始进行电子书版权保护工作的研究.
致谢
忠心感谢我的导师李庆诚教授四年来给予我学习上的指导,生活上的关心和工作中的帮助.李老师工作中一丝不苟,严肃认真的精神永远值得我学习.
非常感谢刘全礼老师以及刘嘉欣老师在科研,学习方面给予我的帮助和指导.
感谢林明生老师在学习,生活中给予我的帮助和关怀.
感谢实验室的师弟师妹们,谢谢你们的帮助.尤其感谢吴贺俊同学对我学习中的帮助.
感谢四年来陪我度过研究生生活的室友们,焦扬,李冠一,罗岚,谢谢你们一再容忍我的任性与聒噪,李瑷珲,马淑娟,焦妮娜,谢谢你们陪我度过我学生生活的最后一年.感谢胡晓琨,商艳莉对我生活中给予的关心,感谢刘亚琦对我精神上的鼓舞.
感谢津科公司嵌入式系统的同事们在工作中给予我的帮助和支持,在津科公司实习的一年半时间里,是大家的指导使我的实际工作能力有了飞速的提高.尤其感谢何福涛对我工作上的帮助.
感谢我的父母,谢谢你们给予我一如既往的支持.
目录
摘要
目录
第一章 前言
第二章 电子文档阅读器
第三章 电子文档格式剖析
第四章 移动阅读电子文档格式基本模型
第五章 Wolf文档格式框架及其特点
第六章 结论与展望
参考文献
附录
图2.1 Adobe Acrobat Reader 5.0
图2.2 Apabi Reader阅读器
图2.3Microsoft Reader的界面
图2.4 Gemstar eBook——REB1100和REB1200
图2.5 翰林一号电子书
可成像内容
目录
页树
大纲树
文章线程
命名目的地


大纲条目
大纲条目
缩略图
注释
线程
线程
粒子
粒子


RTF文件
文件头
文档
字符集
字体表
文件表
颜色表
样式单
列表表格
版本表
信息
文档格式化属性*



章格式化属性*
页眉或页脚
段落
段落
段落


COMMENT
TYPE
TITLE
AUTHOR
URL
GENERATOR
PARSE
OUTPUT
BODY
SuggestedRetailPrice






style
style
[tags 4]
-1
0
1
1
[paragraphs 2]
251 3
268 2
[names 0]
REV=2
START=1fb END=201 BODY=000000-MiniGUI.html
START=21f END=26c BODY=000000-MiniGUI.html
REV=1
Byte=360
Menu=Hello!
Body=000000-MiniGUI.html
REV=1
Byte=30F
Menu=M i n i G U I
Body=000000-MiniGUI.html
解析
封装
格式
标准
电子图书
加密
出版商网络平台
Internet
电子书
密钥库
未经加密
加密过的书
密钥
读者
付费并提供信息
证书
文档结构 版面控制 个性化信息 水印信息 压缩
交换性 兼容性 扩展性 介质依赖性
版权保护 销售模式 来源追踪
速度 兼容性