藏文文献输入手册
来源:百度文库 编辑:神马文学网 时间:2024/04/29 07:49:42
藏文文献输入手册
前言
本手册是关于如何将藏文文献输入到电脑并制作成电脑文件。如果仔细地遵循手册中描述的步骤,就可以把文献转化成能够长期保存的电脑版的藏文文献。电脑版本的文献用途相当广泛:不仅可以把它转化成传统藏文经书或者现代书籍的样式,也可以做成光盘(CD)或者网页. 把藏文文献制作成电脑文件主要包括三个步骤:
- 输入和校对
- 编辑后的版本
- 标注和格式
本手册包含前两个步骤。另一部单独的 THL 手册涵盖第三项。
在过去的二十年间,随着电脑技术的发展,诸多藏文文献都制作成了电子文本。但是,进行此项工作的随意性较大,未能达到最佳标准或利用到最好的技术。由于以往用于藏文输入的技术大多都已被更新或淘汰,所输入的许多文献都不适合于长期保存。其结果是,尽管花费了很多精力,现有的许多电子版还不如原有的印刷版可靠、稳定和应用性强。
解决这个问题是本手册的目标。如果从一开始就能遵循下列原则,制作一个稳定而且可用性较强的电子版文献的过程并不困难:
- 只使用功能完善的Unicode字体进行输入,如Tibetan Machine Uni。
- 电子文件的保存格式必须耐用,并且能够转化成其它印刷或电子文本的格式。
- 按照原稿输入文献,不需校订原稿中的错误,以便保存某个公认版本的真实面貌。如果您想纠正该文献中的错误,那么,您必须按照我们的修改指南来做校订。这样我们可以同时保存修改前的原稿和修改后的文本。
- 在您输入过程中,特别要注意按原稿输入每一个细节。增加原稿中没有的内容,如多余空格等,是不允许的。
- 要输入原稿的页码和行数号。
- 不仅输入要认真细致,校对也要仔细。一部电子文献假如有很多错误,就失去了使用的价值。
- 校对时,您应打印出输入的文本,并与原稿对比校对,而不应仅仅在电脑屏幕上校对。
我们希望这些规则能够对任何藏语文献的输入项目都有所帮助。对于THL文献输入工作而言,这些规则并非可有可无,而是每一步都要必须遵循的。
第一步: 电脑准备过程
本节讲述如何设置电脑字体、键盘输入法和文字处理软件,以便输入Tibetan Unicode字体.
1. 字体
请安装Unicode Tibetan 藏文字体。THL的工作要求使用的Tibetan Machine Uni字体可以从以下网站免费索取:
Tibetan Machine Uni
请注意,2005年11月3日发行的版本1.0的字体库缺少部分藏文字母的组合。2005年底,我们准备发行版本2.0。如果2.0依旧没有您需要的字母组合,请通过 与我们联系,我们将从速调查并给予答复。
2. 键盘系统
请安装一个键盘输入系统。尽管现在有许多人使用其它键盘输入系统,最为常见的和最流行的是“Wylie”和 “Sambhota.”请查阅以下网页中THL对不同键盘系统的调查.您也可以从此网页直接下载相关软件:
- Tibetan Input Tools
如使用THL 的Extended Wylie 输入法,我们推荐TISE 键盘:
- Tise
把THL 的Extended Wylie 输入方法打印出来是很有必要的。在输入非常规词时,可作参考:
- http://www.thlib.org/reference/transliteration/#essay=/thl/ewts/
对于Sambhota 的输入,我们暂时建议使用Keyman输入软件:
- Keyman
打印Sambhota 输入方法也是很有必要的。在输入非常规词时,可作参考:
- Sambhota Keymap #1 to Unicode
3. 软件和操作系统支持
使用一种能够支持输入并展示Tibetan Unicode 字体的电脑操作系统和文字处理软件是非常重要的。目前,在Windows XP之前,没有一个操作系统能支持Tibetan Unicode 字体。使用最新版本的Windows XP和最新版本的Microsoft Word (2003 SP1)是最佳选择。但是,如果您的Windows XP使用Word 2000,请参阅THL 提供的有关设置Word来处理Tibetan Unicode的资料:
- Updating Uniscribe
第二步: 建立新文档
本节讲述怎样输入您的文献并建立电脑文档。这些程序是针对Microsoft Word 的运用而设计的,其中包含三个步骤:
1. 在建立新的文档之前需要安装 THL Word 模板 (Template)
在Microsoft Word中建立藏文文档之前必须要先安装 THL的TibetanLanguageTemplate.dot模板,用它来建立新的文档。
1. 从以下网页中下载模板:
Tibetan Language Template
2. 用解压缩器打开压缩文件并将TibetanLanguageTemplate.dot放在以下文件夹内: C: > Documents and Settings > {Windows User name} > Application Data > Microsoft > Templates。
2. 建立新的文档
首先,用TibetanLanguageTemplate.dot 模板来建立一个新的文挡。在Microsoft Word 里:
- 从文件(File)菜单里选择新建(New)。
- 新建文档窗口出现后,在模板(Template)下选择本机上的模板(On My Computer). 这里您将会看到Microsoft Word 提供的,在您的电脑上已存的模板清单。
- 请选择TibetanLanguageTemplate.dot模板。一个含有元数据表的文档将会打开。
当输入像《甘珠尔》那样包含多于一部文献的古籍时,不管每部文献的长度如何,应该作为独立的电脑文件储存。
使用这个模版的原因: 选择使用这个模版有两个主要原因。首先,此模版有自动输入页码等功能,这使输入工作变得更加简便。 其次,它包含一整套的适合藏文文献特征的格式。输入时使用了这些格式,文献就可以轻易地转化成传统藏文经书、现代书籍、电子书等各种模式。
3. 文档的命名和保存
一旦TibetanLanguageTemplate.dot 模板打开后,选择一个适合于当前输入文献的简短文件名,将其保存:
- 从文件(File)菜单里,选择另存为(Save As)
- 当另存为(Save As)窗口出现后,在文件名(File Name)框内输入您的文件名称
- 在保存位置(Save In)窗口里选择该文件在您电脑上的保存位置
- 然后,单击保存(Save)即可。
给文件命名的建议: 文件名称不宜过长。现在还不能够用藏文文字来命名文档,因此,只能用罗马文字给文档起一个简称。如果您会使用Wylie(藏文拉丁转写),可以用Wylie给文档命名。简称应是取文献整个名称中的两个音节。如 , 可以用“baiser”来命名。如果文献原文过长,需要分成多份电子文件进行保存,那么,文件名之后应用号码注明。第一个 文件可以称作 baiser1; 第二个文件可以命名为baiser2, 等等以此类推. 如果该文献是多卷文献,在简称之后需加卷数号,然后画横线后,再输入该文档的文件号码。比如说,您所输入的文献有两卷,每卷有三个文件,文件名称应该如下:
- baiser1-1
- baiser1-2
- baiser1-3
- baiser2-1
- baiser2-2
- baiser2-3
针对《甘珠尔》输入项目,我们是这样要求命名文件的:卷宗字母_开始页码。如果正反页面的页码一样,在页码之后加"a" (正面)或 "b" (背面)以便于区分。比如,ka_0001a.doc中的ka表示卷宗,1表示开始页码,a表示正面。
4. 在文件最开始填写元数据
新文档的最上方有一个元数据表。这个表格就像传统藏文经书()的电子版的标签()一样。它可以帮助读者迅速地识别电脑文件的内容.所以正确地填写该表格非常重要。
填写元数据表的几点建议: 本手册的结尾附有的元数据表包括了所需填写内容的详细说明。请填写和当前输入工作有关系的信息。与当前工作无关的内容,可以不用填写。
在表格中输入藏文时,需要先改变字体。用鼠标点击空格,把字体设置成Tibetan Machine Uni,然后再输入信息。
第三步:输入文字
现在您已经建立了新的文档,可以开始输入文字了。文字输入的目的是,用Unicode 字体来建立一个跟原稿一模一样的电子副本,其中包括原稿中有的所有字母、标点符号、空格,甚至原稿中的错误。这个过程包括以下10点:
1. 文献标题的输入
前面已经填好了文档最开始的数据表。现在,运用“Heading1,h1”的格式和Unicode 字体,在数据表下面的第一行输入该文献的全名。运用这个格式的最简便的方法是,用鼠标点击屏幕左上角格式(Style)窗口旁边的箭头。点击后,一系列的格式选项会出现在窗口内。向下移动并选择Heading1,h1。选择了这个格式后,就可以输入文献名称。
然而,如果使用键盘上的快捷方式会更快一些。按Shift+Alt+S 就可以选择文档上方的格式窗口,而只需输入两个字母作为格式名称的缩写(如,Heading 1的缩写是 h1),单击enter 之后,就可以应用这个格式。这种方法会使选择和应用格式变得更加快捷。输入文件时,要使用段落回车(不可以用人工断行)和不间断的空格。在工具栏点击“¶” (Show All)标记,段落回车标记将会显示:¶, 不间断空格会是这样:°. 比如,在Wylie Word 和Tise 键盘上,可以通过输入下划线“_” (Shift + -)来输入不间断空格。
如果所使用的键盘没有输入不间断空格的键,输入文档之后,可以查找(Find)空格,并用不间断空格替换(Replace)空格。使用MS Word 中的查找和替换,请按Ctrl+H。在查找内容(Find What)窗口内输入空格,并在替换为(Replace with)窗口内输入“^s” (不间断空格代码).
2. 单击输入, 选择段落格式
输入文献标题之后,单击输入(Enter)键。然后,回到格式(Style box)窗口并选择Paragraph,pr 格式。用这个格式,Tibetan Machine Uni字体输入的文件就会以普通段落的形式呈现出来。接下来所输入的文字都应该使用这种格式。
3. 通过Microsoft Word 建立“换行规则”
如果所输入的藏文不能正确地换行,比如说,在一个藏文词的音节中间断行了,那么,必须在Microsoft Word中选择相关选项:
- 进入工具(Tools),选择(options)。
- 当选择窗口出现后,选择兼容性(Compatibility).
- 然后,在选项窗口里,向下找使用换行规则(Use Line Breaking Rules)。
- 单击旁边的框进行选择。
- 然后单击确定(OK)。
每一个新建立文档都需要按以上过程设立换行规则。
4. 输入第一页的页码
所创建的文档里有自动输入页码的功能。在输入文献之前,可以用文档里的页码输入器(page-numberer)设定和插入页码。插入页码后再开始输入当前页的文字。当完成输入原文献的一页后,需要输入下一页的页码,然后再输入该页的文字。
需要注意的是,页码输入器把页码插入在电脑文件里的。比如说,原文第230页上的最后一个词是 而第231页上的第一个词是 那么,插入页码后电脑里显示出来的是这样:[231] 虽然页码会出现在电脑文件里,但是当用电脑文件打印经书或书本时,这些页码将会被从文章中自动移开。如果打印经书,会出现在页边。如果是打印现代样式的书籍,页码会出现在页脚,等等。
那么,现在需要标出输入文献的第一个页码。有两种方法:
- 单击 THL 工具栏的"P" 按钮,或
- 按住Ctrl+1 (按住“Ctrl”键再按住“1”键).
这两种方法都会带出上面写着"页码还未设定"(No Page Number has been set)的选项视窗,单击OK 后,下面的视窗就会出现:
首先,在Enter Page Number 框内输入文献的第一个页码。(在上面的例子中该文献的开始页码为108.)
其次,要看原文献的两面边上是否有阿拉伯数字页码。如果有,那么选择第一项Number on each side of page. 如果只有文献正面写有藏文数字,那么需要选择下方Front Side的选项。
如果要对每一页的每行进行编号,请点击下方Insert Line Numbers选项旁边的方格。单击Enter. 现在页码已经被设定了,您可以输入页码和行数号。输入第一页的页码和行数号,有两个方法:
- 单击THL 工具框中的"P" 按钮,或者
- 按Ctrl+1
输入第一行以外的行数号时,可以按Ctrl+2 ,Ctrl+3和Ctrl+4 来输入第二、三、四行的行数号,依此类推。在插入行数号之前,一定要确保光标落在前一行的最后一个音节的音节点() 之后,或者该行文字开始之前。也就是说,先插入某一行的行数号,再输入该行的文字。
输入行数号的另一种方法是使用THL工具框,单击"2"和"3"就可以分别插入第二行和第三行的行数号,依此类推。用这个方法也需要确保下一行的行数号落在前一行最后一个标点符号之后。
5. 输入文献的书名页
如果您的文献有书名页,那么插入页码之后要马上输入书名页的文字,包括 (书头符) 以及与正文之间的空格,还有文件名称之后出现的符号, 如?(分句线) 等。如果有?,输入时要包括它们之间的空格。 比如说,正在输入的是龙钦帕的 , 这个文献的书名页在第157页,输入之后,应该是这个样子:
[157]
6. 输入文献的第一页
按Ctrl+1输入下一个页码。然后输入第一页的文字。输入第一页的正面时,所有的内容,包括在内,都要按原文的原貌输入。如果有 也要输入。要注意的是,在输入接下来的页面时,不可以在第一行的开始输入 它只是作为装饰出现在首页的第一行,而不属于文献内容的一部分。到这一步时,文件应该像这样:
位于中央的文字是文献/书本的名称,用“Heading1,h1”的格式输入。
下面紧接着的是书名页(始于157页)。然后是该书的第一页(始于158页),在段落回车之后。
7.继续输入,以及为剩下的文献输入页码
此时,可以继续输入剩余的文献。要确保输入是在“Paragraph,pr”格式范围之内进行,并且输入每页之前,要确保页码已输入。
当输入完原文一页的最后一个标点符号时,按Ctrl+1 (或者单击THL工具框内的"P"),以便输入下一页的页码。在每页最后一个音节符 之后和下一页第一个字母之前输入下一页的页码。页码前后都不可以留空格。输入的页码应该是这样的: [231]
如果在页码输入过程中发生输入错误并需要修改它,可以直接按Ctrl+0 或者单击 THL工具框内的"F",页码输入窗口将会出现,而不需要输入任何页码或行数号。这个窗口打开后总是显示the next page number to be inserted(即,下一页的页码待输入)。 输入正确页码后单击OK,再删除错误的输入,然后像平常那样输入页码
8. 电子版中不需要输入的内容
尽管您的目标是要将您的原文内容准确地复制,但有些内容无需在电子版中输入。
1. 除了某以特定版本的特定格式,每页开始时的符号 不要输入,因为它仅仅是个装饰而不属于正文的内容。文档的第一页上输入 是正确的,但是接下来的页面上不应输入
2. 不要输入一连串的 来填补某一行的空缺。比如说,某一行的结尾是, 应该只输入
3. 不要输入, 或使用一连串的 来标记 . 如果原文有 , 那么,请参阅下面“输入文献时可能遇到的特殊情况”部分。
9. 新文件的开始
当输入的电子文件达到150 页时,就应该开始一个新的文件,这样文件就不会过长。结束某一文件并开始一个新的文件时,结束点应该选择在原稿的某一页的结束。
当开始一个新文件时,如一开始所描述的那样用模板建立一个新的文档,并填写开头的元数据表。
元数据表下面,输入下一页的页码,然后继续进行输入工作。不需要像第一个电子文件那样再输入文献名称等信息。所有和新文件有关的信息都在数据表中了。您只需要插入页码,然后着手文字输入工作就行了。
10. 储存并建立备份
电脑故障是不可避免的,所以及时储存输入的文件并建立备份是非常必要的。建立备份的最佳方法是,把输入的文件的备份储存在正在使用的电脑之外的磁盘上。如果您有外接硬盘,U盘,或者其它储存媒体,每天工作结束时,应该将文件的备份储存在上面。
参考: 输入文献时可能遇到的特殊情况
本节描述输入过程中可能经常会遇到的一些情况:比如,如何处理原文中的错误,如何处理无法辨认的原文,如何输入特殊字母,等等。
1. 错误
您的目标是要输入一份跟原稿一模一样的副本。因此,即使所使用的原稿有错误,在输入时还是要保持原样。在输入完成之后,编辑将会在电子版上更正这些错误,但是同时,也会保存一份已输入的跟原稿一模一样的副本。
2. 文献的编辑更正
一般来讲,THL 要求在保护原稿原有面貌的基础上进行文献输入和校对。为了达到这一目的,进行文献输入和校对时不应该:1) 更正原稿的错误(如拼写和语法错误等);2) 在电子文件的正文中拆开缩写或附加解释; 3) 增加空格和点缀来改进原稿的版式等。
如果您被授权更正错误,那么,请用下列方法更正原稿的错误。但是,在输入的文档中必须同时提供您的更正和原稿的错误。这样做的目的在于保持原稿内容的同时,也能看到编辑根据TEI的标准所作的更正。
作更正之前,按Ctrl+F5,或者,在THL工具栏中点击"C"。这样会出现一个表格。在Actual Reading in Text框内输入原文的真实版本。在第二框,即Corrected Reading,内输入更正后的文字。在Editor's Initials内输入您的姓名的缩写。最后,单击Enter。您可以继续您的文献输入工作。
这一系列工作程序将会把原稿的真实面貌、更正后的内容、以及负责更正的人员的姓名缩写以下列模式保存:
其结果会像这样:
在(< >)符号的前后不可以留空格。
3. 不同版本的更正
如果您在输入过程中比较同一个文献的多种版本,或者核对同一文献的不同版本,那么,您必须遵循本手册中提供的所有指导方针。除此之外,请遵循 “不同的文本或版本” 一节中提供的有关应用不同版本的惯例。
4.无法辨认的原文
当遇到无法辨认的原文文字时,在原文输入处按Ctrl+F2或点击THL工具栏内的伤感面孔键(用一种特殊格式输入{Illegible}(中文:无法辨认)),然后,开始输入后面可辨认的原文。尽管现在您的文件上有英文词 “Illegible”,但是文件打印成书时,这个词将会自动移开,而文件会被适当地格式化的。
直接使用这个格式者可以输入“il”作为“Illegible”格式的快捷方式。
5. 不清晰的原文
遇到不清晰原文文字时,您可以先按前后文章的意思猜测一下, 输入您的猜测。然后,把原文中不清晰的部分用高亮突出出来,然后按Ctrl+F3或者点击THL 框内脚印(footprints)按钮。这样,不清晰的原文部分就会以一个特殊的格式出现在电子版中,读者也会明白原文的这一部分是不清晰的。
Ctrl+F3 和脚印按钮同时具有切换不清晰格式的功能。如果需要这样使用这个功能,我们建议您遵循以下步骤:
- 完成输入不清晰部分之前的最后一个音节和 标点符号
- 按Ctrl+F3 或点击脚印按钮.
- 输入不清晰的文字。
- 最后,再次按Ctrl+F3或点击脚印按钮,就可以返回到正常格式。
直接使用这种格式者可以输入“uc”作为“Unclear”(不清晰)格式的快捷方式。文字将以红颜色显示在文件中.
6. 输入特殊符号
Tibetan Machine Uni 字库内包涵的藏文字母符号和标点符号很广泛。但是,输入过程中,如果您不知道怎样输入某一个特殊符号。那么,最简便的输入方法是用“插入符号(Insert Symbol)”指令。
用以下步骤插入符号:
- 从菜单进入插入(Insert)
- 然后单击符号(Symbol)。
- 把字体(Font)框中的字体改成 Tibetan Machine Uni, 这样,字库中这个字体现有的符号就都会出现在下面的表格里。
- 选择您所需要的符号并点击它,然后,点击插入(Insert).
在输入过程中,您可能会遇到下面这组让人感到迷惑的符号。我们现在提供的这组符号并不完全,但是,在不断发现错误类型的过程中,我们会扩大我们的涵盖面。
a. Visarga ?
此符号用于梵文中读音像“h” (罗马转写为, ?)的音节。在输入过程中,要确保输入的是?,而不是 。 需要注意的是,在两个小圆圈之前的大一点圆圈并不是这个符号的一部分。它只是代表Visarga符号之前的那个字母。
b. Avagraha ?
梵语中这个符号用来表明没有发音的某个字母。这种不发音字母通常会出现在某个词的词首。输入的时候,请确保输入的是此处的,而不是藏文中的 。
c. ??????? ?
藏文经典中用这个符号来注明圣人的名字,写在圣人名字的第一个音节之前。输入时,要确保您所使用的是 而不是藏文数字七 。 (要记住, 它们的字 形相同, 但是 的位置高于数字七)。
d. 注释中原文下面的圆圈
在经文的注释中,从原文引用的词句章节片段下通常会放置小圆圈。在文献中这种小圆圈也有其它的功能。 ETWS中的键击是“X”(Shift+x)。在您输入的单词之后按Shift+x,所要的小圆圈就会出现。
7. 不同的 ???(分句线)
输入电子文件中的所有分句线必须要跟原文中的一模一样。
(a) ????????????????? (聚宝垂符) ?
一般出现在开始新的一行的 (音节)之后。 输入过程中不可漏掉。
(b) ???????? ?
是用在 文中的一种特殊的标点符号。但从功能而言,它仅仅是个普通的. 输入 时千万不可与 Visarga?混淆。
(c) 其它分句符号
Tibetan Machine Uni 字体涵盖了其它不同类型的分句符号,如 , 等等。输入原文的过程中,应该按照原文输入到电脑文件里。
如果您不知道如何输入这些符号,请参考关于“插入特殊符号”(上节 #4)中的相关建议。
8. 梵语和其它语言的词汇
Tibetan Machine Uni 字体包括了最基本的藏化了的梵文字母,但是里面不包括特殊字母和复杂符号。如果您无法输入某个字母,那么,您需要扫描有该字母的书页,然后把扫描的文件和已完成输入的文稿部分放在一起,而且请与您的项目编辑或负责人联系。他/她将会与THL () 联系并争取他们的意见。这有可能会涉及到Tibetan Machine Uni 字体字库的更新。
9. 缩写
藏语文献(特别是那些用草体书写的文献)经常使用缩写。缩写会减少部分字母,有时会使得文献的意思难以理解。如果您的文献原文用的是藏文楷书 的话,请在输入时不要拆开文档中的缩写词。比如说,您的原文中有 那么,输入时必须要输入,而不可以输入成 。其它例子有:
- 不应输入成
- 不应输入成
如果原文是由别的字体写成的,并且含有诸多的缩写(),那么输入时需要拆开缩写并输入该词的所有字母,因为缩写()是无法转换成藏文楷书( )的 。如果有此类原文,请与负责此项目的编辑联系。
10. 注释
注释()是指某个人在其他人写的文章或书本上作注解,然后用一些小的标点()把原文出处和注解连接起来。如果输入的原文有 , 必须要用以下方法去输入。虽然结果不会完全和原文一样,但是,用输入的电子文件打印经书时, 所输入的 会自动转换成传统的格式。输入 时,不用输入连接原文出处与 之间的那些小标点 ()。只需要:
- 输入到 指向的原文出处内容的最后一个音节和音节符()为止。
- 然后按Ctrl+F1 或者点击THL 工具栏内的引文泡沫按钮。
- 输入。
- 最后,再次按Ctrl+F1 或者点击引文泡沫按钮返回到正常格式。
其结果将会像这样(斜体为):
另外一种输入注释方法是,先在如前面所描述的适当位置上输入您的注释文。然后,用高亮突出这一部分并按Ctrl+F1。这样您所突出的部分会变成注释格式。
11. 括号
如果需要输入括号,那么,按Ctrl+F4 或者单击 THL 工具栏内的括号按钮。之后这样的两个 括号会出现。输入括号内的文字后,继续输入括号外的内容。
另外一种方法是,首先输入括号内的文稿内容,然后,用高亮突出这些内容并按Ctrl+F4 或者点击括号按钮。这样您所突出的内容将会被括号括起。
在第五世达赖喇嘛的 中可以找到相关例子。其中括号内输入了历代世系的名称。
不同的原文版本/编辑后的版本
当一部藏文文献有多于一个版本时,我们需要使用Word 文档中的脚注来记录和标明这样的文献。当XML的转换程序运用在文档上时,这些脚注将会被转换成apparatus (
在这个手册里,我们用荣宗的 ()作为例子。现有三个不同的版本:传统印刷版,PL-480 项目之下在印度出版的版本,还有在中国出版的版本。
版本的缩写名称
有了版本的缩写名称就可以判断一个版本出处。在使用某个缩写名称之前,必须先要查询所涉及到的出版社是否已经有了缩写名称(比如,德格出版社出版的Nyingma Gyübum的缩写名称已设定为“Dg”,因此,凡是德格出版社的文献都应该用“Dg”作为缩写名称)。荣宗的版本中的“PL”缩写指的是PL-480 版本,“PRC” 缩写是指中国版,“MS”指的是传统印刷版。查阅 “缩写名称权威文件”(authority file of sigla)就可以知道文献涉及到的出版社是否已有缩写名称。如果还没有,可以指定一个名称,并把它增加到 “缩写名称权威文件”内。
提示: 一个版本只要自始至终只使用一个缩写名称,在标注并把输入的文件转换成XML之后,还是可以用查找和替换的
标明不同版本
选择一个版本作为电子版输入的基础版本,并用Word格式功能在这个版本的电子版里做上标记,并转换成XML的格式。比如说,荣宗例子就是以传统印刷版作为基础版本,然后用Wylie输入法做成电子文件。
记录不同版本信息的格式化次序是:提供缩写名称,括号内写出页码,紧跟着输入冒号和不同的版本。
单音节拼写的不同版本
荣宗的中单音节拼写不同版本的例子:传统印刷版中写的是 (bsnyan); 而PL-480 版本的第152页第四行写着 (brnyan)。为了标出拼写的差异,在基础版本(传统印刷版)的之后要加脚注。在脚注里写:
- PL (152.4):
多音节拼写的不同版本
如果多于一个音节有不同的版本,应该在该文献的基础版本的相关音节周围加大括号 { },并且大括号之后要加脚注。如:基础版本中写着 (bsnyan de), 而中国版本的第45页第二行写着 (brnyan ’di)。那么,电子版的正文应该是:
- {}1
而脚注应该是:
- PL (152.4):
不同版本中的不同拼写
如果两个以上的版本对同一个音节有不同拼写法,那么,在你的脚注中请用分号来分开这些版本。上述的例子中如果中国版的第321页第5行有 那么脚注应该是:
- PL (152.4): ; PRC (321.5):
如果两个以上的版本中同一个音节的拼写法相同, 但是不同于基础文本,那么脚注应该是:
- PL (152.4), PRC (321.5):
注意: 如果不同的拼写法来自于不同的版本,那么,在脚注中这些版本的出现顺序必须是一致的。例如,PL版本总是在前,而中国版本总是在第二。
不同版本中省略的内容
如果基础版本中有的某些内容在别的版本中被省略了,那么,基础版本里被省略的内容音节需要用大括号括起来,括号之后再插入脚注。脚注内输入忽略内容版本的缩写名称、缺少内容的页码(在括号里)、冒号、以及英文单词“omits”。比如说,传统印刷版本中的 在PL-480版本的第405页3行中写作 。按照上述的方法,输入的正文应该是:
- {}1
脚注应该是:
- PL (405.3): omits
不同版本中额外的内容
另一种现象是基础版本中没有的内容出现在其它版本中。比如说,传统印刷版中只有,但是中国版(204.6)中有. 因此,输入的正文应该是:
- 1
- 注: 脚注符号必须是在基础文本中省略的内容的地方,在一个空格之后直接与下一个音节连接。
脚注应该是:
- PRC (204.6):
最适合使用的版本
如果您想标明几个版本中最适合使用的版本,请在缩写名称之前用星号(*)注明。例如,注明上面涉及到的各版本中最适合的是PL-480 版本的话,可以这样输入: *PL (152.4): ; PRC (321.5):
校对和质量终审
除了在输入时尽量和手册中的规则保持一致以外,最重要一点是,不要出错。如果输入的过程中出现错误,那么,电子文献的价值就会受到限制。电子版的使用者将会在使用时延续这些错误。搜索网络版的时候,也会出现错误的搜索结果。因此,一开始输入文献的时候就要小心谨慎,而且仔细地对照原文校对也是非常重要的。
输入过程中减少出错的最佳方法是“两次输入”。也就是说,两个人同时输入同一个文献后,用Word比较他们输入的文件是否相同并突出不同之处。然后,由一位编辑校对其结果。当然,这种工作方法不仅耗资,而且耗时,因为需要输入两次。
不管一次输入还是两次输入,以下这些步骤可以保证高质量的校对工作:
- 校对员中至少有一位不同于该文献的输入员。因为同一个人校对他自己输入的文献时,他很难看出自己习以为常的错误。
- 必须在打印出来的文稿上进行校对,而不是在电脑屏幕上做校对。在电脑上直接做校对一般会出错。
- 校对时必须参照原文。只看输入了的文稿是看不出来内容是否和原文完全相同的。
- 校对时,从Word 菜单里进入工具(Tools),选择选项(Options).从选项视窗里选择视图(View).在格式标记(Formatting Marks)那一栏下面选择制表符(tabs)、空格(Spaces)和段落标记(Paragraph marks)三项。这样,文件里面具体的格式错误就会显示出来。
- 在西藏,最普遍的校对方法是,一个人大声朗读已输入的文稿,而另一个人听对方朗读的同时,看原文与输入过的文稿间是否有出入。但是我们认为这不是一个非常有效的校对方法:1)无法辨认同音词的不同拼写;2)通常,朗读速度太快以至于无法进行细致的校对工作。总而言之,很多明显的错误依旧留在输入后的文稿之中。
一个相关校对方法是:一个人将输入后的文稿中包括空格和标点符号在内的所有字母一一念出,如“s-t-a-r-t-space-t-h-i-s”。但是针对篇幅较长的文献,你必须要考虑这种方法是否可行。而且,如果校对员加快朗读速度以便能迅速完成校对,那么,文稿中的一些严重错误会被漏掉的。
元数据表
此表应该放置于每个电子文件的最开始。如果一个文献有诸多的电子文件,那么每个文件的开头必须要用此表。所谓的元数据简而言之是指有关某个文献的信息而非文献本身。