“汉字”再统一

来源:百度文库 编辑:神马文学网 时间:2024/04/24 11:20:58
“汉字”再统一
——张轴材谈汉字交换码标准建立历程
本报记者 黄伟敏 肖春江
如果中文词汇也由0、1两个元素构成,大概就不需要汉字交换码这门学问了。可惜人认识的是汉字,计算机却偏认二进制代码死理,人们只好削足适履,发明汉字交换码这种人与机的交流工具。而为了避免一盘散沙式的混乱交流,还要建立更重要的统一编码标准,以便使应用规范化。CJK-JRK汉字交换码中日韩联合研究组主编兼召集人张轴材先生介绍了汉字交换码标准的建立历程。
GB2312:汉字信息技术的秦始皇
我国汉字信息技术标准化,首先选择了制定汉字交换码标准。1980年发布的GB2312《信息交换用汉字编码字符集》基本集是第一个汉字信息技术标准,也是我国信息技术领域内重要的基础标准。它的广泛实施,对于促进汉字信息技术发展和计算机的推广应用,保证全国范围内汉字处理系统、汉字通信系统的信息交换,发挥了重要作用,是信息时代名副其实的的秦始皇。
GB2312解决的第一个问题,就是选定能容纳数万汉字的中西文兼容的编码体系。GB2312用两个七位字节表示汉字的编码方案。设定若干编码集合,每个可容纳8836个字符,这样只要选用几个集合,就能解决全部汉字编码的问题。
第二个要解决的问题是选定放入基本集的汉字。GB2312以文化部发布的“印刷通用字形表”为依据,以汉字频度的高低、构词能力的强弱、实际用处的大小为原则进行选字,最后选定6763个汉字和682个其他字符进入基本集,并按人们普遍熟知的规律对所选汉字进行分级和排序,形成了标准图形字符代码表。
GB2312只是对广泛通用的汉字进行编码,它适用于一般汉字信息处理系统的要求。继GB2312之后,又扩充制定了GB7589、GB12345、GB113131等5个辅助集标准,共收了将近四万个汉字,它们形成了汉字交换码的标准系列。
GB13000:四海皆准“书同文”
由于存在各自的利益,日、韩和中国台湾省等国家和地区的汉字交换码标准各唱各的戏,多种声音虽然显示“民主”,但给汉字信息交换带来了相当的混乱。80年代中期,西文已在信息高速公路上加速前行,汉字却仍在信息高速公路上开着拖拉机。 为了取得电脑时代的“书同文”,GB13000标准,即《信息技术通用多八位编码字符集》,满怀统一大任的使命感,于1992年降临人世。
GB13000是我国制定的与国际标准ISO/IEC 10646对应的标准,它标志着ISO/IEC 10646标准的汉字编码部分基本采纳了我国方案。它的制订,大体上经历了前期的斗争和后期确立主导地位两个阶段。
斗争期(1985年~1990年10月)。国际标准化组织ISO中主管信息技术标准制订的技术委员会TC97(后更名为ISO-IEC/JTC1)于1984年底决定立项制订“双字节two-byte)编码字符集”国际标准,并在其字符集和编码分委会SC2下设立工作组WG2专门负责该项目。
这段时期,国际上正因该标准究竟采用16位还是双八位的编码结构吵架。我国赞成采用双八位,提出汉字基本集和辅助集分别占用编码空间右下角和左下角的方案。这个方案在1987年的ISO/TC97/SC2年会上得以通过,我国开始正式进入国际标准起草阶段。
1987年12月电子工业部决定把“汉字双八位(多字节)编码体系(即多八位编码字符集)研究”列入“七五”国家重点科技攻关项目,并立即成立了由电子部十五所、四所和国家语委等单位组成的攻关小组。
1988年攻关小组发现当时新完成的标准DP 10646工作草案文本中存在两个严重问题:
(1)将祖国大陆用的汉字和台湾省少用的汉字作为两种文字排列在编码字符的不同位置,把我国台湾省的标准作为主要参考标准之一,以“中华民国标准”的名义列入。
(2)将原已商定的我国汉字占用编码空间下半平面两块的方案改为只占左下块。
带着上述问题,我国参加SC2年会的代表团在会上要求在“多八位编码字符集”工作草案中去掉并修改有关我国台湾省的不正确及不恰当的行文,声明我们将联合我国台湾省的同行一起讨论解决海峡两岸使用不同编码标准的问题,并研制出统一的中国汉字字符集纳入国际标准。这一意见被SC2采纳。
由于日、韩的坚决反对,1990年SC2年会否决了我国提出的HCC方案(中、日、韩三国汉字经认同后,相同和认同的汉字只给一个代码,然后按某种顺序统一排列。使常用的和次常用的中、日、韩汉字排列在BMP中)。在当时的形势下,作为缓冲,国内有关专家提出了将BMP中的I00、I10和I11区留空,而将中、日、韩的表意文字分别旋转在各自平面的一种折衷方案。该方案于1990年5月作为国家提案提交到WG2,获得通过,并在第一个DIS文本中采纳了该方案。WG2同时决定:BMP的I01、I10和I11区将来旋转中、日、韩三国同意的C、J、K文字。
此后,我国暂停了在国际范围内进行中、日、韩汉字统一编码的理论上的争论,在组织力量研究中国汉字字表的同时,启动了紧张的建立“多字符集汉字数据库”的工作,进而推进从理论到实践,从定性到定量,从手工到机助的转化。
确立主导地位(1990年12月~1993年11月)。1990年11月我国正式成立了“通用字符集”国际工作组,由张轴材、王之任副组长,陈力为、傅永和任工作组高级顾问,成员共13名,包括了计算机系统、软件、硬件、语言文字及标准化方面的专家及技术人员。
国际工作组成立之初便面临着重大的抉择。当时ISO拒绝在DIS 10646中采用C、J、K汉字统一编码,并采用回避C0、C1区的编码结构。与此同时,我国还面临着世界上将出现两套标准(UCS和Unicode)的严峻形势。国标工作组经慎重研究,在短时间内达成共识,确定了“立足基本中文平面,瞄准基本多文种平面,注视/沟通Unicode”的方针。
1991年1月20日体现了CJK统一编码原则的汉字字符集HCS1.0问世,国家技术监督局破例预先给国标号GB 13000。
1991年2月至3月在有关方面努力下,形成了Unicode中的汉字部分UniHan与HCS相互对齐的协议,并先后得到中国国标工作组和Unicode技术委员会的批准。为了真正实现CJK汉字统一编码,我国又参加了CJK-JRG(中日韩联合研究组)。1991年7月CJK-JRG的第一次会议一致确认了汉字统一编码的要求。此后,又选举我国的张轴材同志担任CJK-JRG的主编兼召集人,从而确立了我国在CJK-JRG中的主导地位。
1991年8月,WG2在日内瓦举行了第20次会议,确认了CJK汉字统一编码进入BMP。我国提交的GB 13000汉字字符集HCSA2.1版作为工作起点,已在ISO文件记录在案。以后,1991年12月初我国如期向ISO提交了CJK统一汉字字符集第一版(CJK V1.0)。1992年4月25日提交了CJKV2.0。至此,ISO/IEC 10646.1中的汉字编码部分胜利完成。
由于ISO/IEC 10646.1是一个多文种的编码标准,因此除汉字外,ISO/IEC 10646.1中已将我国维、哈、柯文的字收入阿拉伯文;将我国朝鲜文字符与韩国文字符进行了统一编码;而蒙文、藏文和彝文等还有待今后扩充收入ISO/IEC 10646(GB 13000)中。
1992年4月至7月,我国又应ISO及AFII(国际字型交换协会,负责ISO/IEC 10646.1中字表的印刷工作)的要求,提交可供印刷ISO/IEC 10646.1中G属下汉字的48×48点阵字型。
至此,国际标准ISO/IEC 10646.1及对应的国家标准GB 13000.1中的汉字编码及字型开发工作告一段落,而下一阶段的编码结构扩充方案及字汇扩充方案的研制工作,也已马不停蹄地展开。