汉字的计算机处理、汉字编码系统

来源:百度文库 编辑:神马文学网 时间:2024/04/30 06:45:54
汉字的计算机处理、汉字编码系统


作者:知道网  来源于:www.knowweb.cn  发布时间:2006-5-13 12:35:25   


由于打字机键盘在设计时本身没有考虑汉字输入的问题,输入汉字往往比输入拼音文字困难。汉字没有经过中文打字机的普及,直接进入了电脑中文信息处理阶段。在电脑发明初期曾引起汉字能否适应电脑时代的问题,支持汉字拉丁化的学者甚至以此为理据。

随着各种中文输入法的出现,汉字的计算机输入、存储、输出技术得到了基本解决,大大提高了中文写作、出版、信息检索等的效率。目前中文输入法有上千种之多,主要包括表音输入和表形输入两类,也有两者兼之的。汉字的语音输入、手写识别和光学字符识别(OCR)技术也已得到广泛应用。

如收录数千字的GB 2312(中国大陆)、Big5及CNS 11643(台湾)、HKSCS(香港)、JIS(日本),以及收录两万多字的GBK(中国大陆)、国际标准Unicode、ISO 10646等等。在这个过程中,因为技术及其他种种因素,在收录字数,及收录字体等方面或做不同层次的调整。例如台湾的民间机构资策会推出字码标准时,为方便电脑处理汉字,以“统一异体字”的名义采纳了多个字型比较简化的日体汉字,如:“卫”->“衛”。

中国政府为了解决邮政,户籍整理等领域用字的迫切需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收汉字27484个。并强制所有在中国售卖的计算机产品必须支持这个新的国家标准。

为进行信息交换,各汉字使用地区都制订了一系列汉字字符集标准。

    * 国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。GB 2312收录6763个汉字,GBK收录20912个汉字,最新的GB 18030收录27533个汉字。
    * Big5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。
    * Unicode并不被中国政府很好的接受。中国政府要求在中国大陆出售的软件必须支持GB 18030编码。
    * 在国际通信化和软件设计领域,中日韩统一表意文字编码收集了汉语、日语、韩语中的汉字集。