乱码大全(22)──其它汉字乱码

来源:百度文库 编辑:神马文学网 时间:2024/04/28 21:59:01
乱码大全(22)──其它汉字乱码  “乱码大全”,作者:bluesea,水木清华 BBS 成员。欢迎在 BBS 中转载,帮助计算机初学者解决使用软件过程中遇到的实际问题。本文原载于水木清华 BBS 的 Internet讨论区。地址是: telnet://bbs.tsinghua.edu.cn ,WWW访问的地址是 http://bbs.tsinghua.edu.cn 。当下面的条件全部满足时,转载本文可以不经过作者允许:(1) 转载水木清华 BBS 的信头;(2)不修改原文;(3) 转载仅限于各种 BBS 和非商业性质的个人网点。严禁各种形式的抄袭,严禁非作者将 本文或局部用于任何正式出版的刊物。请所有转载文章的网友注意阅读本文的第一段,遵守网络的惯例、尊重作者的劳动。本自然段是全文的一部分。
bluesea@163.net
汉字编码在计算机发展史上的应用和演变十分复杂。有些知识的获得是得益于各个搜索系统,如 Yahoo! (http://www.yahoo.com)、Exicte (http://www.excite.com)、番薯藤(http://taiwan.iis.sinica.edu.tw/b5/yam) 等,以及那些在 internet 上流传的中文软件。如:
http://ftpsearch.ntnu.no/cgi-bin/search?query=chcode.zip
http://ftpsearch.ntnu.no/cgi-bin/search?query=mvconv.zip
http://ftpsearch.ntnu.no/cgi-bin/search?query=gbucscns.zip
http://www.ifcss.org/software
我们前面讨论过的汉字编码,不算 MIME 等通用二进制编码,包括了:国标 (GB 2312-80)、BIG5、Hanzi(HZ)、 EHaizi、Unicode、UTF-7、UTF-8、日文EUC、 日文JIS、日文Shift-JIS(SJIS) 和韩文(KSC)、还讨论了 HTML 欧洲字符表示、高位丢失等与汉字乱码的关系。
还有一些我们暂时还没有涉及到,其中的有些在现在的应用中比较少见,还有些和上面的编码还有一定的关系。这些编码包括:IBM 5550、IBM HOST、TCA、 EUC(非日文EUC)、Telegraph、NSC Internal code、NSC with Protocol 等等。这些编码的转换可以由 chcode (地址见上面) 转换程序得到。其中通过 EUC 编码的数据再进行 HZ 编码,我们就会得到在编码上和 EHZ 很相似的码。
我们尚未提到的编码还有台湾的 CNS-11643 (它的转换可参见 gbucscns.zip 中 readme 文档的叙述,RichWin for Internet 也支持这种编码的转换)。另外,随着 PWindows 的使用,GBK 大字符集的运用也会带来新的问题。如一些新收编的汉字(如金字旁的容:“镕”,在 Pwindows 95中需要从控制面板安装 GBK 全拼输入法进行输入)不能为老的系统显示、处理和转换等等。
乱码的讨论和例子并不能提供乱码类型的自动判断,有些编码是有一定特征的,还有些没有明显特征的罕见编码,只能通过试验的方法进行。《乱码大全》试图对这一类问题提供一个参考。希望朋友们提一些意见或建议,主要是为了修改可能的错误,充实和完善内容。这个系列文章可能有续篇或原文的新版本,如有都会先出现在水木清华 BBS 的 Internet 板。