字符集与字符编码的基础知识

来源：百度文库编辑：神马文学网时间：2024/04/29 02:46:38

字符是各种文字和符号的总称，包括各国家文字、标点符号、图形符号、数字等。字符集是多
个字符的集合，字符集种类较多，每个字符集包含的字符个数不同，常见字符集名称：ASCII
字符集、ISO 8859字符集、GB2312字符集、BIG5字符集、 GB 18030字符集、Unicode字符集等
。计算机要准确的处理各种字符集文字，需要进行字符编码，以便计算机能够识别和存储各种
文字。
编码(Encoding)和字符集不同。字符集只是字符的集合，不一定适合作网络传送、处理，有时
须经编码(Encode)后才能应用。如Unicode可依不同需要以UTF-8、UTF-16、UTF-32等方法编码
。
因此，对字符进行编码，是信息交流的技术基础。本文将按照字符集的时间顺序讨论几种典型
的字符集，选取几种代表性的字符集，研究历史由来、特点、技术特征。
ASCII 字符集
1．名称的由来
ASCII（American Standard Code for Information Interchange，美国信息互换标准代码）
是基于罗马字母表的一套电脑编码系统。
2．特点
它主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统，并等同于国际
标准ISO 646。
3．包含内容
控制字符：回车键、退格、换行键等。
可显示字符：英文大小写字符、阿拉伯数字和西文符号
4．技术特征
7位（bits）表示一个字符，共128字符
5．ASCII扩展字符集
7位编码的字符集只能支持128个字符，为了表示更多的欧洲常用字符对ASCII进行了扩展，
ASCII扩展字符集使用8位（bits）表示一个字符，共256字符。
ASCII扩展字符集比ASCII字符集扩充出来的符号包括表格符号、计算符号、希腊字母和特殊的
拉丁符号。
ISO 8859
1．名称的由来
ISO 8859，全称ISO/IEC 8859，是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一
系列8位字符集的标准，现时定义了15个字符集。
2．特点
ASCII收录了空格及94个“可印刷字符”，足以给英语使用。但是，其他使用拉丁字母的语言(
主要是欧洲国家的语言)，都有一定数量的重音字母，故可以使用ASCII及控制字符以外的区域
来储存及表示。
3．包含内容
除了使用拉丁字母的语言外，使用西里尔字母的东欧语言、希腊语、泰语、现代阿拉伯语、希
伯来语等，都可以使用这个形式来储存及表示。
各种ISO 8859字符集
• ISO 8859-1 (Latin-1) - 西欧语言
• ISO 8859-2 (Latin-2) - 中欧语言
• ISO 8859-3 (Latin-3) - 南欧语言。世界语也可用此字符集显示。
• ISO 8859-4 (Latin-4) - 北欧语言
• ISO 8859-5 (Cyrillic) - 斯拉夫语言
• ISO 8859-6 (Arabic) - 阿拉伯语
• ISO 8859-7 (Greek) - 希腊语
• ISO 8859-8 (Hebrew) - 希伯来语(视觉顺序)
• ISO 8859-8-I - 希伯来语(逻辑顺序)
• ISO 8859-9 (Latin-5 或 Turkish) - 它把Latin-1的冰岛语字母换走，加入土耳其
语字母。
• ISO 8859-10 (Latin-6 或 Nordic) - 北日耳曼语族，用来代替Latin-4。
• ISO 8859-11 (Thai) - 泰语，从泰国的TIS620标准字集演化而来。
• ISO 8859-13 (Latin-7 或 Baltic Rim) - 波罗的海语族
• ISO 8859-14 (Latin-8 或 Celtic) - 塞尔特语族
• ISO 8859-15 (Latin-9) - 西欧语言，加入Latin-1欠缺的法语及芬兰语重音字母，
以及欧元(€)符号。
• ISO 8859-16 (Latin-10) - 东南欧语言。主要供罗马尼亚语使用，并加入欧元符号
。
由于英语没有任何重音字母(不计外来字)，故可使用以上十五个字集中的任何一个来表示。
至于德语方面，因它除了 A-Z, a-z 外，只用 Ä, Ö, Ü, ä, ö, ß, ü 七个字母，而所有拉丁
字集(1-4, 9-10, 13-16)均有此七个字母，故德语可使用以上十个字集中的任何一个来表示。
此系列中没有-12号的原因是，此计划原本要设计成一个包含塞尔特语族字符集的“Latin-7”
，但后来塞尔特语族变成了ISO 8859-14 / Latin-8。亦有一说谓-12号本来是预留给印度天城
体梵文的，但后来却搁置了。
GB2312 字符集
1．名称的由来
GB2312又称为GB2312-80字符集，全称为《信息交换用汉字编码字符集•基本集》，由原中国国
家标准总局发布，1981年5月1日实施。
2．特点
GB2312是中国国家标准的简体中文字符集。它所收录的汉字已经覆盖99.75%的使用频率，基本
满足了汉字的计算机处理需要。在中国大陆和新加坡获广泛使用。
3．包含内容
GB2312收录简化汉字及一般符号、序号、数字、拉丁字母、日文假名、希腊字母、俄文字母、
汉语拼音符号、汉语注音字母，共 7445 个图形字符。其中包括6763个汉字，其中一级汉字
3755个，二级汉字3008个；包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔
字母在内的682个全角字符。
4．技术特征
（1）分区表示：
GB2312中对所收汉字进行了“分区”处理，每区含有94个汉字/符号。这种表示方式也称为区
位码。
各区包含的字符如下：01-09区为特殊符号；16-55区为一级汉字，按拼音排序；56-87区为二
级汉字，按部首/笔画排序；10-15区及88-94区则未有编码。
（2）双字节表示
两个字节中前面的字节为第一字节，后面的字节为第二字节。习惯上称第一字节为“高字节”
，而称第二字节为“低字节”。
“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0)，“低位字节”使用了0xA1-0xFE(
把01-94加上0xA0)。
5．编码举例
以GB2312字符集的第一个汉字“啊”字为例，它的区号16，位号01，则区位码是1601，在大多
数计算机程序中，高字节和低字节分别加0xA0得到程序的汉字处理编码0xB0A1。计算公式是：
0xB0=0xA0+16, 0xA1=0xA0+1。
BIG5 字符集
1．名称的由来
又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、
神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。
Big5码的产生，是因为当时台湾不同厂商各自推出不同的编码，如倚天码、IBM PS55、王安码
等，彼此不能兼容；另一方面，台湾政府当时尚未推出官方的汉字编码，而中国大陆的GB2312
编码亦未有收录繁体中文字。
2．特点
Big5字符集共收录13,053个中文字，该字符集在中国台湾使用。耐人寻味的是该字符集重复地
收录了两个相同的字：“兀”(0xA461及0xC94A)、“嗀”(0xDCD1及0xDDFC)。
3．字符编码方法
Big5码使用了双字节储存方法，以两个字节来编码一个字。第一个字节称为“高位字节”，第
二个字节称为“低位字节”。高位字节的编码范围0xA1-0xF9，低位字节的编码范围0x40-0x7E
及0xA1-0xFE。
各编码范围对应的字符类型如下：0xA140-0xA3BF为标点符号、希腊字母及特殊符号，另外于
0xA259-0xA261，存放了双音节度量衡单位用字：兙兛兞兝兡兣嗧瓩糎；0xA440-0xC67E为常用
汉字，先按笔划再按部首排序；0xC940-0xF9D5为次常用汉字，亦是先按笔划再按部首排序。
4．Big5 的局限性
尽管Big5码内包含一万多个字符，但是没有考虑社会上流通的人名、地名用字、方言用字、化
学及生物科等用字，没有包含日文平假名及片假名字母。
例如台湾视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字(如
“亠”、“疒”、“辵”、“癶”等)、常见的人名用字(如“堃”、“煊”、“栢”、“喆”
等) 也没有收录到Big5之中。
GB18030 字符集
1．名称的由来
GB 18030的全称是GB18030-2000《信息交换用汉字编码字符集基本集的扩充》，是我国政府于
2000年3月17日发布的新的汉字编码国家标准，2001年8月31日后在中国市场上发布的软件必须
符合本标准
2．特点
GB 18030字符集标准的出台经过广泛参与和论证，来自国内外知名信息技术行业的公司，信息
产业部和原国家质量技术监督局联合实施。
GB 18030字符集标准解决汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集计算机
编码问题。该标准的字符总编码空间超过150万个编码位，收录了27484个汉字，覆盖中文、日
文、朝鲜语和中国少数民族文字。满足中国大陆、香港、台湾、日本和韩国等东亚地区信息交
换多文种、大字量、多用途、统一编码格式的要求。并且与Unicode 3.0版本兼容，填补
Unicode扩展字符字汇“统一汉字扩展A”的内容。并且与以前的国家字符编码标准（GB2312，
GB13000.1）兼容。
3．编码方法
GB 18030标准采用单字节、双字节和四字节三种方式对字符编码。单字节部分使用0×00至0×
7F码(对应于ASCII码的相应码)。双字节部分，首字节码从0×81至0×FE，尾字节码位分别是0
×40至0×7E和0×80至0×FE。四字节部分采用GB/T 11383未采用的0×30到0×39作为对双字
节编码扩充的后缀，这样扩充的四字节编码，其范围为0×81308130到0×FE39FE39。其中第一
、三个字节编码码位均为0×81至0×FE，第二、四个字节编码码位均为0×30至0×39。
4．包含的内容
双字节部分收录内容主要包括GB13000.1全部CJK汉字20902个、有关标点符号、表意文字描述
符13个、增补的汉字和部首/构件80个、双字节编码的欧元符号等。　　四字节部分收录了上
述双字节字符之外的，包括CJK统一汉字扩充A在内的GB 13000.1中的全部字符。
Unicode字符集
1．名称的由来
Unicode字符集编码是Universal Multiple-Octet Coded Character Set 通用多八位编码字符
集的简称，是由一个名为 Unicode 学术学会(Unicode Consortium)的机构制订的字符编码系
统，支持现今世界各种不同语言的书面文本的交换、处理及显示。该编码于1990年开始研发，
1994年正式公布，最新版本是2005年3月31日的Unicode 4.1.0。
2．特征
Unicode是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一
的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。
3．编码方法
Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀“U+”，例如字母“A”
的编码为 0041 和字符“€”的编码为 20AC。所以“A”的编码书写为“U+0041”和“€”的编
码书写为“U+20AC”。
4．UTF-8 编码
UTF-8是Unicode的其中一个使用方式。 UTF是 Unicode Translation Format，即把Unicode转
做某种格式的意思。
UTF-8便于不同的计算机之间使用网络传输不同语言和编码的文字，使得双字节的Unicode能够
在现存的处理单字节的系统上正确传输。
UTF-8使用可变长度字节来储存 Unicode字符，例如ASCII字母继续使用1字节储存，重音文字
、希腊字母或西里尔字母等使用2字节来储存，而常用的汉字就要使用3字节。辅助平面字符则
使用4字节。
5．UTF-16 和 UTF-32 编码
UTF-32、UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案，UTF-16 使用一个
或两个未分配的 16 位代码单元的序列对 Unicode 代码点进行编码；UTF-32 即将每一个
Unicode 代码点表示为相同值的 32 位整数。

字符集与字符编码的基础知识中文字符集与字符编码的基础知识中文字符集与字符编码的基础知识 ASCII 字符集中文字符集与字符编码的基础知识_ 符集与字符编码的基础知识字符编码的奥秘字符编码的奥秘字符编码的奥秘字符集编码字符集编码字符集编码 PHP的GBK与UTF8字符编码问题 jspsmart字符编码的问题 Java字符集编码研究字符编码转化 - daniel_yao的专栏 - CSDNBlog 通过Ant批量转换文件的字符集编码怎样使用字符集和编码 Java字符集编码研究2 字符编码问题摘要字符，字节和编码 Linux字符编码设置 dannyrao: 字符编码 Unicode字符编码规范中文字符编码简介