Unicode编码

来源：百度文库编辑：神马文学网时间：2024/04/28 03:59:09

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。随着计算机工作能力的增强，Unicode也在面世以来的十多年里得到普及。

　　Unicode 是基于通用字符集（Universal Character Set）的标准来发展，并且同时也以书本的形式（TheUnicode Standard，目前第五版由Addison-Wesley Professional出版，ISBN-10:0321480910）对外发表。

　　2006年6月的最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。另外，5.0 Beta已于2005年12月12日推出，以供各会员评价。
大概来说，Unicode 编码系统可分为编码方式和实现方式两个层次。
1.编码方式
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。
2.实现方式
在Unicode中：汉字“字”对应的数字是23383。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“UCS TransformationFormat”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。例如，“汉字”对应的数字是0x6c49和0x5b57，而编码的程序数据是：
BYTE data_utf8[] = {0xE6, 0xB1, 0x89, 0xE5, 0xAD, 0x97}; // UTF-8编码
WORD data_utf16[] = {0x6c49, 0x5b57}; // UTF-16编码
DWORD data_utf32[] = {0x6c49, 0x5b57}; // UTF-32编码
这里用BYTE、WORD、DWORD分别表示无符号8位整数，无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以BYTE、WORD、DWORD作为编码单位。“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个WORD，大小是4个字节。“汉字”的UTF-32编码需要两个DWORD，大小是8个字节。根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。下面介绍UTF-8、UTF-16、UTF-32、字节序和BOM。
3.为什么使用Unicode？
基本上，计算机只是处理数字。它们指定一个数字，来储存字母或其他字符。在创造Unicode之前，有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符：例如，单单欧州共同体就[1][2]需要好几种不同的编码来包括所有的语言。即使是单一种语言，例如英语，也没有哪一个编码可以适用于所有的字母，标点符号，和常用的技术符号。这些编码系统也会互相冲突。也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。任何一台特定的计算机（特别是服务器）都需要支持许多不同的编码，但是，不论什么时候数据通过不同的编码或平台之间，那些数据总会有损坏的危险。

unicode编码 Unicode编码 Unicode字符编码规范 Unicode字符编码规范技术文摘: 谈谈Unicode编码程序员趣味读物：谈谈Unicode编码出处：CSDN 字符编码笔记：ASCII，Unicode和UTF-8 字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖] 字符编码笔记：ASCII，Unicode和UTF-8 字符编码笔记：ASCII，Unicode和UTF-8 C#中文和UNICODE编码互相转换1 字符编码详解及由来(UNICODE,UTF-8,GBK) unicode，ansi，utf-8，unicode big endian这些编码有什么区别 unicode 用php实现gb2312和unicode间的编码转换编码转换 JAVA字符编码系列二：Unicode,ISO-8859,GBK,UTF-8编码及相互转换-在线阅读-新书城谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词 JAVA字符编码系列一：Unicode,GBK,GB2312,UTF-8概念基础-在线阅读... CSDN技术中心谈谈Unicode编码，简要解释UCS、UTF、BMP、BOM等名词对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB... VB.net 中文处理问题 (Unicode 和 Ascii的编码问题) 用php实现gb2312和unicode(UTF-8)间的编码转换 - 无非 - PHPC...