计算机编码学习总结

来源:百度文库 编辑:神马文学网 时间:2024/04/27 19:36:19
计算机编码学习总结 1、编码:根据一定的协议或格式把模拟信息转换成比特流的过程。
2、常见的汉字编码体系:
a、ASCII码:ASCII是“美国标准信息交换编码”的英文字头缩写,用从0到127的128个数字来代表信息的规范编码,其中包括33个控制码,一个空格码,和94个形象码。计算机中的文件分文本文件和二进制文件两种。
b、区位码:国标表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵。方阵中每一横行叫一个“区”,每个区有九十四个“位”。一个汉字在方阵中的坐标,称为该字的“区位码”。
c、国标码:由于美标形象符的编码是从33到126,汉字区、位码如果各加上32,就会与美标形象码的范围重合。这两个数字(区+32,位+32)的十六进制放在一起称为该字的“国标码”,而与其相对应的两个美标符号称为国标符。
d、GBK:扩展国标码(GBK为拼音首字母)。对多达2万多的简繁汉字进行了编码,简体版的Win95和Win98都是使用GBK作系统内码。GBK向下与GB-2312编码兼容,向上支持ISO 10646.1国际标准,是前者向后者过渡的一个承启标准。
e、BIG5:BIG5码是针对繁体汉字的汉字编码,目前在台湾、香港的电脑系统中得到普遍应用。
f、HZ:是在Internet上广泛使用的一种汉字编码。“HZ”方案的特点,是以“纯国标”的中文与美标码混用。当一串美标码中间插入一段国标码的时候,我们便在国标码的前面加上~,后面加上~。和大部分英文文本处理软件兼容。
3、常见国际编码:
a、ISO 10646:定义了一个 31 位的字符集。 然而, 在这巨大的编码空间中, 迄今为止只分配了前 65534 个码位。这个UCS的16位子集称为基本多语言面 (Basic Multilingual Plane, BMP)。 将被编码在16位BMP以外的字符都属于非常特殊的字符(比如象形文字), 且只有专家在历史和科学领域里才会用到它们。
b、Unicode其实就是宽字节字符集,它对每个字符都固定使用两个字节即16位表示,于是当处理字符时,不必担心只处理半个字符。 目前,Unicode在网络、Windows系统和很多大型软件中得到应用。
4、Linux下利用iconv命令进行编码转换。
iconv [选项] [文件名]
选项:-f(--from-code) 原始编码名称
-t(--to-code) 输出编码名称
-l(--list) 列出所有已知字符集
-c  从输出中忽略无效的字符
-o(--output) Filename 输出到文件
-s(--silent) 关闭警告
--verbose 打印进度信息
-?(--help)
--usage 给出简要的用法信息
-v(--version) 版本信息