计算中心

学校首页　 教务选课　 本站首页　计算中心简介　部门工作　对外交流　 C语言学习　大学计算机　 PAT考试　咨询与投诉　

Unicode编码

2015年10月17日16:20　　来源：计算中心　　访问量：86557

　　Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。

　　Unicode 是为了解决传统的字符编码方案的局限而产生的，例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用，可是在不同国家间却经常出现不兼容的情况。很多传统的编码方式都有一个共同的问题，即容许电脑处理双语环境（通常使用拉丁字母以及其本地语言），但却无法同时支持多语言环境（指可同时处理多种语言混合的情况）。
　　在文字处理方面，统一码为每一个字符而非字形定义唯一的代码（即一个整数）。换句话说，统一码以一种抽象的方式（即数字）来处理字符，并将视觉上的演绎工作（例如字体大小、外观形状、字体形态、文体等）留给其他软件来处理，例如网页浏览器或是文字处理器。

　　几乎所有电脑系统都支持基本拉丁字母，并各自支持不同的其他编码方式。Unicode为了和它们相互兼容，其首256字符保留给ISO 8859-1所定义的字符，使既有的西欧语系文字的转换不需特别考量；并且把大量相同的字符重复编到不同的字符码中去，使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换，而不会丢失任何信息。举例来说，全角格式区段包含了主要的拉丁字母的全角格式，在中文、日文、以及韩文字形当中，这些字符以全角的方式来呈现，而不以常见的半角形式显示，这对竖排文字和等宽排列文字有重要作用。

　　Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。Unicode用数字0-0x10FFFF来映射这些字符，最多可以容纳1114112个字符，或者说有1114112个码位。码位就是可以分配给字符的数字。UTF-8、UTF-16、UTF-32都是将数字转换到程序数据的编码方案。

　　通用字符集（Universal Character Set, UCS）是由ISO制定的ISO 10646（或称ISO/IEC 10646）标准所定义的标准字符集。UCS-2用两个字节编码，UCS-4用4个字节编码。

　　历史上存在两个独立的尝试创立单一字符集的组织，即国际标准化组织（ISO）和多语言软件制造商组成的统一码联盟。前者开发的 ISO/IEC 10646 项目，后者开发的统一码项目。因此最初制定了不同的标准。
　　1991年前后，两个项目的参与者都认识到，世界不需要两个不兼容的字符集。于是，它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。从Unicode 2.0开始，Unicode采用了与ISO 10646-1相同的字库和字码；ISO也承诺，ISO 10646将不会替超出U+10FFFF的UCS-4编码赋值，以使得两者保持一致。两个项目仍都存在，并独立地公布各自的标准。但统一码联盟和ISO/IEC JTC1/SC2都同意保持两者标准的码表兼容，并紧密地共同调整任何未来的扩展。在发布的时候，Unicode一般都会采用有关字码最常见的字型，但ISO 10646一般都尽可能采用Century字型。

　　在Unicode中：汉字“字”对应的数字是23383（十进制），十六进制表示为5B57。在Unicode中，我们有很多方式将数字23383表示成程序中的数据，包括：UTF-8、UTF-16、UTF-32。UTF是“UCS Transformation Format”的缩写，可以翻译成Unicode字符集转换格式，即怎样将Unicode定义的数字转换成程序数据。
例如，“汉字”对应的数字是0x6c49和0x5b57，而编码的程序数据是：
　　char data_utf8[]={0xE6,0xB1,0x89,0xE5,0xAD,0x97};//UTF-8编码
　　char16_t data_utf16[]={0x6C49,0x5B57}; //UTF-16编码
　　char32_t data_utf32[]={0x00006C49,0x00005B57};//UTF-32编码
　　这里用char、char16_t、char32_t分别表示无符号8位整数，无符号16位整数和无符号32位整数。UTF-8、UTF-16、UTF-32分别以char、char16_t、char32_t作为编码单位。（注： char16_t 和 char32_t 是 C++ 11 标准新增的关键字。如果你的编译器不支持 C++ 11 标准，请改用 unsigned short 和 unsigned long。）“汉字”的UTF-8编码需要6个字节。“汉字”的UTF-16编码需要两个char16_t，大小是4个字节。“汉字”的UTF-32编码需要两个char32_t，大小是8个字节。根据字节序的不同，UTF-16可以被实现为UTF-16LE或UTF-16BE，UTF-32可以被实现为UTF-32LE或UTF-32BE。

　　在非 Unicode 环境下，由于不同国家和地区采用的字符集不一致，很可能出现无法正常显示所有字符的情况。微软公司使用了代码页(Codepage)转换表的技术来过渡性的部分解决这一问题，即通过指定的转换表将非 Unicode 的字符编码转换为同一字符对应的系统内部使用的 Unicode 编码。可以在“语言与区域设置”中选择一个代码页作为非 Unicode 编码所采用的默认编码方式，如936为简体中文GBK，950为繁体中文Big5（皆指PC上使用的）。在这种情况下，一些非英语的欧洲语言编写的软件和文档很可能出现乱码。而将代码页设置为相应语言中文处理又会出现问题，这一情况无法避免。从根本上说，完全采用统一编码才是解决之道，但是Windows操作系统由于历史遗留原因尚无法做到这一点。
　　代码页技术广泛为各种平台所采用。UTF-7 的代码页是65000，UTF-8 的代码页是65001。

　　Unicode 已经有6.2版本。世界上有一大批计算机、语言学等科学家专门研究Unicode，Unicode标准已经不单是一个编码标准，还是记录人类语言文字资料的一个巨大的数据库，同时从事人类文化遗产的发掘和保护工作。
　　对于中文而言，Unicode 16编码里面已经包含了GB18030里面的所有汉字（27484个字），Unicode标准准备把康熙字典的所有汉字放入到Unicode 32bit编码中。
　　简单地说，Unicode扩展自ASCII字元集。在严格的ASCII中，每个字元用7位元表示，或者电脑上普遍使用的每字元有8位元宽；而Unicode使用全16位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充，可能的话，最终将代替它。考虑到ASCII是电脑中最具支配地位的标准，所以这的确是一个很高的目标。

　　基本上，计算机只是处理数字。它们指定一个数字，来储存字母或其他字符。在创造Unicode之前，有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符：例如，单单欧洲共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言，例如英语，也没有哪一个编码可以适用于所有的字母，标点符号，和常用的技术符号。这些编码系统也会互相冲突。也就是说，两种编码可能使用相同的数字代表两个不同的字符，或使用不同的数字代表相同的字符。任何一台特定的计算机（特别是服务器）都需要支持许多不同的编码，但是，不论什么时候数据通过不同的编码或平台之间，那些数据总会有损坏的危险。
　　为什么使用Unicode其实原因很简单，因为Unicode比ANSI好用。自从Windows2K开始，Win的系统内核开始完全支持并完全应用Unicode编写，所有ANSI字符在进入底层前，都会被相应的API转换成Unicode。所以，如果你一开始就使用Unicode，则可以减少转换的用时和RAM开销。对于JAVA/.NET等这些“新”的语言来说，内置的字符串所使用的字符集已经完全是Unicode。最重要的是，世界上大多数程序用的字符集都是Unicode，因为Unicode有利于程序国际化和标准化。

　　Unicode截至目前为止，共发布了以下多个版本：
　　　Unicode 1.0：1991年10月
　　　Unicode 1.0.1：1992年6月
　　　Unicode 1.1：1993年6月
　　　Unicode 2.0：1997年7月
　　　Unicode 2.1：1998年5月
　　　Unicode 2.1.2：1998年5月
　　　Unicode 3.0：1999年9月；涵盖了来自ISO 10646-1的十六比特通用字符集（UCS）基本多文种平面（Basic Multilingual Plane）
　　　Unicode 3.1：2001年3月；新增从ISO 10646-2定义的辅助平面（Supplementary Planes）
　　　Unicode 3.2：2002年3月
　　　Unicode 4.0：2003年4月
　　　Unicode 4.0.1：2004年3月
　　　Unicode 4.1：2005年3月
　　　Unicode 5.0：2006年7月
　　　Unicode 5.1：2008年4月
　　　Unicode 5.2：2009年10月
　　　Unicode 6.0：2010年10月
　　　Unicode 6.1：2012年1月31日
　　　Unicode 6.2：2012年9月
　　　Unicode 6.3：2013年11月19日
　　　Unicode 7.0：2014年6月15日
　　　Unicode 8.0：2015年6月（预计）

　前一条：UTF-8编码　(2015-10-17)

　后一条：GB18030编码　(2015-10-17)

◆ MOOC+SPOC

	C语言程序设计MOOC
	Office高级应用MOOC
	大学计算机MOOC(５６学时)
	大学计算机MOOC(３２学时)

◆ 英语工具(*＝机房开放)

	离线词典：有道词典(绿色版)
	离线翻译：金山快译(绿色版)
	* 谷歌翻译
	* 百度词典/翻译/论文写作助手
	* 金山词霸/翻译/写作批改
	必应词典/翻译
	有道词典/翻译/简历助手

◆ 重要公告

	2024 年（第17届）中国大学…
	2023-2024学年第2学期《Offi…
	第三届“成都信息工程大学团…
	20232学期非计算机类《C语言…
	第二届成都信息工程大学新生…
	第十五届蓝桥杯全国软件和信…
	20231学期非计算机类《C语言…
	20222学期非计算机类《C语言…
	2022-2023第2学期《Office高…
	20221学期非计算机类《C语言…

◆ 校园热线

教学平台	数字图书	招生就业
学生事务	心灵之约	邮件服务
后勤管理

四川·成都市西南航空港经济开发区学府路一段24号　　邮编：610225

学校值班电话：028-85966502　　　　　联系计算中心：电话028-85966005 　电子邮件　留言