字符集和字符编码

字符集和字符编码

计算机中存储的信息都是用二进制数表示的(即0和1,逢二进一,这和计算机逻辑电路中的接通和断开两个物理状态对应),而我们在屏幕上看到的英文汉字是二进制数转换的结果。

  • 字符集(Charset):是一个系统支持的所有抽象字符的集合。字符是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
  • 字符编码(Character Encoding):规定把字符集中的字符编码成计算机可以接受的存储对象,以便文本在计算机中存储和传递。
  • 常用的字符集:ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等
字符集 字符编码
ASCII(american standard code for information interchange)美国信息交换标准代码 主要显示现代英语 7位(bits)表示一个字符,共2^7,128个字符
EASCII 追加扩展了一些欧洲常用字符 8位(bits)表示一个字符,共2^8,256个字符
GB2312 国标,用于汉字 小于127的字符意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字。 在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的”全角”字符,而原来在127号以下的那些就叫”半角”字符了。
GB18030 对gb2312追加扩展,支持国内少数名族文字 采用多字节编码,与utf-8相同
GBK 微软利用GB 2312未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码 字符有一字节和双字节编码
BIG5 繁体字
Unicode 万国码 uft-32(每个字符都使用4个字节,造成存储浪费) / utf-16 / utf-8