encode-decode

晕头转向,好多种编码,我只知道UTF-8

定义

  • 字符(Character) : 各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。
  • 字符集(Character set) : 多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。
  • 字符编码(Character encoding): 把字符集中的字符编码映射集合中某一对象,以便文本在计算机中存储和通过通信网络的传递

字符集

  • ASCII
    ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,而其扩展版本EASCII则可以勉强显示其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。
    ASCII (Set):主要包括控制字符(回车键、退格、换行键等);可显示字符(英文大小写字符、阿拉伯数字和西文符号)。
  • Unicode
    y=f(x) 定义域 D={x|统一字符} 值域 [0,0xFFFF]
  • GBXXX
  • Big5

编码方案

ASCII

y=f(x) 定义域 D={x|拉丁字符} 值域 [0,0x7F]
ASCII (Encoding):将ASCII字符集转换为计算机可以接受的数字系统的数的规则。使用7位(bits)表示一个字符,共128字符;但是7位编码的字符集只能支持128个字符,为了表示更多的欧洲常用字符对ASCII进行了扩展,ASCII扩展字符集使用8位(bits)表示一个字符,共256字符。ASCII字符集映射到数字编码规则如下图所示:
ASCII表

Unicode

UTF-8 UTF-16 UTF-32

refence