UTF-8 是 Unicode 的一种转换编码,用一到四个字节编码 Unicode 字符,相对于 Unicode 固定的四字节长度,更节省存储空间。UTF-8 各字节长度对应 Unicode 编码范围如下:

一字节(0x00-0x7F):U+00~U+7F

二字节(0xC280-0xDFBF):U+80~U+7FF

三字节(0xE0A080-0xEFBFBF):U+800~U+FFFF

四字节(0xF0908080-0xF48FBFBF):U+10000~U+10FFFF

可见,UTF-8 与 ASCII 兼容,其它编码均被转换;常用汉字基本上都被编码成三字节。