汉字的二进制表示主要通过编码标准实现,常见有以下两种方式:
一、GB2312/GBK编码(2字节)
采用16位二进制数,如“大”字的国标码为`B3F3H`,对应二进制为`1011 0011 1111 1001`。
在国标码基础上加80H(128),如“大”的机内码为`C2F3H`(二进制`1100 0010 1111 1011`)。
二、Unicode编码(3-4字节)
兼容ASCII,常用3个或4个字节,如“真”字的UTF-8编码为`D0B4E6`(二进制`1101 0000 1011 0100 1110 0110`)。
常用2个或4个字节,如“小”字的UTF-16编码为`D0A1`(二进制`1101 0000 1010 0001`)。
固定4个字节,如“飞”字的UTF-32编码为`B7C9`(二进制`1011 0111 1100 1001 1100 1001`)。
三、其他编码方式
区位码:由4位区码+4位位码组成(如“米”为`C3D7`),需转换为内码使用。
字模编码:通过点阵矩阵直接表示汉字形状,如“一”用连续竖线表示。
总结:汉字二进制表示需根据具体编码标准转换,GB2312/GBK适用于早期系统,而Unicode(如UTF-8、UTF-16)兼容性强且应用广泛。