在文本文件中, 一个汉字对应一个字符,其占用的存储单位取决于所使用的字符编码方式:
GB2312/ANSI编码
- 每个汉字占用 2个字节,即1个字符。
UTF-8编码
- 每个汉字占用 3个字节,即1个字符。
补充说明
若按字节数计算,1MB(1048576字节):
按GB2312编码:524288个汉字
按UTF-8编码:341333个汉字
实际文件大小可能因空格、换行等占位符增加额外字节。建议在处理文本文件时明确指定编码方式,避免因编码差异导致的数据错误。