utf-8和utf-8-sig的区别

解决：utf-8 改为utf-8-sig

区别如下：

1、”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,因此它不需要BOM,所以当用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理, 也就会发生类似上边的错误.

2、“uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8”, 因此"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开,也是我们期望的结果.

BOM的含义

　　BOM即Byte Order Mark字节序标记。BOM是为UTF-16和UTF-32准备的，用户标记字节序（byte order）。拿UTF-16来举例，其是以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流"594E"，那么这是“奎”还是“乙”？

　　Unicode规范中推荐的标记字节顺序的方法是BOM：在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"（零宽度无间断空间）的字符，它的编码是FEFF。而FEFF在UCS中是不不能再的字符（即不可见），所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者接收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称为BOM。

　　UTF-8是以字节为编码单元，没有字节序的问题。

文件参考来源：https://www.cnblogs.com/brady-wang/p/12492457.html

常见问题解决记录

utf-8和utf-8-sig的区别

相关

标签