【转】【编码】偶数个汉字正常,奇数个汉字乱码


原文:http://www.cnblogs.com/bfchuan/p/4083548.html

原文中提到:“我很好“出现的乱码情况。

一般在汉字乱码中分为两种情况:

  1:骞茶帿瀛?  这样的乱码其实不叫乱码,而是数据不是我们想要的,因为我们要的是A却显示成了B,这样的原因主要是因为编码格式不正确导致

  2:?????  全是问号的乱码应该很多人都遇见过,这样的东西应该才是算乱码,为什么会出现?。因为字节内的东西无法用一个汉字展示出来,也就是找不到汉字对应这个内容,于是这样的东西会以?的形式展示出来,官方的称呼就是编码黑洞,对应的二进制数据为63,转换后就是一个?

  根据情况来看自己遇到的是第一种,于是有点疑惑,管他的,来个强转:

   ChangeCharset changeCharset = new ChangeCharset();
        try {
            result = changeCharset.toUTF_8(URLDecoder.decode(result, "UTF-8"));
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }
        return result;
机器人说:你好爱你哦亲??

  有部分乱码,于是继续测试想找出规律,后来果然发现规律,只要过来的数据是偶数个,则不会乱码,若是奇数个,则最后一个汉字乱码,乱码的形式是固定的?,来了一个?,我靠,今天两种情况都遇到了,本以为很简单的东西居然卡在了编码的地方,苦思冥想,很明显是容器编码问题,很SB的解决方法也很简单,判断下是不是奇偶,不是偶数加个东西就行了。

  但是想搞明白为什么是最后一个字乱码,突然想到一个东西,UTF-8中,一个汉字3个字节,GBK中一个汉字2个字节,我好像明白了什么。。

  因为jetty容器默认是按照系统编码来决定容器编码,前提是没有自己修改启动编码,而公司里我台PC是windows的,好像默认GBK的,反正我对windows绯闻也挺多的,于是这里有一个问题,比如jetty接受到了一串经过UTF-8编码的汉字:

  我很好

  jetty收到的最原始的二进制数组是这样的:

  [-26, -120, -111, -27, -66, -120, -27, -91, -67]

  当然这不是最原始的,最原始的0和1,当然为了好看就算他是最原始的吧,下一步jetty要开始编码了,按照jetty的GBK编码,他按照2个字节一个汉字的格式去编码,于是出现了这样的组合:

  [-26, -120]  [ -111, -27]  [-66, -120]  [-27, -91]  [-67]

  前面每两个字节都能找到对应的汉字,最后jetty发现最后居然只有一个字节,找不到对应的汉字,心里想这SB是哪来的,于是jetty放弃它了,把它赶出去,把63丢过去,于是最后的组合成了:

  [-26, -120]  [ -111, -27]  [-66, -120]  [-27, -91]  [63]

  经过GBK的格式编码,两个字节对应一个汉字,就显示出了这样的东西:

  骞茶帿瀛

  会出现5个,因为每2个字节代表一个汉字,最后一个字节是63,对应的符号是?,就出现了上面的东西,于是我对它做了强制的UTF-8编码,导致上面的二进制数组重新组合,经过UTF-8的组合之后,二进制数组成了这样:

  [-26, -120, -111] [-27, -66, -120] [-27, -91, 63]

  再经过UTF-8显示之后,变成了这样:

  我很??

  前6个字节能够正常的显示出汉字,因为那就是真正的数据,然而最后3个字节,已经被GBK处理了,替换过了,即使使用UTF-8也无法还原它原来的容貌,于是它就显示成了上面的样子,但是为什么偶数不会出错?

  因为偶数能够被GBK正常的解码,也就是如果汉字是偶数,UTF-8和GBK是等同的,但是如果是奇数,则就出问题了,这也是传说中的最后一个汉字乱码的问题,因为最后一个 字节始终是63,要解决这个问题,必须要治标还要治本,项目中必须全程保证编码一致性。