读《思考,快与慢》- 第十章思考


  今天在地铁上看,思考,快与慢一书中涉及到的第10章-大数法则和小数定律,简单的来讲就是,用小抽样的数据去总结因果关系,其实是不正确的,因为里面有太多的随机性,例如运气。

  书中介绍了几个例子,这里挑一个做下复述: 一项研究对美国3141个县的肾癌发病率进行了调查,调查显示该病的分布模式很值得注意。发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。对此,你有何看法?

  根据这个事实,我们可能下意识的去关注 "中西部、南部和西部" 这几个区域,并且认为癌症的发病率是跟以上地区有关系的,是说明共和党治理有方吗?这是我们的第一想法,我们忽略了后面的关键"人口稀少"这个取样的特点,也就是说取样的都是人口稀少的地方,那就说明人口稀少的地方发病率低是因为流行病在人口稀少的地方难以扩散吗? 很显然不是,因为我们还要考虑人口稀少的地方,特别是乡村,医疗体系还不发达,理论上发病率会更高,这些不就相互矛盾了吗?

  我们在提出结论或者总结因果关系的时候,往往是分析的还不够彻底,根据既定的事实,而这些事实可能太过片面,也就是采样过于特殊,其实是不够证明这些因果关系的。但是大脑就会下意识的认为推导出这样的结论是正确的。

  作者又提出另外一个问题: 如果一个运动员连续进了三四个球,你就会不由自主作出判断:这个运动员正处于“投篮顺手”的状态,得分率暂时增加。两队队员都持这种判断——队员也更爱将球传给打得顺手的人,对方球队则会用两位防守球员防卫这位进攻球员。然而,对上千个投篮动作的分析结果却十分令人失望:在职业篮球比赛中,无论球是从球场上投出还是从罚球线投出的,根本没有“投篮顺手”这回事。

  对于以上这个描述,虽然从理论上来讲,这个运动员不足以证明处于“投篮顺手”的状态,但是事实很有可能是,连续进球之后带来的愉悦感,该球手渐入状态。也就是说连续的进球,是会促进运动员进入这个状态,那我们是否要纠结于“投篮顺手”的状态与否呢?作者觉得这是一个错误的事实,但是他不否认的是,根据小样数据得出来的结论有时候是有助于结果,有时候它又是不利于结果的。这个要怎么理解呢?

  以上的"投篮顺手"显然是有利于结果的。假如现在交警发现了一个穿红灯的车主,为了保证采样的准确性,而不仅仅根据一次问题就给这个车主一次提醒,那么这个车主因为闯了红灯而没有受到任何惩罚,这是很危险的时候,因为假如这个车主就是很随意的闯红灯,那么这一次的容忍,意味着下一次的车祸。所以我认为在面对一些可能会造成危险的结果,我们仍然需要谨慎的对待小样数据,即使是数据少,我们也要有那方面的考虑,多一点担心总是好的。而对于有利于结果的小样的数据,我们更要谨慎的对待, 因为如果有较大的随机性在里面,那么它可能是无效的采样数据,或者说得出的因果关系是错误的,这个时候我们就需要提供更多的采样数据来保证得出的结论是正确的。

  那我们如何确认采样的全面性、均匀性呢?书中只是提及要根据统计学的数据来做定论。我认为,这其中关乎的不仅仅是取样数据的多少,还跟取样的数据的"属性"有关系,例如,”发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村“, 如果我们再对”西部、南部和西部人口较多的乡村“再进行一次采样,也许结果就不一致了,或者是更加接近真实结果。

  这个东西其实和我们软件过程中的A/B TEST有点关系,我们在做ABTest的时候,如果不能保证基础条件都是一样的,那怎么能保证结果的一致性呢?我要分析两张图片对用户的吸引力度哪个更强,1张图片让全部的人看见,另外一张只让女生看见,这个基础条件其实是不一致的,那么它的采样结果分析,又有什么意义呢?