学网络营销,商企学院最专业

     当前位置:网站首页 > 客户服务 > 客户问题 > 常见问题

互联网人必须要懂的 “幸存者偏差”

作者:网站管理员 来源:本站原创 日期:2018/6/15 14:10:53 点击:216 属于:常见问题

在咱们日常作业的决议计划中,幸存者误差是如此普遍,常常在不经意中影响咱们的决议计划与判别,那么这个概念的实质是神马?它容易在哪些状况下发作?它的作用机制是怎样的?咱们怎么防止它?今天的文章咱们就一起来探讨一下这个问题:
“幸存者误差” 的历史

“幸存者误差” 来历于二战中一个闻名的故事:
1941 年,第二次国际大战中,空军是最重要的军种之一,盟军的战机在屡次空战中丢失严重,无数次被纳粹炮火击落,盟军总部隐秘邀请了一些物理学家、数学家以及计算学家组成了一个小组,专门研讨 “怎么削减空军被击落概率” 的问题。
其时军方的高层计算了一切回来的飞机的中弹状况——发现飞机的机翼部分中弹较为密集,而机身和机尾部分则中弹较为稀疏,所以其时的盟军高层的主张是:加强机翼部分的防护。

但这一主张被小组中的一位来自哥伦比亚大学的计算学教授——沃德(Abraham Wald)驳回了,沃德教授提出了彻底相反的观念——加强机身和机尾部分的防护。
那么这位计算学家是怎么得出这一看似不行契合知识的定论的呢?沃德教授的底子出发点依据三个事实是:
计算的样本仅仅安全回来的战机。
被屡次击中机翼的飞机,好像仍是可以安全归航。
而在机身机尾的方位,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全归航的机率极小,即回来的飞机是幸存者,仅仅依托幸存者做出判别是不科学的,那些被忽视了的非幸存者才是要害,他们底子没有回来!
军方采用了教授的主张,加强了机尾和机身的防护,而且后来证明该决议计划是无比正确的,盟军战机的击落率大大下降,这就是 “幸存者误差” 故事的来历。
“幸存者误差” 的实质

广义的幸存者误差用计算学的专业术语来解说是——“选择偏倚”,即咱们在进行计算的时分疏忽了样本的随机性和全面性,用部分样本替代了全体随机样本,然后对全体的描绘呈现偏倚。
计算学的简略描绘是这样的:计算全集为 A,调查到 A 的子集 A1 有特征 X,A1 为幸存者,而 A 别的的子集 A2 并没有调查到或者被人为疏忽,所以判别全集 A 都有特征 X,事实上 A2 的特征为 Y。

用上述记者查询买火车票的事例来代入解说为:A 为全体想买火车票的人,A1 为现已在火车上的人,A2 为想买但没买到的人,特征 X 为买到票,特征 Y 为未买到票,即幸存者误差将一小部分显性样本替代了随机样本,然后导致了计算的误差。

有了这个结构,咱们就能从理论的视点理解这些 “幸存者误差” 的详细事例了:
亚裔学生事例
美国学生会发现亚裔同学在数学方面要超出其同龄孩子许多——“幸存者误差”:能到美国上学的孩子在我国的教育水平和生长环境一般都会相对优胜,要是我国的母语是英文,想必语文成果也会优于美国同龄学生。
住院研讨事例
假设北京长庚医院对心脏患者住院患者的饮食习气进行研讨,然后宣布一篇《心脏病与饮食习气之间的联系》的论文,该论文是否有可信度?答案是没有!由于长庚医院为北京高端私立医院,该院患者和一般患者的饮食习气会存在差异,一起住院的患者也并非能代表一切病例(不住院就现已逝世的、住不起院的等等),事实上,扫除这些搅扰要素是现代医学研讨的底子准则。
健身房事例
我每周一三五正午都会去公司的健身房,这个习气坚持了很长一段时刻,但是有一段时刻我一度懊丧——由于我发现公司健身房的搭档底子上身段都比我好,这其实就是典型的 “幸存者误差”——那些健身房的人身段好当然是大概率事情,身段欠好也不练习的人一般很少去健身房。
章鱼保罗事例
2010 年国际杯最大的明星不是来自某个球员,而是来自德国奥博豪森海洋馆的章鱼” 保罗 “,它神奇地接连 7 次弹无虚发地猜测了国际杯德国队的比赛成果,章鱼保罗成为那个夏天国际媒体热心追逐的目标,但是事实上它就是一次典型的” 幸存者误差 “,那年夏天其实有许多动物都参与了国际杯的猜测:菲律宾的山公、墨西哥的羊驼、非洲的大象、保加利亚的奶牛甚至还有我国的熊猫,仅仅由于这些动物猜测失利了所以并没有媒体报道,而章鱼保罗成为那个幸运儿。

在以上四个事例中,全集 A 分别为:我国的一切孩子、一切心脏病患者、我公司的一切搭档、猜测国际杯的一切动物;
幸存者 A1 分别为:有条件去美国念书的孩子、在长庚医院的心脏患者、去健身房的搭档、章鱼保罗;
特征 X 分别为:数学好、饮食独特、身段好、猜测准;
特征 Y 分别为:数学平庸、饮食正常、身段一般、猜测不准。
这就是 “幸存者误差” 的剖析结构。
警觉 “幸存者误差” 的乱用

许多人对 “幸存者误差” 这个名词一知半解的时分,往往会形成它的乱用,在作者看来,警觉 “幸存者误差” 和警觉 “幸存者误差” 的乱用相同重要。
许多人看到一些媒体报道的创业 “成功故事” 立马不以为然——“这是幸存者误差,不知道有多少个失利的事例呢?”,然后对成功者的办法和经历一概摒弃;
许多受贿的作业人员看到 “或人受贿被抓” 的新闻见怪不怪,以为这是幸存者误差——“媒体只会报道那些受贿被抓的人,其实还有更多没捉住呢!” 所以他们持续受贿。
那么 “幸存者误差” 这个概念是怎么被乱用的呢?仍是举记者查询高铁买票的比如,理解 “幸存者误差” 理论,只能让咱们理解——”记者在高铁上进行查询来判别一切人都买到票” 这种办法是不科学的。
留意——它并不能直接推断出 “一切人都买到票” 这个定论必定是错的,由于剩下的人有没有买到票这一信息——咱们不知道:春运的时分咱们能依据知识判别他们可能买不到票,但平常的高铁,底子上是想买到票的人都能买到票,因而,直接判别 “必定有人没买到票” 就归于 “幸存者误差” 的乱用,过错的不和不必定就是正确。
从计算学的视点咱们来看咱们是怎么乱用幸存者误差的——咱们调查到了 A1 有特征 X,一起咱们意识到可能存在幸存者误差,咱们预先把 A1 界说为幸存者,所以直接判别非幸存者 A2 必定不会有特征 X,而本相是:A2 是否有特征 X 这个信息咱们并不知道,可能有,也可能没有。
警觉 “幸存者误差” 乱用非常重要,事实上前面提到的二战计算学教授沃德的故事也仅仅后人及其简化之后的版本,略微考虑一下就会知道,一个受过科学练习的计算学教授是不可能只凭直观判别就直接给出定论的。
事实上沃德教授关于飞机击落问题先后提交了八份不同方面的陈述,其间主论文为《A Method of Estimating Plane Vulnerability Based on Damage of Survivors》,即《一种依据幸存飞机损伤状况估测飞机要害部位的办法》。

这篇论文就有 80 多页,仅后人对他贡献的总述就有 10 多页,(大众号回复要害词——“沃德教授” 获取论文),这位写过巨作《序列剖析》的威望教授显然是对结构中 A2 的特征做过详细而严谨的剖析才得出定论滴!
假如拍拍脑袋就能成为计算学家,那咱们都是计算学家!
互联网人怎么防止 “幸存者误差”?

“幸存者误差” 是数据剖析的常见逻辑过错,而数据又是驱动互联网的动力之一,那么互联网人应该在剖析数据、决议计划判别时怎么防止 “幸存者误差” 的存在呢?卫夕总结了三个步骤:
判别样本的随机性,即必须知道样本是否是随机的。
判别样本和剩下样本中会不会存在显着差异。
剖析剩下样本数据,验证定论。
咱们来看几个事例直接进行练习:

“卫夕聊广告” 既开通了大众号也开通了微博账号 “卫夕君”,这时分我发现同一篇文章在相同的阅览的状况下微信的打赏特别少,而微博则多一些,因而我起先大致判别微信粉丝的打赏志愿低于微博,直到我想起来微信的 iOS 用户由于苹果的方针约束现在并不能打赏之后才理解我之前的猜测是错滴,这存在幸存者误差,所以我测验在最近的两篇文章末尾专门加上 IOS 欣赏码,文章的欣赏金额公然提升了挨近 4 倍。
在这个事例中防止幸存者误差的规范三步为:
判别样本的随机性,即看微信大众号的打赏用户是否能代表全体?答案是否定的,由于只覆盖了安卓用户;
判别样本和剩下样本会不会存在显着差异?即安卓用户和 iOS 在打赏这件事上会不会存在差异?答案是:可能存在差异;
剖析剩下样本数据,验证定论,即加上 iOS 的打赏码再次验证成果。

某视频网站在 VIP 中新上线了一部美剧,该美剧每一集的观看人数之前一向安稳,但当它播到第七集的时分,观看人数有一个相对显着的丢失,运营人员开端剖析以为是该部美剧从第七集开端剧情扶摇直上主角遽然挂掉引起的,但是当他们仔细剖析丢失用户的时分,发现丢失的都是由于三个月前某次大规模赠送的免费会员到期引起的,仅仅时刻正好和第七集重合罢了,一般会员底子没有丢失。
在这个事例中三步分别为:1. 判别样本随机性,即剖析丢失用户是不是一切会员的随机样本。答案是否定的——丢失的都是免费会员。2. 判别样本和剩下样本会不会存在显着差异?即正常会员和免费会员有没有差异?当然有。3. 剖析剩下样本数据,验证定论,即看正常会员是否丢失。

2016 年 9 月年 Facebook 关于视频广告数据误差的问题变成了该公司广告历史上不大不小的负面新闻,Facebook 在其官方博客中供认:其提交给广告主的数据陈述中,视频广告均匀播映时长的数字只计算了那些播映时长超越 3 秒的播映行为,也就是说,假如视频播映没超越 3 秒,Facebook 竟然就把它舍去了,很显然,广告主的均匀播映时长被拉长了,由于播映时刻短的压根不计算,而这一误差竟然存在了长达两年之久。
这个事例中,剖析仍然分为三步:1. 判别样本随机性——废话!3 秒以下的都舍去了!当然没有随机性!2. 判别样本和剩下样本是否存在显着差异?废话,3 秒以下和 3 秒以上必定有差异!3. 剖析剩下样本数据、验证定论。这….. 就不必验证了吧!
以上的剖析条件是咱们需要对咱们的事务进行深入的理解,只要你深入理解了你事务中详细重要的影响要素你才干做出正确的猜测和判别。
好了:以上就从理论到实践的视点介绍了幸存者误差,这时分有人会问卫夕,你觉得中文互联网上哪一个平台的内容呈现幸存者误差的概率会比较大?哈哈哈,毫无疑问是知乎!咱们来感受一下:

客户服务

联系我们

联系人:李经理

手机:13808966409

电话:0532-89094925

邮箱:153532180@qq.com

地址:中国山东青岛市北区昌乐路1号丙-13户3楼E-14