时间: 2021-07-30 09:14:47 人气: 11 评论: 0
数据不**说谎,但是使用数据的人**利用数据说谎,想要不掉进数据的陷阱,首先你必须懂数据。
本文的灵感来自Khan academy的宣传视频 You can learn anything!
The most beautiful, complex concepts in the whole universe are built on basic ideas that anyone, anywhere can understand.
Whoever you are, wherever you are, you only have to know one thing:You can learn anything!
我与数据的渊源起于高中吧,之前数学一直平平,高一遇到了一个好老师突然开窍数学一直都不错。后来到了大学商学院基础课程中有统计,研究生专修市场分析学,更系统的学习了统计学,搞搞聚类因子分析、决策树和逻辑回归模型啥的(捂脸都忘了)。
第一份工作天天写SAS代码,后面的工作更多是对数据的解读和分析,我觉得吧,其实不管从事什么工作,都需要懂数据分析。
正所谓“流氓懂科学,谁也挡不住”。如今越来越多的复杂统计数据像潮水般向我们涌来,一批又一批的调查结果,都显得那么铿锵有力,似乎那就是客观事实。统计陷阱被科学流氓们包装的越发完美,一不小心就把我们忽悠了。
先不论其他的目的,为了防止被忽悠,培养批判性思考的能力,我们要学学数据分析!
数据解读,正确的数据解读,是所有数据分析工作最关键的一步,这一步错了,前面的所有努力都是白搭,然后,往往很多人简单的以为“数据**说话”,他们认为把数据处理完一摆就ok了
幸存者偏差(Survivorship bias),另译为“生存者偏差”或“存活者偏差”,驳斥的是一种常见的逻辑谬误(“谬误”而不是“偏差”),这个被驳斥的逻辑谬误指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。
这东西的别名有很多,比如“沉默的数据”、“死人不**说话”等等。
在日常生活中,最明显的例子就是“我亲戚吃这个药好了”或者“我一个朋友去找了这个老中医”等等。
不管你的亲戚和朋友和你关系如何好,如何值得信任和尊重,在客观规律面前他们都是等同的。疾病和医药不**因为你的喜好而照顾或者偏袒你的亲朋。
如何应对呢?最明显的办法当然是让“死人”说话。双盲实验设计和详细全面客观的数据纪录都是应对“幸存者偏差”的良方。
所谓“兼听则明”也是这个道理,抛掉对个案的迷信,全面系统的了解才能克服这个偏差。
美国人的钱袋长、高都是罗坦提亚木匠的两倍,看起来挺忠实于数据的,但是右边钱袋实际占用的面积就是左边的4倍。
这幅图像导致的暗示效果其实还没完,因为在生活中钱袋都是立体的,所以每个读者看到这个钱袋的时候**不经意地给它加上一个厚度,这样一来,在有些人眼里这幅图表达的明明是美国木匠的收入是罗坦提亚的8倍——这样的印象完全脱离了原始数据所给出的信息,无疑是一次成功的误导。
在美国与西班牙交战期间,美国海军的死亡率是 9‰,而同时期纽约市居民的死亡率是 16‰。后来海军征兵人员就用这些数据来证明参军更安全。
如果假定这些数据是正确的,那 么促使这种差异产生的真正原因是什么?海军征兵人员根据两个数据的差异得出的结论是否正确?
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括婴儿、 老人、病人,他们无论在哪儿都有较高的死亡率。这些数据根本不能说明符合参军标准的人 在海军**比在其他地方有更高的存活机 **,相反的结论也不能证明。
在上例中,当抽**与低分同时出现时,人们得到了一个未经证实的假设,抽**导致低分。
难道就不能是相反的解 释吗?也许低分促使学生不喝酒而变得爱抽**。这种说法与前一种一样能得到证据很好的支撑。只是它不能够满足宣传人员的要求。然而,更大的可能性是两个周素并不互为因果,而同为第三个因素的产物。
是否那些不把读书当回事的爱社交的学生更爱抽**?又或者是否可以在有人曾经建立的性格外向与成绩之间的相关关系(其相关性比成绩和智力的相关性更高)上找到线索?也许,性格外向的学生比性格内向的更爱抽**。
一种相关是由于机缘巧合而产生的。由于机**的存在,你或许可以通过一组数据来证明 一些根本不存在的结论。但换一组数据也许又无法证明。就像自称能防止蛀牙的牙膏生产厂商,你只需将对自己不利的资料扔到一边而公开你需要的结论就能达到目的。
利用小样本, 任意两个你能想到的事件或两组特性之间都能建立显著的相关。
本文由@cyx1106 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议