黄晗
Spring, 2019
其中平时成绩包括:
课堂考勤
课堂表现
作业
实验
缺勤(含请假)达到8学时,课程成绩记为不及格,需参加重修。

越成功的人(收入越高),睡眠越少。
经常吃海参的人比较聪明。
这些都是错把相关关系当作因果关系,从而造成统计谬误。
| 法学院 | 商学院 | |
|---|---|---|
| 男生录取 | 8 | 201 |
| 男生拒收 | 45 | 50 |
| 女生录取 | 51 | 92 |
| 女生拒收 | 101 | 9 |
上表显示的是某大学法学院和商学院招生的数据统计。我们可以看到,法学院男生的录取比例为\( \frac{8}{53}=15.1\% \),女生录取的比例为\( \frac{51}{152}=33.6\% \)。同理,商学院男生的录取比例为\( 80.1\% \),女生的录取比例为\( 91.1\% \)。
无论在法学院还是在商学院,女生的录取比例都高于男生。请问确实是如此吗?
| 两院相加 | |
|---|---|
| 男生录取 | 209 |
| 男生拒收 | 95 |
| 女生录取 | 143 |
| 女生拒收 | 110 |
男生录取的比例为\( \frac{209}{304}=68.8\% \)。女生录取的比例为\( \frac{143}{253}=56.5\% \)。男生的录取率要高于女生。
为什么会出现这种悖论?
在上面这个例子中,法学院的录取率要远远低于商学院,而大多数男生选择申请商学院。因此即使男生在法学院的申请中被拒率很高,被拒掉的绝对数量却不见得多。女生的情况,则恰恰相反。
我们将这种悖论称为辛普森悖论,它告诉我们,在分析数据的时候,不能简单的将分组数据汇总相加。我们需要仔细观察分组数据的特征。在我们得出任何基于统计分析的结论前,先认真想一想,该结论是不是符合常识?有没有可能被表面的数据掩盖了背后的真相?
伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。
假设某学校在招收学生时,要求学生要么学习成绩好,要么体育成绩好。所有的报考学生需要参加两门考试:文化(语数外),和体育(跑跳投)。最后,学校仅录取在任一考试中考到90分以上的报考学生。
所以能够被学校录取的学生,要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。
现在如果我们分析这些被入取学生的成绩分布,会发现一个学生的学习成绩,和体育成绩是负相关的。因为那些体育成绩最好的学生(比如体育100分),他们的文化平均分为50分(假设他们的文化考试呈现正态分布)。而体育成绩最差的学生(比如体育成绩10分),其文化平均成绩为95分(因为只有超过90分的学生才被录取)。
因此,分析人员可能会得出结论:体育越好,文化成绩越差;文化成绩越好,体育越差。但这个结论显然是错误的。
众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。能否从统计上做出论证?复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。
一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,亦;……:呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。
那么前80回是否是曹雪芹所写呢?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。
而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。
2018年3月17日,Facebook宣布暂时封杀两家裙带机构。
一个叫Strategic Communication Laboratories(SCL),主要为全球官方机构提供数据分析和战略决策。
另一个是Cambridge Analytica,直译为剑桥分析公司,该组织更知名的服务对象,是当今美国总统特朗普。作为特朗普的数据运营团队,他们成功在2016年助力特朗普上任。
举报者说,剑桥分析公司用这些数据,搭建起一个可以剖析美国选民的数据模型,并且能够针对性地推送千人千面的个性化政治广告。 更明确的是,特朗普精选中不仅聘用了剑桥分析公司打造数据模型,还聘请了一家名为Giles-Parscale的数字营销公司开展在线广告活动。二者分工明确,前者锁定目标选民,后者精准投放广告。此外,剑桥分析公司的数据模型,也被用于拆台——通过自动化机器人进行反希拉里宣传,逐渐拉开特朗普和希拉里在社交网络传播中的影响力。光在传播选举信息方面,特朗普的自动化机器人实现的信息量,就五倍于希拉里·克林顿。
卫报更是在最新报道中指出,算法和数据库一起构成了强大的政治工具,这个工具能够在大选中尽可能找出中间选民,并制造更多的“共鸣信息”成功打动他们。在卫报报道中,这个数据库中包含11个州的200万个匹配文件,所谓匹配,就是个人信息与选举登记簿匹配。而整体5000万的数据档案,占据Facebook北美活跃用户的1/3,其中差不多1/4都可能是美国大选中的选民。
所以特朗普当选后,关于赢在互联网时代的分析一个接一个,但直到2年后,诸如此类非法应用隐私数据的操作,才开始浮出水面。
当然,主导了这一系列神操作的SCL和剑桥分析公司,也非等闲之辈,因为背后大Boss罗伯特·默瑟(Robert Mercer)——不仅是执掌对冲基金公司的亿万富翁,还是江湖地位不凡的AI大牛。
分辨消息的真伪
看懂数据
以恰当的方式呈现数据分析结论
统计及其应用领域
怎样获得统计数据
统计中的几个基本概念
什么是统计学
统计的应用领域
统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。
描述统计:研究数据收集、整理和描述的统计学方法。
推断统计:研究如何利用样本数据来推断总体特征的统计学方法。
统计学没有任何固定的对象,是一门独特的学问。
统计学研究的是来自各领域的数据,由解决其他领域内的问题而存在并兴旺发达。按萨维奇(L. J. Savage)的说法:
统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱。
The Red Fort)说:使用数字讲故事取决于统计学家的技巧和他们的经验。在这个意义下,统计学也是一门艺术。统计思维总有一天会像读与写一样成为一个有效率公民的必备能力。(
H. G. Wells)在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。(
C. R. Rao)
1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存。
推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建议:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响。
在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为:
\[ \hat{y}=3.698-0.04754x \]
当温度为31度(华氏)时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择。
统计应用上的两个极端:
在统计应用中,这两个极端都是不可取的。
简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的。
统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱。
分类数据、顺序数据、数值型数据
观测数据和实验数据
截面数据和时间序列数据
按计量尺度分类:
按收集方法分类:
总体和样本
参数和统计量
变量
变量可以分为: