统计学

黄晗
Spring, 2019

课程要求

总评成绩 = 平时成绩 + 期末考试成绩

其中平时成绩包括:

  • 课堂考勤

  • 课堂表现

  • 作业

  • 实验

缺勤(含请假)达到8学时,课程成绩记为不及格,需参加重修。

课程资源

kyCSeK.png

课程幻灯片

章节 内容
第一章 导论
第二章 数据的搜集
第三章 数据的图表展示
第四章 数据的概括性度量
第五章 概率与概率分布
第六章 统计量及其抽样分布
第七章 参数估计
第八章 假设检验
第九章 分类数据统计
第十章 方差分析
第十一章 一元线性回归
第十二章 多元线性回归
第十三章 时间序列分析和预测

实验大纲和指导

点击访问 (访问密码:2v9c)

例题和习题配套数据

点击访问或扫描下方二维码。

ky92Gj.png

开始之前

生活中的统计现象

  • 越成功的人(收入越高),睡眠越少。

  • 经常吃海参的人比较聪明。

这些都是错把相关关系当作因果关系,从而造成统计谬误。

案例1:你认为在录取时有性别歧视吗?

法学院 商学院
男生录取 8 201
男生拒收 45 50
女生录取 51 92
女生拒收 101 9

上表显示的是某大学法学院和商学院招生的数据统计。我们可以看到,法学院男生的录取比例为\( \frac{8}{53}=15.1\% \),女生录取的比例为\( \frac{51}{152}=33.6\% \)。同理,商学院男生的录取比例为\( 80.1\% \),女生的录取比例为\( 91.1\% \)。

无论在法学院还是在商学院,女生的录取比例都高于男生。请问确实是如此吗?

请你把男生和女生人数相加后再思考

两院相加
男生录取 209
男生拒收 95
女生录取 143
女生拒收 110

男生录取的比例为\( \frac{209}{304}=68.8\% \)。女生录取的比例为\( \frac{143}{253}=56.5\% \)。男生的录取率要高于女生。

为什么会出现这种悖论?

在上面这个例子中,法学院的录取率要远远低于商学院,而大多数男生选择申请商学院。因此即使男生在法学院的申请中被拒率很高,被拒掉的绝对数量却不见得多。女生的情况,则恰恰相反。

我们将这种悖论称为辛普森悖论,它告诉我们,在分析数据的时候,不能简单的将分组数据汇总相加。我们需要仔细观察分组数据的特征。在我们得出任何基于统计分析的结论前,先认真想一想,该结论是不是符合常识?有没有可能被表面的数据掩盖了背后的真相?

案例2:伯克森悖论

伯克森悖论,指的是两个本来无关的变量之间体现出貌似强烈的相关关系。

假设某学校在招收学生时,要求学生要么学习成绩好,要么体育成绩好。所有的报考学生需要参加两门考试:文化(语数外),和体育(跑跳投)。最后,学校仅录取在任一考试中考到90分以上的报考学生。

所以能够被学校录取的学生,要么在文化考试中考到90分以上,或者在体育考试中考到90分以上,或者在两门考试中都考到90分以上。

现在如果我们分析这些被入取学生的成绩分布,会发现一个学生的学习成绩,和体育成绩是负相关的。因为那些体育成绩最好的学生(比如体育100分),他们的文化平均分为50分(假设他们的文化考试呈现正态分布)。而体育成绩最差的学生(比如体育成绩10分),其文化平均成绩为95分(因为只有超过90分的学生才被录取)。

因此,分析人员可能会得出结论:体育越好,文化成绩越差;文化成绩越好,体育越差。但这个结论显然是错误的。

你相信这些统计结论吗?

  • 身体超重30%会使寿命减少1300天
  • 身材高的父亲,其子女身材也较高
  • 吸烟对健康是有害的,吸烟的男性寿命减少2250天
  • 上课坐在前排的学生平均考试分数比坐在后排的同学高

案例3:统计学考证《红楼梦》作者

众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,一般都认为前80回为曹雪芹所写,后40回为高鹗所续。然而长期以来这种看法一直都饱受争议。能否从统计上做出论证?复旦大学的李贤平教授带领他的学生作了这项很有意义的工作,他们创造性的想法是将120回看成是120个样本,然后确定与情节无关的虚词出现的次数作为变量,巧妙运用数理统计分析方法,看看哪些回目出自同一人的手笔。

一般认为,每个人使用某些词的习惯是特有的。于是李教授用每个回目中47个虚词(之,其,或,亦;……:呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。利用多元分析中的聚类分析法进行聚类,果然将120回分成两类,即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。

那么前80回是否是曹雪芹所写呢?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔,是他根据《石头记》写成,中间插入《风月宝鉴》,还有一些别的增加成分。

而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成,宝黛故事为一人所写,贾府衰败情景当为另一人所写等等。这个论证在红学界轰动很大,李教授他们用多元统计分析方法支持了红学界的观点,使红学界大为赞叹。

案例4:大数据AI助特朗普当选

2018年3月17日,Facebook宣布暂时封杀两家裙带机构。

  • 一个叫Strategic Communication Laboratories(SCL),主要为全球官方机构提供数据分析和战略决策。

  • 另一个是Cambridge Analytica,直译为剑桥分析公司,该组织更知名的服务对象,是当今美国总统特朗普。作为特朗普的数据运营团队,他们成功在2016年助力特朗普上任。

  • 2015年,剑桥大学心理学教授Aleksandr Kogan以研究为名,推出基于Facebook的应用程序“thisisyourdigitallife”,声称可以提供个性预测。毫无疑问,该应用需要通过Facebook帐户登陆,并需要用户同意个人帐号中的“城市”、“点赞”、“好友”等隐私资料被使用。也就是大家新注册某个应用时,不以为意的各种“同意”签约。Facebook称,共有27万Facebook用户下载使用了该应用。更关键的是,这些走了合法渠道获取的隐私数据,却被剑桥大学教授Kogan转手传递给了第三方:SCL和剑桥分析公司。紧接着,这些个人资料发挥了更大的作用。由于应用程序下载者还被收集了好友信息,导致泄露的数据库中拥有5000万人规模。这是Facebook史上最大规模的数据“泄露”。

举报者说,剑桥分析公司用这些数据,搭建起一个可以剖析美国选民的数据模型,并且能够针对性地推送千人千面的个性化政治广告。 更明确的是,特朗普精选中不仅聘用了剑桥分析公司打造数据模型,还聘请了一家名为Giles-Parscale的数字营销公司开展在线广告活动。二者分工明确,前者锁定目标选民,后者精准投放广告。此外,剑桥分析公司的数据模型,也被用于拆台——通过自动化机器人进行反希拉里宣传,逐渐拉开特朗普和希拉里在社交网络传播中的影响力。光在传播选举信息方面,特朗普的自动化机器人实现的信息量,就五倍于希拉里·克林顿。

卫报更是在最新报道中指出,算法和数据库一起构成了强大的政治工具,这个工具能够在大选中尽可能找出中间选民,并制造更多的“共鸣信息”成功打动他们。在卫报报道中,这个数据库中包含11个州的200万个匹配文件,所谓匹配,就是个人信息与选举登记簿匹配。而整体5000万的数据档案,占据Facebook北美活跃用户的1/3,其中差不多1/4都可能是美国大选中的选民。

所以特朗普当选后,关于赢在互联网时代的分析一个接一个,但直到2年后,诸如此类非法应用隐私数据的操作,才开始浮出水面。

当然,主导了这一系列神操作的SCL和剑桥分析公司,也非等闲之辈,因为背后大Boss罗伯特·默瑟(Robert Mercer)——不仅是执掌对冲基金公司的亿万富翁,还是江湖地位不凡的AI大牛。

为什么学习统计学?

  • 分辨消息的真伪

  • 看懂数据

  • 以恰当的方式呈现数据分析结论

第一章 导论

  • 统计及其应用领域

  • 怎样获得统计数据

  • 统计中的几个基本概念

学习目标

  • 理解统计与统计学的含义
  • 理解统计数据与统计学的关系
  • 区分描述统计与推断统计
  • 了解统计学与其他学科的关系
  • 了解统计学产生与发展的过程

1.1 统计及其应用领域

  • 什么是统计学

  • 统计的应用领域

1.1.1 什么是统计学?

统计学(statistics)是收集、处理、分析、解释数据并从数据中得出结论的科学。

  • 数据搜集:如调查与试验
  • 数据整理:如分组
  • 数据展示:如图和表
  • 数据分析:如回归分析

统计方法

  • 描述统计:研究数据收集、整理和描述的统计学方法。

  • 推断统计:研究如何利用样本数据来推断总体特征的统计学方法。

    • 参数估计
    • 假设检验

统计学研究什么?

统计学没有任何固定的对象,是一门独特的学问。

统计学研究的是来自各领域的数据,由解决其他领域内的问题而存在并兴旺发达。按萨维奇(L. J. Savage)的说法:

统计学基本上是寄生的。靠研究其他领域内的工作而生存。这不是对统计学的轻视,这是因为对很多寄主来说,如果没有寄生虫就会死。对有的动物来说,如果没有寄生虫就不能消化它们的食物。因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱。

  • 统计学是一门科学
    • 统计学提供一套方法和技术,这些方法和技术不能用于固定模式,使用者在给定的情况下必须根据所掌握的专门知识选择使用的方法,而且,如果需要还要进行必要的修正。
    • 统计方法是通用的数据分析方法。这些方法不是为某个特定的问题领域而构造的。
  • 统计学是一种技术
    • 如同工业生产过程中的质量控制程序一样,统计方法是为保证产品达到所希望的质量和保持其稳定性的的管理系统中建立起来的。
    • 统计方法也能用于控制、减少和考察不确定性。
  • 统计学是一门艺术
    • 作为归纳推理的统计方法不是没有争议的。不同的人对同一组数据的分析可能得到不同的结论。
    • 一本印度小说《红色城堡》(The Red Fort)说:使用数字讲故事取决于统计学家的技巧和他们的经验。在这个意义下,统计学也是一门艺术。

统计学是一种思维方式

统计思维总有一天会像读与写一样成为一个有效率公民的必备能力。(H. G. Wells)

在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。(C. R. Rao)

1.1.2 统计的应用领域

挑战者号航天飞机失事预测

1986年1月28日清晨,载有7名宇航员的挑战者号进入发射状态。就在发射前,有冰片牢附在机壳上。几分钟后,正当电视新闻报道它已进入轨道时,航天飞机在毁灭性的爆炸声中化成碎片,机上的宇航员片骨未存。

推动航天飞机进入太空的两个固体燃料发动机是由Thiokol公司制造的。失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。天气预报发射时的气温为310F。争执的结果采纳了Thiokol公司经理们的建议:按计划发射航天飞机。因为他们觉得没有确凿证据表明低温会对固体燃料火箭推进器的性能产生影响。

在此次失事前,该航天飞机24次发射成功。将航天飞机送入太空的两个固体燃料推进器由6只O型项圈密封。在几次飞行中,曾发生过O型项圈被腐蚀或气体泄漏事故。这样的事故是及其危险的。前24次发射中有一次发动机遭到了永久性破坏。根据23次飞行中发生腐蚀或泄漏事故的次数(因变量)及火箭连接处的温度(自变量)数据,进行线性回归得到的回归方程为:

\[ \hat{y}=3.698-0.04754x \]

当温度为31度(华氏)时,O型项圈发生事故的预计次数为2.225次。结果显示连接处的温度与O型项圈事故之间有一定的相关性。如果当时那些经理们看到了回归的预测结果,也许推迟发射会成为其谨慎的选择。

统计的误用与滥用

统计应用上的两个极端:

  • 不用或几乎不用统计
  • 简单问题复杂化

在统计应用中,这两个极端都是不可取的。

简单的方法不一定没用,复杂的方法也不一定有用。正如有的学者所说的,最简单的模型往往是最有用的。

统计应该恰当地应用到它能起作用的地方。不能把统计神秘化,更不能歪曲统计,把统计作为掩盖实事的陷阱。

1.2 统计数据的类型

  • 分类数据、顺序数据、数值型数据

  • 观测数据和实验数据

  • 截面数据和时间序列数据

1.2.1 分类数据、顺序数据、数值型数据

按计量尺度分类:

分类数据(categorical data)

  • 只能归于某一类别的非数字型数据
  • 对事物进行分类的结果,数据表现为类别,用文字来表述
  • 例如,人口按性别分为男、女两类

顺序数据(rank data)

  • 只能归于某一有序类别的非数字型数据
  • 对事物类别顺序的测度,数据表现为类别,用文字来表述
  • 例如,产品分为一等品、二等品、三等品、次品等

数值型数据(metric data)

  • 按数字尺度测量的观察值
  • 结果表现为具体的数值,对事物的精确测度
  • 例如:身高为175cm、168cm、183cm

1.2.2 观测数据和实验数据

按收集方法分类:

观测的数据(observational data)

  • 通过调查或观测而收集到的数据
  • 在没有对事物人为控制的条件下而得到的
  • 有关社会经济现象的统计数据几乎都是观测数据

实验的数据(experimental data)

  • 在实验中控制实验对象而收集到的数据
  • 比如,对一种新药疗效的实验,对一种新的农作物品种的实验等
  • 自然科学领域的数据大多数都为实验数据

1.2.3 截面数据和时间序列数据

截面数据(cross-sectional data)

  • 在相同或近似相同的时间点上收集的数据
  • 描述现象在某一时刻的变化情况
  • 比如,2005年我国各地区的国内生产总值数据

时间序列数据(time series data)

  • 在不同时间上收集到的数据
  • 描述现象随时间变化的情况
  • 比如,2000年至2005年国内生产总值数据

1.3 统计中的几个基本概念

  • 总体和样本

  • 参数和统计量

  • 变量

1.3.1 总体和样本

总体(population)

  • 所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素
  • 分为有限总体和无限总体
  • 有限总体的范围能够明确确定,且元素的数目是有限的
  • 无限总体所包括的元素是无限的,不可数的

样本(sample)

  • 从总体中抽取的一部分元素的集合
  • 构成样本的元素的数目称为样本容量或样本量 (sample size)

1.3.2 参数和统计量

参数(parameter)

  • 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值
  • 所关心的参数主要有总体均值(\( \mu \))、标准差(\( \sigma \))、总体比例(\( \pi \))等
  • 总体参数通常用希腊字母表示

统计量(statistic)

  • 用来描述样本特征的概括性数字度量,它是根据样本数据计算出来的一些量,是样本的函数
  • 所关心的样本统计量有样本均值(\( \bar{x} \))、样本标准差(\( s \))、样本比例(\( p \))等
  • 样本统计量通常用小写英文字母来表示

1.3.3 变量

  • 说明现象某种特征的概念,如商品销售额、受教育程度、产品的质量等级等。
  • 变量的具体表现称为变量值,即数据。

变量可以分为:

  • 分类变量(categorical variable) :说明事物类别的名称
  • 顺序变量(rank variable):说明事物有序类别的名称
  • 数值型变量(metric variable) :说明事物数字特征的名称
    • 离散变量:取有限个值
    • 连续变量:可以取无穷多个值

变量的其他分类

  • 随机变量和非随机变量
  • 经验变量(empirical variables)和理论变量(theoretical variables)
    • 经验变量所描述的是我们周围可以观察到的事物
    • 理论变量则是由统计学家用数学方法所构造出来的一些变量,比如\( z \)统计量、\( t \)统计量、\( \chi^2 \)统计量、\( F \)统计量等

The End