Friday, August 21, 2015

目录

  • 为什么学习统计
  • 认知偏差
  • 平均数的意义
  • 正态分布
  • 中心极限定理
  • 回顾

为什么学习统计

  • 消除认知偏差
  • 重新认识理解数据
  • 帮助数据分析
    • 只有样本数据时如何分析
    • 如何进行数据统计推断
  • 数据可视化的一部分

目录

  • 为什么学习统计
  • 认知偏差
  • 平均数的意义
  • 正态分布
  • 中心极限定理
  • 回顾

问题

  • 字母K在单词中更多地是以第一个字母出现还是第三个字母?
  • 柬埔寨和坦桑尼亚那个国家人口更多?

回答

  • 字母K在印刷品中作为第三个字母出现的概率是第一个字母的两到三倍
  • 坦桑尼亚:43,188,000(2010年) 柬埔寨:14,805,358(2011年)

原因

  • 以K为开头的字母更容易被回忆
  • 绝大部人对柬埔寨印象深刻
  • 如果能够根据映入头脑的现成例证(记忆中现成可得的)做出回答,那么我们就会假定该事件是经常发生的,当运用这一认知规则进行判断时,称其为易得性直觉。简而言之,就是说人们总是喜欢偏向于自己熟悉或者容易提取的信息来对某事进行决策

条件概率

A: 闪电每年只杀死了45个每个人,大概700万分之1!

B: 喔,好的,我们应该走进去!

画外音:真正了解统计的人应该知道这个概率应该是六分之一

目录

  • 为什么学习统计
  • 认知偏差
  • 平均数的意义
  • 正态分布
  • 中心极限定理
  • 回顾

平均数的意义

2014 全国及各省(市、区)全体居民人均可支配收入(元)

  • 上海 45966
  • 北京 44489
  • 浙江 32658
  • 天津 28832
  • 江苏 27173
  • 广东 25685
  • 福建 23331
  • 辽宁 22820
  • 山东 20864
  • 内蒙古20559
  • 全国 20167

指数分布

指数分布,平均数1000。真正的收入是如此分布?

## Warning: package 'ggplot2' was built under R version 3.1.3

正态分布

正态分布,平均数1000。真正的收入是如此分布?

平均分布

值都一样,想想都不可能

数据集中度

  • 平均数是查看数据集中趋势的一个指标,只看平均数参考意义不大。根本无法了解数据现状

还有其他指标

  • 中位数:中间的数,一半的值大于它,一半的值小于它
  • 众数:数据集中出现最多的数字
  • 中程数:中程数是考虑数据集中趋势的又一种方式,而中程数是最大数和最小数的平均值

离散度

  • 极差:最大值减去最小值
  • 平均差: 平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度
  • 标准差:标准差是随机变量各个取值偏差平方的平均数的算术平方根,是最常用的反映随机变量分布离散程度的指标

可视化

主要包含5个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值

## Warning: package 'dplyr' was built under R version 3.1.2

目录

  • 为什么学习统计
  • 认知偏差
  • 平均数的意义
  • 正态分布
  • 中心极限定理
  • 回顾

正态分布

正态分布是一种概率分布。正态分布是具有两个参数μ(平均数)和\({σ}^2\)(方差)的连续型随机变量的分布

目录

  • 为什么学习统计
  • 认知偏差
  • 平均数的意义
  • 正态分布
  • 中心极限定理
  • 回顾

指数分布

以下产生一个1000个数的指数分布代码

library(ggplot2)
set.seed(2)
lambda <- .2
l1 <- rexp(1000, lambda)   #rexp指数分布随机数函数
qplot(l1, 
      geom = "histogram",
      xlab = "Number",
      ylab = "Count",
      main = "Exponential distribution")
## stat_bin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this.

指数分布

下图是一个1000个数的指数分布,平均数和方差都是5

样本取平均数

每次取40个指数分布随机数作为样本,并取平均值

mns <- NULL
lambda <- 0.2
n <- 40
for (i in 1 : 1000) mns = c(mns, mean(rexp(n, lambda)))
p <-  ggplot() + 
      aes(mns) + 
      geom_histogram(binwidth=.1) + 
      labs(x = "Number", y = "Count") + 
      labs(title = "Distrubutions with 1000 averages of exponential number") + 
      geom_vline(xintercept = mean(mns), colour="red") +
      geom_vline(xintercept = 5, colour="blue") 
p

平均数

红色是实际平均值,蓝色整体平均值是5

方差

理论方差 \((1/lambda)^2 / 40\)等于0.625,样本方差0.61非常接近

# 理论方差
theoretical_variance <- ((1/lambda)/sqrt(n))^2
theoretical_variance
## [1] 0.625
# 样本方差
sample_variance <- var(mns)
sample_variance
## [1] 0.6101325

中心极限定理意义

  • 解释为什么有很多自然群体的经验频率呈现出钟形(即正态)曲线这一事实
  • 使正态分布有了广泛的应用
  • 随机样本的平均值接近于正态分布,故如果数据量过大那么通过样本可以很好的估计总体分布

回顾

  • 认知偏差
  • 近因效应
  • 条件概率
  • 正态分布
  • 中心极限定理
  • 数据可视化