- 为什么学习统计
- 认知偏差
- 平均数的意义
- 正态分布
- 中心极限定理
- 回顾
Friday, August 21, 2015
A: 闪电每年只杀死了45个每个人,大概700万分之1!
B: 喔,好的,我们应该走进去!
画外音:真正了解统计的人应该知道这个概率应该是六分之一

2014 全国及各省(市、区)全体居民人均可支配收入(元)
指数分布,平均数1000。真正的收入是如此分布?
## Warning: package 'ggplot2' was built under R version 3.1.3
正态分布,平均数1000。真正的收入是如此分布?
值都一样,想想都不可能
还有其他指标
主要包含5个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值
## Warning: package 'dplyr' was built under R version 3.1.2
正态分布是一种概率分布。正态分布是具有两个参数μ(平均数)和\({σ}^2\)(方差)的连续型随机变量的分布

以下产生一个1000个数的指数分布代码
library(ggplot2)
set.seed(2)
lambda <- .2
l1 <- rexp(1000, lambda) #rexp指数分布随机数函数
qplot(l1,
geom = "histogram",
xlab = "Number",
ylab = "Count",
main = "Exponential distribution")
## stat_bin: binwidth defaulted to range/30. Use 'binwidth = x' to adjust this.
下图是一个1000个数的指数分布,平均数和方差都是5
每次取40个指数分布随机数作为样本,并取平均值
mns <- NULL
lambda <- 0.2
n <- 40
for (i in 1 : 1000) mns = c(mns, mean(rexp(n, lambda)))
p <- ggplot() +
aes(mns) +
geom_histogram(binwidth=.1) +
labs(x = "Number", y = "Count") +
labs(title = "Distrubutions with 1000 averages of exponential number") +
geom_vline(xintercept = mean(mns), colour="red") +
geom_vline(xintercept = 5, colour="blue")
p
红色是实际平均值,蓝色整体平均值是5
理论方差 \((1/lambda)^2 / 40\)等于0.625,样本方差0.61非常接近
# 理论方差 theoretical_variance <- ((1/lambda)/sqrt(n))^2 theoretical_variance
## [1] 0.625
# 样本方差 sample_variance <- var(mns) sample_variance
## [1] 0.6101325