Understanding statistics using R

#载入R包
library("e1071")
Sys.setenv(TZ="GMT")
Sys.setenv(LANG="en")

Old Faithful geyser DataSet/老忠实泉喷发数据集

#check data description in "Help" panel
?faithful

#check data
# eruptions 泉水喷发持续时间
# waiting  本次喷发距离上一次喷发的时间间隔
head(faithful)

##   eruptions waiting
## 1     3.600      79
## 2     1.800      54
## 3     3.333      74
## 4     2.283      62
## 5     4.533      85
## 6     2.883      55

#check object class
class(faithful)

## [1] "data.frame"

#Compactly display the structure of an Arbitrary R object
str(faithful)

## 'data.frame':    272 obs. of  2 variables:
##  $ eruptions: num  3.6 1.8 3.33 2.28 4.53 ...
##  $ waiting  : num  79 54 74 62 85 55 88 85 51 85 ...

#Summary an Arbitrary R object
summary(faithful)

##    eruptions        waiting    
##  Min.   :1.600   Min.   :43.0  
##  1st Qu.:2.163   1st Qu.:58.0  
##  Median :4.000   Median :76.0  
##  Mean   :3.488   Mean   :70.9  
##  3rd Qu.:4.454   3rd Qu.:82.0  
##  Max.   :5.100   Max.   :96.0

1. 点图

#Point plot， plot eruptions ~ waiting 
plot( x= faithful$eruptions, y = faithful$waiting, main="Old Faithful geyser DataSet", xlab="Waiting Time", ylab="Eruption Duration Time", col = 4)

2. 箱线图

#Boxplot 纵向
par(mfrow=c(1,2))

boxplot(faithful, col=4, main="Boxplot of faithful dataset")
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset")

#Boxplot 横向
par(mfrow=c(2,1))
boxplot(faithful, col=4, main="Boxplot of faithful dataset", horizontal =TRUE)
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset", horizontal =TRUE)

3. 直方图

#histgram
par(mfrow=c(1,2))
hist(faithful$eruptions, breaks=50, main="The duration of the eruption", xlab="Duration", ylab="Frequency")
hist(faithful$waiting, breaks=50, main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency")

4. 密度图

par(mfrow=c(1,2))
plot( density(faithful$eruptions), main="The duration of the eruption", xlab="Duration", ylab="Frequency", col=2)
plot( density(faithful$waiting) , main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency", col=2)

5. 最大值和最小值

max(faithful$eruptions)

## [1] 5.1

max(faithful$waiting)

## [1] 96

min(faithful$eruptions)

## [1] 1.6

min(faithful$waiting)

## [1] 43

6. 平均值

mean(faithful$eruptions)

## [1] 3.487783

mean(faithful$waiting)

## [1] 70.89706

7. 中位数

median(faithful$eruptions)

## [1] 4

median(faithful$waiting)

## [1] 76

8. 四分位点

quantile(faithful$eruptions)

##      0%     25%     50%     75%    100% 
## 1.60000 2.16275 4.00000 4.45425 5.10000

quantile(faithful$waiting)

##   0%  25%  50%  75% 100% 
##   43   58   76   82   96

9. 方差和标准差

    方差当然是最好的用来描述数据离散程度的量了。方差是一组数据值中某一值与全组数据值的平均值之差，取每一差值之平方，取每一平方之和，最后对和求均值，得方差。
    设随机变量X（其实X代表着一组随机数值）,则：Var(X)=E[(X-E[X])^2]为X的方差。其中，E[X]为期望。
    方差是变量X相对于其期望E[X]的离散程度，即变量X离其期望E[X]的距离，方差也是变量X的第二阶中心矩。
    标准差是方差的平方根。

var(faithful$eruptions)

## [1] 1.302728

var(faithful$waiting)

## [1] 184.8233

sd(faithful$eruptions)

## [1] 1.141371

sd(faithful$waiting)

## [1] 13.59497

10. 协方差

    协方差表示两个变量总体之期望。
        Cov(X,Y)=E[(X-E[X])(Y-E[Y])]
    如果两个变量的变化趋势一致，即其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值; 如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值，另一个却小于自身的期望值，那么两个变量之间的协方差就是负值。如果两个变量统计独立，那么二者之间的协方差就是0，协方差为0的两个随机变量称为不相关。
    由协方差可知，火山喷发持续时间与休眠时间呈正相关，即这两个变量的变化趋势一致，两变量都大于各自的期望值（即均值）

cov(faithful$eruptions, faithful$waiting)

## [1] 13.97781

11. 相关系数

    一，线性相关系数：用来度量两个变量间的线性关系。
        Cor(X,Y)=Cov(X,Y) / √Var(X)Var(Y)
    Var(X)为X的方差；
    Cov(X,Y)为X与Y的协方差；
    Var(Y)为Y的方差；
    √为根号

二，复相关系数：复相关是指因变量与多个自变量之间的相关关系。

三，典型相关系数：先分别对各组变量进行主成分分析，得到线性关系综合指标，再通过综合指标的线性相关系数来确定各组变量之间的相关系数。

cor(faithful$eruptions, faithful$waiting)

## [1] 0.9008112

12. 随机变量X的第k阶中心矩

一维随机变量X的第k阶中心矩μk：μk=E[(X-E[X])^k]。一维随机变量X的第k阶中心矩为相对于其期望的值。那中心矩的意义何在？

第0阶中心矩μ0恒为1；

第1阶中心矩μ1恒为0；

第2阶中心矩μ2为X的方差Var(X);

第3阶中心矩μ3用于定义X的偏度Skewness;

第4阶中心矩μ4用于定义X的峰度Kurtosis.

X,Y为两随机变量，则：{ E[(X-E[X])^k (Y-E[Y])^p]}是X与Y的k+p阶混合中心矩

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

协方差Cov（X,Y）是X和Y的二阶混合中心矩。

13. 偏度

偏度skewness，表征概率分布密度函数曲线相对于平均值的不对称程度。直观看来就是概率分布密度函数曲线尾部的相对长度。衡量随机变量概率分布的不对称性。

skewness(faithful$waiting)

## [1] -0.414025

正态分布的偏度为0，则：两侧尾部长度对称；偏度为负，即负偏离（左偏离），则：数据位于平均值左边的比右边的少，直观表现为左边的尾部相对于右边的尾部要长，因为少数变量值很小，使曲线左侧尾部被拖得很长；左侧尾部比右侧长，绝大多数值包括中位数位于平均值的右侧，平均值左侧的数值又少又小

偏度为正，即正偏离（右偏态），则：数据位于平均值右边的比左边的少，直观表现为右边的尾部相对于左边的尾部要长，因为少数变量值很大，使曲线右侧尾部被拖得很长；右侧尾部比左侧长，绝大多数值位于平均值的左侧，平均值右侧的数值又少又大

右偏时：平均数>中位数>众数左偏时：众数>中位数>平均数。正态分布三者相等。

14. 峰度

kurtosis(faithful$waiting)

## [1] -1.156263

峰度（kurtosis）：表征概率分布密度函数曲线在平均值处的状态

若峰度<3，则分布平缓；若峰度>3，则分布陡峭

正态分布的峰度为常数3（实际中，将峰度做减3处理，使得正态分布的峰度为0）；

均匀分布的峰度为常数1.8

若将数据标准化，在相同的标准差下，峰度越大，则极端值更多.

本文档创建于2018年02月03日 15时16分59秒星期六。