#载入R包
library("e1071")
Sys.setenv(TZ="GMT")
Sys.setenv(LANG="en")

Old Faithful geyser DataSet/老忠实泉喷发数据集

#check data description in "Help" panel
?faithful

#check data
# eruptions 泉水喷发持续时间
# waiting  本次喷发距离上一次喷发的时间间隔
head(faithful)
##   eruptions waiting
## 1     3.600      79
## 2     1.800      54
## 3     3.333      74
## 4     2.283      62
## 5     4.533      85
## 6     2.883      55
#check object class
class(faithful)
## [1] "data.frame"
#Compactly display the structure of an Arbitrary R object
str(faithful)
## 'data.frame':    272 obs. of  2 variables:
##  $ eruptions: num  3.6 1.8 3.33 2.28 4.53 ...
##  $ waiting  : num  79 54 74 62 85 55 88 85 51 85 ...
#Summary an Arbitrary R object
summary(faithful)
##    eruptions        waiting    
##  Min.   :1.600   Min.   :43.0  
##  1st Qu.:2.163   1st Qu.:58.0  
##  Median :4.000   Median :76.0  
##  Mean   :3.488   Mean   :70.9  
##  3rd Qu.:4.454   3rd Qu.:82.0  
##  Max.   :5.100   Max.   :96.0

1. 点图

#Point plot, plot eruptions ~ waiting 
plot( x= faithful$eruptions, y = faithful$waiting, main="Old Faithful geyser DataSet", xlab="Waiting Time", ylab="Eruption Duration Time", col = 4)

2. 箱线图

#Boxplot 纵向
par(mfrow=c(1,2))

boxplot(faithful, col=4, main="Boxplot of faithful dataset")
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset")

#Boxplot 横向
par(mfrow=c(2,1))
boxplot(faithful, col=4, main="Boxplot of faithful dataset", horizontal =TRUE)
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset", horizontal =TRUE)

3. 直方图

#histgram
par(mfrow=c(1,2))
hist(faithful$eruptions, breaks=50, main="The duration of the eruption", xlab="Duration", ylab="Frequency")
hist(faithful$waiting, breaks=50, main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency")

4. 密度图

par(mfrow=c(1,2))
plot( density(faithful$eruptions), main="The duration of the eruption", xlab="Duration", ylab="Frequency", col=2)
plot( density(faithful$waiting) , main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency", col=2)

5. 最大值和最小值

max(faithful$eruptions)
## [1] 5.1
max(faithful$waiting)
## [1] 96
min(faithful$eruptions)
## [1] 1.6
min(faithful$waiting)
## [1] 43

6. 平均值

mean(faithful$eruptions)
## [1] 3.487783
mean(faithful$waiting)
## [1] 70.89706

7. 中位数

median(faithful$eruptions)
## [1] 4
median(faithful$waiting)
## [1] 76

8. 四分位点

quantile(faithful$eruptions)
##      0%     25%     50%     75%    100% 
## 1.60000 2.16275 4.00000 4.45425 5.10000
quantile(faithful$waiting)
##   0%  25%  50%  75% 100% 
##   43   58   76   82   96

9. 方差和标准差

    方差当然是最好的用来描述数据离散程度的量了。方差是一组数据值中某一值与全组数据值的平均值之差,取每一差值之平方,取每一平方之和,最后对和求均值,得方差。
    设随机变量X(其实X代表着一组随机数值),则:Var(X)=E[(X-E[X])^2]为X的方差。其中,E[X]为期望。
    方差是变量X相对于其期望E[X]的离散程度,即变量X离其期望E[X]的距离,方差也是变量X的第二阶中心矩。
    标准差是方差的平方根。

var(faithful$eruptions)
## [1] 1.302728
var(faithful$waiting)
## [1] 184.8233
sd(faithful$eruptions)
## [1] 1.141371
sd(faithful$waiting)
## [1] 13.59497

10. 协方差

    协方差表示两个变量总体之期望。
        Cov(X,Y)=E[(X-E[X])(Y-E[Y])]
    如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值; 如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果两个变量统计独立,那么二者之间的协方差就是0,协方差为0的两个随机变量称为不相关。
    由协方差可知,火山喷发持续时间与休眠时间呈正相关,即这两个变量的变化趋势一致,两变量都大于各自的期望值(即均值)

cov(faithful$eruptions, faithful$waiting)
## [1] 13.97781

11. 相关系数

    一,线性相关系数:用来度量两个变量间的线性关系。
        Cor(X,Y)=Cov(X,Y) / √Var(X)Var(Y)
    Var(X)为X的方差;
    Cov(X,Y)为X与Y的协方差;
    Var(Y)为Y的方差;
    √为根号

    二,复相关系数:复相关是指因变量与多个自变量之间的相关关系。

    三,典型相关系数:先分别对各组变量进行主成分分析,得到线性关系综合指标,再通过综合指标的线性相关系数来确定各组变量之间的相关系数。

cor(faithful$eruptions, faithful$waiting)
## [1] 0.9008112

12. 随机变量X的第k阶中心矩

一维随机变量X的第k阶中心矩μk:μk=E[(X-E[X])^k]。一维随机变量X的第k阶中心矩为相对于其期望的值。那中心矩的意义何在?

第0阶中心矩μ0恒为1;

第1阶中心矩μ1恒为0;

第2阶中心矩μ2为X的方差Var(X);

第3阶中心矩μ3用于定义X的偏度Skewness;

第4阶中心矩μ4用于定义X的峰度Kurtosis.

X,Y为两随机变量,则:{ E[(X-E[X])^k (Y-E[Y])^p]}是X与Y的k+p阶混合中心矩

Cov(X,Y)=E[(X-E[X])(Y-E[Y])]

协方差Cov(X,Y)是X和Y的二阶混合中心矩。

13. 偏度

偏度skewness,表征概率分布密度函数曲线相对于平均值的不对称程度。 直观看来就是概率分布密度函数曲线尾部的相对长度。衡量随机变量概率分布的不对称性。

skewness(faithful$waiting)
## [1] -0.414025

正态分布的偏度为0,则:两侧尾部长度对称; 偏度为负,即负偏离(左偏离),则:数据位于平均值左边的比右边的少,直观表现为左边的尾部相对于右边的尾部要长,因为少数变量值很小,使曲线左侧尾部被拖得很长;左侧尾部比右侧长,绝大多数值包括中位数位于平均值的右侧,平均值左侧的数值又少又小

偏度为正,即正偏离(右偏态),则:数据位于平均值右边的比左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为少数变量值很大,使曲线右侧尾部被拖得很长;右侧尾部比左侧长,绝大多数值位于平均值的左侧,平均值右侧的数值又少又大

右偏时:平均数>中位数>众数 左偏时:众数>中位数>平均数。 正态分布三者相等。

14. 峰度

kurtosis(faithful$waiting)
## [1] -1.156263

峰度(kurtosis):表征概率分布密度函数曲线在平均值处的状态

若峰度<3,则分布平缓; 若峰度>3,则分布陡峭

正态分布的峰度为常数3(实际中,将峰度做减3处理,使得正态分布的峰度为0);

均匀分布的峰度为常数1.8

若将数据标准化,在相同的标准差下,峰度越大,则极端值更多.

本文档创建于2018年02月03日 15时16分59秒 星期六。