#载入R包
library("e1071")
Sys.setenv(TZ="GMT")
Sys.setenv(LANG="en")
#check data description in "Help" panel
?faithful
#check data
# eruptions 泉水喷发持续时间
# waiting 本次喷发距离上一次喷发的时间间隔
head(faithful)
## eruptions waiting
## 1 3.600 79
## 2 1.800 54
## 3 3.333 74
## 4 2.283 62
## 5 4.533 85
## 6 2.883 55
#check object class
class(faithful)
## [1] "data.frame"
#Compactly display the structure of an Arbitrary R object
str(faithful)
## 'data.frame': 272 obs. of 2 variables:
## $ eruptions: num 3.6 1.8 3.33 2.28 4.53 ...
## $ waiting : num 79 54 74 62 85 55 88 85 51 85 ...
#Summary an Arbitrary R object
summary(faithful)
## eruptions waiting
## Min. :1.600 Min. :43.0
## 1st Qu.:2.163 1st Qu.:58.0
## Median :4.000 Median :76.0
## Mean :3.488 Mean :70.9
## 3rd Qu.:4.454 3rd Qu.:82.0
## Max. :5.100 Max. :96.0
#Point plot, plot eruptions ~ waiting
plot( x= faithful$eruptions, y = faithful$waiting, main="Old Faithful geyser DataSet", xlab="Waiting Time", ylab="Eruption Duration Time", col = 4)
#Boxplot 纵向
par(mfrow=c(1,2))
boxplot(faithful, col=4, main="Boxplot of faithful dataset")
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset")
#Boxplot 横向
par(mfrow=c(2,1))
boxplot(faithful, col=4, main="Boxplot of faithful dataset", horizontal =TRUE)
boxplot(log(faithful), col=4, main="Boxplot of log transfered faithful dataset", horizontal =TRUE)
#histgram
par(mfrow=c(1,2))
hist(faithful$eruptions, breaks=50, main="The duration of the eruption", xlab="Duration", ylab="Frequency")
hist(faithful$waiting, breaks=50, main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency")
par(mfrow=c(1,2))
plot( density(faithful$eruptions), main="The duration of the eruption", xlab="Duration", ylab="Frequency", col=2)
plot( density(faithful$waiting) , main="Waiting time between eruptions", xlab="Waiting time", ylab="Frequency", col=2)
max(faithful$eruptions)
## [1] 5.1
max(faithful$waiting)
## [1] 96
min(faithful$eruptions)
## [1] 1.6
min(faithful$waiting)
## [1] 43
mean(faithful$eruptions)
## [1] 3.487783
mean(faithful$waiting)
## [1] 70.89706
median(faithful$eruptions)
## [1] 4
median(faithful$waiting)
## [1] 76
quantile(faithful$eruptions)
## 0% 25% 50% 75% 100%
## 1.60000 2.16275 4.00000 4.45425 5.10000
quantile(faithful$waiting)
## 0% 25% 50% 75% 100%
## 43 58 76 82 96
方差当然是最好的用来描述数据离散程度的量了。方差是一组数据值中某一值与全组数据值的平均值之差,取每一差值之平方,取每一平方之和,最后对和求均值,得方差。
设随机变量X(其实X代表着一组随机数值),则:Var(X)=E[(X-E[X])^2]为X的方差。其中,E[X]为期望。
方差是变量X相对于其期望E[X]的离散程度,即变量X离其期望E[X]的距离,方差也是变量X的第二阶中心矩。
标准差是方差的平方根。
var(faithful$eruptions)
## [1] 1.302728
var(faithful$waiting)
## [1] 184.8233
sd(faithful$eruptions)
## [1] 1.141371
sd(faithful$waiting)
## [1] 13.59497
协方差表示两个变量总体之期望。
Cov(X,Y)=E[(X-E[X])(Y-E[Y])]
如果两个变量的变化趋势一致,即其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值; 如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值。如果两个变量统计独立,那么二者之间的协方差就是0,协方差为0的两个随机变量称为不相关。
由协方差可知,火山喷发持续时间与休眠时间呈正相关,即这两个变量的变化趋势一致,两变量都大于各自的期望值(即均值)
cov(faithful$eruptions, faithful$waiting)
## [1] 13.97781
一,线性相关系数:用来度量两个变量间的线性关系。
Cor(X,Y)=Cov(X,Y) / √Var(X)Var(Y)
Var(X)为X的方差;
Cov(X,Y)为X与Y的协方差;
Var(Y)为Y的方差;
√为根号
二,复相关系数:复相关是指因变量与多个自变量之间的相关关系。
三,典型相关系数:先分别对各组变量进行主成分分析,得到线性关系综合指标,再通过综合指标的线性相关系数来确定各组变量之间的相关系数。
cor(faithful$eruptions, faithful$waiting)
## [1] 0.9008112
一维随机变量X的第k阶中心矩μk:μk=E[(X-E[X])^k]。一维随机变量X的第k阶中心矩为相对于其期望的值。那中心矩的意义何在?
第0阶中心矩μ0恒为1;
第1阶中心矩μ1恒为0;
第2阶中心矩μ2为X的方差Var(X);
第3阶中心矩μ3用于定义X的偏度Skewness;
第4阶中心矩μ4用于定义X的峰度Kurtosis.
X,Y为两随机变量,则:{ E[(X-E[X])^k (Y-E[Y])^p]}是X与Y的k+p阶混合中心矩
Cov(X,Y)=E[(X-E[X])(Y-E[Y])]
协方差Cov(X,Y)是X和Y的二阶混合中心矩。
偏度skewness,表征概率分布密度函数曲线相对于平均值的不对称程度。 直观看来就是概率分布密度函数曲线尾部的相对长度。衡量随机变量概率分布的不对称性。
skewness(faithful$waiting)
## [1] -0.414025
正态分布的偏度为0,则:两侧尾部长度对称; 偏度为负,即负偏离(左偏离),则:数据位于平均值左边的比右边的少,直观表现为左边的尾部相对于右边的尾部要长,因为少数变量值很小,使曲线左侧尾部被拖得很长;左侧尾部比右侧长,绝大多数值包括中位数位于平均值的右侧,平均值左侧的数值又少又小
偏度为正,即正偏离(右偏态),则:数据位于平均值右边的比左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为少数变量值很大,使曲线右侧尾部被拖得很长;右侧尾部比左侧长,绝大多数值位于平均值的左侧,平均值右侧的数值又少又大
右偏时:平均数>中位数>众数 左偏时:众数>中位数>平均数。 正态分布三者相等。
kurtosis(faithful$waiting)
## [1] -1.156263
峰度(kurtosis):表征概率分布密度函数曲线在平均值处的状态
若峰度<3,则分布平缓; 若峰度>3,则分布陡峭
正态分布的峰度为常数3(实际中,将峰度做减3处理,使得正态分布的峰度为0);
均匀分布的峰度为常数1.8
若将数据标准化,在相同的标准差下,峰度越大,则极端值更多.
本文档创建于2018年02月03日 15时16分59秒 星期六。