红酒数据集分析

## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

单变量绘图选择

  • 质量的分布如下图

  • 红酒的质量评价最多的为5分,其次为6分,再其次是7分。

  • 酒精含量分布如下图

  • 当酒精含量值为9.5的数量最多,中位数为10.2。整体分布为当酒精含量大于9.5时,随着酒精含量的升高,分布的红酒数量减少。当酒精含量小于9.5时,随着酒精含量的升高,分布的红酒数量增多。

  • 乙酸含量分布如下图

  • 挥发性酸的含量具有两个峰值,一个为0.4,一个为0.6左右

  • 柠檬酸含量分布如下图

  • 柠檬酸的含量分布基本比较均匀分布,有三个较高峰,分别在0.01/0.24/0.49

  • 硫酸盐含量分布如下图

  • 分布中硫酸盐含量数量最多的是0.55,原始数据呈现长尾分布。

  • 含糖量分布如下图

  • 分布中含糖量数量最多的是1.9-2.1,原始数据呈现长尾分布。

  • PH分布如下图

  • pH值主要分布在2.9-3.6区间,分布最多的值为3.25-3.4之间

  • 盐含量分布如下图

  • 含盐量主要分布在0-0.2区间,含量值最多的是0.05-0.1之间。原始数据呈现长尾分布

  • 密度分布如下图

  • 密度主要分布在0.994-1.000之间,本身数据差异不大。

  • 总二氧化硫含量/自由二氧化硫含量分布如下图

  • 总so2含量的分布随着含量的增加,数量呈现递减的趋势。自由so2含量的值主要集中在0-50区间。

* 统计绘画出所有变量自身的箱线图如上,与上述单个分析结果是相符合的。

单变量分析

  • 你的数据集结构是什么? 数据集由1599行12个特征数据构成。
  • 你的数据集内感兴趣的主要特性有哪些? 数据集的探索分析目标是分析各属性特征对质量的关系以及各属性特征之间的关系,那么我会对与质量相关性更高的属性更感兴趣,这些属性为:质量,酒精含量,乙酸含量,柠檬酸含量,硫酸盐水平,总二氧化硫含量
  • 你认为数据集内哪些其他特征可以帮助你探索兴趣特点? 酒精含量,乙酸含量,柠檬酸含量,硫酸盐水平,总二氧化硫含量
  • 根据数据集内已有变量,你是否创建了任何新变量? 增加quality字段的离散化处理字段
  • 在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做? 去掉一些异常值,例如乙酸含量有一个最大值1.58,明显偏离其他正常值。 将质量字段类型转换为factor类型,利于数据模型的分类计算。
## 'data.frame':    1599 obs. of  14 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...
##  $ quality_f           : Factor w/ 6 levels "3","4","5","6",..: 3 3 3 4 3 3 3 5 5 3 ...
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality      quality_f
##  Min.   : 8.40   Min.   :3.000   3: 10    
##  1st Qu.: 9.50   1st Qu.:5.000   4: 53    
##  Median :10.20   Median :6.000   5:681    
##  Mean   :10.42   Mean   :5.636   6:638    
##  3rd Qu.:11.10   3rd Qu.:6.000   7:199    
##  Max.   :14.90   Max.   :8.000   8: 18

双变量绘图选择

  • 通过随机选取1000行数据,通过ggpairs画图函数对数据集生成全局的关系图,生成图中包含两两变量间的相关系数

  • 直观观察相关系数的图形如下,调用ggcorr函数,相关系数越高则颜色越深

  • 从上图中可以得到,与quality正相关度顺序是alcohol>citric.acid>sulphates>fixed.acidity;与quality负相关度顺序是volatile.acidity)<total.sulfur.dioxide<density<chlorides
  • 自变量间具有明显相关度的有citric.acid和fixed.acidity,citric.acid和volatile.acidity, total.sulfur.dioxide和free.sulfur.dioxide,density和alcohol,density和fixed.acidity ,density和residual.sugar,PH和fixed.acidity,PH 和citric.acid

## 
## Call:
## lm(formula = quality ~ alcohol, data = redwines)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8442 -0.4112 -0.1690  0.5166  2.5888 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.87497    0.17471   10.73   <2e-16 ***
## alcohol      0.36084    0.01668   21.64   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7104 on 1597 degrees of freedom
## Multiple R-squared:  0.2267, Adjusted R-squared:  0.2263 
## F-statistic: 468.3 on 1 and 1597 DF,  p-value: < 2.2e-16
  • 质量评价为5-6分,酒精含量一般在0-10.5% by volume区间;质量评价为6-7分,酒精含量在10.5-14% by volume区间,且偶尔为8分;质量评价为5的大多数红酒的酒精含量低于10。

## 
## Call:
## lm(formula = quality ~ volatile.acidity, data = redwines)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.79071 -0.54411 -0.00687  0.47350  2.93148 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       6.56575    0.05791  113.39   <2e-16 ***
## volatile.acidity -1.76144    0.10389  -16.95   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7437 on 1597 degrees of freedom
## Multiple R-squared:  0.1525, Adjusted R-squared:  0.152 
## F-statistic: 287.4 on 1 and 1597 DF,  p-value: < 2.2e-16
  • 质量评价为5-6分,红酒中挥发性酸含量一般在0.3-0.75g / dm^3之间,些许为7/8分。质量评价为8分的挥发性酸含量主要在0.3-0.5g / dm^3区间。随着质量评价的上升,挥发性酸含量呈明显减少趋势,即在一定范围内挥发性酸含量越少的红酒,质量评价为7-8的概率越大。

  • 质量评价为5-6分,柠檬酸含量一般在0.00-0.50g / dm^3区间。质量评价为7-8分的柠檬酸含量主要在0.30-0.60g / dm^3区间。随着质量评价的上升,柠檬酸含量呈明显增加趋势,即在一定范围内柠檬酸含量越多的红酒,质量评价为7-8的概率越大。

  • 质量评价为5-6分,硫酸盐含量一般在0.40-0.80g / dm^3区间。质量评价为7-8分的硫酸盐含量主要在0.60-0.90g / dm^3区间

  • 从图中明显可以看出,二氧化硫含量越高会导致质量评价越低。质量评价在7分及以上的红酒的二氧化硫含量低于100mg / dm^3。
  • 接下来分析两者间相关性较高的属性变量的关系。

  • 随着柠檬酸的含量越高,红酒中的不易挥发性酸含量越高,呈正向非线性相关。

  • 相对应的,随着柠檬酸的含量越高,红酒中易挥发性的酸含量越低

  • 酒精含量和密度呈负向相关性,而下图中来看不易挥发性酸含量与密度呈正向相关性。

  • 红酒中不易挥发性酸和柠檬酸含量均与pH值呈负向相关性,含量越多,pH值越小。而易挥发性酸含量与pH值没有明显相关性。

双变量分析

  • 探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别? 在这部分探究中观察了酒精含量/易挥发性酸含量/柠檬酸含量/硫酸盐含量/二氧化硫含量与质量评价之间的关系,以及柠檬酸的含量与不易挥发性酸含量,酒精含量和密度,不易挥发性酸含量与密度,红酒中易挥发性/不易挥发性酸和柠檬酸含量分别与pH值之间的关系。 这些特性与数据集内其他特性的区别是,这些双变量之间具有较明显相关性,具有探究意义。
  • 你是否观察到主要特性与其他特性之间的有趣关系? 有趣的关系是易挥发性酸含量对pH的影响不大,而非易挥发性酸和柠檬酸对pH有明显影响。
  • 你发现最强的关系是什么? 在属性特征中,质量评价与酒精含量和易挥发性酸含量之间具有最强相关性。强关系还有酒精含量和密度,酒精含量越高,密度明显越低。柠檬酸和质量评价/非易挥发性酸含量之间也有较强相关性

多变量绘图选择

  • 随着酒精含量的增加和易挥发性酸含量的减少,质量评价明显上升,但当易挥发性酸含量下降到0.4左右开始,易挥发性酸含量保持持恒及缓慢小量增长趋势,质量评价依然继续上升。

  • 较低柠檬酸含量的红酒数据基本分布在易挥发性酸含量平均值之上,即具有较低柠檬酸含量的红酒同时较高易挥发性酸含量。
  • 反之同理,即具有较高柠檬酸含量的红酒同时较低易挥发性酸含量。质量评价越高的红酒中,具有较高柠檬酸含量较低易挥发性酸含量的红酒比例更多。

  • total.sulfur.dioxide/density代表红酒中so2浓度,单位为ppm。
  • 从图中可以看到,so2浓度大于50ppm的质量评价均分布在5分。质量评价越高的红酒中,so2浓度越低,酒精含量也越高。

  • 密度和酒精含量具有负相关性,酒精含量越高密度越低。质量评价较高的红酒中,酒精含量较高密度较低。

  • 质量评价较高的红酒中,易挥发性酸含量较低,柠檬酸含量较高。

多变量分析

  • 探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性? 随着酒精含量的增加和易挥发性酸含量的减少,质量评价明显上升,但当易挥发性酸含量下降到0.4左右开始,易挥发性酸含量保持持恒及缓慢小量增长趋势,质量评价依然继续上升。
  • 这些特性之间是否存在有趣或惊人的联系呢?

较低柠檬酸含量的红酒数据基本分布在易挥发性酸含量平均值之上,即具有较低柠檬酸含量的红酒同时较高易挥发性酸含量。反之同理,即具有较高柠檬酸含量的红酒同时较低易挥发性酸含量。

  • 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。

定稿图与总结

绘图一

描述一

  • 质量评价主要为5/6,属于离散型特征,分类模型。

绘图二

## 
## Call:
## lm(formula = quality ~ volatile.acidity, data = redwines)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.79071 -0.54411 -0.00687  0.47350  2.93148 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       6.56575    0.05791  113.39   <2e-16 ***
## volatile.acidity -1.76144    0.10389  -16.95   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7437 on 1597 degrees of freedom
## Multiple R-squared:  0.1525, Adjusted R-squared:  0.152 
## F-statistic: 287.4 on 1 and 1597 DF,  p-value: < 2.2e-16

描述二

  • 质量评价为5-6分,红酒中挥发性酸含量一般在0.3-0.75g / dm^3之间,些许为7/8分。质量评价为8分的挥发性酸含量主要在0.3-0.5g / dm^3区间。随着质量评价的上升,挥发性酸含量呈明显减少趋势,即在一定范围内挥发性酸含量越少的红酒,质量评价为7-8的概率越大。

绘图三

描述三

  • total.sulfur.dioxide/density代表红酒中so2浓度,单位为ppm。从图中可以看到,so2浓度大于50ppm的质量评价均分布在5分。质量评价越高的红酒中,so2浓度越低,酒精含量也越高

反思

  • 探索分析过程,首先对数据集的每个特征做了单因素探索分析,以及两两因素间相关系数的计算,大致了解哪些特征的权重更重。然后针对相关性分析的结果进行双因素和多因素分析。
  • 在探索性分析过程中,由于化学知识的限制,对11个特征属性的探究仍不够深入,只从图表的分布做了些浅显的探索性分析,而没有对属性之间可能存在的数学公式关系做数值变换来进一步探索。
  • 由于quality属于分类字段,可以对本数据集建立决策树等分类模型。将数据划分为训练集和测试集,来建模以及交叉验证模型的优劣