Se pide desarrollar el análisis exploratorio de los datos. Realizando una función para el análisis cada variable.
## fixed.acidity volatile.acidity citric.acid residual.sugar
## Min. : 4.60 Min. :0.1200 Min. :0.000 Min. : 0.900
## 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090 1st Qu.: 1.900
## Median : 7.90 Median :0.5200 Median :0.260 Median : 2.200
## Mean : 8.32 Mean :0.5278 Mean :0.271 Mean : 2.539
## 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420 3rd Qu.: 2.600
## Max. :15.90 Max. :1.5800 Max. :1.000 Max. :15.500
## chlorides free.sulfur.dioxide total.sulfur.dioxide density
## Min. :0.01200 Min. : 1.00 Min. : 6.00 Min. :0.9901
## 1st Qu.:0.07000 1st Qu.: 7.00 1st Qu.: 22.00 1st Qu.:0.9956
## Median :0.07900 Median :14.00 Median : 38.00 Median :0.9968
## Mean :0.08747 Mean :15.87 Mean : 46.47 Mean :0.9967
## 3rd Qu.:0.09000 3rd Qu.:21.00 3rd Qu.: 62.00 3rd Qu.:0.9978
## Max. :0.61100 Max. :72.00 Max. :289.00 Max. :1.0037
## pH sulphates alcohol quality
## Min. :2.740 Min. :0.3300 Min. : 8.40 Min. :3.000
## 1st Qu.:3.210 1st Qu.:0.5500 1st Qu.: 9.50 1st Qu.:5.000
## Median :3.310 Median :0.6200 Median :10.20 Median :6.000
## Mean :3.311 Mean :0.6581 Mean :10.42 Mean :5.636
## 3rd Qu.:3.400 3rd Qu.:0.7300 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :4.010 Max. :2.0000 Max. :14.90 Max. :8.000
Descripción del Dataset
El dataset contiene 1599 observaciones y 12 variables relacionadas con propiedades físico–químicas del vino tinto. No se identificaron valores faltantes significativos Todas las variables son numéricas, excepto quality (variable target de tipo discreta con escala de 0 a 10, presente entre 3 y 8 en la muestra).
Resumen
Se ha realizado el análisis estadístico de cada variable registrada para el control de la calidad del vino. Para la variable target calidad, tenemos como valor máximo y minimo, 8 y 3 respectivamente. La media de la calidad es 5.636.
En muchos de los campos, la mediana y la media no distan mucho entre sí, a excepción de los campos relacionados a cloruros y dioxido de azufre.
Las variables fisicoquímicas muestran distribuciones heterogéneas, algunas normales y otras asimétricas.
Se observa presencia de valores atípicos en todos los campos, siendo las variables con mayores ocurrencias, las siguientes: acidez volátil, sulfatos, alcohol.
Los outliers de cada variable, dado la gran cantidad que representan y poniendo en contexto los datos en la producción del vino, podrían considerarse ya no como valores atípicos que se deben corregir, sino mas bien como datos reales, producto de la variabilidad natural del fenómeno, y que se deben mantener para no afectar negativamente al momento de predecir una variable target.
## Warning: package 'knitr' was built under R version 4.4.3
| fixed.acidity | volatile.acidity | citric.acid | residual.sugar | chlorides | free.sulfur.dioxide | total.sulfur.dioxide | density | pH | sulphates | alcohol | quality | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| fixed.acidity | 1.000 | -0.256 | 0.672 | 0.115 | 0.094 | -0.154 | -0.113 | 0.668 | -0.683 | 0.183 | -0.062 | 0.124 |
| volatile.acidity | -0.256 | 1.000 | -0.552 | 0.002 | 0.061 | -0.011 | 0.076 | 0.022 | 0.235 | -0.261 | -0.202 | -0.391 |
| citric.acid | 0.672 | -0.552 | 1.000 | 0.144 | 0.204 | -0.061 | 0.036 | 0.365 | -0.542 | 0.313 | 0.110 | 0.226 |
| residual.sugar | 0.115 | 0.002 | 0.144 | 1.000 | 0.056 | 0.187 | 0.203 | 0.355 | -0.086 | 0.006 | 0.042 | 0.014 |
| chlorides | 0.094 | 0.061 | 0.204 | 0.056 | 1.000 | 0.006 | 0.047 | 0.201 | -0.265 | 0.371 | -0.221 | -0.129 |
| free.sulfur.dioxide | -0.154 | -0.011 | -0.061 | 0.187 | 0.006 | 1.000 | 0.668 | -0.022 | 0.070 | 0.052 | -0.069 | -0.051 |
| total.sulfur.dioxide | -0.113 | 0.076 | 0.036 | 0.203 | 0.047 | 0.668 | 1.000 | 0.071 | -0.066 | 0.043 | -0.206 | -0.185 |
| density | 0.668 | 0.022 | 0.365 | 0.355 | 0.201 | -0.022 | 0.071 | 1.000 | -0.342 | 0.149 | -0.496 | -0.175 |
| pH | -0.683 | 0.235 | -0.542 | -0.086 | -0.265 | 0.070 | -0.066 | -0.342 | 1.000 | -0.197 | 0.206 | -0.058 |
| sulphates | 0.183 | -0.261 | 0.313 | 0.006 | 0.371 | 0.052 | 0.043 | 0.149 | -0.197 | 1.000 | 0.094 | 0.251 |
| alcohol | -0.062 | -0.202 | 0.110 | 0.042 | -0.221 | -0.069 | -0.206 | -0.496 | 0.206 | 0.094 | 1.000 | 0.476 |
| quality | 0.124 | -0.391 | 0.226 | 0.014 | -0.129 | -0.051 | -0.185 | -0.175 | -0.058 | 0.251 | 0.476 | 1.000 |
Las variables que tienen mayor correlación con el campo Calidad son: Alcohol, Sulfatos, Acidez Volatil. La presencia de los dos primeros impacta positivamente en la calidad del vino, mientras que el último puede repercutir negativamente en los proceso del vino y hacer que este tenga un sabor u olor desagradable.
Otra variable importante es el alcohol, cuya correlación mas alta es con el Ph. Sin embargo, el valor es menor por lo que se puede decir que tienen una correlación media.
Note that the echo = FALSE parameter was added to the
code chunk to prevent printing of the R code that generated the
plot.