Control 01

Se pide desarrollar el análisis exploratorio de los datos. Realizando una función para el análisis cada variable.

##  fixed.acidity   volatile.acidity  citric.acid    residual.sugar  
##  Min.   : 4.60   Min.   :0.1200   Min.   :0.000   Min.   : 0.900  
##  1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090   1st Qu.: 1.900  
##  Median : 7.90   Median :0.5200   Median :0.260   Median : 2.200  
##  Mean   : 8.32   Mean   :0.5278   Mean   :0.271   Mean   : 2.539  
##  3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420   3rd Qu.: 2.600  
##  Max.   :15.90   Max.   :1.5800   Max.   :1.000   Max.   :15.500  
##    chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
##  Min.   :0.01200   Min.   : 1.00       Min.   :  6.00       Min.   :0.9901  
##  1st Qu.:0.07000   1st Qu.: 7.00       1st Qu.: 22.00       1st Qu.:0.9956  
##  Median :0.07900   Median :14.00       Median : 38.00       Median :0.9968  
##  Mean   :0.08747   Mean   :15.87       Mean   : 46.47       Mean   :0.9967  
##  3rd Qu.:0.09000   3rd Qu.:21.00       3rd Qu.: 62.00       3rd Qu.:0.9978  
##  Max.   :0.61100   Max.   :72.00       Max.   :289.00       Max.   :1.0037  
##        pH          sulphates         alcohol         quality     
##  Min.   :2.740   Min.   :0.3300   Min.   : 8.40   Min.   :3.000  
##  1st Qu.:3.210   1st Qu.:0.5500   1st Qu.: 9.50   1st Qu.:5.000  
##  Median :3.310   Median :0.6200   Median :10.20   Median :6.000  
##  Mean   :3.311   Mean   :0.6581   Mean   :10.42   Mean   :5.636  
##  3rd Qu.:3.400   3rd Qu.:0.7300   3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :8.000

Descripción del Dataset

El dataset contiene 1599 observaciones y 12 variables relacionadas con propiedades físico–químicas del vino tinto. No se identificaron valores faltantes significativos Todas las variables son numéricas, excepto quality (variable target de tipo discreta con escala de 0 a 10, presente entre 3 y 8 en la muestra).

Resumen

Se ha realizado el análisis estadístico de cada variable registrada para el control de la calidad del vino. Para la variable target calidad, tenemos como valor máximo y minimo, 8 y 3 respectivamente. La media de la calidad es 5.636.

En muchos de los campos, la mediana y la media no distan mucho entre sí, a excepción de los campos relacionados a cloruros y dioxido de azufre.

Histogramas

Las variables fisicoquímicas muestran distribuciones heterogéneas, algunas normales y otras asimétricas.

Boxplot para deteccion de Outliers

Se observa presencia de valores atípicos en todos los campos, siendo las variables con mayores ocurrencias, las siguientes: acidez volátil, sulfatos, alcohol.

Los outliers de cada variable, dado la gran cantidad que representan y poniendo en contexto los datos en la producción del vino, podrían considerarse ya no como valores atípicos que se deben corregir, sino mas bien como datos reales, producto de la variabilidad natural del fenómeno, y que se deben mantener para no afectar negativamente al momento de predecir una variable target.

Analisis de correlación

## Warning: package 'knitr' was built under R version 4.4.3
Matriz de Correlación
fixed.acidity volatile.acidity citric.acid residual.sugar chlorides free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol quality
fixed.acidity 1.000 -0.256 0.672 0.115 0.094 -0.154 -0.113 0.668 -0.683 0.183 -0.062 0.124
volatile.acidity -0.256 1.000 -0.552 0.002 0.061 -0.011 0.076 0.022 0.235 -0.261 -0.202 -0.391
citric.acid 0.672 -0.552 1.000 0.144 0.204 -0.061 0.036 0.365 -0.542 0.313 0.110 0.226
residual.sugar 0.115 0.002 0.144 1.000 0.056 0.187 0.203 0.355 -0.086 0.006 0.042 0.014
chlorides 0.094 0.061 0.204 0.056 1.000 0.006 0.047 0.201 -0.265 0.371 -0.221 -0.129
free.sulfur.dioxide -0.154 -0.011 -0.061 0.187 0.006 1.000 0.668 -0.022 0.070 0.052 -0.069 -0.051
total.sulfur.dioxide -0.113 0.076 0.036 0.203 0.047 0.668 1.000 0.071 -0.066 0.043 -0.206 -0.185
density 0.668 0.022 0.365 0.355 0.201 -0.022 0.071 1.000 -0.342 0.149 -0.496 -0.175
pH -0.683 0.235 -0.542 -0.086 -0.265 0.070 -0.066 -0.342 1.000 -0.197 0.206 -0.058
sulphates 0.183 -0.261 0.313 0.006 0.371 0.052 0.043 0.149 -0.197 1.000 0.094 0.251
alcohol -0.062 -0.202 0.110 0.042 -0.221 -0.069 -0.206 -0.496 0.206 0.094 1.000 0.476
quality 0.124 -0.391 0.226 0.014 -0.129 -0.051 -0.185 -0.175 -0.058 0.251 0.476 1.000

Las variables que tienen mayor correlación con el campo Calidad son: Alcohol, Sulfatos, Acidez Volatil. La presencia de los dos primeros impacta positivamente en la calidad del vino, mientras que el último puede repercutir negativamente en los proceso del vino y hacer que este tenga un sabor u olor desagradable.

Otra variable importante es el alcohol, cuya correlación mas alta es con el Ph. Sin embargo, el valor es menor por lo que se puede decir que tienen una correlación media.

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.