Actualmente, se han establecido muchos mecanismos para determinar la calidad sensorial del vino, incluyendo el respaldo de personas expertas (catadores) y pruebas muy costosas. En este proyecto, se busca utilizar técnicas de análisis descriptivo multivariado para estudiar las relaciones entre las características físico-químicas del vino y su influencia en la calidad sensorial. Estas técnicas permitirán analizar patrones, identificar tendencias y comprender mejor cómo cada variable contribuye a la percepción de calidad.
Para hacer este análisis se toma como referencia una base de datos de vinos obtenida en Kaggle, la cual da información detallada sobre las propiedades fisicoquímicas de las muestras y su correspondiente calificación sensorial. Esto facilitará la construcción de modelos que ofrezcan un enfoque objetivo y accesible para evaluar la calidad del vino sin depender exclusivamente de métodos costosos o subjetivos.
Acidez fija (fixed acidity): Corresponde a los ácidos orgánicos de baja volatilidad presentes en el vino, como el málico, láctico, tartárico o cítrico. Son inherentes a las características de la muestra y no se evaporan fácilmente.
Acidez volátil (volatile acidity): Cantidad de ácido acético presente en el vino. En niveles elevados puede producir un sabor a vinagre. Incluye ácidos orgánicos de cadena corta como fórmico, acético, propiónico y butírico.
Ácido cítrico (citric acid): Ácido orgánico débil y de color claro presente en pequeñas cantidades en el vino. Puede aportar frescura y sabor.
Azúcar residual (residual sugar): Azúcares que permanecen en el vino una vez que finaliza la fermentación. Influye en el nivel de dulzura y se mide en gramos por litro (g/l).
Cloruros (chlorides): Cantidad de sal en el vino. Niveles excesivos pueden exceder límites legales.
Dióxido de azufre libre (free sulfur dioxide): Forma libre de SO2 que actúa como conservante y antioxidante. Se encuentra en equilibrio con el ion bisulfito.
Dióxido de azufre total (total sulfur dioxide): Suma del SO2 libre y el que está ligado a otras moléculas en el vino. A niveles bajos no es detectable.
Densidad (density): Medida de densidad relativa (gravedad específica) del vino en comparación con el agua. Depende del contenido de alcohol y azúcar.
pH: Indica el nivel de acidez o alcalinidad del vino en una escala de 0 (muy ácido) a 14 (muy alcalino). La mayoría de los vinos tienen un pH entre 3 y 4.
Sulfatos (sulphates): Aditivos que contribuyen a los niveles de gas de dióxido de azufre (SO2). Ayudan a proteger el vino de bacterias y levaduras.
Alcohol: Porcentaje de contenido alcohólico en el vino.
Calidad (quality): Variable de salida categórica basada en datos sensoriales. Está clasificada en tres categorías:
Bajo: Puntuaciones menores o iguales a 5.
Medio: Puntuaciones mayores a 5 y menores o iguales a 7.
Alta: Puntuaciones mayores a 7.
En esta parte, revisamos una base de datos con 1599 muestras de vino que tienen 12 características, como la acidez, el contenido de alcohol y la calidad del vino. Lo primero que hicimos fue asegurarnos de que los datos estuvieran completos, y al ver que no hay valores faltantes, sabemos que no necesitamos hacer correcciones antes de seguir.
También organizamos la variable calidad para que fuera categórica. Ahora se clasifica en tres niveles: Bajo (calificaciones de 5 o menos), Medio (entre 6 y 7) y Alto (más de 7). Esto hará más fácil analizar cómo las otras variables están relacionadas con la calidad del vino.
## Frequencies
## data$quality
## Type: Factor
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## Bajo 744 46.53 46.53 46.53 46.53
## Medio 837 52.35 98.87 52.35 98.87
## Alta 18 1.13 100.00 1.13 100.00
## <NA> 0 0.00 100.00
## Total 1599 100.00 100.00 100.00 100.00
Donde:
Bajo: Puntuaciones menores o iguales a 5.
Medio: Puntuaciones mayores a 5 y menores o iguales a 7.
Alta: Puntuaciones mayores a 7.
Los datos muestran que la mayoría de los vinos están en las categorías Medio y Bajo. Los vinos Medio son los más comunes, con un poco más del 52%, mientras que los Bajo tienen cerca del 46%.
Por otro lado, los vinos de Alta calidad son muy pocos, menos del 2%. Si miras el histograma, seguramente las barras de Bajo y Medio sean grandes, y la de Alta sea muy pequeña. Esto nos da una idea clara de cómo se distribuyen las calidades en los datos.
## Descriptive Statistics
## data
## N: 1599
##
## alcohol chlorides citric acid density fixed acidity
## ----------------- --------- ----------- ------------- --------- ---------------
## Mean 10.42 0.09 0.27 1.00 8.32
## Std.Dev 1.07 0.05 0.19 0.00 1.74
## Min 8.40 0.01 0.00 0.99 4.60
## Q1 9.50 0.07 0.09 1.00 7.10
## Median 10.20 0.08 0.26 1.00 7.90
## Q3 11.10 0.09 0.42 1.00 9.20
## Max 14.90 0.61 1.00 1.00 15.90
## MAD 1.04 0.01 0.25 0.00 1.48
## IQR 1.60 0.02 0.33 0.00 2.10
## CV 0.10 0.54 0.72 0.00 0.21
## Skewness 0.86 5.63 0.32 -1.96 0.98
## SE.Skewness 0.06 0.06 0.06 0.06 0.06
## Kurtosis 0.19 41.13 -0.79 1.86 1.12
## N.Valid 1599.00 1599.00 1599.00 1599.00 1599.00
## N 1599.00 1599.00 1599.00 1599.00 1599.00
## Pct.Valid 100.00 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## free sulfur dioxide pH residual sugar sulphates
## ----------------- --------------------- --------- ---------------- -----------
## Mean 15.87 3.31 2.54 0.66
## Std.Dev 10.46 0.15 1.41 0.17
## Min 1.00 2.74 0.90 0.33
## Q1 7.00 3.21 1.90 0.55
## Median 14.00 3.31 2.20 0.62
## Q3 21.00 3.40 2.60 0.73
## Max 72.00 4.01 15.50 2.00
## MAD 10.38 0.15 0.44 0.12
## IQR 14.00 0.19 0.70 0.18
## CV 0.66 0.05 0.56 0.26
## Skewness 1.25 0.19 4.53 2.42
## SE.Skewness 0.06 0.06 0.06 0.06
## Kurtosis 2.01 0.80 28.49 11.66
## N.Valid 1599.00 1599.00 1599.00 1599.00
## N 1599.00 1599.00 1599.00 1599.00
## Pct.Valid 100.00 100.00 100.00 100.00
##
## Table: Table continues below
##
##
##
## total sulfur dioxide volatile acidity
## ----------------- ---------------------- ------------------
## Mean 46.47 0.53
## Std.Dev 32.90 0.18
## Min 6.00 0.12
## Q1 22.00 0.39
## Median 38.00 0.52
## Q3 62.00 0.64
## Max 289.00 1.58
## MAD 26.69 0.18
## IQR 40.00 0.25
## CV 0.71 0.34
## Skewness 1.51 0.67
## SE.Skewness 0.06 0.06
## Kurtosis 3.79 1.19
## N.Valid 1599.00 1599.00
## N 1599.00 1599.00
## Pct.Valid 100.00 100.00
##
## Shapiro-Wilk normality test
##
## data: data$`fixed acidity`
## W = 0.94203, p-value < 2.2e-16
El test de Shapiro-Wilk indicó que los datos de fixed acidity no siguen una distribución normal (p-value < 0.05). En las gráficas se encontro que Muestra la presencia de valores extremos y La curva no tiene forma de campana típica, confirmando la no normalidad.
##
## Shapiro-Wilk normality test
##
## data: data$`volatile acidity`
## W = 0.97436, p-value = 2.738e-16
El test de Shapiro-Wilk para volatile acidity muestra un valor p < 0.05, lo que significa que los datos no siguen una distribución normal.En el boxplot evidencia valores extremos (potenciales atípicos). en la curva de densidad no tiene forma de campana (típica de una distribución normal). En el Q-Q Plot revela desviaciones claras respecto a la línea de normalidad, confirmando la falta de ajuste normal.
##
## Shapiro-Wilk normality test
##
## data: data$`citric acid`
## W = 0.95529, p-value < 2.2e-16
El test de Shapiro-Wilk para citric acid indica que los datos no siguen una distribución normal (p-value < 0.05). Las gráficas refuerzan este resultado: el boxplot muestra valores extremos, y la curva de densidad es asimétrica, alejándose de la forma típica de campana.
##
## Shapiro-Wilk normality test
##
## data: data$`residual sugar`
## W = 0.56608, p-value < 2.2e-16
El test de Shapiro-Wilk revela que los datos de residual sugar no tienen una distribución normal (p-value < 0.05). Las gráficas muestran una fuerte asimetría hacia la derecha y valores extremos, confirmando la falta de normalidad en la distribución.
##
## Shapiro-Wilk normality test
##
## data: data$chlorides
## W = 0.48212, p-value < 2.2e-16
El test de Shapiro-Wilk muestra que los datos de chlorides no tienen una distribución normal (p-value < 0.05). Las gráficas confirman este resultado: el boxplot muestra valores extremos en el rango superior y la curva de densidad está fuertemente sesgada hacia la derecha.
##
## Shapiro-Wilk normality test
##
## data: data$`free sulfur dioxide`
## W = 0.90184, p-value < 2.2e-16
El test de Shapiro-Wilk muestra que los datos de free sulfur dioxide no tienen una distribución normal (p-value < 0.05). Las gráficas confirman este resultado: el boxplot indica valores extremos y la curva de densidad muestra asimetría.
##
## Shapiro-Wilk normality test
##
## data: data$`total sulfur dioxide`
## W = 0.87322, p-value < 2.2e-16
El test de Shapiro-Wilk confirma que los datos de total sulfur dioxide no tienen una distribución normal (p-value < 0.05). Las gráficas respaldan este resultado: el boxplot evidencia valores extremos elevados, la curva de densidad está sesgada hacia la derecha, y el Q-Q plot muestra una desviación marcada de la normalidad.
##
## Shapiro-Wilk normality test
##
## data: data$pH
## W = 0.99349, p-value = 1.712e-06
El test de Shapiro-Wilk revela que los datos de pH no tienen una distribución normal (p-value < 0.05). Las gráficas lo confirman: el boxplot muestra posibles valores extremos y la curva de densidad carece de una forma de campana típica. Además, el Q-Q plot destaca desviaciones de la normalidad.
##
## Shapiro-Wilk normality test
##
## data: data$sulphates
## W = 0.83304, p-value < 2.2e-16
El test de Shapiro-Wilk indica que los datos de sulphates no tienen una distribución normal (p-value < 0.05). Las gráficas muestran una clara asimetría hacia la derecha en la densidad y el histograma, valores extremos en el boxplot y desviaciones evidentes en el Q-Q plot respecto a la línea de normalidad.
##
## Shapiro-Wilk normality test
##
## data: data$alcohol
## W = 0.92884, p-value < 2.2e-16
El test de Shapiro-Wilk indica que los datos de alcohol no siguen una distribución normal (p-value < 0.05). Esto se confirma en las gráficas: el boxplot muestra valores extremos hacia el extremo superior, mientras que la curva de densidad y el Q-Q plot destacan desviaciones claras de una distribución normal típica.
Al revisar los gráficos, podemos ver patrones interesantes. Variables como alcohol y volatile acidity parecen estar muy relacionadas con la calidad del vino: niveles altos de alcohol y bajos de acidez volátil suelen asociarse con vinos de calidad “Alta”. Esto es evidente tanto en los boxplots como en las curvas de densidad, donde los datos están más concentrados y las categorías tienen diferencias marcadas. Por otro lado, variables como pH muestran una relación menos clara con la calidad, ya que sus distribuciones son más similares entre las categorías.
También notamos que hay varias variables con datos atípicos o valores extremos, como en residual sugar y free sulfur dioxide. Estos valores extremos pueden influir en los análisis, así que sería buena idea explorarlos más a fondo o usar métodos que sean menos sensibles a ellos. A pesar de estos atípicos, los gráficos sugieren tendencias generales, pero la variabilidad en algunas variables (como citric acid) indica que no todas tienen una relación consistente con la calidad.
## fixed acidity volatile acidity citric acid
## 8.31963727 0.52841776 0.27097561
## residual sugar chlorides free sulfur dioxide
## 2.53880550 0.08786742 15.87492183
## total sulfur dioxide density pH
## 46.46779237 0.99850532 3.31111320
## sulphates alcohol
## 0.65814884 10.42298311
## fixed acidity volatile acidity citric acid residual sugar
## fixed acidity 1.00000000 -0.25572948 0.67170343 0.114776724
## volatile acidity -0.25572948 1.00000000 -0.55226229 0.002221340
## citric acid 0.67170343 -0.55226229 1.00000000 0.143577162
## residual sugar 0.11477672 0.00222134 0.14357716 1.000000000
## chlorides 0.09351597 0.06276362 0.20038577 0.052162455
## free sulfur dioxide -0.15379419 -0.01100073 -0.06097813 0.187048995
## total sulfur dioxide -0.11318144 0.07612811 0.03553302 0.203027882
## density 0.34262182 0.07121114 0.13243017 0.130322333
## pH -0.68297819 0.23450324 -0.54190414 -0.085652422
## sulphates 0.18300566 -0.26078190 0.31277004 0.005527121
## alcohol -0.06167907 -0.20230098 0.10989532 0.042078806
## chlorides free sulfur dioxide total sulfur dioxide
## fixed acidity 0.093515966 -0.153794193 -0.11318144
## volatile acidity 0.062763615 -0.011000729 0.07612811
## citric acid 0.200385774 -0.060978129 0.03553302
## residual sugar 0.052162455 0.187048995 0.20302788
## chlorides 1.000000000 0.002842304 0.04504124
## free sulfur dioxide 0.002842304 1.000000000 0.66766645
## total sulfur dioxide 0.045041242 0.667666450 1.00000000
## density 0.170939059 -0.008452892 0.07466206
## pH -0.263258128 0.070377499 -0.06649456
## sulphates 0.368424679 0.051657572 0.04294684
## alcohol -0.220173780 -0.069400617 -0.20564269
## density pH sulphates alcohol
## fixed acidity 0.342621816 -0.68297819 0.183005664 -0.06167907
## volatile acidity 0.071211144 0.23450324 -0.260781896 -0.20230098
## citric acid 0.132430175 -0.54190414 0.312770044 0.10989532
## residual sugar 0.130322333 -0.08565242 0.005527121 0.04207881
## chlorides 0.170939059 -0.26325813 0.368424679 -0.22017378
## free sulfur dioxide -0.008452892 0.07037750 0.051657572 -0.06940062
## total sulfur dioxide 0.074662064 -0.06649456 0.042946836 -0.20564269
## density 1.000000000 -0.23177121 0.078331510 -0.52031459
## pH -0.231771209 1.00000000 -0.196647602 0.20563509
## sulphates 0.078331510 -0.19664760 1.000000000 0.09359460
## alcohol -0.520314592 0.20563509 0.093594599 1.00000000