A partir de un conjunto de datos donado en 2009 por Paulo Cortez y colaboradores, que contiene información sobre muestras de vino portugués tipo “Vinho Verde” en sus variantes roja y blanca, se busca analizar la relación entre las propiedades fisicoquímicas del vino y su calidad, identificando cuáles de estas variables influyen en mayor medida en su valoración final.
Los datos se obtuvieron del repositorio UCI Machine Learning e incluyen un total de 6.497 observaciones, correspondientes a muestras de vino “Vinho Verde” producidas en el norte de Portugal. De ellas, 4.898 pertenecen a vino blanco y 1.599 a vino tinto.
| Variable | Tipo | Escala de medición | Unidad de medida |
|---|---|---|---|
| Fixed acidity | Cuantitativa | Continua | g de ácido tartárico / dm³ |
| Volatile acidity | Cuantitativa | Continua | g de ácido acético / dm³ |
| Citric acid | Cuantitativa | Continua | g / dm³ |
| Residual sugar | Cuantitativa | Continua | g / dm³ |
| Chlorides | Cuantitativa | Continua | g de cloruro de sodio / dm³ |
| Free sulfur dioxide | Cuantitativa | Entera | mg / dm³ |
| Total sulfur dioxide | Cuantitativa | Entera | mg / dm³ |
| Density | Cuantitativa | Continua | g / cm³ |
| pH | Cuantitativa | Intervalo | Sin unidad (escala logarítmica) |
| Sulphates | Cuantitativa | Continua | g de sulfato de potasio / dm³ |
| Alcohol | Cuantitativa | Continua | % volumen |
| Quality | Cuantitativa | Rango (1,10) | N/A |
| Color | Cualitativa | — | {Rojo, Blanco} |
fixed.acidity volatile.acidity citric.acid residual.sugar
Min. : 3.800 Min. :0.0800 Min. :0.0000 Min. : 0.600
1st Qu.: 6.400 1st Qu.:0.2300 1st Qu.:0.2500 1st Qu.: 1.800
Median : 7.000 Median :0.2900 Median :0.3100 Median : 3.000
Mean : 7.215 Mean :0.3397 Mean :0.3186 Mean : 5.443
3rd Qu.: 7.700 3rd Qu.:0.4000 3rd Qu.:0.3900 3rd Qu.: 8.100
Max. :15.900 Max. :1.5800 Max. :1.6600 Max. :65.800
chlorides free.sulfur.dioxide total.sulfur.dioxide density
Min. :0.00900 Min. : 1.00 Min. : 6.0 Min. :0.9871
1st Qu.:0.03800 1st Qu.: 17.00 1st Qu.: 77.0 1st Qu.:0.9923
Median :0.04700 Median : 29.00 Median :118.0 Median :0.9949
Mean :0.05603 Mean : 30.53 Mean :115.7 Mean :0.9947
3rd Qu.:0.06500 3rd Qu.: 41.00 3rd Qu.:156.0 3rd Qu.:0.9970
Max. :0.61100 Max. :289.00 Max. :440.0 Max. :1.0390
pH sulphates alcohol quality color
Min. :2.720 Min. :0.2200 Min. : 8.00 Min. :3.000 blanco:4898
1st Qu.:3.110 1st Qu.:0.4300 1st Qu.: 9.50 1st Qu.:5.000 rojo :1599
Median :3.210 Median :0.5100 Median :10.30 Median :6.000
Mean :3.219 Mean :0.5313 Mean :10.49 Mean :5.818
3rd Qu.:3.320 3rd Qu.:0.6000 3rd Qu.:11.30 3rd Qu.:6.000
Max. :4.010 Max. :2.0000 Max. :14.90 Max. :9.000
La variable alcohol presenta una distribución asimétrica hacia la derecha, concentrándose principalmente entre el 9% y el 12%. Esto indica que la mayoría de los vinos tienen un grado alcohólico moderado, con pocas muestras que superan el 13%.
La variable densidad presenta una distribución unimodal y concentrada alrededor del valor 1.00, lo cual es característico en vinos. Esto indica que la mayoría de las muestras poseen una densidad cercana a la del agua, lo que refleja un equilibrio normal entre el contenido de alcohol y azúcar.
La distribución de la variable calidad es discreta y asimétrica, con la mayoría de los valores concentrados entre 5 y 7 puntos. Esto indica que la mayor parte de los vinos evaluados se clasifican como de calidad media, mientras que las calificaciones extremas (muy bajas o muy altas) son poco frecuentes.
Dióxido de azufre total: El vino blanco usa más SO₂ para evitar la oxidación, lo que explica sus valores más altos y algunos outliers con niveles de conservación elevados.
Azúcar residual: Los blancos presentan más azúcar por fermentaciones incompletas; los valores extremos representan vinos de postre o dulces.
Acidez volátil: Mayor en los tintos, indicando un perfil más ácido; valores muy altos pueden reflejar defectos de fermentación.
En conjunto: Los vinos blancos destacan por su dulzor y uso de conservantes, mientras que los tintos muestran mayor acidez. Aun así, la calidad promedio es similar en ambos, lo que sugiere que la diferencia química no implica necesariamente una mejor o peor calidad.
Alcohol tiene una correlación positiva moderada con la calidad (≈ 0.44), lo que significa que a mayor contenido de alcohol, generalmente la calidad del vino es mayor.
Densidad presenta una correlación negativa moderada con la calidad (≈ -0.30), indicando que los vinos más densos tienden a recibir calificaciones más bajas.
Algunas variables químicas como ácido cítrico y azúcar residual muestran relaciones muy débiles con la calidad, lo cual indica que no influyen de forma significativa en la valoración final.
No todos los vinos con más alcohol son mejores, pero en promedio, las calificaciones más altas se encuentran en vinos con mayor graduación alcohólica.
1). Los vinos de mayor densidad suelen contener azúcares residuales o compuestos no deseables.
2.) Los vinos más equilibrados (de menor densidad) suelen tener mejores características químicas y organolépticas.
El análisis muestra diferencias claras entre los vinos blancos y tintos en sus propiedades fisicoquímicas: los blancos presentan mayor azúcar residual y niveles más altos de dióxido de azufre, mientras que los tintos muestran mayor acidez fija, acidez volátil y concentración de cloruros.
Estas diferencias reflejan procesos de vinificación distintos, pero no implican una diferencia significativa en la calidad promedio entre ambos tipos de vino.
La variable más relacionada con la calidad es el contenido de alcohol, que muestra una correlación positiva moderada; los vinos con mayor graduación tienden a obtener mejores valoraciones.
La densidad presenta una correlación negativa con la calidad, lo que sugiere que los vinos más ligeros suelen ser mejor percibidos.
Los valores atípicos detectados (especialmente en azúcar residual y SO₂) corresponden a vinos de postre o con tratamientos de conservación intensivos, lo que los hace casos relevantes para el estudio de extremos en la producción.
En conjunto, los resultados evidencian que la calidad del vino depende de un equilibrio entre dulzor, acidez y graduación alcohólica, más que de una sola característica química.