Información Datos

Row

Vinos

Objetivo

A partir de un conjunto de datos donado en 2009 por Paulo Cortez y colaboradores, que contiene información sobre muestras de vino portugués tipo “Vinho Verde” en sus variantes roja y blanca, se busca analizar la relación entre las propiedades fisicoquímicas del vino y su calidad, identificando cuáles de estas variables influyen en mayor medida en su valoración final.

Row

Muestra

Los datos se obtuvieron del repositorio UCI Machine Learning e incluyen un total de 6.497 observaciones, correspondientes a muestras de vino “Vinho Verde” producidas en el norte de Portugal. De ellas, 4.898 pertenecen a vino blanco y 1.599 a vino tinto.

Características de las variables del vino

Variable Tipo Escala de medición Unidad de medida
Fixed acidity Cuantitativa Continua g de ácido tartárico / dm³
Volatile acidity Cuantitativa Continua g de ácido acético / dm³
Citric acid Cuantitativa Continua g / dm³
Residual sugar Cuantitativa Continua g / dm³
Chlorides Cuantitativa Continua g de cloruro de sodio / dm³
Free sulfur dioxide Cuantitativa Entera mg / dm³
Total sulfur dioxide Cuantitativa Entera mg / dm³
Density Cuantitativa Continua g / cm³
pH Cuantitativa Intervalo Sin unidad (escala logarítmica)
Sulphates Cuantitativa Continua g de sulfato de potasio / dm³
Alcohol Cuantitativa Continua % volumen
Quality Cuantitativa Rango (1,10) N/A
Color Cualitativa {Rojo, Blanco}

Analisis Descriptivo

Row

Estadisticas

 fixed.acidity    volatile.acidity  citric.acid     residual.sugar  
 Min.   : 3.800   Min.   :0.0800   Min.   :0.0000   Min.   : 0.600  
 1st Qu.: 6.400   1st Qu.:0.2300   1st Qu.:0.2500   1st Qu.: 1.800  
 Median : 7.000   Median :0.2900   Median :0.3100   Median : 3.000  
 Mean   : 7.215   Mean   :0.3397   Mean   :0.3186   Mean   : 5.443  
 3rd Qu.: 7.700   3rd Qu.:0.4000   3rd Qu.:0.3900   3rd Qu.: 8.100  
 Max.   :15.900   Max.   :1.5800   Max.   :1.6600   Max.   :65.800  
   chlorides       free.sulfur.dioxide total.sulfur.dioxide    density      
 Min.   :0.00900   Min.   :  1.00      Min.   :  6.0        Min.   :0.9871  
 1st Qu.:0.03800   1st Qu.: 17.00      1st Qu.: 77.0        1st Qu.:0.9923  
 Median :0.04700   Median : 29.00      Median :118.0        Median :0.9949  
 Mean   :0.05603   Mean   : 30.53      Mean   :115.7        Mean   :0.9947  
 3rd Qu.:0.06500   3rd Qu.: 41.00      3rd Qu.:156.0        3rd Qu.:0.9970  
 Max.   :0.61100   Max.   :289.00      Max.   :440.0        Max.   :1.0390  
       pH          sulphates         alcohol         quality         color     
 Min.   :2.720   Min.   :0.2200   Min.   : 8.00   Min.   :3.000   blanco:4898  
 1st Qu.:3.110   1st Qu.:0.4300   1st Qu.: 9.50   1st Qu.:5.000   rojo  :1599  
 Median :3.210   Median :0.5100   Median :10.30   Median :6.000                
 Mean   :3.219   Mean   :0.5313   Mean   :10.49   Mean   :5.818                
 3rd Qu.:3.320   3rd Qu.:0.6000   3rd Qu.:11.30   3rd Qu.:6.000                
 Max.   :4.010   Max.   :2.0000   Max.   :14.90   Max.   :9.000                

Row

Grafico

Interpretacion

La variable alcohol presenta una distribución asimétrica hacia la derecha, concentrándose principalmente entre el 9% y el 12%. Esto indica que la mayoría de los vinos tienen un grado alcohólico moderado, con pocas muestras que superan el 13%.

Row

Grafico

Interpretacion

La variable densidad presenta una distribución unimodal y concentrada alrededor del valor 1.00, lo cual es característico en vinos. Esto indica que la mayoría de las muestras poseen una densidad cercana a la del agua, lo que refleja un equilibrio normal entre el contenido de alcohol y azúcar.

Row

Grafico

Interpretacion

La distribución de la variable calidad es discreta y asimétrica, con la mayoría de los valores concentrados entre 5 y 7 puntos. Esto indica que la mayor parte de los vinos evaluados se clasifican como de calidad media, mientras que las calificaciones extremas (muy bajas o muy altas) son poco frecuentes.

Datos Atipicos

Row

Grafico

Row

Interpretacion

  1. Dióxido de azufre total: El vino blanco usa más SO₂ para evitar la oxidación, lo que explica sus valores más altos y algunos outliers con niveles de conservación elevados.

  2. Azúcar residual: Los blancos presentan más azúcar por fermentaciones incompletas; los valores extremos representan vinos de postre o dulces.

  3. Acidez volátil: Mayor en los tintos, indicando un perfil más ácido; valores muy altos pueden reflejar defectos de fermentación.

En conjunto: Los vinos blancos destacan por su dulzor y uso de conservantes, mientras que los tintos muestran mayor acidez. Aun así, la calidad promedio es similar en ambos, lo que sugiere que la diferencia química no implica necesariamente una mejor o peor calidad.

Correlacion

Row

Matriz de correlación

Row

Interpretación

  1. Alcohol tiene una correlación positiva moderada con la calidad (≈ 0.44), lo que significa que a mayor contenido de alcohol, generalmente la calidad del vino es mayor.

  2. Densidad presenta una correlación negativa moderada con la calidad (≈ -0.30), indicando que los vinos más densos tienden a recibir calificaciones más bajas.

  3. Algunas variables químicas como ácido cítrico y azúcar residual muestran relaciones muy débiles con la calidad, lo cual indica que no influyen de forma significativa en la valoración final.

Dispersión

Row

Alcohol vs Calidad

Interpretación

No todos los vinos con más alcohol son mejores, pero en promedio, las calificaciones más altas se encuentran en vinos con mayor graduación alcohólica.

Row

Densidad vs Calidad

Interpretación

1). Los vinos de mayor densidad suelen contener azúcares residuales o compuestos no deseables.

2.) Los vinos más equilibrados (de menor densidad) suelen tener mejores características químicas y organolépticas.

Conclusión