1. Introducción

El análisis de la calidad del vino es un tema crucial en el sector vitivinícola, ya que combina tradición, ciencia y percepción sensorial. Si bien las evaluaciones realizadas por expertos catadores y pruebas de laboratorio ofrecen precisión, suelen ser costosas y sujetas a la subjetividad humana. Este proyecto busca desarrollar un enfoque alternativo basado en técnicas de análisis descriptivo multivariado, que permita comprender mejor las relaciones entre las características físico-químicas del vino y su impacto en la calidad sensorial.

Para llevar a cabo este estudio, se emplea una base de datos obtenida de la plataforma Kaggle, que recopila información detallada sobre vinos producidos en Portugal, principalmente en las regiones de Douro y Vinho Verde. Estas áreas, reconocidas por su riqueza en tradición vitivinícola, aportan datos que incluyen características como acidez, alcohol, pH, y sulfatos, junto con evaluaciones sensoriales de calidad.

2. Exploración de Datos

2.1. Descripción de Variables

  • Acidez fija (fixed acidity): Cantidad de ácidos no volátiles presentes en el vino, como el ácido tartárico, málico y láctico. Afecta la estructura y longevidad del vino.

  • Acidez volátil (volatile acidity): Cantidad de ácido acético en el vino. En concentraciones elevadas puede generar aromas desagradables similares al vinagre.

  • Ácido cítrico (citric acid): Ácido orgánico natural presente en pequeñas cantidades. Puede aportar frescura y mejorar la percepción de acidez.

  • Azúcar residual (residual sugar): Cantidad de azúcar que permanece tras la fermentación. Determina el dulzor del vino.

    • Seco: Menos de 4 g/L

    • Semi-seco: Entre 4 y 12 g/L

    • Dulce: Más de 12 g/L

  • Cloruros (chlorides): Indicador del contenido salino del vino. Valores altos pueden afectar su sabor y estabilidad.

  • Dióxido de azufre libre (free sulfur dioxide): SO₂ en estado libre que actúa como antioxidante y conservante, protegiendo el vino contra microorganismos.

  • Dióxido de azufre total (total sulfur dioxide): Suma del SO₂ libre y combinado. En niveles elevados puede afectar el aroma y sabor del vino.

  • Densidad (density): Relación entre la masa y el volumen del vino. Depende del contenido de alcohol, azúcar y compuestos disueltos.

  • Sulfatos (sulphates): Compuestos que influyen en la estabilidad microbiológica del vino. Se relacionan con la percepción de cuerpo y estructura.

  • Alcohol (alcohol): Porcentaje de etanol presente en el vino. Impacta el sabor, cuerpo y sensación en boca.

  • Nivel de Acidez (PH): Categorización del pH en función del nivel de acidez:

    • Ácido Bajo: pH < 3.2

    • Ácido Medio: 3.2 ≤ pH < 3.7

    • Ácido Alto: pH ≥ 3.7

  • Calidad (quality): Clasificación cualitativa basada en la evaluación sensorial:

    • Bajo: Puntuaciones de calidad ≤ 5

    • Medio: Puntuaciones entre 6 y 7

    • Alta: Puntuaciones > 7

2.2. Exploración de Datos

La columna numérica pH fue categorizada en tres niveles: “Ácido Bajo”, “Ácido Medio” y “Ácido Alto”, utilizando rangos definidos. Esto facilitó la interpretación de los niveles de acidez de cada muestra de vino.

La variable quality, originalmente numérica, fue convertida en una variable categórica llamada calidad_categoria, con tres niveles: “Bajo”, “Medio” y “Alta”. Esto permitió agrupar las calificaciones sensoriales en categorías más manejables.

La columna residual sugar fue clasificada en tres categorías: “Seco”, “Semi-seco” y “Dulce”, según rangos previamente definidos.

Este procedimiento asegura que los datos estén organizados y categorizados, facilitando su análisis y asegurando que cada transformación contribuya a un enfoque más claro y accesible para estudiar las relaciones entre las variables físico-químicas y la calidad sensorial del vino.

3. Análisis Exploratorio - Descriptivo Univariado

3.1. Análisis Univariado Variables Cualitativas

3.1.1. Análisis Univariado de Calidad

## Frequencies  
## data$calidad  
## Type: Factor  
## 
##               Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
##        Bajo    744     46.53          46.53     46.53          46.53
##       Medio    837     52.35          98.87     52.35          98.87
##        Alta     18      1.13         100.00      1.13         100.00
##        <NA>      0                               0.00         100.00
##       Total   1599    100.00         100.00    100.00         100.00

Los datos muestran que la mayoría de los vinos están en las categorías Medio y Bajo. Los vinos Medio son los más comunes, con un poco más del 52%, mientras que los Bajo tienen cerca del 46%.

Por otro lado, los vinos de Alta calidad son muy pocos, menos del 2%. Si miras el histograma, seguramente las barras de Bajo y Medio sean grandes, y la de Alta sea muy pequeña. Esto nos da una idea clara de cómo se distribuyen las calidades en los datos.

3.1.2. Análisis Univariado de PH

## Frequencies  
## data$pH  
## Type: Factor  
## 
##                     Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## ----------------- ------ --------- -------------- --------- --------------
##        Ácido Bajo    349     21.83          21.83     21.83          21.83
##       Ácido Medio   1233     77.11          98.94     77.11          98.94
##        Ácido Alto     17      1.06         100.00      1.06         100.00
##              <NA>      0                               0.00         100.00
##             Total   1599    100.00         100.00    100.00         100.00

3.1.3. Análisis Univariado de azucar residual

## Frequencies  
## data$azucar_residual  
## Type: Factor  
## 
##                   Freq   % Valid   % Valid Cum.   % Total   % Total Cum.
## --------------- ------ --------- -------------- --------- --------------
##            Seco   1474     92.18          92.18     92.18          92.18
##       Semi-seco    117      7.32          99.50      7.32          99.50
##           Dulce      8      0.50         100.00      0.50         100.00
##            <NA>      0                               0.00         100.00
##           Total   1599    100.00         100.00    100.00         100.00

3.2. Análisis Univariado de Variables cuantitativas

## Descriptive Statistics  
## data  
## N: 1599  
## 
##                     acidez_fija   acidez_volatil   acido_citrico   alcohol   cloruros   densidad
## ----------------- ------------- ---------------- --------------- --------- ---------- ----------
##              Mean          8.32             0.53            0.27     10.42       0.09       1.00
##           Std.Dev          1.74             0.18            0.19      1.07       0.05       0.00
##               Min          4.60             0.12            0.00      8.40       0.01       0.99
##                Q1          7.10             0.39            0.09      9.50       0.07       1.00
##            Median          7.90             0.52            0.26     10.20       0.08       1.00
##                Q3          9.20             0.64            0.42     11.10       0.09       1.00
##               Max         15.90             1.58            1.00     14.90       0.61       1.00
##               MAD          1.48             0.18            0.25      1.04       0.01       0.00
##               IQR          2.10             0.25            0.33      1.60       0.02       0.00
##                CV          0.21             0.34            0.72      0.10       0.54       0.00
##          Skewness          0.98             0.67            0.32      0.86       5.63      -1.96
##       SE.Skewness          0.06             0.06            0.06      0.06       0.06       0.06
##          Kurtosis          1.12             1.19           -0.79      0.19      41.13       1.86
##           N.Valid       1599.00          1599.00         1599.00   1599.00    1599.00    1599.00
##                 N       1599.00          1599.00         1599.00   1599.00    1599.00    1599.00
##         Pct.Valid        100.00           100.00          100.00    100.00     100.00     100.00
## 
## Table: Table continues below
## 
##  
## 
##                     dioxido_azufre_libre   dioxido_azufre_total   sulfatos
## ----------------- ---------------------- ---------------------- ----------
##              Mean                  15.87                  46.47       0.66
##           Std.Dev                  10.46                  32.90       0.17
##               Min                   1.00                   6.00       0.33
##                Q1                   7.00                  22.00       0.55
##            Median                  14.00                  38.00       0.62
##                Q3                  21.00                  62.00       0.73
##               Max                  72.00                 289.00       2.00
##               MAD                  10.38                  26.69       0.12
##               IQR                  14.00                  40.00       0.18
##                CV                   0.66                   0.71       0.26
##          Skewness                   1.25                   1.51       2.42
##       SE.Skewness                   0.06                   0.06       0.06
##          Kurtosis                   2.01                   3.79      11.66
##           N.Valid                1599.00                1599.00    1599.00
##                 N                1599.00                1599.00    1599.00
##         Pct.Valid                 100.00                 100.00     100.00

3.2.1. Análisis Univariado de acidez fija

## 
##  Shapiro-Wilk normality test
## 
## data:  data$acidez_fija
## W = 0.94203, p-value < 2.2e-16

El test de Shapiro-Wilk indicó que los datos de fixed acidity no siguen una distribución normal (p-value < 0.05). En las gráficas se encontro que Muestra la presencia de valores extremos y La curva no tiene forma de campana típica, confirmando la no normalidad.

3.2.2. Análisis Univariado de acidez volatil

## 
##  Shapiro-Wilk normality test
## 
## data:  data$acidez_volatil
## W = 0.97436, p-value = 2.738e-16

El test de Shapiro-Wilk para volatile acidity muestra un valor p < 0.05, lo que significa que los datos no siguen una distribución normal.En el boxplot evidencia valores extremos (potenciales atípicos). en la curva de densidad no tiene forma de campana (típica de una distribución normal). En el Q-Q Plot revela desviaciones claras respecto a la línea de normalidad, confirmando la falta de ajuste normal.

3.2.3. Análisis Univariado de acido citrico

## 
##  Shapiro-Wilk normality test
## 
## data:  data$acido_citrico
## W = 0.95529, p-value < 2.2e-16

El test de Shapiro-Wilk para citric acid indica que los datos no siguen una distribución normal (p-value < 0.05). Las gráficas refuerzan este resultado: el boxplot muestra valores extremos, y la curva de densidad es asimétrica, alejándose de la forma típica de campana.

3.2.4. Análisis Univariado de cloruros

## 
##  Shapiro-Wilk normality test
## 
## data:  data$cloruros
## W = 0.48212, p-value < 2.2e-16

El test de Shapiro-Wilk muestra que los datos de chlorides no tienen una distribución normal (p-value < 0.05). Las gráficas confirman este resultado: el boxplot muestra valores extremos en el rango superior y la curva de densidad está fuertemente sesgada hacia la derecha.

3.2.5. Análisis Univariado de dioxido azufre libre

## 
##  Shapiro-Wilk normality test
## 
## data:  data$dioxido_azufre_libre
## W = 0.90184, p-value < 2.2e-16

El test de Shapiro-Wilk muestra que los datos de free sulfur dioxide no tienen una distribución normal (p-value < 0.05). Las gráficas confirman este resultado: el boxplot indica valores extremos y la curva de densidad muestra asimetría.

3.2.6. Análisis Univariado de dioxido azufre total

## 
##  Shapiro-Wilk normality test
## 
## data:  data$dioxido_azufre_total
## W = 0.87322, p-value < 2.2e-16

El test de Shapiro-Wilk confirma que los datos de total sulfur dioxide no tienen una distribución normal (p-value < 0.05). Las gráficas respaldan este resultado: el boxplot evidencia valores extremos elevados, la curva de densidad está sesgada hacia la derecha, y el Q-Q plot muestra una desviación marcada de la normalidad.

3.2.7. Análisis Univariado de sulfatos

## 
##  Shapiro-Wilk normality test
## 
## data:  data$sulfatos
## W = 0.83304, p-value < 2.2e-16

El test de Shapiro-Wilk indica que los datos de sulphates no tienen una distribución normal (p-value < 0.05). Las gráficas muestran una clara asimetría hacia la derecha en la densidad y el histograma, valores extremos en el boxplot y desviaciones evidentes en el Q-Q plot respecto a la línea de normalidad.

3.2.8. Análisis Univariado de alcohol

## 
##  Shapiro-Wilk normality test
## 
## data:  data$alcohol
## W = 0.92884, p-value < 2.2e-16

El test de Shapiro-Wilk indica que los datos de alcohol no siguen una distribución normal (p-value < 0.05). Esto se confirma en las gráficas: el boxplot muestra valores extremos hacia el extremo superior, mientras que la curva de densidad y el Q-Q plot destacan desviaciones claras de una distribución normal típica.

4. Análisis Exploratorio - descriptivo Bivariado

4.1.Análisis de Cuantitativa vs. Cuantitativa

4.1.1. Análisis Bivariado de Acidez Fija vs Acidez Volátil

## 
##  Pearson's product-moment correlation
## 
## data:  data$acidez_fija and data$acidez_volatil
## t = -10.571, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.3009775 -0.2093326
## sample estimates:
##        cor 
## -0.2557295

Como el p-valor es extremadamente pequeño (< 0.05), rechazamos la hipótesis nula (H0: la correlación es 0), por lo que a medida que la Acidez Fija aumenta, la Acidez Volátil tiende a disminuir, pero la relación no es muy fuerte.

4.1.2. Análisis Bivariado de Acidez Fija vs Ácido Cítrico

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$acidez_fija and data$acido_citrico
## t = 36.234, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6438839 0.6977493
## sample estimates:
##       cor 
## 0.6717034

Como el p-valor es extremadamente pequeño (< 0.05), rechazamos la hipótesis nula (H₀: la correlación es 0). Esto indica que existe una relación positiva moderadamente fuerte entre la Acidez Fija y el Ácido Cítrico, es decir, a medida que la Acidez Fija aumenta, también tiende a aumentar el Ácido Cítrico.

4.1.3. Análisis Bivariado de Dióxido de Azufre Libre vs. Dióxido de Azufre Total

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$dioxido_azufre_libre and data$dioxido_azufre_total
## t = 35.84, df = 1597, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6395786 0.6939740
## sample estimates:
##       cor 
## 0.6676665

Esto indica que existe una correlación positiva fuerte (0.668) entre el Dióxido de Azufre Libre y el Dióxido de Azufre Total, lo que significa que a medida que aumenta el SO₂ libre, también tiende a aumentar el SO₂ total en el vino.

4.1.4. Análisis Bivariado de Cloruros vs. Acidez Volátil

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$cloruros and data$acidez_volatil
## t = 2.5131, df = 1597, p-value = 0.01206
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.01378489 0.11144188
## sample estimates:
##        cor 
## 0.06276362

Como el p-valor es 0.01206 (< 0.05), rechazamos la hipótesis nula (H0: la correlación es 0). Sin embargo, el coeficiente de correlación de 0.0628 indica que la relación entre cloruros y acidez volátil es muy débil y positiva. Esto sugiere que a medida que aumenta la cantidad de cloruros, la acidez volátil también tiende a aumentar ligeramente.

4.1.5. Análisis Bivariado de Sulfatos vs. Alcohol

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$sulfatos and data$alcohol
## t = 3.7568, df = 1597, p-value = 0.0001783
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.04477891 0.14196439
## sample estimates:
##       cor 
## 0.0935946

Como el p-valor es 0.0001783 (< 0.05), rechazamos la hipótesis nula (H0: la correlación es 0). Sin embargo, el coeficiente de correlación de 0.0936 indica que la relación entre sulfatos y alcohol es muy débil y positiva. Esto sugiere que a medida que aumenta la cantidad de sulfatos, el contenido de alcohol también tiende a aumentar ligeramente.

4.1.6. Análisis Bivariado de Dióxido de Azufre Total vs. Acidez Volátil

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$dioxido_azufre_total and data$acidez_volatil
## t = 3.0511, df = 1597, p-value = 0.002317
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.02720851 0.12468394
## sample estimates:
##        cor 
## 0.07612811

Como el p-valor es 0.002317 (< 0.05), rechazamos la hipótesis nula (H₀: la correlación es 0). Sin embargo, el coeficiente de correlación de 0.0761 indica que la relación entre dióxido de azufre total y acidez volátil es muy débil y positiva. Esto sugiere que a medida que aumenta la cantidad de dióxido de azufre total, la acidez volátil también tiende a aumentar ligeramente.

4.1.7. Análisis Bivariado de Acidez Volátil vs. Alcohol

  • Prueba de correlación
## 
##  Pearson's product-moment correlation
## 
## data:  data$acidez_volatil and data$alcohol
## t = -8.2551, df = 1597, p-value = 3.141e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.2488542 -0.1548151
## sample estimates:
##       cor 
## -0.202301

Como el p-valor es 3.141e-16 (< 0.05), rechazamos la hipótesis nula (H0: la correlación es 0). El coeficiente de correlación de -0.2023 indica que la relación entre acidez volátil y alcohol es débil y negativa. Esto sugiere que a medida que aumenta el contenido de alcohol, la acidez volátil tiende a disminuir, aunque la relación no es muy fuerte.

4.2. Análisis de Cuantitativa vs. Cualitativa

4.2.1. Análisis Bivariado de PH vs Acidez Volátil

  • ANOVA
##               Df Sum Sq Mean Sq F value   Pr(>F)    
## pH             2   0.93  0.4651   14.65 4.93e-07 ***
## Residuals   1596  50.65  0.0317                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA revela que el pH tiene un efecto significativo en la Acidez Volátil (p < 0.001), lo que indica diferencias estadísticamente significativas entre los grupos de pH. La varianza explicada por el pH es considerable en comparación con la variabilidad residual.

4.2.2. Análisis Bivariado de PH vs Acidez fija

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)    
## pH             2   1533   766.6   369.5 <2e-16 ***
## Residuals   1596   3311     2.1                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA muestra que el pH tiene un efecto altamente significativo en la Acidez fija (F = 369.5, p < 2e-16), lo que indica diferencias claras entre los grupos de pH. La varianza explicada por el pH es considerablemente mayor que la variabilidad residual, lo que sugiere una fuerte relación entre ambas variables.

4.2.3. Análisis Bivariado de PH vs Ácido cítrico

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)    
## pH             2  10.11   5.057   159.7 <2e-16 ***
## Residuals   1596  50.53   0.032                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA revela que el pH tiene un efecto altamente significativo sobre el ácido cítrico (F = 159.7, p < 2e-16). La varianza explicada por el pH es considerable en comparación con la residual, lo que indica una relación clara entre estas variables.

4.2.4. Análisis Bivariado de PH vs Alcohol

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)    
## pH             2  100.8   50.38   46.91 <2e-16 ***
## Residuals   1596 1714.0    1.07                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA muestra que el pH influye significativamente en el alcohol (F = 46.91, p < 2e-16). Aunque la variabilidad residual es mayor, la diferencia entre grupos es significativa, indicando una relación clara entre el pH y el alcohol.

4.2.5. Análisis Bivariado de calidad vs Acidez Volátil

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        2   5.38  2.6891   92.89 <2e-16 ***
## Residuals   1596  46.20  0.0289                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA muestra que la calidad del vino influye significativamente en la acidez volátil (F = 92.89, p < 2e-16). Este resultado sugiere que los niveles de acidez volátil varían entre diferentes categorías de calidad, lo que podría afectar el sabor y la percepción del vino.

4.2.6. Análisis Bivariado de calidad vs dioxido azufre libre

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)  
## calidad        2    740   370.0   3.392 0.0339 *
## Residuals   1596 174105   109.1                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA indica que la calidad del vino afecta significativamente los niveles de dióxido de azufre libre (F = 3.392, p = 0.0339). Aunque el efecto es menos pronunciado que en otros análisis, sugiere que los niveles de dióxido de azufre libre varían según la calidad del vino, posiblemente debido a diferencias en su conservación y proceso de producción.

4.2.7. Análisis Bivariado de calidad vs Sulfatos

  • ANOVA
##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        2   2.29  1.1437   41.84 <2e-16 ***
## Residuals   1596  43.63  0.0273                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA muestra que la calidad del vino influye significativamente en los niveles de sulfatos (F = 41.84, p < 2e-16). Esto indica que hay diferencias en los sulfatos según la calidad del vino, lo que podría estar relacionado con procesos de conservación o fermentación.

4.2.8. Análisis Bivariado de azucar residual vs Acidez Volátil

  • ANOVA
##                   Df Sum Sq Mean Sq F value Pr(>F)  
## azucar_residual    2   0.29 0.14515   4.517 0.0111 *
## Residuals       1596  51.29 0.03214                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA indica que el azúcar residual tiene un efecto significativo en la acidez volátil (F = 4.517, p = 0.0111). Aunque la relación es moderada, su impacto es estadísticamente relevante, sugiriendo que los niveles de azúcar influyen en la acidez volátil del vino.

4.2.9. Análisis Bivariado de azucar residual vs alcohol

ggplot(data, aes(x = azucar_residual, y = alcohol, fill = azucar_residual)) +
  geom_boxplot() +
  labs(title = "Distribución de alcohol según azucar_residual",
       x = "Categoría de azucar_residual",
       y = "alcohol") +
  theme_minimal()

  • ANOVA
##                   Df Sum Sq Mean Sq F value   Pr(>F)    
## azucar_residual    2   26.3  13.152   11.74 8.71e-06 ***
## Residuals       1596 1788.5   1.121                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA muestra que el azúcar residual influye significativamente en el contenido de alcohol (F = 11.74, p = 8.71e-06). Aunque la variabilidad explicada no es alta, la relación es estadísticamente relevante, indicando que los niveles de azúcar afectan el alcohol en la muestra.

4.2.10. Análisis Bivariado de azucar residual vs Acido citrico

  • ANOVA
##                   Df Sum Sq Mean Sq F value Pr(>F)    
## azucar_residual    2   0.73  0.3671    9.78  6e-05 ***
## Residuals       1596  59.91  0.0375                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA indica que el azúcar residual tiene un efecto significativo sobre el ácido cítrico (p = 6e-05). Aunque el efecto es menor que en otros análisis, sigue siendo relevante, sugiriendo una asociación entre ambas variables.

4.3. Análisis de Cualitativa vs. Cualitativa

4.3.1. Análisis Bivariado de PH vs Calidad

##              
##               Bajo Medio Alta
##   Ácido Bajo   169   175    5
##   Ácido Medio  570   651   12
##   Ácido Alto     5    11    1
  • Prueba exacta de Fisher
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla
## p-value = 0.1668
## alternative hypothesis: two.sided

H0 (Hipótesis nula): No hay asociación entre el PH y la Calidad. Dado que el valor p es mayor al nivel de significancia común (α = 0.05), no rechazamos la hipótesis nula (H0). Esto indica que, con los datos actuales, no hay suficiente evidencia para afirmar que existe una asociación estadísticamente significativa entre el PH y la Calidad.

4.3.2. Análisis Bivariado de PH vs azucar residual

##              
##               Seco Semi-seco Dulce
##   Ácido Bajo   316        28     5
##   Ácido Medio 1141        89     3
##   Ácido Alto    17         0     0

H0 (Hipótesis nula): No hay asociación entre el PH y el azúcar residual. Aunque está más cerca del nivel de significancia comúnmente usado (α = 0.05), sigue siendo mayor. Esto significa que no rechazamos la hipótesis nula (H0). Por tanto, no se observa evidencia estadísticamente significativa de que el PH y el azúcar residual estén asociados.

  • Prueba exacta de Fisher
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla
## p-value = 0.07255
## alternative hypothesis: two.sided

4.3.3. Análisis Bivariado de Calidad vs azucar residual

##        
##         Seco Semi-seco Dulce
##   Bajo   682        58     4
##   Medio  776        57     4
##   Alta    16         2     0
  • Prueba exacta de Fisher
## 
##  Fisher's Exact Test for Count Data
## 
## data:  tabla
## p-value = 0.7194
## alternative hypothesis: two.sided

H0 (Hipótesis nula): No hay asociación entre la Calidad y el Azúcar Residual. Como el valor p es considerablemente mayor al nivel de significancia estándar (α = 0.05), no rechazamos la hipótesis nula (H0). Esto significa que no hay evidencia estadísticamente significativa de una asociación entre Calidad y Azúcar Residual en este conjunto de datos.

5. Análisis Exploratorio - descriptivo Multivariado

Para llevar a cabo el análisis de componentes principales (ACP), se seleccionaron únicamente las variables numéricas, ya que este método trabaja exclusivamente con datos continuos y cuantitativos. Esto permite calcular correlaciones, varianzas y covarianzas entre las variables, elementos cruciales para identificar patrones subyacentes y reducir la dimensionalidad del conjunto de datos. Cabe mencionar que las variables categóricas, al no ser representables numéricamente en este contexto, fueron excluidas del análisis.

5.1. Análisis de Correlación

5.1.1. Relaciones fuertes (|correlación| > 0.5)

  • Acidez fija y Ácido cítrico: 0.6717 (fuerte correlación positiva). Esto sugiere que un aumento en la acidez fija está asociado con un mayor contenido de ácido cítrico.

  • Dióxido de azufre libre y Dióxido de azufre total: 0.6677 (fuerte correlación positiva). Como era de esperar, estas dos variables están estrechamente relacionadas debido a sus características químicas.

5.1.2. Relaciones moderadas (0.2 ≤ |correlación| ≤ 0.5)

  • Acidez fija y Densidad: 0.3426 (positiva). La densidad puede aumentar con ciertas características químicas como una mayor acidez fija.

  • Cloruros y Sulfatos: 0.3684 (positiva). Estas variables están moderadamente asociadas, posiblemente debido a su contribución al perfil mineral del vino.

  • Ácido cítrico y Sulfatos: 0.3128 (positiva). Sugiere una relación entre estas características químicas del vino.

5.1.3. Relaciones moderadas (0.2 ≤ |correlación| ≤ 0.5)

  • Acidez volátil y Densidad: 0.0712 (positiva débil). Muestra poca asociación entre estas variables.

  • Dióxido de azufre total y Sulfatos: 0.0429 (positiva débil).

  • Alcohol y Sulfatos: 0.0936 (positiva débil).

5.1.4. Relaciones moderadas (0.2 ≤ |correlación| ≤ 0.5)

  • Cloruros y Dióxido de azufre libre: 0.0028 (prácticamente nula). Esto sugiere que estas dos variables son independientes entre sí.

  • Densidad y Dióxido de azufre libre: -0.0085 (prácticamente nula). Muestra una relación insignificante.

5.1.5. Correlaciones negativas

  • Acidez volátil y Ácido cítrico: -0.5523 (fuerte negativa). A medida que aumenta la acidez volátil, disminuye el ácido cítrico, lo que podría estar relacionado con el perfil del vino.

  • Densidad y Alcohol: -0.5203 (moderada negativa). Sugiere que vinos más densos tienden a tener menor contenido alcohólico.

  • Cloruros y Alcohol: -0.2202 (moderada negativa). Una mayor concentración de cloruros está levemente asociada con menores niveles de alcohol.

5.2. Análisis de Componentes Principales

  • Estandarizar los datos
##      acidez_fija acidez_volatil acido_citrico    cloruros dioxido_azufre_libre
## [1,]  -0.5281944      0.9550265     -1.391037 -0.16697974          -0.46604672
## [2,]  -0.2984541      1.9569063     -1.391037  0.25750453           0.87236532
## [3,]  -0.2984541      1.2889864     -1.185699  0.04526239          -0.08364328
## [4,]   1.6543385     -1.3826929      1.483689 -0.16697974           0.10755844
## [5,]  -0.5281944      0.9550265     -1.391037 -0.16697974          -0.46604672
## [6,]  -0.5281944      0.7323866     -1.391037 -0.16697974          -0.27484500
##      dioxido_azufre_total  densidad    sulfatos    alcohol
## [1,]           -0.3790141 0.4190768 -0.57902538 -0.9599371
## [2,]            0.6241680 0.4190768  0.12891007 -0.5845890
## [3,]            0.2289750 0.4190768 -0.04807379 -0.5845890
## [4,]            0.4113718 0.4190768 -0.46103614 -0.5845890
## [5,]           -0.3790141 0.4190768 -0.57902538 -0.9599371
## [6,]           -0.1966174 0.4190768 -0.57902538 -0.9599371
  • Aplicación del PCA
## **Results for the Principal Component Analysis (PCA)**
## The analysis was performed on 1599 individuals, described by 9 variables
## *The results are available in the following objects:
## 
##    name               description                          
## 1  "$eig"             "eigenvalues"                        
## 2  "$var"             "results for the variables"          
## 3  "$var$coord"       "coord. for the variables"           
## 4  "$var$cor"         "correlations variables - dimensions"
## 5  "$var$cos2"        "cos2 for the variables"             
## 6  "$var$contrib"     "contributions of the variables"     
## 7  "$ind"             "results for the individuals"        
## 8  "$ind$coord"       "coord. for the individuals"         
## 9  "$ind$cos2"        "cos2 for the individuals"           
## 10 "$ind$contrib"     "contributions of the individuals"   
## 11 "$call"            "summary statistics"                 
## 12 "$call$centre"     "mean of the variables"              
## 13 "$call$ecart.type" "standard error of the variables"    
## 14 "$call$row.w"      "weights for the individuals"        
## 15 "$call$col.w"      "weights for the variables"
5.2.1. Varianza explicada por cada componente
  • Valores propios (Eigenvalues): Estos indican la cantidad de varianza explicada por cada componente principal.
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  2.3120646        25.689607                    25.68961
## Dim.2  1.8818609        20.909565                    46.59917
## Dim.3  1.5642745        17.380827                    63.98000
## Dim.4  1.1272644        12.525161                    76.50516
## Dim.5  0.6428150         7.142388                    83.64755
## Dim.6  0.5820723         6.467470                    90.11502
## Dim.7  0.3856498         4.284998                    94.40002
## Dim.8  0.3281769         3.646410                    98.04643
## Dim.9  0.1758216         1.953574                   100.00000

El análisis de los valores propios (eigenvalues) muestra que las primeras cuatro dimensiones explican el 76.51% de la varianza total de los datos, lo que implica que capturan la mayor parte de la información relevante. La primera dimensión por sí sola representa el 25.69%, seguida por la segunda con 20.91%. A partir de la quinta dimensión, la contribución individual disminuye significativamente (<10%), lo que sugiere que las primeras cuatro dimensiones son suficientes para un análisis significativo en este conjunto de datos.

5.2.2. Resultado sobre las variables
##                             Dim.1       Dim.2      Dim.3      Dim.4       Dim.5
## acidez_fija           0.782267143  0.02066733 -0.1924316 -0.3339131  0.34737069
## acidez_volatil       -0.600678131  0.28354605 -0.4002158  0.1970254  0.49165787
## acido_citrico         0.875637539 -0.05266451  0.1880586 -0.1763535  0.20103328
## cloruros              0.352152993  0.37788296 -0.1386748  0.7091891  0.21454195
## dioxido_azufre_libre -0.165966599  0.58067415  0.6727931 -0.1231576  0.02264248
## dioxido_azufre_total -0.114961813  0.69614375  0.5593736 -0.1520866  0.13714617
## densidad              0.331286575  0.57353421 -0.5068758 -0.2214202 -0.20930560
## sulfatos              0.545915668  0.10390397  0.2492305  0.5846008 -0.25692921
## alcohol               0.004453013 -0.70280166  0.4773750  0.1175358  0.25462770

  • Dimensión 1 (Dim.1): Esta dimensión está altamente influenciada por las variables ácido cítrico (0.876), acidez fija (0.782) y sulfatos (0.546). Estas variables muestran una fuerte relación positiva con la Dim.1, lo que sugiere que esta dimensión podría estar asociada a características estructurales de los líquidos (como estabilidad y composición química).

  • Dimensión 2 (Dim.2): Variables como dióxido de azufre libre (0.581) y dióxido de azufre total (0.696) tienen una fuerte correlación positiva con esta dimensión. Esto sugiere que Dim.2 podría estar asociada con la presencia y regulación de conservantes en el líquido.

  • Dimensión 3 (Dim.3): La Dim.3 está principalmente influenciada por el dióxido de azufre libre (0.673) y el dióxido de azufre total (0.559), lo que refuerza la interpretación sobre el rol de estos compuestos en las características secundarias.

  • Dimensión 4 (Dim.4): Las variables cloruros (0.709) y sulfatos (0.585) están asociadas positivamente con esta dimensión, lo que indica que aquí se capturan características relacionadas con la composición mineral del líquido.

  • Dimensión 5 (Dim.5): La Dim.5 muestra asociaciones interesantes con acidez volátil (0.492) y acidez fija (0.347), lo que implica que podría capturar diferencias en la naturaleza ácida de los líquidos.

5.2.3. Correlación entre las variables
##                             Dim.1       Dim.2      Dim.3      Dim.4       Dim.5
## acidez_fija           0.782267143  0.02066733 -0.1924316 -0.3339131  0.34737069
## acidez_volatil       -0.600678131  0.28354605 -0.4002158  0.1970254  0.49165787
## acido_citrico         0.875637539 -0.05266451  0.1880586 -0.1763535  0.20103328
## cloruros              0.352152993  0.37788296 -0.1386748  0.7091891  0.21454195
## dioxido_azufre_libre -0.165966599  0.58067415  0.6727931 -0.1231576  0.02264248
## dioxido_azufre_total -0.114961813  0.69614375  0.5593736 -0.1520866  0.13714617
## densidad              0.331286575  0.57353421 -0.5068758 -0.2214202 -0.20930560
## sulfatos              0.545915668  0.10390397  0.2492305  0.5846008 -0.25692921
## alcohol               0.004453013 -0.70280166  0.4773750  0.1175358  0.25462770

5.2.4. Análisis del coseno cuadrado
##                             Dim.1        Dim.2      Dim.3      Dim.4
## acidez_fija          6.119419e-01 0.0004271385 0.03702994 0.11149797
## acidez_volatil       3.608142e-01 0.0803983626 0.16017268 0.03881901
## acido_citrico        7.667411e-01 0.0027735501 0.03536604 0.03110055
## cloruros             1.240117e-01 0.1427955340 0.01923070 0.50294913
## dioxido_azufre_libre 2.754491e-02 0.3371824723 0.45265058 0.01516780
## dioxido_azufre_total 1.321622e-02 0.4846161141 0.31289879 0.02313034
## densidad             1.097508e-01 0.3289414872 0.25692303 0.04902692
## sulfatos             2.980239e-01 0.0107960343 0.06211583 0.34175807
## alcohol              1.982933e-05 0.4939301668 0.22788687 0.01381467
##                             Dim.5
## acidez_fija          0.1206663963
## acidez_volatil       0.2417274589
## acido_citrico        0.0404143793
## cloruros             0.0460282487
## dioxido_azufre_libre 0.0005126819
## dioxido_azufre_total 0.0188090715
## densidad             0.0438088330
## sulfatos             0.0660126205
## alcohol              0.0648352639

  • Dim.1: Las variables más representadas son ácido cítrico (0.767) y acidez fija (0.612), indicando que esta dimensión describe propiedades químicas estructurales.

  • Dim.2: Relacionada con alcohol (0.494) y dióxido de azufre total (0.485), asociada al contenido alcohólico y conservantes.

  • Dim.3: Fuerte representación de dióxido de azufre libre (0.453), capturando patrones de conservantes secundarios.

  • Dim.4: Dominada por cloruros (0.503), vinculada a propiedades minerales.

  • Dim.5: Resalta acidez volátil (0.242), ligada a características químicas específicas.

5.2.5. Analisis de contribuciones
##                             Dim.1       Dim.2     Dim.3     Dim.4       Dim.5
## acidez_fija          2.646734e+01  0.02269767  2.367228  9.891021 18.77156024
## acidez_volatil       1.560572e+01  4.27227986 10.239423  3.443647 37.60451704
## acido_citrico        3.316262e+01  0.14738338  2.260859  2.758940  6.28709383
## cloruros             5.363679e+00  7.58799638  1.229369 44.616782  7.16041972
## dioxido_azufre_libre 1.191356e+00 17.91750280 28.936775  1.345541  0.07975575
## dioxido_azufre_total 5.716198e-01 25.75196309 20.002806  2.051900  2.92604759
## densidad             4.746874e+00 17.47958599 16.424422  4.349194  6.81515461
## sulfatos             1.288995e+01  0.57368929  3.970903 30.317471 10.26930380
## alcohol              8.576459e-04 26.24690153 14.568215  1.225504 10.08614742
  • Dim.1

Dimensión 1: Dominada por ácido cítrico (33.16%) y acidez fija (26.47%), esta dimensión captura propiedades químicas fundamentales del líquido, como estabilidad estructural.

  • Dim.2

Dimensión 2: Influida por alcohol (26.25%) y dióxido de azufre total (25.75%), reflejando características relacionadas con contenido alcohólico y conservantes.

  • Dim.3

Dimensión 3: Las principales contribuciones provienen de dióxido de azufre libre (28.94%) y dióxido de azufre total (20.00%), centradas en patrones secundarios de conservantes.

  • Dim.4

Dimensión 4: Resaltan los cloruros (44.62%) y sulfatos (30.32%), indicando una relación fuerte con la composición mineral.

  • Dim.5

Dimensión 5: Acidez volátil (37.60%) domina, destacando diferencias químicas volátiles.

5.2.6. Analisis de los individuos

## Principal Component Analysis Results for individuals
##  ===================================================
##   Name       Description                       
## 1 "$coord"   "Coordinates for the individuals" 
## 2 "$cos2"    "Cos2 for the individuals"        
## 3 "$contrib" "contributions of the individuals"
##       Dim.1     Dim.2      Dim.3       Dim.4      Dim.5
## 1 -1.529084 0.4305186 -1.4872692  0.05874528 -0.3434879
## 2 -1.675078 1.6953281 -0.4369718  0.58851247  0.5860479
## 3 -1.271318 0.8720461 -0.8952599  0.35867293  0.1331303
## 4  2.094941 0.3303452  0.1865826 -1.61272660  0.1223235
## 5 -1.529084 0.4305186 -1.4872692  0.05874528 -0.3434879
## 6 -1.475776 0.5580337 -1.2315175 -0.03090445 -0.4434476

  • Distanias
##       Dim.1      Dim.2       Dim.3        Dim.4       Dim.5
## 1 0.4723190 0.03744178 0.446839683 0.0006971377 0.023833912
## 2 0.3687489 0.37771857 0.025093874 0.0455168470 0.045136411
## 3 0.4321594 0.20333610 0.214305767 0.0343979668 0.004739028
## 4 0.5631342 0.01400245 0.004466946 0.3337257735 0.001919941
## 5 0.4723190 0.03744178 0.446839683 0.0006971377 0.023833912
## 6 0.5032699 0.07195834 0.350462466 0.0002207000 0.045440694
  • cos2

  • contribuciones
##        Dim.1       Dim.2       Dim.3        Dim.4       Dim.5
## 1 0.06324329 0.006159535 0.088433694 0.0001914572 0.011478585
## 2 0.07589645 0.095514988 0.007633882 0.0192148528 0.033414253
## 3 0.04371797 0.025272194 0.032043273 0.0071371189 0.001724326
## 4 0.11871216 0.003626602 0.001391813 0.1442936511 0.001455745
## 5 0.06324329 0.006159535 0.088433694 0.0001914572 0.011478585
## 6 0.05891043 0.010348676 0.060634490 0.0000529868 0.019131550
  • contribuciones

  • Distancias
##        1        2        3        4        5        6 
## 2.224917 2.758478 1.933892 2.791682 2.224917 2.080271

5.3. Análisis de Correspondencias

##            pH        calidad     azucar_residual
##  Ácido Bajo : 349   Bajo :744   Seco     :1474  
##  Ácido Medio:1233   Medio:837   Semi-seco: 117  
##  Ácido Alto :  17   Alta : 18   Dulce    :   8
Res.MCA <- MCA(df, graph = FALSE)
Res.MCA
## **Results of the Multiple Correspondence Analysis (MCA)**
## The analysis was performed on 1599 individuals, described by 3 variables
## *The results are available in the following objects:
## 
##    name              description                       
## 1  "$eig"            "eigenvalues"                     
## 2  "$var"            "results for the variables"       
## 3  "$var$coord"      "coord. of the categories"        
## 4  "$var$cos2"       "cos2 for the categories"         
## 5  "$var$contrib"    "contributions of the categories" 
## 6  "$var$v.test"     "v-test for the categories"       
## 7  "$var$eta2"       "coord. of variables"             
## 8  "$ind"            "results for the individuals"     
## 9  "$ind$coord"      "coord. for the individuals"      
## 10 "$ind$cos2"       "cos2 for the individuals"        
## 11 "$ind$contrib"    "contributions of the individuals"
## 12 "$call"           "intermediate results"            
## 13 "$call$marge.col" "weights of columns"              
## 14 "$call$marge.li"  "weights of rows"
eig <- get_eigenvalue(Res.MCA)
eig
##       eigenvalue variance.percent cumulative.variance.percent
## Dim.1  0.3607331         18.03665                    18.03665
## Dim.2  0.3525136         17.62568                    35.66233
## Dim.3  0.3405626         17.02813                    52.69046
## Dim.4  0.3266083         16.33042                    69.02088
## Dim.5  0.3115191         15.57595                    84.59683
## Dim.6  0.3080633         15.40317                   100.00000

Dim.1 y Dim.2 son las dimensiones más relevantes, explicando juntas el 35.66% de la varianza acumulada, lo que sugiere que capturan los principales patrones en los datos.

Dim.3 y Dim.4 aumentan la varianza acumulada al 69.02%, indicando que estas dimensiones también contribuyen de manera importante a describir las características secundarias.

Dimensiones 5 y 6 explican el restante 30.98%, pero su interpretación es menos relevante para los patrones generales.

fviz_screeplot(Res.MCA, 
               addlabels = TRUE,               # Mostrar etiquetas con los porcentajes
               barfill = "steelblue",          # Color de las barras
               barcolor = "darkblue",          # Contorno de las barras
               title = "Gráfico de Codo (Scree Plot)",  # Título personalizado
               ylim = c(0, 50),                # Limitar el rango del eje Y para claridad
               ggtheme = theme_minimal())      # Tema moderno y limpio

fviz_mca_biplot(Res.MCA, 
                repel = TRUE,                # Evitar solapamiento de etiquetas
                geom = c("point", "text"),   # Mostrar puntos y etiquetas
                col.ind = "steelblue",       # Color para los individuos
                col.var = "red",      # Color para las variables
                alpha.ind = 0.7,             # Transparencia para los puntos de individuos
                alpha.var = 0.9,             # Transparencia para las variables
                title = "Biplot del Análisis de Correspondencia Múltiple (ACM)", # Título personalizado
                ggtheme = theme_minimal())   # Tema moderno y limpio

var <- get_mca_var(Res.MCA)
var
## Multiple Correspondence Analysis Results for variables
##  ===================================================
##   Name       Description                  
## 1 "$coord"   "Coordinates for categories" 
## 2 "$cos2"    "Cos2 for categories"        
## 3 "$contrib" "contributions of categories"
var$coord
##                  Dim 1      Dim 2       Dim 3        Dim 4      Dim 5
## Ácido Bajo   1.2215738  0.6362468 -0.15718675 -0.007870617 -0.1475251
## Ácido Medio -0.3018838 -0.2669971  0.04089138  0.020574188 -0.0468971
## Ácido Alto  -3.1827346  6.3033678  0.26112383 -1.330654604  6.4300233
## Bajo         0.4076811 -0.3383404  0.31532472 -0.817900868  0.2920704
## Medio       -0.3528532  0.1870546 -0.39656642  0.740934756 -0.1492585
## Alta        -0.4431438  5.2866979  5.40691655 -0.646896960 -5.1317222
## Seco        -0.1271403  0.0301947 -0.14853144 -0.173970547 -0.1082565
## Semi-seco    1.0380236 -0.6440721  2.26069259  2.070783525  1.3237431
## Dulce        8.2445010  3.8561805 -5.69571133  1.768864164  0.5865229

Ácido Alto y Dulce tienen coordenadas altas en las dimensiones principales:

Ácido Alto (Dim.2: 6.30, Dim.5: 6.43): Su contribución significativa en estas dimensiones sugiere que estas categorías son outliers o están estrechamente asociadas con componentes específicos.

Dulce (Dim.1: 8.24, Dim.2: 3.86): La categoría Dulce tiene un impacto alto en Dim.1, indicando que juega un papel clave en describir la variabilidad en esa dimensión.

Ácido Medio y Seco tienen coordenadas más cercanas al origen en todas las dimensiones, lo que implica que estas categorías están menos diferenciadas o distribuidas uniformemente en el espacio multidimensional.

fviz_mca_var(Res.MCA, col.var = "coord", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repail = TRUE)

var$cos2
##                   Dim 1      Dim 2        Dim 3        Dim 4       Dim 5
## Ácido Bajo  0.416634118 0.11302294 0.0068983826 1.729549e-05 0.006076416
## Ácido Medio 0.307016492 0.24015683 0.0056330746 1.426026e-03 0.007409244
## Ácido Alto  0.108853725 0.42696054 0.0007327156 1.902712e-02 0.444291016
## Bajo        0.144626509 0.09961265 0.0865212670 5.821142e-01 0.074230436
## Medio       0.136759845 0.03843326 0.1727437560 6.030182e-01 0.024470841
## Alta        0.002235784 0.31820692 0.3328434148 4.764429e-03 0.299824358
## Seco        0.190613558 0.01075100 0.2601502528 3.568937e-01 0.138196076
## Semi-seco   0.085065239 0.03274965 0.4034787617 3.385377e-01 0.138339152
## Dulce       0.341781503 0.07477123 0.1631232059 1.573290e-02 0.001729776

El cos² mide qué tan bien están representadas las categorías en las dimensiones principales:

Ácido Bajo:

Altamente representado en Dim.1 (cos² = 0.42), indicando que esta dimensión explica gran parte de su varianza.

Baja representación en otras dimensiones, mostrando que su contribución es específica a Dim.1.

Ácido Alto:

Representado en Dim.2 (cos² = 0.43) y Dim.5 (cos² = 0.44), sugiriendo que estas dimensiones son esenciales para comprender las propiedades específicas de esta categoría.

Dulce:

Su alta calidad de representación en Dim.1 (cos² = 0.34) refuerza su relevancia en esta dimensión.

fviz_mca_var(Res.MCA, col.var = "cos2", gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repail = TRUE)