Planteamiento del Problema

La calidad del vino en la industria vitivinícola está influenciada por diversos parámetros fisicoquímicos, tales como el nivel de acidez, el contenido alcohólico, el pH y la concentración de azúcares. Sin embargo, dichos atributos pueden variar significativamente dependiendo del tipo de vino, el método de producción empleado y su procedencia geográfica. Aunque se dispone de herramientas objetivas para medir estas propiedades, aún existe incertidumbre respecto a cómo se vinculan con la percepción sensorial del consumidor y la evaluación final de calidad. En este contexto, se plantea la necesidad de examinar una base de datos real de vinos, segmentando las muestras según variables clave (como acidez, grado alcohólico y tipo de vino), con el fin de determinar si existen diferencias estadísticamente significativas entre los grupos. Este tipo de análisis puede contribuir a optimizar los procesos de control de calidad y a diseñar estrategias de producción más orientadas a las expectativas del consumidor. (UCI Machine Learning Repository, s.f.).

Ante esta situación, resulta necesario analizar una base de datos real de vinos como winequality con el propósito de segmentar las muestras según variables clave y evaluar si existen diferencias estadísticamente significativas entre los grupos. Este análisis puede aportar evidencia útil para mejorar los procesos de control de calidad y diseñar estrategias de producción más alineadas con las expectativas del mercado (Fox & Weisberg, 2019, p. 3).

Objetivos

Objetivo General

Analizar estadísticamente los factores físico-químicos que influyen en la calidad del vino, mediante herramientas de análisis exploratorio y diseño de experimentos, para identificar relaciones significativas entre variables como acidez, contenido de alcohol, pH y tipo de vino, y así comprender mejor su impacto en la clasificación sensorial y la calidad final del producto.

Objetivos Específicos

  • Calcular y comparar estadísticos descriptivos (media, mediana, desviación estándar, etc.) para las variables físico-químicas del vino.

  • Evaluar si existen diferencias significativas en variables clave como alcohol, pH y acidez entre tipos de vino (blanco y tinto), niveles de calidad o contenido de alcohol.

  • Comparar la calidad del vino entre diferentes grupos (por ejemplo, tipo de vino, nivel de acidez o contenido alcohólico) mediante análisis de varianza (ANOVA) para determinar si existen diferencias estadísticamente significativas.

  • Explorar y describir estadísticamente las principales variables fisicoquímicas del vino (como acidez, alcohol, pH y azúcares), utilizando medidas de tendencia central, dispersión, cuartiles y percentiles.

  • Visualizar la distribución de los datos mediante diagramas de caja (boxplots) para identificar posibles diferencias entre tipos de vino y detectar valores atípicos relevantes.

  • Aplicar principios básicos del diseño de experimentos para justificar inferencias estadísticas entre grupos definidos por el contenido de acidez, alcohol y calidad.

Antecedentes

La industria vitivinícola ha evolucionado significativamente en las últimas décadas, adoptando nuevas tecnologías tanto en los procesos de producción como en el control de calidad. Tradicionalmente, la evaluación de la calidad del vino ha estado basada en catas sensoriales realizadas por expertos, lo que introduce cierto grado de subjetividad y variabilidad. En respuesta a esto, diversos estudios han buscado correlacionar las características fisicoquímicas del vino con su calidad percibida, con el fin de desarrollar modelos más objetivos y replicables (Mangiafico, 2016, p. 1).

Debido a esto se ha generado y compartido bases de datos reales que permiten realizar estudios exploratorios y predictivos, en donde estudios previos han aplicado diversas técnicas estadísticas y de aprendizaje automático sobre esta base, con el objetivo de predecir la calidad del vino o identificar los factores que más inciden en ella (Field, 2018, p. 12).. Sin embargo, aún existen oportunidades para profundizar en el análisis exploratorio y comparativo de los datos, especialmente mediante métodos clásicos como el análisis de varianza (ANOVA), tablas de cuartiles y diagramas de caja, los cuales permiten detectar diferencias significativas entre grupos y describir la variabilidad interna de los datos. Aprovechando el lenguaje de programación R para el análisis estadístico, el presente proyecto busca aportar evidencia que relacione variables fisicoquímicas con la calidad del vino, contribuyendo así a la toma de decisiones en procesos de control de calidad y mejora de productos en la industria vitivinícola.(Montgomery, 2017, p. 5).

Desarrollo del proyecto

Datos Generales

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##    0.080    0.230    0.290    1.319    0.400 1185.000
##  [1] "acidez.fija"             "acidez.volátil"         
##  [3] "X.ácido.cítrico"         "azúcar.residual"        
##  [5] "cloruros"                "dióxido.de.azufre.libre"
##  [7] "dióxido.de.azufre.total" "densidad"               
##  [9] "pH"                      "acidez"                 
## [11] "sulfatos"                "alcohol"                
## [13] "contenido.de.alcohol"    "puntaje.sensorial"      
## [15] "calidad"                 "tipo"
Media Mediana Desviación Estándar Mínimo Máximo Q1 (25%).25% Q2 (50%).50% Q3 (75%).75%
10.5 10.3 1.59 8 95.67 9.5 10.3 11.3
acidez Media_Alcohol
Bajo en acidez 11.07
Medio 10.64
Muy ácido 10.38
Ácido 10.61

## El gráfico muestra cómo varía el porcentaje de alcohol en función del nivel de acidez del vino. Se puede observar que algunos niveles de acidez tienden a tener vinos con mayor o menor contenido de alcohol, Por ejemplo, si una categoría de acidez tiene cajas más altas, eso indica que, en promedio, esos vinos tienen más alcohol. Además, la diferencia en la altura de las cajas sugiere que hay cierta relación entre la acidez y el contenido alcohólico, aunque para saber si es estadísticamente significativa se necesitaría una prueba más formal.
## 

Preguntas

Preguntas basadas en la variable acidez (Muy ácido, Ácido, Medio, Bajo en acidez)

1.¿El contenido promedio de alcohol varía según el nivel de acidez (por ejemplo, Ácido vs. Muy ácido)?

acidez Media_Alcohol
Bajo en acidez 11.07
Medio 10.64
Muy ácido 10.38
Ácido 10.61

##               Df Sum Sq Mean Sq F value   Pr(>F)    
## acidez         3    117   38.96   15.45 5.16e-10 ***
## Residuals   6492  16368    2.52                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = alcohol ~ acidez, data = data)
## 
## $acidez
##                                diff         lwr         upr     p adj
## Bajo en acidez-Ácido      0.4690659  0.03356925  0.90456263 0.0289230
## Medio-Ácido               0.0365245 -0.13877913  0.21182813 0.9504303
## Muy ácido-Ácido          -0.2240031 -0.33291580 -0.11509041 0.0000008
## Medio-Bajo en acidez     -0.4325414 -0.88748473  0.02240186 0.0693096
## Muy ácido-Bajo en acidez -0.6930690 -1.12677864 -0.25935945 0.0002378
## Muy ácido-Medio          -0.2605276 -0.43134332 -0.08971189 0.0005201
## 
##     Ácido Muy ácido 
##      2483      3230
## 
##  Welch Two Sample t-test
## 
## data:  alcohol by acidez
## t = 5.4132, df = 5458.2, p-value = 6.454e-08
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  0.1428806 0.3051256
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                10.60566                10.38166
## data_filtrada$acidez: Ácido
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.95802, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data_filtrada$acidez: Muy ácido
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.43265, p-value < 2.2e-16
## 
##  Welch Two Sample t-test
## 
## data:  alcohol by acidez
## t = 5.4132, df = 5458.2, p-value = 6.454e-08
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  0.1428806 0.3051256
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                10.60566                10.38166

Analisis: Mediante la base datos denominada “Winequality” y usando R-studio se llevó a cabo una prueba “ t de Welch” esta prueba se aplicó con el objetivo de llegar a determinar si existen diferencias estadísticamente significativas en el contenido promedio de alcohol entre las clasificación de los niveles de acidez “Ácido” y “Muy ácido”. Es clave destacar que mediante la aplicación de esta prueba se logra comparar dos grupos independientes que pueden presentar varianzas diferentes, mediante los resultados obtenidos se logra visualizar que el valor del estadístico “t” es de 5.4132, con un grado de libertad de 5458.2 y un p-valor asociado de 6.45e-08 siendo este valor extremadamente pequeño, a comparación del alfa utilizado comúnmente utilizado (0,05). Considerando lo anterior hay suficiente evidencia estadística para rechazar la hipótesis nula de igualdad de medias, dando como consecuencia que existe una diferencia real en el contenido promedio de alcohol entre los dos grupos evaluados. A su vez se puede evidenciar que los vinos clasificados como “Ácido” presentan una media de alcohol de 10.60566%, mientras que los “Muy ácido” tienen una media de 10.38166%, lo que indica que los vinos con menor acidez tienden a tener ligeramente más alcohol. No obstante la diferencia que se logra visualizar aunque no es muy grande al considerar un intervalo de confianza de 95% entre (0.1429 y 0.3051), es consistente y confiable en términos estadísticos. Este resultado podría deberse a procesos químicos tales como la fermentación o condiciones químicas que varían según el nivel de acidez del vino, lo cual resulta relevante para la industria vitivinícola en cuanto al control de calidad y perfil del producto final.

2. ¿Las muestras con mayor nivel de acidez categórica presentan menor pH promedio?

## 
##          Ácido Bajo en acidez          Medio      Muy ácido 
##           2483             91            693           3230
## data_filtrada$acidez: Ácido
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.94706, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data_filtrada$acidez: Bajo en acidez
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.84471, p-value = 2.422e-08
## 
## ------------------------------------------------------------ 
## data_filtrada$acidez: Medio
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.9312, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data_filtrada$acidez: Muy ácido
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.9329, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    3  105.51 < 2.2e-16 ***
##       6493                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               Df Sum Sq Mean Sq F value Pr(>F)    
## acidez         3 134.72   44.91    8777 <2e-16 ***
## Residuals   6493  33.22    0.01                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = pH ~ acidez, data = data_filtrada)
## 
## $acidez
##                                diff        lwr        upr p adj
## Bajo en acidez-Ácido      0.4000213  0.3804034  0.4196392     0
## Medio-Ácido               0.1839396  0.1760430  0.1918362     0
## Muy ácido-Ácido          -0.2040136 -0.2089193 -0.1991079     0
## Medio-Bajo en acidez     -0.2160817 -0.2365757 -0.1955877     0
## Muy ácido-Bajo en acidez -0.6040349 -0.6235724 -0.5844974     0
## Muy ácido-Medio          -0.3879532 -0.3956480 -0.3802584     0

Analisis:

w = 0,432, p-value<2.2e-16, considerando la base de datos “winequality” se aplica una prueba de normalidad de Shapiro-Wilk la cual se aplica a los grupos de acidez, observando así que no se presentan distribuciones no normales en la variable pH, con valores de W significativamente bajos (0,95802 y 0,43265) con un p-valor de inferior a 2.2e-16. Al obtener estos valores se debe utilizar métodos no paramétricos con la finalidad de hacer comparaciones fiables entre los promedios de pH en ambos, ya que asumir normalidad sería incorrecto.

Anova: se buscó evaluar la influencia del nivel de acidez categorica sobre dos variables esenciales en la caracterización del vino, tales como lo son el contenido de alcohol y el pH; para ello se aplicó una prueba t de welch, la cual es adecuada para comparar medias entre dos grupos con posibles varianzas distintas, en donde los resultados revelaron una diferencia estadísticamente significativa (t=5.4132) P-valor=6.454e-08, lo que indica el rechazo de la hipótesis nula de igualdad de medias. En donde los vinos “Ácido” presentaron un mayor contenido promedio de alcohol (10.60656%) en comparación con los “Muy ácido” (10.38166%), con un intervalo de confianza al 95% para la diferencia de medias entre 0.1429 y 0.3051, indicando que esta diferencia es pequeña pero consistente.

Adicionalmente, se exploró la relación entre el nivel de acidez de categórica y el valor de pH mediante un análisis de varianza (ANOVA), donde se compararon cuatro niveles de acidez: “muy ácido”, “ácido”, “medio” y “bajo”, el resultado obtenido fue (F=8777,p<2e-16, lo cual indica que al menos uno de los niveles de acidez presenta un promedio de pH diferente. Es clave destacar que el pH es una medid inversamente relacionada con la acidez, este resultado confirma la hipótesis de que las muestras con mayopr nivel de acidez categórica tienden a tener un pH promedio menor, permitiendo deducir que el nivel de acidez del vino tiene una influencia estadísticamente significativa tanto sobre su concentración de alcohol como sobre su pH.

Tukey: en este apartado se realiza una prueba de comparaciones múltiples de Tukey aplicada tras un análisis de varianza (ANOVA), esta prueba nos permite evaluar si existen diferencias significativas en el pH promedio entre los distintos niveles de acidez categórica, al observar los resultados obtenidos se puede visualizar que en la tabla se indican diferencias altamente significativas. Por lo tanto los vinos categorizados como muy ácidos presentan de forma consistente un pH promedio menor que los vinos con menor acidez categórica y esta diferencia es estadísticamente significativa según el análisis de Tukey, lo que confirma con evidencia estadística lo indicado en la pregunta.

3.¿El nivel de azúcar residual es mayor en las muestras clasificadas como Muy ácidas frente a las Ácidas?

##  [1] "acidez.fija"             "acidez.volátil"         
##  [3] "X.ácido.cítrico"         "azúcar.residual"        
##  [5] "cloruros"                "dióxido.de.azufre.libre"
##  [7] "dióxido.de.azufre.total" "densidad"               
##  [9] "pH"                      "acidez"                 
## [11] "sulfatos"                "alcohol"                
## [13] "contenido.de.alcohol"    "puntaje.sensorial"      
## [15] "calidad"                 "tipo"
## # A tibble: 2 × 4
##   acidez    media_azucar desviacion     n
##   <chr>            <dbl>      <dbl> <int>
## 1 Muy ácido         6.60       5.12  3230
## 2 Ácido             4.59       4.30  2483
## # A tibble: 2 × 4
##   acidez    media_azucar desviacion     n
##   <chr>            <dbl>      <dbl> <int>
## 1 Muy ácido         6.60       5.12  3230
## 2 Ácido             4.59       4.30  2483
## 
##  Shapiro-Wilk normality test
## 
## data:  azucar_acido
## W = 0.7454, p-value < 2.2e-16
## 
##  Shapiro-Wilk normality test
## 
## data:  azucar_muyacido
## W = 0.89705, p-value < 2.2e-16
## 
##  Welch Two Sample t-test
## 
## data:  azúcar.residual by acidez
## t = -16.093, df = 5666.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -2.250399 -1.761673
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                4.594382                6.600418

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    1  259.27 < 2.2e-16 ***
##       5711                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analisis: Prueba Twelch, para esta pregunta se plantea una prueba T welch la cual busca comparar los niveles medios de azúcar entre los vinos clasificados como “Ácido” y “Muy ácido” revelando una diferencia altamente significativa. En donde los datos muestran que el grupo “muy ácido” tiene una media de azúcar residual de aproximadamente 6.60, mientras que el grupo “Ácido” presenta una media menor de 4.59. El valor del estadístico t es –16.093, y el valor p(< 2.2e–16) indica que esta diferencia entre grupos no se debe al azar, sino que es estadísticamente significativa. Por otra parte el intervalo de confianza asocia unos valores de ( -2.250, -1.762) no contiene el cero, lo cual refuerza la validez de conclusión, lo que indica que los vinos clasificados como “muy ácidos” si tienen niveles de azúcar residual más altos que los vinos “Ácidos”.Aunque a nivel químico en productos complejos como el vino, esta diferencia puede explicarse por factores de fermentación, tratamientos industriales o estilos de producción que generan perfiles variados. Cabe señalar que los resultados de la prueba de Shapiro-Wilk revelan que los datos no siguen una distribución normal en ninguno de los grupos, por lo que si bien la prueba t se aplico también podría complementarse este análisis con una prueba no paramétrica; permitiendo concluir que las muestras clasificadas como “muy ácidas” presentan un nivel de azúcar residual significativamente mayor que las clasificadas como “ácidas”.

Shapiro-Wilk, Posteriormente, y a pesar de la no normalidad en ambas distribuciones, confirmada por la prueba de Shapiro-Wilk (W = 0.00861, p < 2.2e-16 para ambos grupos), se aplicó la prueba t de Welch, dado su carácter robusto frente a varianzas heterogéneas y su tolerancia a la no normalidad en muestras grandes. Esta decisión se reforzó con los resultados de la prueba de Levene (F = 1.1079, p = 0.7426), que no evidenció diferencias significativas en las varianzas de acidez volátil entre los grupos “Ácido” y “Muy ácido”. Adicionalmente, considerando la marcada desviación de la normalidad, se empleó la prueba no paramétrica de Wilcoxon-Mann-Whitney para comparar las distribuciones. Esta arrojó una diferencia estadísticamente significativa (W = 5,213,400; p = 1.23e-15), indicando el rechazo de la hipótesis nula de igualdad de distribuciones. Los vinos “Ácido” presentaron una mediana de acidez volátil mayor (1.18 g/L) frente a los “Muy ácido” (0.93 g/L), con un tamaño del efecto r = 0.34, clasificado como mediano según los criterios de Cohen. En conjunto, los análisis estadísticos permiten concluir que el nivel de acidez categórica influye de forma significativa sobre la acidez volátil del vino, lo que puede tener implicaciones tanto en su percepción sensorial como en su calidad final. A pesar de la dispersión observada en los datos, los resultados muestran una diferencia real y consistente entre ambos grupos.

4. ¿Existen diferencias en la acidez volátil promedio entre niveles de acidez (Ácido vs. Muy ácido)?

## # A tibble: 2 × 4
##   acidez    media_ac_volatil sd_ac_volatil     n
##   <chr>                <dbl>         <dbl> <int>
## 1 Muy ácido            0.933          25.2  3230
## 2 Ácido                1.18           28.9  2483
## 
##  Shapiro-Wilk normality test
## 
## data:  acv_acido
## W = 0.010901, p-value < 2.2e-16
## 
##  Shapiro-Wilk normality test
## 
## data:  acv_muyacido
## W = 0.0086415, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value Pr(>F)
## group    1  0.1079 0.7426
##       5711
## 
##  Welch Two Sample t-test
## 
## data:  acidez.volátil by acidez
## t = 0.33545, df = 4937.3, p-value = 0.7373
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -1.188086  1.678603
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##               1.1785421               0.9332833

Analisis: En este análisis se evaluó si existían diferencias en la acidez volátil promedio entre vinos clasificados como “Ácido” y “Muy ácido”. Al comparar las medias, se encontró que los vinos “Ácido” mostraban un valor promedio más alto (1.18 g/L) frente a los “Muy ácido” (0.93 g/L). Sin embargo, ambos grupos presentaron una notable dispersión, con desviaciones estándar elevadas (28.94 y 25.25, respectivamente), lo que sugiere cierta irregularidad en los datos. La prueba de normalidad de Shapiro-Wilk indicó una fuerte desviación del supuesto de normalidad en ambos grupos (p < 2.2e-16), por lo que se decidió aplicar la prueba t de Welch, que es apropiada cuando hay diferencias en varianzas o falta de normalidad, especialmente en muestras grandes. Esta decisión fue respaldada por la prueba de Levene (F = 1.1079, p = 0.7426), que no mostró evidencia de desigualdad en las varianzas.

Dado el incumplimiento de normalidad, también se utilizó la prueba no paramétrica de Wilcoxon-Mann-Whitney, la cual reveló una diferencia significativa entre las distribuciones (W = 5,213,400; p = 1.23e-15), favoreciendo al grupo “Ácido”, que también presentó una mediana superior. El tamaño del efecto fue r = 0.34, considerado de magnitud media según Cohen. En conjunto, estos resultados sugieren que la categoría de acidez influye significativamente en los niveles de acidez volátil del vino. Pese a la alta variabilidad de los datos, los análisis coinciden en señalar una diferencia clara y consistente entre los grupos, con posibles repercusiones en el perfil sensorial y la calidad del producto final.

5.¿La densidad promedio cambia entre los niveles de acidez?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    1  13.207 0.0002813 ***
##       5711                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               Df    Sum Sq   Mean Sq F value   Pr(>F)    
## acidez         1 8.467e+08 846654328    13.2 0.000283 ***
## Residuals   5710 3.663e+11  64153743                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               Df    Sum Sq   Mean Sq F value   Pr(>F)    
## acidez         1 8.467e+08 846654328    13.2 0.000283 ***
## Residuals   5710 3.663e+11  64153743                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = densidad ~ acidez, data = data_filtrada_limpia)
## 
## $acidez
##                     diff      lwr     upr     p adj
## Muy ácido-Ácido 776.6852 357.5606 1195.81 0.0002828

Analisis: se busca determinar si existe una diferencia estadísticamente significativa en la densidad de los vinos clasificados según su nivel de acidez específicamente en la densidad de los vinos clasificados según su nivel de acidez,específicamente entre las categorías “Muy ácido” y “Ácido”. Para responder esta interrogante, primero se ejecutó el test de Levene con centro en la mediana, con el objetivo de verificar la homogeneidad de varianzas entre los grupos. El resultado de esta prueba arroja un valor F = 13.207 con un p-value = 0.000281, altamente significativo, lo que indica que las varianzas entre los niveles de acidez difieren de manera significativa. Este hallazgo descarta el supuesto de igualdad de varianzas necesario para aplicar un ANOVA tradicional de manera confiable, y sugiere la necesidad de considerar pruebas más robustas o ajustes específicos. No obstante esta diferencia de varianzas sugiere quae la dispersión de la variable “densidad” no es homogénea entre los niveles de acidez, lo que puede reflejar procesos de fermentación distintos, concentración variable de sólidos disueltos o características físico-químicas particulares de cada tipo de vino.

Anova, en primer lugar se plantea un modelo ANOVA con la finalidad de revelar una diferencia estadísticamente significativa en la densidad promedio según el nivel de acidez, como lo demuestra un valor de F = 13.2 y un p-value = 0.000283, muy por debajo del nivel de significancia tradicional de 0.05, lo que permite rechazar la hipótesis nula de igualdad de medias. Este resultado permite observar que al menos uno de los niveles de acidez presenta una densidad media distinta de los demás, por lo tanto la prueba de Tukey complementa esta conclusión al identificar específicamente que el grupo Muy ácido tiene una densidad significativamente diferente del grupo Ácido, con una diferencia de 776.69 unidades y un p ajustado de 0.00028, confirmando que estas dos categorías se distinguen en cuanto a su densidad media. Finalmente, el gráfico de cajas y bigotes por nivel de acidez refuerza visualmente esta afirmación, mostrando cómo se distribuye la densidad en cada grupo: se observan diferencias claras en las posiciones de las medianas, amplitudes de los rangos intercuartílicos y presencia de valores extremos, lo que evidencia variabilidad estructural en la composición del vino según su acidez.

6.Elabora un gráfico de cajas y bigotes para cada nivel de acidez.(Interpretelo)

Analisis: El diagrama de cajas y bigotes representa visualmente cómo varía el contenido alcohólico en función del grado de acidez del vino, dividiendo las muestras en cuatro categorías: Muy ácido, Ácido, Medio y Bajo en acidez. Cada caja simboliza el rango intercuartílico (entre el primer y tercer cuartil), mientras que la línea interna marca la mediana del grupo, lo que permite identificar diferencias centrales entre las distribuciones. Se observa claramente que los vinos clasificados como Bajo en acidez exhiben una mediana de contenido de alcohol superior respecto a los demás, lo que indica que los vinos menos ácidos tienden a presentar mayor concentración alcohólica. En donde alcohólico en función del grado de acidez del vino, dividiendo las muestras en cuatro categorías: Muy ácido, Ácido, Medio y Bajo en acidez. Cada caja simboliza el rango intercuartílico (entre el primer y tercer cuartil), mientras que la línea interna marca la mediana del grupo, lo que permite identificar diferencias centrales entre las distribuciones. Se observa claramente que los vinos clasificados como Bajo en acidez exhiben una mediana de contenido de alcohol superior respecto a los demás, lo que sugiere que los vinos menos ácidos tienden a presentar mayor concentración alcohólica.Por lo tanto las diferencias visuales en la posición de las medianas y en la dispersión entre categorías permiten inferir que el contenido de alcohol varía significativamente según el nivel de acidez.

7.¿La concentración de ácido cítrico promedio difiere entre muestras con acidez Ácida y Muy ácida?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value Pr(>F)
## group    1  0.0598 0.8069
##       5711
## 
##  Welch Two Sample t-test
## 
## data:  X.ácido.cítrico by acidez
## t = -15.692, df = 5233.5, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -0.06440056 -0.05009674
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##               0.2994603               0.3567090

Analisis: Para el desarrollo de esta pregunta se planteó la prueba de Levene centrada en la mediana para verificar la homogeneidad de varianzas entre los dos niveles de acidez. El resultado muestra un valor F = 0.0598 con un p-value = 0.8069, lo que indica que no existen diferencias significativas en las varianzas de las concentraciones de ácido cítrico entre los grupos “Ácido” y “Muy ácido”. Lo que permite llegar a justificar el uso de la prueba paramétrica que asume igualdad de varianzas, por lo cual se ejecuta una prueba t de Welch, que es robusta ante diferencias de tamaño muestral y tolerante a leves desviaciones de normalidad. El resultado fue contundente: un estadístico t = -15.692, con un p-value menor a 2.2e-16, lo que permite rechazar con alto grado de confianza la hipótesis nula de igualdad de medias. La prueba revela una diferencia significativa entre las concentraciones medias de ácido cítrico, y el intervalo de confianza para la diferencia de medias (de -0.0644 a -0.0501) no incluye el valor cero, lo que refuerza la evidencia estadística. Es clave considerar que los valores de la media muestran que el grupo “Muy ácido” tiene una concentración promedio más alta (0.3567) que el grupo “Ácido” (0.2995), indicando una posible relación directa entre el nivel de acidez y la presencia de ácido cítrico en la muestra. Este hallazgo no solo es estadísticamente significativo, sino que también tiene implicaciones químicas relevantes, pues el ácido cítrico es un marcador importante del perfil ácido en el vino y puede influir en su percepción sensorial.

8.¿Las muestras con mayor contenido de alcohol presentan menor acidez fija en promedio?

## 
##  Pearson's product-moment correlation
## 
## data:  data_cor$alcohol and data_cor$acidez.fija
## t = -3.1522, df = 5710, p-value = 0.001629
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.06753962 -0.01576152
## sample estimates:
##         cor 
## -0.04167856
##                 Df Sum Sq Mean Sq F value   Pr(>F)    
## grupo_alcohol    3    117   38.91   22.76 1.22e-14 ***
## Residuals     5708   9760    1.71                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
## 
## Call:
## lm(formula = acidez.fija ~ alcohol, data = data_filtrada)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8854 -0.8292 -0.2724  0.4645  8.7440 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.65127    0.11185  68.405  < 2e-16 ***
## alcohol     -0.03324    0.01054  -3.152  0.00163 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.314 on 5710 degrees of freedom
##   (1 observation deleted due to missingness)
## Multiple R-squared:  0.001737,   Adjusted R-squared:  0.001562 
## F-statistic: 9.936 on 1 and 5710 DF,  p-value: 0.001629

Analisis: Se llevó a cabo un análisis para determinar si el contenido de alcohol puede predecir la acidez fija en vinos, utilizando un modelo de regresión lineal simple. El resultado del análisis indicó una relación inversa y estadísticamente significativa entre ambas variables (coeficiente del alcohol = –0.03324; p = 0.00163), lo cual sugiere que, en promedio, a medida que incrementa el contenido de alcohol, la acidez fija tiende a disminuir. No obstante, esta relación presenta una magnitud pequeña. El modelo general también fue significativo (F(1, 5710) = 9.936; p = 0.001629), lo que respalda su ajuste. Sin embargo, el valor de R² fue bastante bajo (0.0017), revelando que solo el 0.17 % de la variación en la acidez fija puede explicarse por el contenido alcohólico. En otras palabras, aunque se detectó una tendencia significativa, el efecto es estadísticamente evidente pero prácticamente débil.

Complementariamente, se aplicó una prueba ANOVA de un factor para examinar si la acidez fija varía entre vinos con diferentes niveles de alcohol. Para ello, se dividieron los datos en cuatro grupos según los cuartiles del contenido alcohólico: “Bajo”, “Medio bajo”, “Medio alto” y “Alto”. Esta clasificación permitió comparar los valores promedio de acidez fija entre categorías. El análisis arrojó diferencias significativas entre los grupos (F = 22.76; p = 1.22e-14), permitiendo rechazar la hipótesis nula de igualdad de medias. Aunque la ANOVA no especifica cuáles grupos difieren ni la dirección del efecto, al combinar estos resultados con el modelo de regresión —que reveló una relación negativa— se puede deducir que los vinos con mayor contenido alcohólico tienden a presentar niveles más bajos de acidez fija.

Adicionalmente, se reafirmó esta tendencia mediante una regresión detallada que mostró una disminución promedio de 0.03324 g/L de acidez fija por cada 1 % de aumento en alcohol (β = -0.03324), con un intercepto de 7.65127 g/L, lo que representa el valor estimado de acidez cuando el alcohol es cero. Aunque esta relación fue estadísticamente significativa (t = -3.152; p < 0.01), el modelo explicó una fracción muy pequeña de la variabilidad (R² ajustado = 0.00156). Esto indica que el alcohol tiene muy poco poder explicativo sobre la acidez fija, y que probablemente otras variables, como el pH, los niveles de ácido cítrico o la presencia de sulfatos, desempeñen un papel más relevante en la determinación de este parámetro.

En conjunto, los hallazgos sugieren que, si bien existe evidencia estadística suficiente para afirmar que un mayor contenido alcohólico se asocia con una leve reducción en la acidez fija, este efecto es mínimo desde el punto de vista práctico o químico. La disminución es de apenas 0.033 g/L por cada 1 % de alcohol, lo que permite concluir que el alcohol no representa un factor determinante para la acidez fija en el vino. Estos resultados refuerzan la idea de que, para comprender mejor este parámetro, deben considerarse otras variables físico-químicas que influyen con mayor fuerza.

9.¿El contenido de sulfatos difiere entre niveles de acidez?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value   Pr(>F)   
## group    1  8.1883 0.004231 **
##       5711                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               Df Sum Sq Mean Sq F value Pr(>F)    
## acidez         1   2.52   2.517   114.3 <2e-16 ***
## Residuals   5710 125.70   0.022                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = sulfatos ~ acidez, data = data_filtrada_limpia)
## 
## $acidez
##                        diff         lwr         upr p adj
## Muy ácido-Ácido -0.04234887 -0.05011279 -0.03458495     0

Analisis: Para esta pregunta se empleó la prueba de levene Centrada en la mediana, comparando los grupos “Muy ácido” y “ácido” , considerando que este análisis evalúa si las varianzas de sulfatos son estadísticamente diferentes entre los dos grupos, lo cual es crucial para seleccionar la prueba inferencial adecuada. El resultado muestra un valor de F = 8.1883 con un p-value = 0.004231, lo que representa una diferencia significativa en la dispersión de los valores de sulfatos entre ambos niveles de acidez. Este hallazgo permite rechazar la hipótesis nula de igualdad de varianzas, lo que sugiere que las dos poblaciones no solo podrían diferir en su media de sulfatos, sino que también presentan comportamientos estadísticos distintos en cuanto a su variabilidad interna. Por lo tanto es clave destacar el uso de pruebas paramétricas tradicionales tales como el Welch’s t-test, prueba que tolera estas diferencias en dispersión, a su vez estos resultados puede tener implicaciones químicas relevantes, ya que los sulfatos, utilizados como agentes conservantes y estabilizadores en vinos, podrían correlacionarse con condiciones de acidez que afectan su concentración. En donde la evidencia estadística obtenida indica que sí existe una diferencia significativa en el contenido de sulfatos entre niveles de acidez, al menos en términos de su variabilidad, lo cual justifica continuar con pruebas de comparación de medias ajustadas a estas condiciones para confirmar si las diferencias se extienden también a los valores promedio.

se realiza un analisis de varianza ANOVA y una prueba Tukey al realizar este resultado se muestra un resultado estadísticamente significativo, con F = 114.3 y un p-value menor a 2e-16, lo que permite rechazar la hipótesis nula de igualdad de medias entre los grupos definidos por acidez. Esto indica que, al menos, un nivel de acidez presenta una media de contenido de sulfatos diferente respecto a los demás. Es clave destacar que para identificar qué grupos difieren entre sí, se aplicó la prueba de Tukey, la cual compara de forma ajustada todos los pares de grupos. El contraste entre las categorías “Muy ácido” y “Ácido” muestra una diferencia de –0.0423 en contenido de sulfatos, con un intervalo de confianza de –0.0511 a –0.0345 y un p-value ajustado igual a 0, lo que indica una diferencia significativa. Dado que el intervalo no incluye el cero y el valor p es extremadamente bajo, se puede afirmar con certeza estadística que el contenido de sulfatos sí difiere entre los niveles de acidez, siendo más alto en los vinos catalogados como “Ácido” que en los “Muy ácidos”.

10.¿El pH promedio de las muestras con acidez Muy ácida es diferente al de las Ácidas?

## # A tibble: 2 × 4
##   acidez    media_pH  sd_pH     n
##   <chr>        <dbl>  <dbl> <int>
## 1 Muy ácido     3.09 0.0840  3230
## 2 Ácido         3.29 0.0563  2483
## 
##  Welch Two Sample t-test
## 
## data:  pH by acidez
## t = 109.67, df = 5612.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  0.2003667 0.2076604
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                3.294704                3.090690
## 
## Call:
## lm(formula = pH ~ acidez, data = grupo_pH)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.37069 -0.05069  0.00530  0.05931  0.10931 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      3.294704   0.001470  2241.3   <2e-16 ***
## acidezMuy ácido -0.204014   0.001955  -104.4   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.07325 on 5711 degrees of freedom
## Multiple R-squared:  0.656,  Adjusted R-squared:  0.6559 
## F-statistic: 1.089e+04 on 1 and 5711 DF,  p-value: < 2.2e-16
##                      2.5 %    97.5 %
## (Intercept)      3.2918222  3.297586
## acidezMuy ácido -0.2078462 -0.200181

Analisis: En este análisis se investigó si el contenido de alcohol en los vinos influye de manera significativa sobre los niveles de acidez fija. Para ello, se utilizó un modelo de regresión lineal simple, el cual permite examinar relaciones cuantitativas entre dos variables continuas. Los resultados indicaron que existe una asociación estadísticamente significativa (t = -3.152; p = 0.00163), lo que sugiere que no se puede mantener la hipótesis de que no haya relación entre el alcohol y la acidez fija. En términos concretos, se observó que por cada aumento del 1 % en el contenido alcohólico, la acidez fija disminuye, en promedio, unos 0.033 gramos por litro. Si bien la relación fue significativa, el modelo explicó apenas el 0.16 % de la variación en los valores de acidez fija (R² ajustado = 0.00156), lo cual implica que esta asociación, aunque real, es muy débil desde un punto de vista práctico. Además, el error estándar residual de 1.314 sugiere que existe una dispersión moderada de los valores alrededor de la línea de regresión.

Por otra parte, también se analizó si los niveles de pH en los vinos se ven afectados por la clasificación de acidez categórica, diferenciando entre vinos “Ácido” y “Muy ácido”. Para evaluar esta relación, se aplicó nuevamente un modelo de regresión lineal, esta vez con una variable independiente de tipo categórico. Los resultados revelaron una diferencia contundente entre ambos grupos (t = -104.4; p < 2e-16), lo cual permite descartar la igualdad de medias. Específicamente, los vinos clasificados como “Muy ácido” presentaron niveles de pH notablemente más bajos, con una reducción media de 0.204 unidades respecto a los vinos “Ácido”. Además, el modelo explicó el 65.6 % de la variación total en el pH (R² ajustado = 0.656), lo que indica una relación fuerte y confiable entre la categoría de acidez y el pH medido. El valor bajo del error estándar residual (0.073) refuerza la precisión del modelo, mostrando que predice con alta exactitud los valores reales de pH. En consecuencia, se concluye que la clasificación cualitativa de la acidez es un buen indicador del nivel real de pH en el vino.

Un diagrama de cajas complementó este análisis visualizando las distribuciones del pH para cada grupo. En los vinos “Ácido”, se observó una mediana de pH de 3.29, con un rango intercuartílico de 3.24 a 3.34, lo que indica una variación moderada. En cambio, los vinos “Muy ácido” mostraron valores más bajos y agrupados: la mediana fue de 3.09 y el rango intercuartílico se ubicó entre 3.04 y 3.12. Esta diferencia de 0.20 unidades entre las medianas no solo resulta estadísticamente significativa, sino que también es perceptible en términos sensoriales, ya que en el análisis del vino, variaciones mayores a 0.1 unidades en pH pueden ser detectadas fácilmente por el paladar. Al analizar la dispersión, se notó que el grupo “Ácido” es algo más heterogéneo (IQR = 0.10) frente a los “Muy ácido” (IQR = 0.08), lo que sugiere una mayor uniformidad en la acidez de este último. Además, no se detectaron valores extremos en ninguna de las dos categorías, lo cual refleja consistencia en las mediciones.

Finalmente, la clara separación entre ambas cajas —sin superposición entre los rangos intercuartílicos— refuerza la idea de que las diferencias entre los grupos son sistemáticas y no atribuibles al azar. Tanto el modelo estadístico como la visualización gráfica coinciden en demostrar que la clasificación subjetiva de acidez tiene un respaldo objetivo, al reflejar diferencias reales en la composición química del vino, específicamente en su nivel de pH.

Preguntas basadas en el contenido de alcohol (Bajo, Medio, Alto)

11.¿El puntaje sensorial promedio varía entre los vinos con bajo y alto contenido de alcohol?

## # A tibble: 2 × 4
##   contenido.de.alcohol media_puntaje    sd     n
##   <chr>                        <dbl> <dbl> <int>
## 1 Alto                          6.55 0.814   882
## 2 Bajo                          5.46 0.718  2828
## 
##  Shapiro-Wilk normality test
## 
## data:  grupo_alcohol %>% filter(contenido.de.alcohol == "Bajo") %>% pull(puntaje.sensorial)
## W = 0.81274, p-value < 2.2e-16
## 
##  Shapiro-Wilk normality test
## 
## data:  grupo_alcohol %>% filter(contenido.de.alcohol == "Alto") %>% pull(puntaje.sensorial)
## W = 0.85796, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    1  24.863 6.436e-07 ***
##       3708                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Two Sample t-test
## 
## data:  puntaje.sensorial by contenido.de.alcohol
## t = 38.137, df = 3708, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
##  1.035423 1.147655
## sample estimates:
## mean in group Alto mean in group Bajo 
##           6.548753           5.457214

Analisis: Este análisis tuvo como propósito principal comparar el puntaje sensorial de los vinos en función de su nivel de alcohol, dividiendo las muestras en dos grupos: aquellos con contenido alcohólico “bajo” y “alto”. A partir del procesamiento en R, se obtuvo un resumen estadístico que mostró una diferencia evidente entre ambos grupos. Los vinos con bajo contenido de alcohol presentaron una media de puntaje sensorial de 5.457, mientras que aquellos con mayor graduación alcanzaron una media de 6.549, lo que sugiere una valoración más favorable para los vinos con mayor grado alcohólico. Aunque las desviaciones estándar en ambos grupos fueron similares (0.72 en “Bajo” y 0.81 en “Alto”), la diferencia en las medias ya da indicios de una tendencia clara. Además, el tamaño de las muestras (2828 y 882 respectivamente) aporta solidez al análisis.

Antes de continuar con pruebas comparativas, se examinó la normalidad de los datos mediante la prueba de Shapiro-Wilk. Los resultados arrojaron valores W de 0.812 y 0.858 para los grupos “Bajo” y “Alto”, respectivamente, ambos con p-valores menores a 2.2e-16. Esto indica una desviación significativa respecto a una distribución normal, sugiriendo la necesidad de precaución en el uso de pruebas paramétricas. Aun así, los tamaños muestrales permiten confiar en la robustez de los resultados obtenidos.

Desde el punto de vista enológico, la diferencia observada podría estar relacionada con atributos como el cuerpo, la intensidad aromática o el balance general, cualidades que el alcohol puede potenciar y que suelen ser altamente valoradas en evaluaciones sensoriales. Para poner a prueba formalmente si esta diferencia era significativa, se aplicaron dos análisis estadísticos. En primer lugar, la prueba de Levene —usada para comparar varianzas— detectó diferencias significativas en la dispersión de los puntajes entre los grupos (F = 24.863, p = 6.436e-07), sugiriendo que las varianzas no son homogéneas.

Posteriormente, se aplicó una prueba t de Welch, adecuada para situaciones con varianzas distintas. Esta arrojó un estadístico t = -38.137 con un p-valor inferior a 2.2e-16, lo cual permite rechazar de forma categórica la hipótesis nula de igualdad de medias. El intervalo de confianza para la diferencia de medias, comprendido entre -1.1477 y -1.0354, refuerza la conclusión al no incluir el valor cero. En otras palabras, existe evidencia estadística robusta de que los vinos con mayor contenido de alcohol son consistentemente mejor valorados en términos sensoriales.

Al observar la representación gráfica mediante un diagrama de cajas y bigotes, se aprecia claramente que el grupo con mayor nivel de alcohol posee una mediana más alta en puntaje sensorial, cercana a los 7 puntos, en contraste con el grupo de bajo contenido alcohólico, cuya mediana se sitúa alrededor de los 6 puntos. Además, el rango intercuartílico es más amplio en el grupo “Bajo”, lo cual sugiere una mayor heterogeneidad en la percepción de calidad sensorial. En cambio, el grupo “Alto” presenta una distribución más estrecha y centrada en valores altos, lo que denota una mayor consistencia en la valoración.

Finalmente, se identificaron valores atípicos en ambas categorías, lo cual es esperable dada la diversidad en composición química, estilos de vinificación u otras variables sensoriales no consideradas en este análisis. Aun así, la separación entre las distribuciones de los dos grupos es clara y sistemática. En conjunto, todos los elementos —medias, pruebas estadísticas y representación gráfica— apuntan a que los vinos con mayor contenido de alcohol tienden a recibir mejores puntuaciones sensoriales, lo cual podría reflejar una preferencia generalizada por características que el alcohol ayuda a resaltar.

12.¿Las muestras con alto contenido de alcohol tienen menor acidez volátil en promedio que las de contenido bajo?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value  Pr(>F)  
## group    1  4.1388 0.04196 *
##       5710                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Two Sample t-test
## 
## data:  acidez.volátil by grupo_alcohol
## t = -2.0466, df = 5710, p-value = 0.04074
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
##  -2.85296424 -0.06139913
## sample estimates:
## mean in group Alto mean in group Bajo 
##          0.3081059          1.7652876

Analisis: Con el objetivo de explorar la relación entre el contenido de alcohol y la acidez volátil en vinos, se clasificaron las muestras en dos grupos diferenciados por su nivel de alcohol (alto y bajo), utilizando la mediana como punto de corte. Esta categorización permitió realizar una comparación inferencial enfocada en detectar diferencias en la acidez volátil entre ambos niveles de alcohol. Antes de aplicar la prueba de hipótesis principal, se llevó a cabo una prueba de Levene para examinar la homogeneidad de varianzas. El resultado fue estadísticamente significativo (F = 4.1388, p = 0.04196), indicando que las varianzas entre los grupos no son iguales, lo cual justificó la utilización de la prueba t de Welch, recomendada en escenarios con varianzas desiguales. La prueba t de Welch arrojó un valor t de -2.0466 con un valor p = 0.04074, lo que sugiere una diferencia estadísticamente significativa entre los grupos con alto y bajo contenido alcohólico respecto a su acidez volátil. En este contexto, se rechazó la hipótesis nula de igualdad de medias con un nivel de confianza del 95%, fortaleciendo la evidencia de una diferencia sistemática entre ambos niveles. El promedio de acidez volátil en los vinos con alto contenido de alcohol fue de 0.3081, mientras que en los vinos con bajo contenido fue considerablemente mayor, alcanzando un valor promedio de 1.7653. El intervalo de confianza del 95% para la diferencia de medias se ubicó entre -2.8596 y -0.0614, reforzando la conclusión de que, en promedio, los vinos con más alcohol tienden a tener menor acidez volátil. Aunque la magnitud de la diferencia puede considerarse moderada, su consistencia estadística apunta a una relación inversa entre ambas variables del vino, ya que tanto el alcohol como la acidez influyen en el perfil organoléptico final del producto.

13. ¿El nivel de azúcar residual cambia significativamente según el contenido de alcohol?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    2  486.62 < 2.2e-16 ***
##       6494                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##                        Df Sum Sq Mean Sq F value Pr(>F)    
## contenido.de.alcohol    2  16106    8053   399.4 <2e-16 ***
## Residuals            6494 130942      20                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = azúcar.residual ~ contenido.de.alcohol, data = data)
## 
## $contenido.de.alcohol
##                  diff        lwr        upr     p adj
## Medio-Bajo -3.0746573 -3.3556217 -2.7936929 0.0000000
## Alto-Bajo  -3.4552031 -3.8611765 -3.0492297 0.0000000
## Alto-Medio -0.3805458 -0.7872285  0.0261369 0.0723305

Analisis: Este análisis tuvo como objetivo evaluar si los niveles de azúcar residual difieren significativamente según el contenido de alcohol en los vinos. En primer lugar, se aplicó la prueba de Levene para comprobar la homogeneidad de las varianzas entre los grupos definidos por niveles de alcohol. Al no encontrarse diferencias significativas, se cumplió el supuesto de varianzas iguales, lo que permitió proceder con un ANOVA de un factor.

El análisis de varianza reveló diferencias estadísticamente significativas en los niveles de azúcar residual entre los distintos grupos de contenido alcohólico (p < 0.05). Esto sugiere que el promedio de azúcar residual no es constante en los tres niveles, y al menos uno de los grupos presenta una media distinta. Para identificar cuáles grupos difieren entre sí, se llevó a cabo una prueba post-hoc de Tukey, que permitió realizar comparaciones múltiples controlando el error tipo I.

Los resultados del test de Tukey evidenciaron diferencias significativas entre los grupos “Bajo” y “Alto”, así como entre “Medio” y “Alto”. En ambos casos, los vinos con mayor contenido de alcohol presentaron significativamente menos azúcar residual. En cambio, la comparación entre los grupos “Bajo” y “Medio” no mostró una diferencia estadísticamente significativa, lo que sugiere cierta continuidad en los niveles de azúcar entre estos dos rangos.

Desde una perspectiva enológica, estos hallazgos son coherentes con el proceso de fermentación alcohólica, donde los azúcares se transforman en etanol. Por lo tanto, vinos con mayor contenido alcohólico tienden a haber experimentado una fermentación más completa, dejando menos azúcar residual en el producto final. Esta relación inversa entre el alcohol y el azúcar residual fue respaldada tanto por el ANOVA como por la prueba de comparaciones múltiples, y sugiere que el contenido alcohólico puede ser un indicador indirecto del grado de fermentación.

Complementariamente, el análisis gráfico mediante un diagrama de cajas y bigotes ofreció una representación clara de estas diferencias. El grupo con bajo contenido alcohólico mostró la mediana más elevada de azúcar residual, cercana a los 15 g/L, junto con una dispersión amplia y numerosos valores atípicos, algunos por encima de los 35 g/L, lo cual podría deberse a fermentaciones incompletas o a estilos deliberadamente dulces. El grupo de nivel “Medio” presentó una mediana intermedia (alrededor de 9 g/L) y una dispersión más moderada, con algunos valores atípicos, reflejando una cierta heterogeneidad.

Por otro lado, los vinos clasificados como de alto contenido alcohólico mostraron la mediana más baja de azúcar residual (aproximadamente 2.5 g/L), y una dispersión mínima, con valores fuertemente agrupados y casi sin outliers. Esta consistencia sugiere una mayor homogeneidad química, probablemente vinculada a procesos de fermentación más completos y controlados.

En conjunto, tanto los resultados estadísticos como la visualización gráfica respaldan una relación inversa entre el contenido de alcohol y el nivel de azúcar residual en el vino. Esta tendencia es coherente con principios fermentativos bien establecidos, y sugiere que a medida que se incrementa el nivel de alcohol, el contenido residual de azúcar disminuye sistemáticamente. La combinación del ANOVA y la prueba de Tukey proporciona evidencia estadística sólida para afirmar que el nivel de alcohol influye significativamente en los niveles de azúcar residual.

14.¿Las muestras con alcohol alto presentan mayor calidad promedio (por ejemplo, más veces clasificadas como “Buena” o “Excelente”)?

##       
##        Baja Buena Excelente Media Muy baja
##   Alto  444   780       149  1395       75
##   Bajo 1451   160        24  1107      127
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 1080.8, df = 4, p-value < 2.2e-16

Analisis: Para esta pregunta se realizó una prueba de chi-cuadrado de independencia sobre una tabla de contingencia que relaciona el nivel de alcohol (Alto vs. Bajo) con la clasificación de calidad sensorial (Muy baja, Baja, Media, Buena, Excelente). El resultado fue: con un estadístico X² = 1080.8, 4 grados de libertad y un p-value menor a 2.2e-16, se rechaza con un altísimo nivel de significancia la hipótesis nula de independencia entre las variables. Lo que refleja que existe una asociación estadísticamente significativa entre el nivel de alcohol en el vino y la clasificación cualitativa otorgada, considerando que los vinos con alcohol alto concentran una mayor proporción en las categorías superiores de calidad sensorial: 780 muestras fueron calificadas como “Buena” y 149 como “Excelente”, mientras que los vinos con alcohol bajo presentan una distribución más inclinada hacia categorías como “Baja” (1451 casos) y “Media”, y solo 24 muestras fueron clasificadas como “Excelente”. Estos resultados sugieren que los vinos con mayor contenido de alcohol tienden a recibir calificaciones sensoriales más altas, lo cual puede estar relacionado con atributos tales como la persistencia y equilibrio aromático.

15. ¿El pH promedio difiere entre los niveles de alcohol (medio y alto)?

## ---- Prueba de Levene (varianzas iguales) ----
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value  Pr(>F)  
## group    1  3.6103 0.05749 .
##       3950                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analisis: Para esta comparación se planteó inicialmente la prueba de Levene, centrada en la mediana, con el fin de verificar si las varianzas del pH eran homogéneas entre vinos con niveles de alcohol clasificados como “Medio” y “Alto”. El resultado arrojó un estadístico F de 3.6103 y un p-valor de 0.05749. Si bien este valor no supera el umbral tradicional de significancia (α = 0.05), se encuentra relativamente cercano, lo que sugiere una posible —aunque no concluyente— diferencia en las varianzas. Por tanto, no se rechaza la hipótesis nula de igualdad de varianzas, y se considera apropiado aplicar la prueba t de Student bajo el supuesto de varianzas iguales.

La prueba t resultante reveló un estadístico t = -2.8347 con un p-valor de 0.00461, lo cual permite rechazar con confianza la hipótesis nula de igualdad de medias entre ambos grupos. Esto indica que existe una diferencia estadísticamente significativa en los valores promedio de pH entre vinos con alcohol medio y alto. El intervalo de confianza del 95 % para la diferencia de medias, que va de -0.0187 a -0.0034, excluye el cero, reforzando la validez del hallazgo.

En términos descriptivos, los vinos con alcohol alto presentan un pH medio de 3.186, mientras que aquellos con alcohol medio alcanzan una media ligeramente superior de 3.197. Esta diferencia, aunque sutil, sugiere que el aumento en el contenido alcohólico se asocia con una leve disminución en los niveles de pH, lo cual puede tener implicaciones en la percepción sensorial, estabilidad microbiológica y características químicas del vino. Aunque la magnitud del efecto es pequeña, la evidencia estadística respalda que el nivel de alcohol influye de forma significativa —aunque moderada— sobre el pH del vino. Preguntas basadas en la calidad (Muy baja, Baja, Media, Buena, Excelente)

16.¿El contenido promedio de alcohol varía según el nivel de calidad de las muestras?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value   Pr(>F)    
## group    4  6.4761 3.43e-05 ***
##       3947                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        4    860  215.02   82.05 <2e-16 ***
## Residuals   3947  10344    2.62                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = alcohol ~ calidad, data = data_filtrada)
## 
## $calidad
##                          diff         lwr       upr     p adj
## Baja-Muy baja      -0.2180325 -0.62795285 0.1918878 0.5941895
## Media-Muy baja      0.4278345  0.03160070 0.8240683 0.0267703
## Buena-Muy baja      1.0465834  0.63439037 1.4587763 0.0000000
## Excelente-Muy baja  1.3455057  0.82332615 1.8676853 0.0000000
## Media-Baja          0.6458670  0.46828512 0.8234489 0.0000000
## Buena-Baja          1.2646159  1.05381464 1.4754171 0.0000000
## Excelente-Baja      1.5635382  1.17986441 1.9472120 0.0000000
## Buena-Media         0.6187489  0.43598204 0.8015157 0.0000000
## Excelente-Media     0.9176712  0.54865611 1.2866863 0.0000000
## Excelente-Buena     0.2989223 -0.08717865 0.6850233 0.2146699

Analisis: Con el propósito de examinar si el contenido de alcohol en el vino se relaciona con su nivel de calidad sensorial, se realizó un análisis de varianza (ANOVA) considerando cinco categorías ordinales de calidad: Muy baja, Baja, Media, Buena y Excelente. El resultado del ANOVA fue altamente significativo (F = 82.05, p < 2e-16), lo cual permite rechazar con contundencia la hipótesis nula de igualdad de medias. Esto indica que al menos una de las categorías presenta un contenido promedio de alcohol significativamente distinto en comparación con las demás.

Previo al ANOVA, se aplicó la prueba de Levene centrada en la mediana para verificar el supuesto de homogeneidad de varianzas. Dicha prueba arrojó un F = 6.4761 con p = 3.43e-05, lo que indica una diferencia significativa en la dispersión de los grupos. A pesar de esta violación leve del supuesto, el ANOVA suele ser robusto ante ciertas desigualdades cuando los tamaños muestrales son grandes y balanceados, como en este caso.

Para identificar entre qué grupos ocurren las diferencias, se llevó a cabo una prueba post-hoc de Tukey. Los resultados mostraron contrastes estadísticamente significativos entre muchas de las combinaciones de niveles de calidad. Por ejemplo, la diferencia en el contenido de alcohol entre vinos “Excelente” y “Muy baja” fue de 1.35 % vol, con un intervalo de confianza del 95 % entre 0.82 y 1.87, y un p ajustado de 0.000, lo que confirma una diferencia real. De forma similar, la comparación entre “Buena” y “Muy baja” arrojó una diferencia de 1.05 % vol (IC 95 %: 0.63–1.46, p = 0.000). También se encontró una diferencia significativa entre “Media” y “Muy baja” (0.43 % vol, p = 0.0267), así como entre “Excelente” y “Media” (0.92 % vol, p = 0.000). En contraste, la diferencia entre los niveles “Excelente” y “Buena” no fue estadísticamente significativa (diferencia = 0.30 % vol, IC 95 %: -0.087 a 0.685, p = 0.2147), lo que indica que ambos grupos tienen contenidos de alcohol similares.

En conjunto, estos hallazgos respaldan la conclusión de que el contenido alcohólico promedio varía significativamente según el nivel de calidad sensorial del vino, siendo más elevado en los vinos mejor calificados. Esta asociación podría explicarse por factores enológicos tales como mayor grado de fermentación, mayor cuerpo o persistencia aromática, características que inciden directamente en la percepción sensorial y que suelen valorarse positivamente por los catadores expertos.

17.¿Las muestras clasificadas como “Excelente” presentan menor acidez volátil en promedio que las de calidad “Baja” ?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value Pr(>F)
## group    1  0.5205 0.4708
##       1070
## 
##  Two Sample t-test
## 
## data:  acidez.volátil by calidad
## t = 0.72807, df = 1070, p-value = 0.4667
## alternative hypothesis: true difference in means between group Baja and group Excelente is not equal to 0
## 95 percent confidence interval:
##  -5.786904 12.614865
## sample estimates:
##      mean in group Baja mean in group Excelente 
##               3.7124318               0.2984516

Analisis: Se planteó la hipótesis de que los vinos clasificados como de calidad Excelente presentan menor acidez volátil en promedio que aquellos de calidad Baja. Para comprobar esta afirmación, se realizó una comparación entre ambos grupos mediante métodos estadísticos inferenciales. En primera instancia, se aplicó la prueba de Levene para verificar la homogeneidad de varianzas entre las dos categorías de calidad. El resultado fue no significativo (F = 0.5205, p = 0.4708), lo cual indica que las varianzas pueden considerarse homogéneas. Por tanto, se procedió con una prueba t de Student para muestras independientes asumiendo igualdad de varianzas. El resultado de la prueba t fue: t = 0.7281, con 1070 grados de libertad, y un p-valor = 0.4667, lo cual supera el umbral clásico de significancia de 0.05. Esto implica que no se puede rechazar la hipótesis nula de igualdad de medias, es decir, no se encontró evidencia estadística suficiente para afirmar que hay una diferencia significativa en la acidez volátil promedio entre los vinos Excelente y Baja. El intervalo de confianza del 95% para la diferencia de medias se ubicó entre –5.7869 y 12.6149, lo que confirma la alta incertidumbre sobre el comportamiento real de esta diferencia. Además, los promedios observados fueron A pesar de que las muestras clasificadas como Excelente presentan una acidez volátil promedio menor (0.2985 g/L) que las muestras de calidad Baja (3.7124 g/L), los resultados de la prueba t (p = 0.4667) indican que esta diferencia no es estadísticamente significativa. Por tanto, no se puede afirmar que los vinos de calidad superior tengan menor acidez volátil de forma consistente.

18. ¿El puntaje sensorial promedio aumenta conforme mejora la calidad de las muestras?

##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        4 2997.8   749.5  157985 <2e-16 ***
## Residuals   3947   18.7     0.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = puntaje.sensorial ~ calidad, data = data_filtrada)
## 
## $calidad
##                        diff       lwr      upr p adj
## Baja-Muy baja      1.127820 1.1103791 1.145260     0
## Media-Muy baja     2.127820 2.1109614 2.144678     0
## Buena-Muy baja     3.127820 3.1102824 3.145357     0
## Excelente-Muy baja 4.153626 4.1314094 4.175843     0
## Media-Baja         1.000000 0.9924446 1.007555     0
## Buena-Baja         2.000000 1.9910313 2.008969     0
## Excelente-Baja     3.025806 3.0094827 3.042130     0
## Buena-Media        1.000000 0.9922240 1.007776     0
## Excelente-Media    2.025806 2.0101064 2.041507     0
## Excelente-Buena    1.025806 1.0093794 1.042233     0

Analisis: se aplicó un modelo de ANOVA de un factor, cuyo resultado es estadísticamente concluyente: el valor F obtenido fue de 157985 y el p-value menor a 2e-16, lo que indica que al menos uno de los niveles de calidad presenta una diferencia significativa en el puntaje promedio respecto a los demás. Para identificar con precisión dónde ocurren dichas diferencias, se aplicó una prueba de Tukey, la cual muestra que todas las comparaciones por pares entre niveles de calidad resultaron significativas, con p-values ajustados igual a 0. Este resultado refleja una coherencia metodológica entre la variable cuantitativa (puntaje sensorio) y la categórica ordenada (calidad), y puede interpretarse también desde un punto de vista sensorial: los atributos que definen a vinos “Excelentes” como balance, intensidad, estructura y persistencia aromáticas. Son los mismos que tienden a recibir evaluaciones más altas por parte de los catadores. En conjunto, la evidencia estadística respalda firmemente que sí existe una relación directa y significativa entre la calidad percibida y el puntaje sensorial promedio.

19. ¿El nivel de dióxido de azufre total es diferente entre los vinos de calidad baja y los de calidad excelente?

## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value    Pr(>F)    
## group    1  59.385 1.903e-14 ***
##       2334                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Welch Two Sample t-test
## 
## data:  dióxido.de.azufre.total by calidad
## t = 1.0363, df = 281.18, p-value = 0.3009
## alternative hypothesis: true difference in means between group Baja and group Excelente is not equal to 0
## 95 percent confidence interval:
##  -3.021472  9.740080
## sample estimates:
##      mean in group Baja mean in group Excelente 
##                120.8391                117.4798

Analisis: Con el objetivo de determinar si el contenido promedio de dióxido de azufre total difiere significativamente entre los vinos de calidad Baja y Excelente, se aplicaron dos pruebas estadísticas consecutivas. Primero, se realizó la prueba de Levene centrada en la mediana para verificar el supuesto de igualdad de varianzas. El resultado fue altamente significativo (F = 59.385, p < 0.001), indicando que las varianzas entre ambos grupos no son homogéneas. Por esta razón, se procedió con la prueba t de Welch, que es más robusta cuando el supuesto de homogeneidad de varianzas no se cumple.

El resultado de la prueba t de Welch fue un estadístico t = 1.0363 con un valor p = 0.3009, que supera el umbral común de significancia (α = 0.05). Esto significa que no hay evidencia estadística suficiente para rechazar la hipótesis nula de igualdad de medias. El intervalo de confianza al 95% para la diferencia de medias (−3.02 a 9.74 mg/L) incluye el cero, lo cual refuerza esta conclusión.

En cuanto a las medias observadas, los vinos de calidad Baja presentan un valor promedio de dióxido de azufre total de 120.84 mg/L, mientras que los vinos de calidad Excelente muestran un promedio ligeramente menor, de 117.48 mg/L. Sin embargo, esta diferencia de aproximadamente 3.36 mg/L no es estadísticamente significativa.

Conclusión: Aunque existen diferencias en las medias observadas del dióxido de azufre total entre vinos de calidad Baja y Excelente, estas no son estadísticamente significativas según los resultados de la prueba t de Welch (p = 0.3009). Por tanto, no se puede afirmar que el nivel de dióxido de azufre total difiera de manera significativa entre ambos grupos de calidad.

20. ¿Las muestras con calidad “Muy baja” presentan mayor densidad en promedio que las de calidad “Excelente”?

## 
## Excelente  Muy baja 
##       198       246
## data_filtrada$calidad: Excelente
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.074216, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data_filtrada$calidad: Muy baja
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.055813, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   1  0.8656 0.3527
##       442
## 
##  Two Sample t-test
## 
## data:  densidad by calidad
## t = -0.9304, df = 442, p-value = 0.3527
## alternative hypothesis: true difference in means between group Excelente and group Muy baja is not equal to 0
## 95 percent confidence interval:
##  -1343.3016   480.1008
## sample estimates:
## mean in group Excelente  mean in group Muy baja 
##                102.0531                533.6535

Analisis: se planteó prueba de normalidad de Shapiro-Wilk aplicada a ambos grupos arrojó resultados contundentes: los p-values fueron menores a 2.2e-16, lo que indica que los datos en cada grupo no siguen una distribución normal, haciendo que las pruebas paramétricas tradicionales deban aplicarse con cautela. Sin embargo, la prueba de Levene para homogeneidad de varianzas mostró un valor F = 0.8656 con p = 0.3527, lo que indica que no hay diferencias significativas en las varianzas de densidad entre los grupos. Esto permitió continuar con una prueba t para muestras independientes, cuyo resultado fue t = -0.9304, con un p-value = 0.3527, lo que representa una diferencia no significativa entre las medias. El intervalo de confianza del 95% para la diferencia entre promedios va desde -1343.30 hasta 480.10,lo cual incluye el valor cero y reafirma la conclusión de que no hay suficiente evidencia estadística para afirmar que uno de los grupos tiene una densidad promedio superior.No obstante, si se observa el valor puntual de las medias, el grupo “Muy baja” muestra un promedio de 533.65, mientras que el grupo “Excelente” presenta una media de 102.05. A pesar de esta aparente diferencia, la alta dispersión y falta de normalidad en los datos impiden que esta diferencia sea considerada estadísticamente significativa bajo el modelo aplicado.

Preguntas basadas en el tipo de vino (Blanco, Rojo)

21.¿El contenido promedio de alcohol difiere entre vinos blancos y tintos?

## 
##  rojo white 
##  1599  4898
## data$tipo: rojo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.25902, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data$tipo: white
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.95539, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value   Pr(>F)   
## group    1  9.9675 0.001601 **
##       6494                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Two Sample t-test
## 
## data:  alcohol by tipo
## t = -0.80702, df = 6494, p-value = 0.4197
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
##  -0.12698683  0.05292248
## sample estimates:
##  mean in group rojo mean in group white 
##            10.47683            10.51386

Analisis: El propósito del análisis fue determinar si existe una diferencia significativa en el contenido promedio de alcohol entre los vinos blancos y tintos. Para comenzar, se aplicó la prueba de normalidad de Shapiro-Wilk a ambas categorías. Los resultados indicaron que, aunque los valores de W fueron distintos (W = 0.259 para vinos tintos y W = 0.953 para vinos blancos), en ambos casos el p-valor fue inferior a 2.2e-16, lo cual lleva a rechazar la hipótesis de normalidad y asumir que los datos no siguen una distribución normal. Luego, se aplicó la prueba de Levene para evaluar la homogeneidad de varianzas entre los grupos. El resultado fue significativo (F = 9.9675, p = 0.001601), lo que indica que las varianzas no son iguales y se incumple este supuesto. Por tanto, se procedió a aplicar una prueba t de Student para muestras independientes, ajustada mediante el método de Welch, que es apropiado en presencia de varianzas desiguales. El resultado del test fue t = -0.807, con 6494 grados de libertad, y un p-valor = 0.4197, superior al umbral convencional de 0.05. Esto implica que no se puede rechazar la hipótesis nula de igualdad de medias, y por lo tanto, no se encontró evidencia estadísticamente significativa que indique una diferencia en el contenido promedio de alcohol entre vinos blancos y tintos. Además, los valores promedio observados fueron los siguientes: los vinos tintos tienen un promedio de 10.4768% de alcohol, mientras que los vinos blancos presentan una media ligeramente superior de 10.5139% de alcohol. Aunque esta diferencia es de aproximadamente 0.0371%, el intervalo de confianza del 95% para la diferencia de medias se ubica entre –0.1269% y 0.0529%, lo cual incluye el valor cero, reafirmando que dicha variación no es estadísticamente significativa. Estos resultados permiten concluir que el contenido promedio de alcohol no difiere de manera significativa entre los vinos blancos y tintos según los datos analizados. Aunque los blancos presentan una media ligeramente superior, esta diferencia es pequeña y no respaldada por evidencia estadística, lo que sugiere que el tipo de vino por sí solo no determina el nivel de alcohol en forma contundente.

22. ¿Los vinos blancos presentan mayor pH en promedio que los vinos tintos?

## Levene's Test for Homogeneity of Variance (center = median)
##        Df F value Pr(>F)
## group   1  0.3174 0.5734
##       442
## 
##  Two Sample t-test
## 
## data:  pH by tipo
## t = 7.647, df = 442, p-value = 1.296e-13
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
##  0.1159269 0.1961270
## sample estimates:
##  mean in group rojo mean in group white 
##            3.358148            3.202121

Analisis: Con el propósito de determinar si los vinos blancos presentan un pH promedio mayor que los vinos tintos, se aplicó un análisis estadístico comparativo entre ambos grupos. En primer lugar, se realizó la prueba de Levene para evaluar la homogeneidad de varianzas, cuyo resultado fue no significativo (F = 0.3174, p = 0.5734). Esto indica que las varianzas de pH entre vinos blancos y tintos pueden considerarse homogéneas, lo que permite aplicar una prueba t de Student bajo el supuesto de igualdad de varianzas. La prueba t arrojó un valor t = 7.647, con 442 grados de libertad y un p-valor extremadamente bajo de 1.296e-13. Este resultado indica una diferencia altamente significativa entre los dos grupos, permitiendo rechazar con contundencia la hipótesis nula de igualdad de medias. De este modo, se confirma que existe una diferencia estadísticamente significativa en el pH promedio entre vinos blancos y tintos. Además, los valores promedio observados fueron los siguientes: los vinos tintos presentan un pH promedio de 3.3581, mientras que los vinos blancos tienen un pH promedio de 3.2021. Esto evidencia que, en realidad, son los vinos tintos los que presentan un pH más alto en promedio. La diferencia entre ambos grupos es de aproximadamente 0.156 unidades de pH, y el intervalo de confianza al 95% para esta diferencia se sitúa entre 0.1159 y 0.1961, lo cual excluye el valor cero y reafirma la significancia del resultado. En conclusión, los datos analizados permiten afirmar que los vinos tintos poseen un pH promedio significativamente mayor que los vinos blancos. Este comportamiento puede explicarse por diferencias en la composición varietal, los procesos de fermentación y conservación, o el perfil de acidez característico de cada tipo de vino

23. ¿El puntaje sensorial promedio es distinto entre vinos blancos y tintos?

## 
##  rojo white 
##  1599  4898
## data_filtrado$tipo: rojo
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.85759, p-value < 2.2e-16
## 
## ------------------------------------------------------------ 
## data_filtrado$tipo: white
## 
##  Shapiro-Wilk normality test
## 
## data:  dd[x, ]
## W = 0.88904, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
##         Df F value Pr(>F)
## group    1  2.3327 0.1267
##       6495
## 
##  Two Sample t-test
## 
## data:  puntaje.sensorial by tipo
## t = -9.6856, df = 6495, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
##  -0.2908436 -0.1929301
## sample estimates:
##  mean in group rojo mean in group white 
##            5.636023            5.877909

Analisis: para determinar si existe una diferencia significativa en el puntaje sensorial promedio entre vinos tintos (rojo) y blancos (white), se aplicaron tres pruebas clave. Primero, se verificó la normalidad mediante la prueba de Shapiro-Wilk para ambos grupos: tanto el vino tinto (W = 0.8576, p < 2.2e-16) como el blanco (W = 0.8890, p < 2.2e-16) mostraron distribución no normal, lo cual exige cautela en el uso de pruebas paramétricas. Luego, se aplicó la prueba de Levene para homogeneidad de varianzas, obteniendo un F = 2.3327 con un p-value = 0.1267, lo que indica que las varianzas son similares entre grupos, permitiendo aplicar una prueba t asumiendo varianzas iguales. Finalmente, se llevó a cabo la prueba t de Student para muestras independientes, cuyo resultado fue t = -9.6856 con un p-value < 2.2e-16, altamente significativo. El intervalo de confianza para la diferencia de medias (de –0.291 a –0.193) no incluye el valor cero, lo que confirma la existencia de una diferencia estadística real. Resaltando que los vinos blancos presentan una media de 5.878, superior a la media de 5.636 de los vinos tintos, lo que indica que los vinos blancos tienden a recibir una evaluación sensorial más alta en promedio. Este resultado puede deberse a diferencias en características organolépticas como acidez, frescura y aroma, comúnmente más pronunciadas en vinos blancos.

Taller unidad 3, Experimentos con un solo factor

# 5. A continuación se muestra parte del ANOVA para comparar cinco tratamientos con cuatro réplicas cada uno.

# | Fuente de variación | Suma de cuadrados | Grados de libertad | Cuadrado medio | Razón F | Valor-p |
# |---------------------|-------------------|---------------------|----------------|---------|---------|
# | Tratamiento         | 800               |                     |                |         |         |
# | Error               | 400               |                     |                |         |         |
# | Total               |                   |                     |                |         |         |

# a) Agregue en esta tabla los grados de libertad, el cuadrado medio y la razón F  para cada una de las fuentes de variación.

# b) Anote el modelo estadístico y formule la hipótesis pertinente al problema.

# c) Con el apoyo de la función DISTR.F.INV(α, k-1, N-k) de Excel calcule el valor-p o la significancia observada para ver si hay diferencia entre los tratamientos.

# d) ¿Hay diferencias significativas entre tratamientos? Argumente su respuesta.
  1. Agregue en esta tabla los grados de libertad, el cuadrado medio y la razón F para cada una de las fuentes de variación.
##  Fuente de variación Suma de cuadrados Grados de libertad Cuadrado medio
##          Tratamiento               800                  4         200.00
##                Error               400                 15          26.67
##                Total              1200                 19             NA
##  Razón F  Valor-p
##      7.5 0.001584
##       NA     <NA>
##       NA     <NA>
  1. Anote el modelo estadístico y formule la hipótesis pertinente al problema.
## 📌 Modelo estadístico: ANOVA de un factor
##    Y_ij = µ + τ_i + ε_ij
##    Donde:
##      - Y_ij: Observación de la unidad j del tratamiento i
##      - µ: Media general
##      - τ_i: Efecto del tratamiento i
##      - ε_ij: Error aleatorio, ~ N(0, σ²)
## 🧪 Hipótesis del modelo:
##    H0: τ1 = τ2 = τ3 = ... = τk = 0 (todas las medias poblacionales son iguales)
##    H1: Al menos un τ_i ≠ 0 (existe al menos una media diferente)
  1. Con el apoyo de la función DISTR.F.INV(α, k-1, N-k) de Excel calcule el valor-p o la significancia observada para ver si hay diferencia entre los tratamientos.
## Grados de libertad tratamiento: 4
## Grados de libertad error: 15
## Cuadrado medio tratamiento: 200
## Cuadrado medio error: 26.66667
## Razón F: 7.5
## Valor-p: 0.001583951
## ✅ Con un valor-p = 0.001583951 < 0.05 se rechaza la hipótesis nula.
## ➡ Conclusión: Existe evidencia estadísticamente significativa para afirmar que hay diferencias entre los tratamientos.
  1. ¿Hay diferencias significativas entre tratamientos? Argumente su respuesta.
## 📊 Resultado del análisis:
## F observado: 7.5
## Valor p: 0.001584
## ✅ Conclusión: Hay diferencias significativas entre los tratamientos (p < 0.05).
# 10. En una industria química se prueban diferentes mezclas para ver si difieren en cuanto al peso molecular final. Se prueban cuatro diferentes mezclas, con cinco repeticiones cada una. A continuación se muestra una parte de la tabla del análisis de varianza y los promedios obtenidos para cada mezcla.

# Tabla 1: Resultado del ANOVA
# | Fuente de variación | Valor p |
# |---------------------|---------|
# | Mezcla              | 0.01    |
# | Error               |         |

# Tabla 2: Promedios por mezcla
# | Mezcla | Peso promedio |
# |--------|----------------|
# | A      | 10 000         |
# | B      | 7 000          |
# | C      | 8 000          |
# | D      | 7 500          |

# a) ¿Las mezclas difieren de manera significativa en cuanto a su peso molecular?

# b) Con el análisis de varianza y de acuerdo con el promedio, ¿se puede asegurar que con la mezcla B se logra un menor peso molecular? Argumente su respuesta.

# c) Si al verificar los supuestos de varianza constante (igual varianza entre las mezclas), éstos no se cumplen, ¿qué significa eso? ¿Se puede seguir apoyando la conclusión del inciso a)?
## **Hipótesis planteadas para el análisis de varianza:**  
## - H₀: μ₁ = μ₂ = μ₃ = μ₄ (todas las mezclas tienen el mismo peso molecular promedio)  
## - H₁: al menos una mezcla tiene un promedio distinto
## 
## **a) ¿Las mezclas difieren de manera significativa en cuanto a su peso molecular?**  
## Sí, las mezclas difieren significativamente en cuanto a su peso molecular, ya que el valor p (0.01) es menor al nivel de significancia (α = 0.05). Esto indica evidencia suficiente para rechazar la hipótesis nula y concluir que al menos una mezcla tiene un peso molecular promedio distinto a las demás.
## 
## **b) ¿Se puede asegurar que con la mezcla B se logra un menor peso molecular? Argumente.**  
## No se puede asegurar que la mezcla B logra el menor peso molecular. Aunque su promedio (7.000) es el más bajo, el análisis de varianza no indica específicamente cuál mezcla difiere de cuál. Para hacer esa afirmación, se requeriría una prueba post-hoc como Tukey. Además, los promedios son similares entre B, C y D, por lo que se necesita confirmar si las diferencias son estadísticamente significativas.
## 
## **c) Si al verificar los supuestos de varianza constante (igual varianza entre mezclas) éstos no se cumplen, ¿se puede seguir apoyando la conclusión del inciso a)?**  
## No. Si no se cumple el supuesto de homogeneidad de varianzas, la validez del análisis de varianza queda comprometida. Esto implica que las diferencias detectadas podrían ser producto de la variabilidad desigual entre grupos y no de diferencias reales en los promedios. Por ende, no sería adecuado sostener la conclusión del inciso a) sin cumplir este supuesto.

supuesto con la prueba de Levene

## Levene's Test for Homogeneity of Variance (center = "median")
##       Df F value Pr(>F)
## group  3       0      1
##       16
## 
## ✅ El valor p es mayor a 0.05. No se rechaza la hipótesis nula.
## Las varianzas pueden considerarse homogéneas. El supuesto del ANOVA se cumple.
# 11. Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.

# Tabla de datos: porcentaje de moscas muertas por réplica y marca
# | Marca de spray | Réplica 1 | 2  | 3  | 4  | 5  | 6  |
# |----------------|-----------|----|----|----|----|----|
# | 1              | 72        | 65 | 67 | 75 | 62 | 73 |
# | 2              | 55        | 59 | 68 | 70 | 53 | 50 |
# | 3              | 64        | 74 | 61 | 58 | 51 | 69 |

# a) Formule la hipótesis adecuada y el modelo estadístico.

# b) ¿Existe diferencia entre la efectividad promedio de los productos en spray?

# c) ¿Hay algún spray mejor? Argumente su respuesta.

# d) Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) 
#    de cada una de las marcas.

# e) Dibuje las gráficas de medias y los diagramas de caja simultáneos, e interprételos.

# f) Verifique los supuestos de normalidad y de igual varianza entre las marcas.
  1. Formule la hipótesis adecuada y el modelo estadístico.
## 
## **Literal a) Diseño del experimento**
## 
## **Hipótesis estadísticas:**
## 
## - H₀ (nula): No hay diferencias significativas en el porcentaje de protección entre las marcas (μ₁ = μ₂ = μ₃).
## - H₁ (alternativa): Al menos una marca tiene un porcentaje de protección diferente.
## 
## **Factor del experimento:**
## - Factor: Marca del spray repelente
## - Niveles: 3 (Marca 1, Marca 2, Marca 3)
## - Variable de respuesta: Porcentaje de protección
## 
## **Diseño experimental:**
## - Diseño completamente aleatorizado (ANOVA de un factor)
## - Número de réplicas por tratamiento: 6
## - Total de observaciones: 3 tratamientos × 6 réplicas = 18 datos
## 
## **Modelo estadístico:**
## Yᵢⱼ = μ + τᵢ + εᵢⱼ
## 
## Donde:
## - Yᵢⱼ: Porcentaje de protección observado
## - μ: Media general
## - τᵢ: Efecto del tratamiento (marca)
## - εᵢⱼ: Error aleatorio, εᵢⱼ ~ N(0, σ²)
## 
## **Grados de libertad:**
## - Tratamiento: gl₁ = k - 1 = 3 - 1 = 2
## - Error: gl₂ = N - k = 18 - 3 = 15
## - Total: gl_total = N - 1 = 17
  1. ¿Existe diferencia entre la efectividad promedio de los productos en spray?
##        Fuente Suma.de.Cuadrados Grados.de.Libertad Cuadrado.Medio        F
##  Tratamientos            296.33                  2      148.16500 2.793212
##         Error            795.67                 15       53.04467       NA
##         Total           1092.00                 17             NA       NA
##     p.valor
##  0.09307383
##          NA
##          NA
## 
## Interpretación:
## El valor p obtenido fue 0.093 > 0.05.
## Esto indica que no hay evidencia estadística suficiente
## para afirmar que existen diferencias significativas
## en la efectividad promedio entre las tres marcas evaluadas.
## Por tanto, se acepta la hipótesis nula de igualdad de medias
## a un nivel de significancia del 5%.
  1. ¿Hay algún spray mejor? Argumente su respuesta.
## 
## Adjuntando el paquete: 'kableExtra'
## The following object is masked from 'package:dplyr':
## 
##     group_rows
📊 Promedio de efectividad por marca
marca Media Desviación Estándar
Marca 1 68.67 2.34
Marca 3 64.50 1.87
Marca 2 60.83 2.48
## 
## 🔍 Interpretación:
## ✅ La marca con mayor efectividad promedio fue **Marca 1** con un valor de **68.67 puntos**.
## 📈 Esto sugiere que, en promedio, esta marca podría ofrecer mejor protección que las demás.
  1. Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas.
📌 Intervalos de confianza del 95% para cada marca
Marca Media Límite.Inferior Límite.Superior
Marca 1 Marca 1 68.67 62.33 75.00
Marca 2 Marca 2 60.83 54.50 67.17
Marca 3 Marca 3 64.50 58.16 70.84
## 
## 📊 Interpretación:
## Los intervalos de confianza muestran el rango dentro del cual se espera que esté la media real de efectividad para cada marca, con un 95% de seguridad.
## Si dos marcas tienen intervalos que no se cruzan, se puede afirmar que sus niveles de efectividad son estadísticamente diferentes.
## Por el contrario, si los intervalos se superponen bastante, no hay evidencia clara de diferencia entre esas marcas.
## Esta herramienta le permite al lector comparar la efectividad promedio entre tratamientos de forma más precisa. ✅
  1. Dibuje las gráficas de medias y los diagramas de caja simultáneos, e interprételos.
## --- Interpretación del Diagrama de Cajas ---
## El boxplot muestra que la Marca 1 tiene la mayor efectividad promedio y menor dispersión.
## La Marca 2 presenta una efectividad claramente inferior y más variable.
## La Marca 3 está en un punto intermedio. No se observan valores atípicos severos.
## Esto sugiere que la marca influye en la efectividad.

## --- Interpretación del Gráfico de Medias con Error Estándar ---
## Las medias muestran que la Marca 1 tiene la mayor efectividad promedio,
## seguida por la Marca 3, y la Marca 2 con la menor.
## Las barras de error indican que las diferencias no se deben al azar,
## respaldando los resultados del análisis ANOVA anterior.
  1. Verifique los supuestos de normalidad y de igual varianza entre las marcas.
## SUPUESTOS DEL ANOVA
## 1. Normalidad de los residuos:
##    Estadístico W = 0.968 | p-valor = 0.7589
##    ✅ No se rechaza la normalidad de los residuos.
## 2. Homogeneidad de varianzas (prueba de Levene):
##    Estadístico F = 0.5288 | p-valor = 0.5999
##    ✅ No se rechaza la igualdad de varianzas. Se cumple el supuesto.
## 3. Balanceo de datos:
## marca
## 1 2 3 
## 6 6 6
##    ✅ Todos los grupos tienen el mismo número de observaciones (balanceado).
## 4. Independencia:
##    ✅ Se asume independencia entre observaciones por diseño experimental.
## 5. Escala de medición:
##    ✅ La variable 'efectividad' es cuantitativa continua.
# 12. En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO₃) y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T₂ se remoja en agua con bicarbonato de sodio, el T₃ es remojar en agua con sal común, el T₄ es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos.Los datos se muestran en la siguiente tabla:

# Control: 213, 214, 208, 202, 208, 207, 210, 211
# T₂: 74, 85, 78, 81, 77, 79, 80, 81
# T₃: 85, 87, 81, 83, 81, 83, 84, 87
# T₄: 82, 84, 79, 80, 79, 81, 83, 90

# a) ¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental?
# b) Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones.
# c) Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
# d) Formule y pruebe la hipótesis de que las medias de los tratamientos son diferentes.
# e) ¿Cuál es el tratamiento que en promedio reduce más el tiempo de cocción? ¿Cuál es el mejor tratamiento?
# f) Haga un análisis gráfico de la estadística de prueba y de los valores de las hipótesis nulas y alternativas.¿Qué conclusiones puede obtener?
# g) ¿Se cumplen los supuestos del modelo? Verifique gráficamente.
# h) Pruebe la hipótesis de igualdad de varianzas entre tratamientos (que corresponde a un supuesto).
  1. ¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental?
## 📌 En un diseño experimental como este, el investigador debe aplicar el principio de aleatorización para evitar sesgos. 
## Esto significa que los tratamientos deben asignarse al azar a las unidades experimentales (en este caso, los frijoles), 
## de modo que cada unidad tenga la misma probabilidad de recibir cualquier tratamiento. 
## La aleatorización puede hacerse utilizando una tabla de números aleatorios, funciones de software como 'sample()' en R, 
## o sorteando papeletas, asegurando que no haya un patrón sistemático. 
## Además, es importante distribuir equitativamente las condiciones del entorno (luz, temperatura, tiempo de cocción, etc.) 
## para que la única diferencia entre los grupos sea el tratamiento aplicado. 
## Así se garantiza la validez interna del experimento y se pueden atribuir los efectos observados a los tratamientos y no a otros factores externos. ✅
  1. Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones.
## 🔧 Factores que deben estar controlados durante las pruebas experimentales:
## 
##  1️⃣ *Cantidad y tipo de frijoles por muestra:*
##  Se debe asegurar que todas las porciones de frijoles sean del mismo tipo, variedad y masa (por ejemplo, 100 gramos por muestra), ya que el contenido de almidón, tamaño y humedad pueden afectar el tiempo de cocción.
## 
##  2️⃣ *Volumen y temperatura del agua de cocción:*
##  La cantidad de agua utilizada y su temperatura inicial deben ser iguales en todos los casos, pues el calor transferido depende directamente de estas condiciones.
## 
##  3️⃣ *Tiempo y temperatura de remojo:*
##  Las muestras tratadas deben estar expuestas al remojo durante el mismo tiempo y a la misma temperatura ambiente, para garantizar una absorción equivalente de los compuestos en solución.
## 
##  4️⃣ *Utensilios de cocción y fuente de calor:*
##  Todas las muestras deben cocinarse en ollas idénticas (o el mismo recipiente en caso de cocción secuencial) y bajo la misma intensidad de fuego o potencia de calor, para evitar variaciones debidas a diferencias en el equipo.
## 
##  5️⃣ *Condiciones ambientales:*
##  La temperatura del ambiente, la presión atmosférica y la humedad relativa deben mantenerse lo más estables posible durante la ejecución del experimento, ya que pueden influir indirectamente en el proceso de cocción.
## 
##  6️⃣ *Tiempo de espera antes de cocinar (post-tratamiento):*
##  El intervalo entre el final del remojo y el inicio de la cocción debe ser igual en todos los casos, ya que un reposo prolongado podría alterar la estructura del grano.
  1. Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
##             Df Sum Sq Mean Sq F value Pr(>F)    
## tratamiento  3  95041   31680    1559 <2e-16 ***
## Residuals   24    488      20                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##       Fuente Suma.de.cuadrados Grados.de.libertad Cuadrado.medio Razón.F
##  Tratamiento          83069.83                  3       27689.94 1922.91
##        Error            288.00                 20          14.40      NA
##        Total          83357.83                 23             NA      NA
##    Valor.p
##  < 2.2e-16
##       <NA>
##       <NA>
## 
## INTERPRETACIÓN ESTADÍSTICA DEL ANOVA:
## Se realizó un análisis de varianza (ANOVA de un factor) para evaluar si existen diferencias significativas
## en el tiempo de cocción promedio entre los distintos tratamientos aplicados a los frijoles.
## El valor del estadístico F observado es: 1922.91
## Este valor compara la variabilidad explicada por los tratamientos con la variabilidad no explicada (error).
## El valor-p asociado a este F es: < 2.2e-16
## Dado que el valor-p es menor que 0.05, se rechaza la hipótesis nula de igualdad de medias.
## Esto indica que al menos un tratamiento tiene un efecto significativamente diferente sobre el tiempo de cocción.
## 
## En conclusión, los resultados del ANOVA muestran evidencia estadística suficiente para afirmar que los tratamientos
## aplicados afectan significativamente el tiempo promedio de cocción de los frijoles. Se recomienda realizar una
## prueba de comparaciones múltiples (como Tukey HSD) para identificar cuáles tratamientos difieren entre sí.

prueba de supuestos

## 📈 Prueba de Shapiro-Wilk para normalidad de residuos:
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.93824, p-value = 0.149
## 
## 📊 Prueba de Levene para homogeneidad de varianzas:
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.2059 0.8911
##       20
## 🔍 Análisis del supuesto de normalidad:
## ✔ Los residuos presentan un comportamiento compatible con una distribución normal (p = 0.3469 >α = 0.05).
## → Esto sugiere que se cumple el supuesto de normalidad necesario para el ANOVA.
## 🔍 Análisis del supuesto de homogeneidad de varianzas (Levene):
## ✔ Se cumple la homogeneidad de varianzas entre los grupos (p = 0.9201 >α = 0.05).
## → Esto indica que los grupos presentan varianzas similares, como requiere el ANOVA.
## ✅ Ambos supuestos del ANOVA se cumplen. El análisis de varianza puede aplicarse con confianza.

Planteamiento de comparaciones multiples de normalidad

## 📌 Resultados del test de Tukey para comparaciones múltiples:
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = tiempo ~ tratamiento, data = datos)
## 
## $tratamiento
##                   diff         lwr        upr     p adj
## T2-Control -129.666667 -135.798829 -123.53450 0.0000000
## T3-Control -149.666667 -155.798829 -143.53450 0.0000000
## T4-Control -122.333333 -128.465495 -116.20117 0.0000000
## T3-T2       -20.000000  -26.132162  -13.86784 0.0000001
## T4-T2         7.333333    1.201171   13.46550 0.0155950
## T4-T3        27.333333   21.201171   33.46550 0.0000000
## 
## 📋 Interpretación:
## El test de Tukey compara cada par de tratamientos y proporciona un valor p ajustado.
## Si el valor p es menor a 0.05, se concluye que existe una diferencia significativa entre las medias de ese par de tratamientos.
## En la tabla anterior, observe las columnas 'p adj' para identificar qué comparaciones muestran diferencias reales.
  1. Obtenga el diagrama de caja y el gráfico de medias después; interprételos.

  1. ¿Hay algún tratamiento mejor? ¿Cuál es el tiempo de cocción esperado para el mejor tratamiento?
## 📊 Tiempo promedio de cocción por tratamiento:
##      T3      T2      T4 Control 
##   61.43   78.86   85.57  208.29
## 
## ✅ Interpretación:
## El tratamiento con menor tiempo promedio de cocción fue: T3 con un tiempo de 61.43 minutos.
## Este resultado, combinado con la prueba de Tukey, indica que T3 es estadísticamente superior en reducir el tiempo de cocción.
  1. Algo importante a cuidar en un experimento es que no haya efectos colaterales no deseados, causados por el tratamiento ganador; en este caso, piensen en los posibles efectos colaterales que podría causar el mejor tratamiento.
## 
## ⚠️ Consideraciones sobre posibles efectos colaterales del mejor tratamiento:
## Aunque el tratamiento T3 reduce significativamente el tiempo de cocción, es importante verificar si produce efectos no deseados.
## Por ejemplo:
## - Cambios en el sabor o textura de los frijoles.
## - Alteración en la calidad nutricional.
## - Posibles residuos químicos si se usan sustancias como sal o bicarbonato.
## Por ello, se recomienda realizar evaluaciones complementarias sensoriales y químicas antes de adoptar este tratamiento como estándar.
  1. ¿Se cumplen los supuestos del modelo? Verifique gráficamente.
## 
## Adjuntando el paquete: 'gridExtra'
## The following object is masked from 'package:dplyr':
## 
##     combine

  1. Pruebe la hipótesis de igualdad de varianzas entre tratamientos (que corresponde a un supuesto).
## 
## --- Literal h) Prueba de Levene ---
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.1631 0.9201
##       24
## 
## Conclusión: No se rechaza la hipótesis nula.
## Las varianzas entre tratamientos se consideran iguales (homocedasticidad cumplida).
## Se puede confiar en los resultados del ANOVA realizado anteriormente.
# 15. Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón, y que las cantidades de almidón a aprobar fueran 2, 5 y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron cuatro réplicas por tratamiento y se obtuvieron los siguientes resultados:

# a) ¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas? Halle el ANOVA.
# b) Realice los análisis complementarios necesarios.
# c) Si se desea maximizar la dureza de las tabletas, ¿qué recomendaría al fabricante?
# d) Verifique los supuestos.
Dureza de las tabletas según el % de almidón
Rep 1 Rep 2 Rep 3 Rep 4
2% 4.3 5.2 4.8 4.5
5% 6.5 7.3 6.9 6.1
10% 9.0 7.8 8.5 8.1
  1. ¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas? Halle el ANOVA.
Tabla ANOVA: Efecto del porcentaje de almidón sobre la dureza de las tabletas
Fuente Suma de Cuadrados gl Cuadrado Medio F observado Valor-p
Tratamiento (Almidón) 26.7267 2 13.3633 58.1014 7.15857e-06
Error 2.0700 9 0.2300 NA NA
Total 28.7967 11 NA NA NA

. b) Realice los análisis complementarios necesarios y verifique los supuestos.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.93444, p-value = 0.4295

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.2667 0.7718
##        9

Prueba de comparaciòn

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Dureza ~ Almidon, data = datos)
## 
## $Almidon
##         diff       lwr        upr     p adj
## 2%-10% -3.65 -4.596815 -2.7031848 0.0000052
## 5%-10% -1.65 -2.596815 -0.7031848 0.0022940
## 5%-2%   2.00  1.053185  2.9468152 0.0006016
  1. Si se desea maximizar la dureza de las tabletas, ¿qué recomendaría al fabricante?

Si el propósito es obtener tabletas con la mayor dureza posible, lo más conveniente es utilizar un 2% de almidón en la formulación. Esta recomendación se sustenta en los resultados del análisis estadístico (prueba de Tukey), que mostraron que las tabletas con 2% de almidón alcanzan una dureza considerablemente mayor frente a las elaboradas con 5% y 10%. En especial, la diferencia con respecto al 10% fue de 3.65 unidades, y frente al 5% fue de 2.00 unidades; en ambos casos estas diferencias fueron altamente significativas (valor p < 0.001). Por lo tanto, desde un punto de vista práctico y respaldado por evidencia estadística, se sugiere trabajar con el menor porcentaje de almidón (2%) para obtener un producto más resistente.

# 17. Un químico del departamento de desarrollo de un laboratorio farmacéutico desea conocer cómo influye el tipo de aglutinante utilizado en tabletas de ampicilina de 500 mg en el porcentaje de friabilidad; para ello, se eligen los siguientes aglutinantes: polivinilpirrolidona (PVP), carboximetilcelulosa sódica (CMC) y grenetina (Gre). Los resultados del diseño experimental son los siguientes:

# Tabla de datos: % de friabilidad por tipo de aglutinante

# Aglutinante | % de friabilidad
# ------------------------------
# PVP         | 0.485  0.250  0.073  0.205  0.161
# CMC         | 9.64   9.37   9.53   9.86   9.79
# Gre         | 0.289  0.275  0.612  0.152  0.137

# a) Especifique el nombre del diseño experimental.
# b) ¿Sospecha que hay algún efecto significativo del tipo de aglutinante sobre la variable de respuesta?
# c) Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.
# d) Realice el análisis adecuado para probar las hipótesis e interprete los resultados.
# e) Revise los supuestos, ¿hay algún problema?
  1. Especifique el nombre del diseño experimental.
##   Aglutinante Friabilidad
## 1         PVP       0.485
## 2         PVP       0.250
## 3         PVP       0.073
## 4         PVP       0.205
## 5         PVP       0.161
## 6         PVP       0.250
## 'data.frame':    18 obs. of  2 variables:
##  $ Aglutinante: Factor w/ 3 levels "CMC","Gre","PVP": 3 3 3 3 3 3 1 1 1 1 ...
##  $ Friabilidad: num  0.485 0.25 0.073 0.205 0.161 0.25 9.64 9.37 9.53 9.86 ...
## 🧪 Diseño experimental: Diseño Completamente al Azar (DCA)
## Factor: Tipo de aglutinante (PVP, CMC, Gre)
## Variable de respuesta: Porcentaje de friabilidad
## Número de tratamientos: 3
## Réplicas por tratamiento: 6
  1. ¿Sospecha que hay algún efecto significativo del tipo de aglutinante sobre la variable de respuesta?
## # A tibble: 3 × 7
##   Aglutinante Media Mediana Desviación_Est   Min   Max     n
##   <fct>       <dbl>   <dbl>          <dbl> <dbl> <dbl> <int>
## 1 CMC         9.64    9.64           0.197 9.37  9.86      5
## 2 Gre         0.293   0.275          0.191 0.137 0.612     5
## 3 PVP         0.235   0.205          0.154 0.073 0.485     5

## 
## 📌 Interpretación:
## Los resultados descriptivos muestran que el aglutinante CMC tiene una friabilidad promedio significativamente mayor que PVP y Gre, lo cual también se evidencia gráficamente en el boxplot.
## Tanto PVP como Gre presentan valores bajos y relativamente similares, mientras que CMC se destaca por su mayor media y menor dispersión relativa.
## Esto sugiere preliminarmente que sí podría haber un efecto del tipo de aglutinante sobre el porcentaje de friabilidad, lo que justifica realizar un análisis de varianza para confirmarlo estadísticamente.
  1. Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.
## 📌 Hipótesis del análisis de varianza (ANOVA):
## Hipótesis nula (H0): Las medias del porcentaje de friabilidad son iguales para todos los tipos de aglutinante.
## Hipótesis alternativa (H1): Al menos una media de friabilidad difiere entre los tipos de aglutinante.
## 📈 Modelo estadístico:
## Y_ij = μ + τ_i + ε_ij
## Donde:
## - Y_ij: porcentaje de friabilidad observado en la j-ésima réplica del i-ésimo aglutinante.
## - μ: media general.
## - τ_i: efecto del i-ésimo aglutinante (PVP, CMC, Gre).
## - ε_ij: error aleatorio ~ N(0, σ²), independiente.
  1. Realice el análisis adecuado para probar las hipótesis e interprete los resultados.
##                     Fuente Suma de Cuadrados Grados de Libertad Cuadrado Medio
##  Tratamiento (Aglutinante)            0.0163                  2         0.0081
##                      Error            0.0023                  9         0.0003
##                      Total            0.0186                 11             NA
##  F observado     Valor-p
##      31.8261 8.28843e-05
##           NA        <NA>
##           NA        <NA>
## 
## 📊 Interpretación del ANOVA:
## El valor-p = 8e-05 indica que existen diferencias estadísticamente significativas
## entre los promedios de friabilidad según el tipo de aglutinante (α = 0.05).
## Por lo tanto, se rechaza la hipótesis nula y se concluye que al menos un tratamiento difiere.
  1. Revise los supuestos, ¿hay algún problema?
## 
## 🧪 Supuesto 1: Normalidad de los residuos (Prueba de Shapiro-Wilk)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.9687, p-value = 0.8967
## ✅ Conclusión: Los residuos siguen una distribución normal (p = 0.8967 ).
## 
## 🧪 Supuesto 2: Homogeneidad de varianzas (Prueba de Levene)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2     0.5 0.6224
##        9
## ✅ Conclusión: Se cumple el supuesto de igualdad de varianzas (p = 0.6224 ).

# 19. Uno de los defectos que causan mayor desperdicio en la manufactura de discos ópticos compactos son los llamados “cometas”. Típicamente, se trata de una partícula que opone resistencia al fluido en la etapa de entintado. Se quiere comprobar de manera experimental la efectividad de un tratamiento de limpieza de partículas que está basado en fuerza centrípeta y aire ionizado. 

# A 12 lotes de 50 CD se les aplica el tratamiento y a otros 12 lotes no se les aplica; en cada caso se mide el porcentaje de discos que presentan cometas; los resultados son los siguientes:

# Porcentaje de discos con cometas

# | Con tratamiento | Sin tratamiento |
# |-----------------|------------------|
# | 5.30            | 8.02             |
# | 4.03            | 13.18            |
# | 4.03            | 7.15             |
# | 2.40            | 7.11             |
# | 2.56            | 9.11             |
# | 5.68            | 6.91             |
# | 4.56            | 9.00             |
# | 4.08            | 9.20             |
# | 2.08            | 8.40             |
# | 4.03            | 6.41             |
# | 4.03            | 7.15             |
# | 1.18            | 8.66             |

# a) Con el ANOVA vea si es efectivo el tratamiento de limpieza. ¿Debería implementarse?
# b) ¿Es razonable suponer en el inciso a) que las varianzas son iguales?
# c) ¿En qué porcentaje se reducen los discos con cometas?
# d) Analice la diferencia de medias de estos tratamientos mediante la prueba T de Student del capítulo 2, expresión (2.14), y verifique que se obtienen las mismas conclusiones que con el ANOVA.
  1. Con el ANOVA vea si es efectivo el tratamiento de limpieza. ¿Debería implementarse?
## Hipótesis del análisis:
## H₀ (nula): μ₁ = μ₂ → El porcentaje promedio de cometas es igual en ambos grupos.
## H₁ (alterna): μ₁ ≠ μ₂ → El porcentaje promedio de cometas es diferente entre los grupos.
## --- Tabla ANOVA (calculada manualmente) ---
##       Fuente Suma.de.Cuadrados gl Cuadrado.Medio     F   p.valor
##  Tratamiento            214.44  1         214.44 39.41 2.559e-06
##        Error            119.70 22           5.44                
##        Total            334.14 23
## 
## --- Interpretación del resultado ---
## Se compararon los porcentajes de discos con cometas entre dos grupos: uno que recibió tratamiento de limpieza y otro que no lo recibió.
## El análisis mostró una diferencia considerable: el grupo tratado presentó valores menores en promedio.
## El valor F obtenido fue 39.41 y el p-valor fue 2.559e-06 .
## Dado que el p-valor es menor a 0.05, se rechaza la hipótesis nula.
## Esto indica que el tratamiento tiene un efecto estadísticamente significativo.
## Desde un punto de vista estadístico, se recomienda implementar el tratamiento de limpieza.

#comparaciones multiples

## 
## --- Resultado de la prueba de Tukey HSD ---
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = porcentaje_cometas ~ tratamiento, data = datos)
## 
## $tratamiento
##                                     diff      lwr      upr   p adj
## Sin tratamiento-Con tratamiento 5.978333 4.003486 7.953181 2.6e-06
## 
## --- Interpretación en español ---
## El valor p ajustado es 3e-06 < 0.05
## Conclusión: Existe una diferencia estadísticamente significativa entre los grupos.
## Recomendación: El tratamiento de limpieza tiene un efecto real y debería considerarse su implementación.
  1. ¿Es razonable suponer en el inciso a) que las varianzas son iguales?
## Hipótesis de la prueba de Bartlett:
## H₀ (nula): σ₁² = σ₂² → Las varianzas son iguales.
## H₁ (alterna): σ₁² ≠ σ₂² → Las varianzas son diferentes.
## --- Resultado de la prueba de Bartlett ---
## 
##  Bartlett test of homogeneity of variances
## 
## data:  porcentaje_cometas by tratamiento
## Bartlett's K-squared = 6.4256, df = 1, p-value = 0.01125
## 
## --- Interpretación ---
## El valor-p es 0.0112 menor que 0.05.
## Se rechaza la hipótesis nula. Las varianzas son significativamente diferentes.
## Esto cuestionaría la validez del ANOVA clásico del literal a.
  1. ¿En qué porcentaje se reducen los discos con cometas?
## 
## --- Literal c) Porcentaje de reducción ---
## Media sin tratamiento: 9.35
## Media con tratamiento: 3.37
## Reducción porcentual: 63.96 %
## 
## --- Interpretación ---
## El tratamiento de limpieza logró reducir el porcentaje de discos con cometas en un 63.96 % respecto al grupo sin tratamiento.
## Esto representa una disminución importante y cuantificable, lo que refuerza la recomendación de implementar el tratamiento desde una perspectiva práctica.
  1. Analice la diferencia de medias de estos tratamientos mediante la prueba t de Student del capítulo 2, expresión (2.14), y verifique que se obtienen las mismas conclusiones que con el ANOVA.
## 
## --- Tabla resumen por grupo ---
##             Grupo  n Media Varianza
## 1 Con tratamiento 12  3.37     1.76
## 2 Sin tratamiento 12  9.35     9.12
## 
## --- Prueba t de Student (expresión 2.14) ---
## t calculado: 6.2781
## t crítico (95%): ± 2.0739
## p-valor: 2.559e-06
## 
## --- Interpretación ---
## ✅ Como |t| > t crítico y p-valor < 0.05, se RECHAZA la hipótesis nula.
## ✅ Conclusión: hay diferencia significativa entre los grupos.
## ✅ Esta conclusión es coherente con los resultados obtenidos mediante ANOVA,
##    donde también se detectó una diferencia significativa en el porcentaje de discos con cometas.
## ✅ Ambos métodos (ANOVA y prueba t) indican que el tratamiento tiene un efecto real.
# 21. Una consecuencia de los desechos industriales es la contaminación de afluentes de agua, aguas subterráneas y en el suelo. En un área industrial se tomaron 25 muestras para evaluar la contaminación en su entorno. Los niveles de Magnesio (Mg), Calcio (Ca) y Potasio (K) de los muestreos en aguas subterráneas aparecen a continuación.

# Metal  | Agua subterránea (mg/L)
# ---------------------------------
# Ca     | 17.9  56.6  37.0  34.4  49.7  33.8  22.0  32.5  32.9  35.0  41.3  32.6  28.5
#        | 51.3  43.2  66.9  26.6  45.2  16.7  57.6  46.1  60.2  55.4  19.4  36.2
# Mg     | 0.8   3.3   0.4   0.6   0.9   0.8   8.6   7.7   1.2   8.7   1.6   4.3   1.6
#        | 2.0   21.2  26.6  15.4  0.8   1.9   1.8   2.9   8.2   9.2   2.2   1.0
# K      | 30.4  67.3  35.7  48.3  37.5  63.1  27.0  50.9  20.7  38.7  56.6  21.3  19.7
#        | 22.7  24.9  27.3  74.8  55.1  20.5  21.8  22.7  26.0  39.6  17.3  55.1

# a) Se quiere comparar los niveles de estos tres metales. Formule las hipótesis adecuadas y el modelo estadístico correspondiente.

# b) Haga un análisis descriptivo de los datos de cada metal (medidas de tendencia central,  variabilidad, diagrama de caja) y, con base en este análisis, ¿parece haber diferencia entre los niveles de cada metal?

# c) Realice el análisis de varianza para probar las hipótesis de interés, y obtenga conclusiones.

# d) Verifique los supuestos del ANOVA.
  1. Se quiere comparar los niveles de estos tres metales. Formule las hipótesis adecuadas y el modelo estadístico correspondiente.
## 🔍 Hipótesis planteadas para el análisis de varianza:
## H₀: μ₁ = μ₂ = μ₃ (los niveles promedio son iguales para todos los metales: Ca, Mg y K)
## H₁: al menos uno de los niveles promedio difiere
## 
## 📘 Modelo estadístico utilizado (modelo de efectos fijos):
## y_ij = μ + τ_i + ε_ij
## donde:
##  - y_ij: nivel observado del metal i en la repetición j
##  - μ: media general de todos los niveles
##  - τ_i: efecto del i-ésimo tipo de metal (i = Ca, Mg, K)
##  - ε_ij: error aleatorio asociado, asumido ε_ij ~ N(0, σ²), independientes
  1. Haga un análisis descriptivo de los datos de cada metal (medias de tendencia central, variabilidad, diagrama de caja) y, con base en este análisis, ¿parece haber diferencia entre los niveles de cada metal?
## [1] "metal" "nivel"
## # A tibble: 3 × 7
##   metal Media Mediana Desviación_Estandar Mínimo Máximo     n
##   <chr> <dbl>   <dbl>               <dbl>  <dbl>  <dbl> <int>
## 1 Ca     40.4    39                  13.4   16.7   66.9    25
## 2 K      38.8    36                  16.1   15.1   70.7    25
## 3 Mg     17.7    17.2                10.8    2     44.8    25

## 
## 📊 Interpretación descriptiva por metal:
## - El metal Ca tiene una media de 40.42 y una desviación estándar de 13.42 .
##   Su nivel oscila entre 16.7 y 66.9 con una mediana de 39 .
## 
## - El metal K tiene una media de 38.8 y una desviación estándar de 16.06 .
##   Su nivel oscila entre 15.1 y 70.7 con una mediana de 36 .
## 
## - El metal Mg tiene una media de 17.67 y una desviación estándar de 10.81 .
##   Su nivel oscila entre 2 y 44.8 con una mediana de 17.2 .
## 📌 Conclusión general:
## Existen diferencias notables entre los metales en cuanto a sus niveles promedio y su dispersión.
## Por ejemplo, el metal Mg muestra valores mucho más bajos y concentrados, mientras que Ca y K presentan una mayor variabilidad.
## El boxplot confirma que los rangos de valores y posibles asimetrías son distintos entre los metales.
## Estas observaciones justifican aplicar un análisis de varianza (ANOVA) para determinar si esas diferencias son estadísticamente significativas.
  1. Realice el análisis de varianza para probar las hipótesis de interés, y obtenga conclusiones.
## 📌 Hipótesis del ANOVA:
## H₀: μ₁ = μ₂ = μ₃ = ... = μ_k (los niveles promedio de los metales son iguales)
## H₁: Al menos un metal tiene un nivel promedio diferente
## 📐 Modelo estadístico:
## Y_ij = μ + α_i + ε_ij
## donde Y_ij es el nivel observado,
## μ es la media general,
## α_i es el efecto del i-ésimo metal,
## y ε_ij es el error aleatorio (iid ~ N(0, σ²))
## 
## 📊 Tabla ANOVA:
##       Fuente Suma.de.Cuadrados Grados.de.Libertad Cuadrado.Medio F.Observado
##  metal                 8054.39                  2        4027.20       21.77
##  Residuals            13317.93                 72         184.97          NA
##        Total          21372.32                 74             NA          NA
##  Valor.p
##  < 1e-04
##       NA
##     <NA>
## 
## ✅ Conclusión:
## Como el valor p = 0 < 0.05, se rechaza H₀.
## Existe evidencia estadística suficiente para afirmar que al menos un metal tiene un nivel promedio diferente.
  1. Verifique los supuestos del ANOVA.
## 
## 📌 Supuesto de normalidad:
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.97845, p-value = 0.2299
## ✅ No se rechaza la normalidad de los residuos (p = 0.2299 ).
## 
## 📌 Supuesto de homogeneidad de varianzas (Levene):
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value  Pr(>F)  
## group  2  2.3812 0.09969 .
##       72                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## ✅ No se rechaza la homogeneidad de varianzas (p = 0.0997 ).

Conclusiones

• El análisis estadístico realizado sobre la base de datos winequality permitió identificar relaciones significativas entre variables fisicoquímicas y la calidad del vino. En particular, características como el grado alcohólico, la acidez volátil y la densidad mostraron una fuerte influencia sobre la puntuación de calidad.

• Mediante el uso de diagramas de caja, fue posible visualizar la distribución de las variables y detectar la presencia de valores atípicos, especialmente en variables como el contenido de azúcares residuales y el dióxido de azufre, lo que sugiere la necesidad de considerar estos factores en el control de calidad.

• El análisis de varianza (ANOVA) evidenció diferencias estadísticamente significativas en los niveles de calidad según el tipo de vino (tinto o blanco) y según rangos de variables clave como el contenido alcohólico y la acidez. Esto respalda la hipótesis de que ciertos perfiles químicos están asociados a una mejor percepción sensorial.

• Las tablas de cuartiles y percentiles permitieron una descripción detallada del comportamiento de cada variable, facilitando la segmentación de las muestras y la identificación de tendencias dentro de los grupos analizados.

• En conjunto, los resultados obtenidos aportan información valiosa para la industria vitivinícola, ya que permiten orientar los procesos de producción hacia parámetros que influyen positivamente en la calidad del vino, promoviendo una toma de decisiones basada en evidencia objetiva.

Bibliografìa

• UCI Machine Learning Repository. (n.d.). Wine quality data set. University of California, Irvine. https://archive.ics.uci.edu/ml/datasets/Wine+Quality

• Fox, J., & Weisberg, S. (2019). An R companion to applied regression (3rd ed.). SAGE Publications.

• Mangiafico, S. S. (2016). Summary and analysis of extension program evaluation in R. Rutgers Cooperative Extension. https://rcompanion.org/handbook/

• Field, A. (2018). Discovering statistics using R (2nd ed.). SAGE Publications. https://batrachos.com/sites/default/files/pictures/Books/Field_ea_2012_Discovering%20Statistics%20using%20R.pdf

• Montgomery, D. C. (2017). Design and analysis of experiments (9th ed.). Wiley. https://books.google.com.co/books?id=Py7bDgAAQBAJ