Planteamiento del Problema

El análisis de la calidad del vino es una tarea crucial en la industria enológica, dado que factores como la acidez, el contenido de alcohol, el pH, los niveles de azúcar residual y otras propiedades físico-químicas influyen directamente en las características sensoriales y comerciales del producto final. En este contexto, es fundamental comprender cómo estas variables se relacionan entre sí y cómo afectan la calidad percibida del vino, medida a través de puntajes sensoriales o clasificaciones cualitativas (por ejemplo, baja, media, excelente).

Dado el creciente interés por optimizar la producción y mejorar los estándares de calidad, es necesario aplicar metodologías rigurosas que permitan identificar diferencias significativas entre grupos, establecer relaciones entre variables y evaluar el efecto de ciertos factores sobre la calidad del vino. El Diseño de Experimentos (DOE) ofrece un marco estadístico robusto para abordar estos objetivos mediante la comparación de medias, pruebas de hipótesis, análisis de varianza (ANOVA) y correlaciones, entre otras técnicas.

Este estudio se propone investigar, a partir de una base de datos real de vinos, cómo influyen distintas propiedades fisicoquímicas sobre el puntaje sensorial y la clasificación de calidad. En particular, se busca dar respuesta a las siguientes preguntas de investigación:

  • ¿El contenido promedio de alcohol varía según el nivel de acidez?

  • ¿Las muestras con mayor acidez presentan menor pH en promedio?

  • ¿El nivel de azúcar residual difiere entre vinos clasificados como “muy ácidos” frente a los “ácidos”?

  • ¿La acidez volátil promedio cambia entre distintos niveles de acidez?

  • ¿Las muestras con alto contenido de alcohol presentan mejores clasificaciones sensoriales?

  • ¿El puntaje sensorial promedio aumenta conforme mejora la calidad?

  • ¿El tipo de vino (blanco o rojo) influye significativamente en el pH o el puntaje sensorial?

Objetivo general

Analizar estadísticamente la influencia de las propiedades fisicoquímicas del vino sobre su calidad sensorial y clasificación final, mediante la aplicación de técnicas de Diseño de Experimentos, con el fin de identificar relaciones significativas entre variables, establecer comparaciones entre grupos y proporcionar evidencia cuantitativa que contribuya a la mejora del proceso de evaluación y producción enológica.

Objetivos especificos

  • Comparar el contenido promedio de alcohol entre grupos de vinos clasificados por niveles de acidez, mediante pruebas t de comparación de medias.

  • Evaluar si existen diferencias estadísticamente significativas en el pH, azúcar residual, acidez volátil y otros componentes químicos entre categorías de calidad sensorial del vino.

  • Determinar si el tipo de vino (tinto o blanco) influye en variables clave como el pH, el contenido de alcohol y el puntaje sensorial promedio.

  • Aplicar análisis de varianza (ANOVA) para identificar si hay efectos significativos del nivel de acidez sobre variables como densidad, sulfatos o ácido cítrico.

  • Estimar la fuerza y dirección de la asociación entre variables cuantitativas como el contenido de alcohol y la acidez fija, utilizando coeficientes de correlación de Pearson.

Antecedetes

En las últimas décadas, el análisis estadístico aplicado a productos enológicos ha cobrado gran relevancia en la industria vitivinícola y en la investigación académica. Diversos estudios han demostrado que las propiedades fisicoquímicas del vino, como el contenido de alcohol, el pH, la acidez volátil, los niveles de azúcar residual, y la concentración de compuestos como los sulfatos y el ácido cítrico, influyen significativamente en la percepción sensorial y, por ende, en la calidad comercial del producto (Cortez et al., 2009; Pizarro et al., 2015).

Por ejemplo, Cortez y colaboradores (2009), mediante la aplicación de algoritmos de clasificación y análisis multivariante, lograron predecir con alta precisión la calidad del vino en función de sus características químicas. Asimismo, estudios como el de Tofalo et al. (2014) han utilizado modelos experimentales y análisis de varianza (ANOVA) para investigar el efecto de distintas técnicas de fermentación y variables de proceso sobre parámetros clave como el aroma, sabor y cuerpo del vino.

El uso del Diseño de Experimentos (DOE) ha sido especialmente útil en investigaciones enológicas, ya que permite controlar múltiples factores simultáneamente y detectar interacciones entre variables, optimizando así los procesos de producción. A través de pruebas t, ANOVA y análisis post hoc como el test de Tukey, se ha logrado identificar patrones significativos en los datos y tomar decisiones más informadas sobre mezclas, tratamientos y ajustes en el proceso de vinificación (Oliveira et al., 2018).

Además los niveles estadisticos permiten explorar la relación entre variable cuantitativas, como la correlación entre el nivel de alcohol y la acidez fija, o entre el nivel de pH y el contenido de azúcares. lo cual aporta información clave para mejorar el control de calidad en las bodegas. En este contexto, realizar un análisis detallado del comportamiento de las variables fisicoquímicas del vino y su relación con la calidad sensorial no solo resulta relevante paa la ciencia enológica, sino que también proporciona herramientas valiosas para los poductores, quienes pueden utilizar está información para optimizar la calidad del producto, responer a las demandas del mercado y mejorar la competitividad del sector.

Desarrollo del proyecto

##               media             mediana desviacion_estandar              minimo 
##           10.504746           10.300000            1.593123            8.000000 
##              maximo          q1_25%.25%          q2_50%.50%          q3_75%.75% 
##           95.666667            9.500000           10.300000           11.300000

El conjunto de datos analizado presenta una media aritmética de 10.50 y una mediana de 10.30, lo que indica una distribución relativamente simétrica, aunque ligeramente sesgada hacia la derecha. La desviación estándar de 1.59 sugiere una dispersión moderada de los valores alrededor del promedio. El rango intercuartílico, definido por el primer cuartil (Q1 = 9.50) y el tercer cuartil (Q3 = 11.30), muestra que el 50% central de los datos se concentra dentro de un intervalo estrecho de 1.80 unidades, lo cual refuerza la idea de baja variabilidad. El valor mínimo es 8.00 y el máximo es 95.67, lo que evidencia la presencia de al menos un valor atípico extremo, ya que este último se encuentra muy alejado del resto de la distribución. En conjunto, las estadísticas descriptivas sugieren una distribución mayoritariamente concentrada alrededor de la media, con un posible sesgo causado por valores extremos en el rango superior.

Preguntas basadas en la variable acidez

  1. ¿El contenido promedio de alcohol varía según el nivel de acidez (por ejemplo, Ácido vs. Muy ácido)?
## 
##     Ácido Muy ácido 
##      2457      3207
## 
##  Welch Two Sample t-test
## 
## data:  alcohol by acidez
## t = 5.4252, df = 5413.1, p-value = 6.042e-08
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  0.1441962 0.3073725
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                10.60771                10.38193

La media del contenido de alcohol fue de 10.61 para los vinos con acidez “Ácido” y de 10.38 para los vinos “Muy ácido”. Aunque la diferencia es estadísticamente significativa, su magnitud es relativamente pequeña desde un punto de vista práctico, por lo que se recomienda evaluar su relevancia en el contexto de calidad sensorial y preferencias del consumidor. Estos hallazgos sugieren una asociación entre el nivel de acidez y el contenido de alcohol, posiblemente relacionada con procesos fermentativos o decisiones enológicas específicas.

  1. ¿Las muestras con mayor nivel de acidez categórica presentan menor pH promedio?
##               Df Sum Sq Mean Sq F value Pr(>F)    
## acidez         5 134.75  26.950    5271 <2e-16 ***
## Residuals   6491  33.19   0.005                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) mostró un efecto altamente significativo de la acidez sobre el contenido de alcohol en los vinos (F(5, 6491) = 5271, p < 0.0001). La variable “acidez” explicó una proporción sustancial de la variabilidad total en los niveles de alcohol (Suma de cuadrados = 134.75), en comparación con la variabilidad residual (Suma de cuadrados = 33.19). Estos resultados indican que las diferencias en acidez estánasociadas con cambios significativos en el contenido alcohólico del vino, sugiriendo que la acidez es un factor determinante en su perfil químico.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = pH ~ acidez, data = data)
## 
## $acidez
##                                 diff         lwr         upr     p adj
## Ácido-acido               0.01563696 -0.02454907  0.05582298 0.8777869
## Bajo en acidez-acido      0.41549451  0.37016703  0.46082198 0.0000000
## Medio-acido               0.19941281  0.15869474  0.24013087 0.0000000
## Muy acido-acido          -0.15662207 -0.21496973 -0.09827442 0.0000000
## Muy ácido-acido          -0.18876928 -0.22890607 -0.14863248 0.0000000
## Bajo en acidez-Ácido      0.39985755  0.37809787  0.42161723 0.0000000
## Medio-Ácido               0.18377585  0.17500863  0.19254308 0.0000000
## Muy acido-Ácido          -0.17225903 -0.21495976 -0.12955830 0.0000000
## Muy ácido-Ácido          -0.20440623 -0.20987118 -0.19894129 0.0000000
## Medio-Bajo en acidez     -0.21608170 -0.23880894 -0.19335446 0.0000000
## Muy acido-Bajo en acidez -0.57211658 -0.61968774 -0.52454541 0.0000000
## Muy ácido-Bajo en acidez -0.60426378 -0.62593240 -0.58259517 0.0000000
## Muy acido-Medio          -0.35603488 -0.39923669 -0.31283307 0.0000000
## Muy ácido-Medio          -0.38818209 -0.39672080 -0.37964338 0.0000000
## Muy ácido-Muy acido      -0.03214721 -0.07480161  0.01050720 0.2626030

El análisis post hoc de Tukey reveló diferencias estadísticamente significativas en los valores de pH entre la mayoría de los niveles de acidez considerados (p<0.0001).Comparado con la categoria de referencia (ácido), los vinos clasificados como “baja acidez” y “medio” presentaron valores de pH significativamente más altos, mientras que los grupos “muy ácido” mostrando valores de pH significativamente más bajos. En contraste, la comparación entre “ácido” y “ácido” no presentó diferencias significativas (p = 0.878), confirmando la consistencia interna del análisis. Las mayores diferencias se observaron entre los extremos del espectro, como entre “bajo en acidez” y “muy ácido” (diferencia = 0.604, IC95%: 0.583–0.626, p < 0.001), lo que indica un fuerte gradiente de acidez relacionado con el pH.La única comparación no significativa fue entre “muy ácido” y “muy acido” (p = 0.263), lo que sugiere que estas denominaciones representan categorías con comportamientos químicos similares. En conjunto, estos resultados confirman que el pH varía de manera sistemática y significativa en función de la clasificación de acidez, validando su uso como descriptor enológico.

  1. ¿El nivel de azúcar residual es mayor en las muestras clasificadas como Muy ácidas frente a las Ácidas?
## 
##     Ácido Muy ácido 
##      2457      3207
## 
##  Two Sample t-test
## 
## data:  data_filtrada$azucar.residual by data_filtrada$acidez
## t = -15.781, df = 5662, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -2.268558 -1.767205
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                4.587139                6.605020

La prueba t para muestras independientes reveló una diferencia estadisticamente significativa en los niveles de azúcar residual entre los vinos clasificados como “Ácido y muy ácido” (t = -15.78, gl = 5662, p < 0.001). El promedio de azúcar residual fue considerablemente mayor en los vinos “muy ácidos” (M=6.61) en comparación con los “ácidos” (M=4.59), con una diferencia estimada entre medias de aproximadamente 2.02 unidades, esta diferencia se encuentra respaldada por un intervalo de confianza del 95% para la diferencia de medias que no incluye el cero (IC95%: -2.27 a -1.77), lo que refuerza la evidencia de una diferencia real entre ambos grupos.

Estos resultados sugieren que los vinos con una mayor acidez tienden a presentar niveles más altos de azúcar residual, lo cual podría interpretarse como una estrategia enólogica deliberada para suavizar la percepción sensorial de la acidez mediante el balance con dulzor residual. Esta relación entre acidez y dulzor residual podría tener implicaciones relevantes en la caracterización y acepatación de los perfiles organolépticos del vino.

  1. ¿Existen diferencias en la acidez volátil promedio entre niveles de acidez (Ácido vs. Muy ácido)?
## 
##     Ácido Muy ácido 
##      2457      3207
## 
##  Two Sample t-test
## 
## data:  acidez.volatil by acidez
## t = 0.34388, df = 5662, p-value = 0.7309
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -1.171411  1.669804
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##               1.1870838               0.9378874

La prueba t de mustras independientes no reveló una diferencia estadisticamente significativa en la acidez volátil promedio entre los vinos clasificados como “Ácido” y “Muy ácido” (t = 0.34, gl = 5662, p = 0.731). A pesar de que el grupo “Ácido” presentó una media ligeramente mayor de acidez volátil (M=1.19) en comparación con el grupo “Muy ácido” (M=0.94), el intervalo de confianza del 95% para la diferencia de medias (-1.17 a 1.67) incluye el cero, lo que indica que esta diferencia no es significativa desde el punto de vista estadistico.

Estos resultados sugieren que, en este conjunto de datos, la clasificación sensorial de acidez no se traduce en diferencias sustanciales en los niveles promedio de acidez volátil, al menos entre las categorias “Ácido” y “Muy ácido”. Esto podría deberse a que la percepción de acidez está influenciadapor otros componentes químicos del vino, como el pH o el contenido de ácidos fijos más que por la acidez volátil en sí misma.

  1. ¿La densidad promedio cambia entre los niveles de acidez?
##               Df    Sum Sq   Mean Sq F value  Pr(>F)   
## acidez         5 1.036e+09 207183229   3.476 0.00386 **
## Residuals   6491 3.868e+11  59596523                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = densidad ~ acidez, data = data)
## 
## $acidez
##                                   diff        lwr      upr     p adj
## Ácido-acido               3.567299e+02 -3981.7697 4695.229 0.9999039
## Bajo en acidez-acido      1.342307e-04 -4893.5722 4893.572 1.0000000
## Medio-acido               3.784680e+02 -4017.4705 4774.406 0.9998794
## Muy acido-acido          -2.926254e-04 -6299.2366 6299.236 1.0000000
## Muy ácido-acido           1.137925e+03 -3195.2594 5471.109 0.9757358
## Bajo en acidez-Ácido     -3.567297e+02 -2705.9130 1992.453 0.9980802
## Medio-Ácido               2.173813e+01  -924.7748  968.251 0.9999998
## Muy acido-Ácido          -3.567302e+02 -4966.7182 4253.258 0.9999288
## Muy ácido-Ácido           7.811949e+02   191.1976 1371.192 0.0022376
## Medio-Bajo en acidez      3.784679e+02 -2075.1740 2832.110 0.9979307
## Muy acido-Bajo en acidez -4.268561e-04 -5135.8023 5135.801 1.0000000
## Muy ácido-Bajo en acidez  1.137925e+03 -1201.4275 3477.277 0.7352143
## Muy acido-Medio          -3.784683e+02 -5042.5530 4285.616 0.9999099
## Muy ácido-Medio           7.594567e+02  -162.3856 1681.299 0.1750218
## Muy ácido-Muy acido       1.137925e+03 -3467.0610 5742.911 0.9814735

El análisis de varianza (ANOVA) indicó que existen diferencias estadísticamente significativas en la densidad promedio entre los distintos niveles de acidez (F(5, 6491) = 3.476, p = 0.0039). Esto sugiere que, al menos entre algunos grupos, el nivel de acidez está asociado con cambios en la densidad del vino. Sin embargo, el análisis post hoc mediante el test de Tukey HSD reveló que la mayoría de las comparaciones entre pares de niveles de acidez no son estadísticamente significativas, ya que los intervalos de confianza contienen el cero y los valores p son cercanos a 1. La única diferencia estadísticamente significativa se observó entre los grupos “Muy ácido” y “Ácido”, donde la densidad media fue mayor en el grupo “Muy ácido” en aproximadamente 781 unidades (p = 0.0022, IC95%: 191.20 a 1371.19). Esto sugiere que los vinos percibidos como “Muy ácidos” tienden a tener una densidad ligeramente mayor que aquellos clasificados como “Ácidos”.

En conjunto, aunque el efecto global de la acidez sobre la densidad es estadísticamente significativo, las diferencias entre grupos específicos son en su mayoría pequeñas y no significativas, con excepción del contraste “Muy ácido” vs. “Ácido”. Esto puede deberse a la interacción de la acidez con otras variables químicas del vino que también afectan la densidad, como el contenido de alcohol o azúcares disueltos.

  1. Elaborar un bráfico de caja y bigotes para cada nivel de acidez

En el diagrama de cajas se observa la distribución del pH en función de distintos niveles de acidez. Se evidencia una tendencia clara: a medida que aumenta la acidez percibida, el pH disminuye paulatinamente, lo cual es coherente con el comportamiento químico esperado. Las categorias “bajo en acidez” y “medio” presentan medianas de pH más elevadas (aprox. 3.5 y 3.6), mientras que los grupos etiquetados como “ácido” y “muy ácido” presentan medianas más bajas (cercanas a 3.1) y una mayor presencia de valores atipicos, lo que sugiere una mayor variabilidad en estas categorias extremas.

Para determinar si estas diferencias son estadisticamente significativas, se realizó un análisis de varianza (ANOVA), considerando el pH como variable dependiente y el nivel de acidez como factor. El resultado del ANOVA indicó diferencias significativas entre los grupos (p<0.0001). Posteriormente se aplicó una prueba de comparaciones multiples de Tukey, la cual mostró que las diferencias en el pH entre niveles de acidez extremos (“Muy ácido” vs “Bajo en acidez”) son altamente significativas (p<0.0001), mientras que las diferencias entre otras categorias intermedias no fueron estadisticamente significativas. Estos hallazgos permiten concluir que el nivel de acidez tiene un efecto significativo en el pH de las muestras analizadas, y que dicho efecto no es uniforme entre todos los niveles, lo cual podría tener implicaciones relevantes en la caracterización fisicoquímica de productos sensibles a la acidez, como lo es el vino.

  1. ¿La concentración de ácido cítrico promedio difiere entre muestras con acidez Ácida y Muy ácida?
## 
##  Two Sample t-test
## 
## data:  X.acido.citrico by acidez
## t = -15.742, df = 5662, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  -0.06465250 -0.05033293
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##               0.2992145               0.3567072

La prueba t de muestras independientes reveló una diferencia estadisticamente significativa en la concentración promedio de ácido cítrico entre los vinos clasificados como “Ácido2 y”Muy ácido” (t = -15.74, gl = 5662, p < 0.0001). El grupo “Muy ácido” presentó una concentración promedio más alta (M=0.357) que el grupo “ácido” (M=0.299). El intervalo de confianza del 95% para la diferencia de medias fue [-0.0647, -0.0503], lo que indica que la diferencia es estadisticamente significativa y que los vinos “Muy ácidos” contienen, en promedio, entre 0.050 y 0.065 unidades más de ácido cítrico que los vinos “Ácidos”.

Esto respalda la hipótesis de que el aumento en la acidez percibida está asociado con una mayor concentración de ácido cítrico, uno de los principales ácidos orgánicos en el vino, que influye tanto en el sabor como en la estabilidad química del producto final.

  1. ¿Las muestras con mayor contenido de alcohol presentan menor acidez fija en promedio?
## 
##  Pearson's product-moment correlation
## 
## data:  data$alcohol and data$acidez.fija
## t = -5.6615, df = 6494, p-value = 1.564e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.09424033 -0.04584174
## sample estimates:
##         cor 
## -0.07008228

El análisis de correlación de Pearson mostró una asociación negativa y estadisticamente significativa entre el contenido de alcohol y la acidez fija en las muestras analizadas (r = –0.070, p < 0.0001, IC95%: [–0.094, –0.046]). Aunque el valor del coeficiente indica una relación débil, el signo negativo sugiere que a mayor contenido de alcohol, menor tiende a ser la acidez fija en promedio.

Este patrón es coherente con principios enológicos, dado que el aumento del contenido alcohólico está relacionado con la evolución de la fermentación, proceso durante el cual ciertos ácidos orgánicos pueden disminuir debido a su transformación o volatilización. Sin embargo, dado que la fuerza de la asociación es baja, se deduce que otros factores también influyen en la acidez fija y que el alcohol no es solo un predictor fuerte por sí solo.

  1. ¿El contenido de sulfatos difiere entre niveles de acidez?
##               Df Sum Sq Mean Sq F value Pr(>F)    
## acidez         5   5.35  1.0706   50.18 <2e-16 ***
## Residuals   6491 138.49  0.0213                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El ANOVA reveló que existen diferencias estadisticamente significativas en el contenido de sulfatos entre los distintos niveles de acidez en las muestras de vino analizadas (F(5, 6491) = 50.18, p < 0.0001). Esto indica que la acidez percibida está asociada con variaciones en la concentración media de sulfatos, un componente químico relevante para la conservación y estabilidad del vino.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = sulfatos ~ acidez, data = data)
## 
## $acidez
##                                 diff         lwr         upr     p adj
## Ácido-acido               0.02446886 -0.05761937  0.10655710 0.9580419
## Bajo en acidez-acido      0.11395604  0.02136534  0.20654675 0.0060504
## Medio-acido               0.05315240 -0.03002263  0.13632744 0.4517329
## Muy acido-acido          -0.04688963 -0.16607674  0.07229747 0.8726670
## Muy ácido-acido          -0.01809311 -0.10008078  0.06389455 0.9888906
## Bajo en acidez-Ácido      0.08948718  0.04503856  0.13393580 0.0000001
## Medio-Ácido               0.02868354  0.01077468  0.04659240 0.0000743
## Muy acido-Ácido          -0.07135850 -0.15858354  0.01586654 0.1813106
## Muy ácido-Ácido          -0.04256198 -0.05372525 -0.03139871 0.0000000
## Medio-Bajo en acidez     -0.06080364 -0.10722871 -0.01437857 0.0026206
## Muy acido-Bajo en acidez -0.16084568 -0.25801958 -0.06367177 0.0000357
## Muy ácido-Bajo en acidez -0.13204916 -0.17631176 -0.08778655 0.0000000
## Muy acido-Medio          -0.10004204 -0.18829063 -0.01179344 0.0156566
## Muy ácido-Medio          -0.07124552 -0.08868759 -0.05380345 0.0000000
## Muy ácido-Muy acido       0.02879652 -0.05833388  0.11592692 0.9355448

El análisis post hoc de Tukey mostró que:

  • Los vinos clasificados como “Bajo en acidez” presentaron concentraciones de sulfatos significativamente mayores que aquellos clasificados como “Muy ácido” y “Ácido” (p<0.0001).

  • También se observaron diferencias significativas entre los niveles “Medio” y “Muy ácido” (p=0.016), indicando un patrón decreciente de sulfatos a medida que la acidez aumenta.

  • Algunas comparaciones como entre “Ácido” y “Muy ácido”, no fueron estadisticamente significativas (p>0.87), lo que sugiere cierta superposición entre estos grupos.

En conjunto, los resultados apuntan a que los vino con menor acidez percibida tienden a tener mayor contenido de sulfatos. Esta relación podría estar vinculada a prácticas enológicas especificas, ya que los sulfatos se utilizan como conservantes y antioxidantes, y su concentración puede variar según el estilo y perfil deseado del vino.

  1. ¿El pH promedio de las muestras con acidez Muy ácida es diferente al de las Ácidas?
## 
##  Welch Two Sample t-test
## 
## data:  pH by acidez
## t = 109.37, df = 5569.1, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
##  0.2007423 0.2080702
## sample estimates:
##     mean in group Ácido mean in group Muy ácido 
##                3.294868                3.090461

La prueba t de Welch para muestras independientes reveló una diferencia estadisticamente significativa en el pH promedio entre los vinos clasificados como “Ácido” y aquellos como “Muy ácido” (t = 109.37, gl = 5569.1, p < 2.2e-16). El valor de p extremadamente bajo indica una evidencia concluyente en contra de la hipótesis nula de igualdad de medias. Especificamente, los vinos “Ácido” presentaron un pH promedio de 3.29, mientras que los vinos “Muy ácido” mostrarón un pH significativamente más bajo, con una media de 3.09. El intervalo de confianza del 95% para la diferencia de medias fue de [0.2007, 0.2081], lo cual no incluye el cero y respalda la existencia de una diferencia real entre los grupos.

Estos hallazgos confirman que el pH químico se alinea con la categorización sensorial de la acidez, proporcionando soporte objetivo para el uso del pH como indicador enológico de la percepción ácida del vino.

Preguntas basadas en el contenido de alcohol

  1. ¿El puntaje sensorial promedio varía entre los vinos con bajo y alto contenido de alcohol?
## 
##  Welch Two Sample t-test
## 
## data:  puntaje.sensorial by grupo_alcohol
## t = 33.806, df = 6194.2, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
##  0.6379835 0.7165297
## sample estimates:
## mean in group Alto mean in group Bajo 
##           6.161774           5.484517

La prueba t de Welch para muestras independientes indicó que existe una diferencia estadisticamente significativamente en el puntaje sensorial promedio entre los vinos con alto y bajo contenido de alcohol (t = 33.81, gl = 6194.2, p < 2.2e-16). Los vinos clasificados como de alto contenido alcohólico obtuvieron un puntaje sensorial promedio de 6.16, mientras que aquellos con bajo contenido alcohólico obtuvieron una media de 5.48. El intervalo de confianza del 95% para la diferencia de medias fue de [0.638;0.717], confirmando que la diferencia observada es relevante y no atribuible al azar.

Estos resultados sugieren que un mayor contenido de alcohol se asocia con una mejor evaluación sensorial del vino, lo cual puede reflejar preferencias de los catadores por vinos con mayor cuerpo o intensidad.

  1. ¿Las muestras con alto contenido de alcohol tienen menor acidez volátil en promedio que las de contenido bajo?
## 
##  Welch Two Sample t-test
## 
## data:  acidez.volatil by grupo_alcohol
## t = -0.68233, df = 6293.5, p-value = 0.2475
## alternative hypothesis: true difference in means between group Alto and group Bajo is less than 0
## 95 percent confidence interval:
##       -Inf 0.7696868
## sample estimates:
## mean in group Alto mean in group Bajo 
##           1.042694           1.588180

La prueba t de Welch unilateral indica que no existe evidencia estadistica significativa para rechazar la hipótesis nula de igualdad de medias. Aunque las muestras con alto contenido de alcohol mostraron un promedio inferior de acidez volátil (1.04 vs 1.59), está diferencia no fue significativa desde el punto de vista estadistico. El intervalo de confianza del 95% para la diferencia de medias incluyó valores positivos, reforzando la conclusión de que no puede afirmarse que el alcohol elevado esté asociado a una menor acidez volátil.

En conjunto, los resultados sugieren que el contenido de alcohol no constituye un predictor confiable de la acidez vólatil del vino dentro de está muestra y que otras variables tanto químicas como de proceso podrían tener una mayor influencia sobre está caracteristica.

  1. ¿El nivel de azúcar residual cambia significativamente según el contenido de alcohol?
## 
##  Welch Two Sample t-test
## 
## data:  azucar.residual by grupo_alcohol
## t = -25.812, df = 5733, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
##  -3.107644 -2.668927
## sample estimates:
## mean in group Alto mean in group Bajo 
##           3.979216           6.867502

Se realizó una prueba t de Welch para muestras independientes con el fin de evaluar si el nivel de azúcar residual promedio difiere significativamente entre vinos con alto y bajo contenido de alcohol. El análisis arrojó un valor t = –25.81, con 5,733 grados de libertad, y un valor p < 2.2e–16, lo que indica una diferencia altamente significativa entre los dos grupos. Los resultados muestran que los vinos con bajo contenido de alcohol presentaron un promedio de azúcar residual significativamente mayor (6.87 g/L) que aquellos con alto contenido alcohólico (3.98 g/L). El intervalo de confianza del 95% para la diferencia de medias fue de [–3.108, –2.669], lo que respalda la existencia de una diferencia sustancial y consistente en los niveles de azúcar residual entre ambos grupos.

Esta diferencia puede deberse a que un mayor contenido de alcohol suele estar asociado con una fermentación más completa, en la que los azúcares son convertidos en etanol, reduciendo así la cantidad de azúcar residual en el producto final. En contraste, vinos con menor grado alcohólico podrían corresponder a fermentaciones detenidas o estilos dulces, donde se preserva un mayor contenido de azúcar residual.

  1. ¿Las muestras con alcohol alto presentan mayor calidad promedio (por ejemplo, más veces clasificadas como “Buena” o “Excelente”)?
##       
##        Baja Buena Excelent
##   Alto  601  1549     1052
##   Bajo 1783  1286      225

El análisis de contingencia entre el contenido de alcohol y la calidad sensorial reveló diferencias significativas en la distribución de las clasificaciones. La prueba de Chi-cuadrado de Pearson confirmó una asociación altamente significativa entre estas dos variables (χ² = 1144.9, gl = 2, p < 2.2×10⁻¹⁶), rechazando la hipótesis de independencia.

De los vinos con alto contenido alcohólico, el 67.4% fueron clasificados como “Buena” o “Excelente” (1,549 + 1,052 de un total de 3,202), en contraste con solo el 41.4% de los vinos con bajo alcohol (1,286 + 225 de 3,294). En cambio, el 54.1% de los vinos de bajo alcohol fueron evaluados como “Baja” calidad, frente a solo el 18.8% en el grupo de alto alcohol.

Estos resultados sugieren que un mayor contenido de alcohol se asocia positivamente con la percepción sensorial del vino, posiblemente debido a características enológicas como mayor cuerpo, estructura o intensidad aromática, que influyen favorablemente en la evaluación de calidad.

## 
##  Pearson's Chi-squared test
## 
## data:  table(data$grupo_alcohol, data$clasificacion_calidad)
## X-squared = 1144.9, df = 2, p-value < 2.2e-16

Se realizó una prueba de Chi-cuadrado de independencia para evaluar la relación entre el contenido de alcohol (alto vs. bajo) y la clasificación de calidad sensorial (baja, buena, excelente). La prueba fue altamente significativa (χ² = 1144.9, gl = 2, p < 2.2×10⁻¹⁶), lo que indica una asociación estadísticamente significativa entre ambas variables.

Estos resultados podrían explicarse por el hecho de que vinos con mayor contenido alcohólico tienden a tener mayor cuerpo, intensidad y estructura, características que frecuentemente se valoran positivamente en la evaluación sensorial.

  1. ¿El pH promedio difiere entre los niveles de alcohol (medio y alto)?
## 
##  Welch Two Sample t-test
## 
## data:  pH by nivel_alcohol
## t = 3.9345, df = 4161.8, p-value = 8.474e-05
## alternative hypothesis: true difference in means between group Medio and group Alto is not equal to 0
## 95 percent confidence interval:
##  0.009897996 0.029559701
## sample estimates:
## mean in group Medio  mean in group Alto 
##            3.246519            3.226790

El análisis de diferencia de medias mediante la prueba t de Welch reveló una diferencia estadísticamente significativa en el pH promedio entre los vinos clasificados con contenido de alcohol medio y alto (t = 3.93, gl = 4161.8, p < 0.0001). El intervalo de confianza del 95% para la diferencia de medias se encuentra entre 0.0099 y 0.0296, sin incluir el cero, lo que confirma la existencia de una diferencia real entre los grupos. Específicamente, los vinos con contenido medio de alcohol presentaron un pH promedio de 3.25, ligeramente superior al observado en aquellos con alto contenido alcohólico (pH = 3.23). Aunque la diferencia es pequeña en términos absolutos, su significancia estadística sugiere que el contenido de alcohol puede estar asociado con ligeras variaciones en la acidez del vino, posiblemente reflejando procesos de fermentación o conservación distintos entre las categorías.

Preguntas basadas en la calidad

  1. ¿El contenido promedio de alcohol varía según el nivel de calidad de las muestras?
##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        4   2128   532.1   240.6 <2e-16 ***
## Residuals   6491  14356     2.2                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness

El análisis de varianza (ANOVA) mostró que existen diferencias altamente significativas en el contenido promedio de alcohol entre los distintos niveles de calidad del vino (F(4, 6491) = 240.6, p < 0.0001). La suma de cuadrados asociada al factor calidad fue de 2128, mientras que la correspondiente al error residual fue de 14,356, lo cual indica que una proporción significativa de la variabilidad total en los niveles de alcohol puede atribuirse a las diferencias en la calidad. Estos resultados sugieren que los vinos clasificados con mayor calidad tienden a tener un contenido alcohólico distinto (y posiblemente más alto) que los vinos de menor calidad. Esta relación estadísticamente significativa respalda la hipótesis de que el grado alcohólico es un factor importante en la percepción o clasificación de la calidad del vino.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = alcohol ~ calidad, data = data)
## 
## $calidad
##                          diff         lwr        upr     p adj
## Buena-Baja          1.5480510  1.39651892  1.6995832 0.0000000
## Excelente-Baja      1.8534597  1.55202462  2.1548947 0.0000000
## Media-Baja          0.7791647  0.66293351  0.8953958 0.0000000
## Muy baja-Baja       0.3463951  0.07319839  0.6195918 0.0049407
## Excelente-Buena     0.3054086 -0.00831405  0.6191313 0.0607823
## Media-Buena        -0.7688864 -0.91403632 -0.6237364 0.0000000
## Muy baja-Buena     -1.2016559 -1.48835312 -0.9149588 0.0000000
## Media-Excelente    -1.0742950 -1.37257271 -0.7760172 0.0000000
## Muy baja-Excelente -1.5070645 -1.89448728 -1.1196418 0.0000000
## Muy baja-Media     -0.4327696 -0.70247862 -0.1630605 0.0001186

Los resultados de la prueba de comparaciones múltiples de Tukey indicaron que existen diferencias significativas en el contenido promedio de alcohol entre la mayoría de los niveles de calidad del vino. Los vinos clasificados como “Buena” y “Excelente” presentaron niveles significativamente más altos de alcohol en comparación con los vinos de calidad “Baja”, con diferencias promedio de 1.55 y 1.85 grados alcohólicos respectivamente (p < 0.0001). Asimismo, los vinos de calidad “Media” y “Muy baja” también se diferenciaron significativamente del grupo “Baja”, aunque con magnitudes menores. Entre los niveles superiores de calidad, la diferencia entre “Excelente” y “Buena” fue marginalmente no significativa (diferencia = 0.31, p ≈ 0.061), lo cual sugiere una posible similitud en el contenido alcohólico entre estos dos grupos de alta calidad. Por el contrario, los vinos “Muy baja” mostraron sistemáticamente los niveles más bajos de alcohol en todas las comparaciones (p < 0.001 en la mayoría de los casos).

En conjunto, estos hallazgos respaldan la hipótesis de que el contenido alcohólico se asocia positivamente con la calidad percibida del vino, y refuerzan la idea de que este componente es un atributo relevante en la evaluación enológica.

  1. ¿Las muestras clasificadas como “Excelente” presentan menor acidez volátil en promedio que las de calidad “Baja” ?
## 
##  Welch Two Sample t-test
## 
## data:  acidez.volatil by calidad
## t = 1.8506, df = 2137.4, p-value = 0.9678
## alternative hypothesis: true difference in means between group Baja and group Excelente is less than 0
## 95 percent confidence interval:
##      -Inf 2.891609
## sample estimates:
##      mean in group Baja mean in group Excelente 
##               1.8217633               0.2911869

Con el fin de explorar la relación entre la calidad del vino y su perfil químico, se evaluó si existía una diferencia significativa en la acidez volátil entre vinos clasificados como “Baja” y aquellos catalogados como “Excelente”. Para ello, se aplicó una prueba t de Welch unilateral, bajo la hipótesis alternativa de que los vinos “Excelente” presentan menor acidez volátil en promedio que los vinos de baja calidad. Esta prueba fue elegida debido a la posibilidad de varianzas desiguales entre grupos y al interés específico en detectar si los vinos de mayor calidad exhiben un comportamiento químico más refinado o controlado en términos de acidez volátil.

Los resultados obtenidos mostraron un valor de t = 1.8506 con aproximadamente 2137 grados de libertad, y un p-valor de 0.9678. Este valor excede ampliamente el umbral de significancia comúnmente aceptado de 0.05, indicando que no se encontró evidencia estadísticamente significativa para rechazar la hipótesis nula de igualdad de medias. El intervalo de confianza unilateral del 95% para la diferencia de medias se extendió hasta 2.89, sin excluir el cero, lo que refuerza la conclusión de que las diferencias observadas podrían explicarse por variabilidad aleatoria y no por un efecto sistemático de la calidad sobre la acidez volátil.

Desde un punto de vista descriptivo, se observó que los vinos de calidad “Excelente” presentaron una acidez volátil media de aproximadamente 0.291, considerablemente menor que el promedio de 1.822 registrado en los vinos de calidad “Baja”. A pesar de esta diferencia numérica llamativa, la elevada dispersión y variabilidad dentro de los grupos impidieron alcanzar significancia estadística. Este hallazgo sugiere que, si bien puede haber una tendencia general hacia niveles más bajos de acidez volátil en los vinos de mejor calidad, esta relación no es suficientemente robusta en la muestra analizada como para generalizarla con un alto grado de confianza estadística.

  1. ¿El puntaje sensorial promedio aumenta conforme mejora la calidad de las muestras?
##               Df Sum Sq Mean Sq F value Pr(>F)    
## calidad        4   4922    1231  255938 <2e-16 ***
## Residuals   6492     31       0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para evaluar si el puntaje sensorial promedio varía significativamente según el nivel de calidad del vino, se realizó un análisis de varianza de una vía (ANOVA), considerando la variable categórica calidad como factor con cinco niveles ordenados: Muy baja, Baja, Media, Buena y Excelente.

El resultado del ANOVA mostró un efecto altamente significativo de la calidad sobre el puntaje sensorial (F(4, 6492) = 255938, p < 2.2e-16), lo cual indica que existen diferencias estadísticas claras entre las medias de puntaje sensorial asociadas a los distintos niveles de calidad. La suma de cuadrados explicada por el factor calidad fue de 4922, comparada con solo 31 de variación residual, lo que sugiere que la calidad explica prácticamente toda la variación observada en el puntaje sensorial. Este resultado implica que la calidad del vino está fuertemente asociada con la percepción sensorial de los evaluadores. A medida que se avanza de niveles más bajos a más altos de calidad, el puntaje sensorial también aumenta sistemáticamente. Es decir, los vinos clasificados como Excelente obtienen, en promedio, puntajes sensoriales significativamente superiores a los de las categorías Buena, Media, Baja y Muy baja.

Este hallazgo valida la consistencia interna del sistema de clasificación de calidad usado en el conjunto de datos, ya que se observa una correspondencia directa entre la clasificación nominal de calidad y una medida cuantitativa objetiva como el puntaje sensorial. Además, refuerza la utilidad del puntaje sensorial como indicador robusto del valor percibido del vino, susceptible de usarse en análisis de control de calidad, segmentación de mercado o desarrollo de producto.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = puntaje.sensorial ~ calidad, data = data)
## 
## $calidad
##                        diff       lwr      upr p adj
## Baja-Muy baja      1.121951 1.1092131 1.134689     0
## Media-Muy baja     2.121951 2.1093759 2.134527     0
## Buena-Muy baja     3.121951 3.1085836 3.135319     0
## Excelente-Muy baja 4.147204 4.1291397 4.165268     0
## Media-Baja         1.000000 0.9945810 1.005419     0
## Buena-Baja         2.000000 1.9929346 2.007065     0
## Excelente-Baja     3.025253 3.0111977 3.039307     0
## Buena-Media        1.000000 0.9932325 1.006767     0
## Excelente-Media    2.025253 2.0113451 2.039160     0
## Excelente-Buena    1.025253 1.0106248 1.039880     0

Tras encontrar un efecto altamente significativo de la variable calidad sobre el puntaje sensorial mediante ANOVA (F(4, 6492) = 255938, p < 2.2e-16), se procedió a realizar una prueba de comparaciones múltiples de Tukey con un nivel de confianza del 95% para identificar con precisión cuáles pares de niveles de calidad presentan diferencias significativas.

Los resultados del análisis post hoc revelaron que todas las comparaciones entre niveles de calidad fueron estadísticamente significativas (p ajustado < 0.001). Específicamente:

  • Los vinos clasificados como “Excelente” obtuvieron en promedio un puntaje sensorial 4.15 unidades mayor que los vinos de calidad “Muy baja” (IC95%: 4.13 – 4.17), lo que representa la diferencia más pronunciada del análisis.

  • De forma sistemática, cada incremento en el nivel de calidad estuvo acompañado por un aumento aproximado de una unidad en el puntaje sensorial. Por ejemplo, entre “Media” y “Baja” la diferencia fue exactamente de 1.00, al igual que entre “Buena” y “Media”, y entre “Excelente” y “Buena” (p < 0.001 en todos los casos).

  • Las diferencias entre categorías consecutivas son estadísticamente significativas y clínicamente relevantes, mostrando que la escala de calidad está alineada con incrementos perceptibles en el puntaje sensorial.

Estos hallazgos validan empíricamente que el puntaje sensorial promedio aumenta consistentemente conforme mejora la calidad percibida del vino, de manera escalonada y progresiva. Esta relación fuerte y ordenada refuerza tanto la confiabilidad del instrumento de medición sensorial como la coherencia interna del sistema de clasificación de calidad, confirmando que la variable calidad no es arbitraria, sino que está bien fundamentada en características organolépticas observables y evaluadas de manera objetiva.

  1. ¿El nivel de dióxido de azufre total es diferente entre los vinos de calidad baja y los de calidad excelente?
## 
##  Welch Two Sample t-test
## 
## data:  dioxido.de.azufre.total by calidad
## t = 1.0363, df = 281.18, p-value = 0.3009
## alternative hypothesis: true difference in means between group Baja and group Excelente is not equal to 0
## 95 percent confidence interval:
##  -3.021472  9.740080
## sample estimates:
##      mean in group Baja mean in group Excelente 
##                120.8391                117.4798

Se realizó una prueba t de Welch para comparar el contenido promedio de dióxido de azufre total entre vinos clasificados como “Baja” y “Excelente” calidad. Los resultados indicaron que no existe una diferencia estadísticamente significativa entre los dos grupos (t = 1.036, gl ≈ 281.18, p = 0.3009). El intervalo de confianza del 95% para la diferencia de medias fue de [-3.02, 9.74], el cual incluye el valor cero, lo que respalda la conclusión de que la diferencia observada podría deberse al azar. Las medias muestrales fueron 120.84 mg/L para los vinos de calidad “Baja” y 117.48 mg/L para los de calidad “Excelente”, lo que sugiere una diferencia ligera pero no significativa.

Estos resultados sugieren que, al menos en esta muestra, el nivel de dióxido de azufre total no está asociado de forma clara o sistemática con la clasificación de calidad del vino, por lo que otros factores podrían tener un mayor peso en la percepción o determinación de dicha calidad. 5. ¿Las muestras con calidad “Muy baja” presentan mayor densidad en promedio que las de calidad “Excelente”?

Preguntas basadas en el tipo de vino

  1. ¿El contenido promedio de alcohol difiere entre vinos blancos y tintos?
## 
##  Welch Two Sample t-test
## 
## data:  alcohol by tipo
## t = -0.59599, df = 1883.4, p-value = 0.5513
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
##  -0.15889449  0.08483014
## sample estimates:
##  mean in group rojo mean in group white 
##            10.47683            10.51386

Se llevó a cabo una prueba t de Welch para comparar el contenido promedio de alcohol entre vinos rojos y blancos. El resultado de la prueba no fue estadísticamente significativo (t = –0.596, gl ≈ 1883.4, p = 0.5513), lo cual indica que no se puede afirmar que exista una diferencia real en el contenido alcohólico promedio entre ambos tipos de vino. El intervalo de confianza del 95% para la diferencia de medias fue de –0.159 a 0.085, lo que incluye el valor cero, confirmando que la diferencia observada podría deberse al azar. Las medias muestrales fueron 10.48% de alcohol para los vinos rojos y 10.51% para los blancos, lo que sugiere una diferencia leve y no significativa en términos prácticos ni estadísticos.

En conclusión, los resultados indican que el tipo de vino (rojo o blanco) no está asociado con diferencias sustanciales en el contenido promedio de alcohol en esta muestra.

  1. ¿Los vinos blancos presentan mayor pH en promedio que los vinos tintos?
## 
##  Welch Two Sample t-test
## 
## data:  pH by tipo
## t = 27.775, df = 2667.1, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group rojo and group white is greater than 0
## 95 percent confidence interval:
##  0.1155691       Inf
## sample estimates:
##  mean in group rojo mean in group white 
##            3.311113            3.188267

El pH es un indicador químico clave del perfil ácido de los vinos, con implicaciones tanto en la estabilidad microbiológica, como en la percepción sensorial del producto final. En este estudio, se examinó si existe una diferencia significativa en el pH promedio entre vinos tintos (rojos) y blancos, mediante la aplicación de una prueba t de Welch, la cual es adecuada para comparar medias entre dos grupos independientes con varianzas potencialmente desiguales.

La hipótesis alternativa planteada fue unilateral, con el supuesto de que los vinos tintos presentan un pH promedio mayor que los blancos, lo que implicaría una menor acidez relativa en el primer grupo. Los resultados obtenidos mostraron una diferencia altamente significativa (t = 27.775, gl ≈ 2667.1, p < 2.2 × 10⁻¹⁶), con un intervalo de confianza unilateral al 95% que va desde 0.116 hasta infinito. Este resultado rechaza de forma contundente la hipótesis nula de igualdad, y confirma que los vinos tintos poseen un pH significativamente superior al de los vinos blancos en esta muestra. Desde una perspectiva cuantitativa, la media del pH para los vinos tintos fue de 3.311, mientras que para los vinos blancos fue de 3.188, lo que representa una diferencia de aproximadamente 0.12 unidades de pH. Aunque esta diferencia puede parecer modesta, en términos de acidez del vino representa un cambio relevante en su perfil químico y sensorial, dada la escala logarítmica del pH.

Este hallazgo es consistente con literatura previa que reporta que los vinos blancos suelen ser elaborados con uvas que presentan mayor acidez natural, o que son vinificados con mayor control de temperatura y menor maceración, lo cual preserva su acidez. En contraste, los vinos tintos, al incluir fermentación con pieles y mayor extracción de compuestos fenólicos, tienden a presentar pH más elevados.

En conjunto, los resultados respaldan la hipótesis de que el tipo de vino está significativamente asociado con su nivel de pH, y subrayan el valor del pH como parámetro diferenciador entre vinos blancos y tintos en análisis enológicos y de calidad.

  1. ¿El puntaje sensorial promedio es distinto entre vinos blancos y tintos?
## 
##  Welch Two Sample t-test
## 
## data:  puntaje.sensorial by tipo
## t = -10.149, df = 2950.8, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
##  -0.2886173 -0.1951564
## sample estimates:
##  mean in group rojo mean in group white 
##            5.636023            5.877909

Con el fin de evaluar si existen diferencias significativas en la calidad percibida entre vinos de distinto tipo, se realizó una prueba t de Welch para comparar el puntaje sensorial promedio entre vinos blancos y tintos. Esta prueba es apropiada cuando se comparan medias de dos grupos independientes que pueden tener varianzas desiguales, como es el caso en muchos estudios enológicos. Los resultados de la prueba revelaron una diferencia estadísticamente significativa en los puntajes sensoriales entre ambos grupos (t = −10.15; gl ≈ 2950.8; p < 2.2 × 10⁻¹⁶). El intervalo de confianza al 95% para la diferencia de medias fue de [−0.289, −0.195], lo que indica que, en promedio, los vinos blancos obtuvieron puntajes sensoriales significativamente más altos que los vinos tintos.

En términos descriptivos, el puntaje promedio de los vinos blancos fue de 5.88, mientras que el de los vinos tintos fue de 5.64, lo cual representa una diferencia de aproximadamente 0.24 unidades en la escala sensorial utilizada. Aunque esta diferencia puede parecer modesta en magnitud, su significancia estadística y precisión del intervalo de confianza refuerzan la conclusión de que el tipo de vino influye en la percepción sensorial general. Estos hallazgos pueden deberse a múltiples factores enológicos, tales como el perfil aromático más frutal y la menor astringencia típicamente asociada con los vinos blancos, los cuales podrían ser preferidos sensorialmente por ciertos grupos de consumidores o evaluadores. Sin embargo, también es importante considerar que las preferencias sensoriales están sujetas a variaciones culturales y contextuales, por lo que estos resultados deben ser interpretados en función del marco específico del estudio y la naturaleza de los jueces o panel sensorial utilizado.

En conjunto, el análisis demuestra que el tipo de vino (blanco o tinto) constituye una variable relevante al considerar las valoraciones sensoriales promedio, respaldando su inclusión como factor explicativo en modelos de calidad percibida del vino.

Ejercicios unidad 3

  1. A continuación se muestra parte del ANOVA para comparar 5 tratamientos con cuatro replicas cada uno:
##   Fuente_de_variacion Suma_de_cuadrados G_de_libertad C_medio Razon_F Valor_p
## 1         Tratamiento               800                                      
## 2               Error               400                                      
## 3               Total
  1. Agregar los grados de libertad, el cuadro medio y la razón F para cada una de las fuentes de variación.
##       Fuente Suma.Cuadrados GL   C.Medio   F     Valor.p
##  Tratamiento            800  4 200.00000 7.5 0.001583951
##        Error            400 15  26.66667  NA          NA
##        Total           1200 19        NA  NA          NA
  1. Explicar de manera esquemática cómo calcularía el valor-p o la significancia observada, para ver si hay diferencia entre tratamientos.
## Conclusion: Se rechaza H0. Hay diferencias significativas entre tratamientos.

Los resultados del ANOVA revelaron diferencias estadisticamente significativas entre los tratamientos evaluados, con un valor de F=7.5 y un valor-p=0.001583. Dado que el valor-p es menor al nivel de significancia establecido (α = 0.05), se rechaza la hipótesis nula de igualdad de medias, lo que indica que al menos uno de los tratamientos presenta un efecto significativamente diferente sobre la variable de respuesta analizada. Estos hallazgos sugieren que el tratamiento aplicado influye de manera significativa en el comportamiento de la variable en estudio, por lo que se recomienda realizar comparaciones post-hoc para identificar específicamente cuáles tratamientos difieren entre sí.

  1. ¿Con la información disponible se pueden hacer conjeturas sobre si hay diferencias significativas entre tratamientos? Argumentar.

Con base en los resultados obtenidos del ANOVA, es posible afirmar que existen diferencias estadisticamente significativas entre los tratamientos evaluados. El valor del estadistico F (7.5) y su correspondiente valor-p (0.001583) indican que la variabilidad explicada por los tratamientos es significativamente mayor que la variabilidad atribuible al error aleatorio. Por tanto, se rechaza la hipótesis nula de igualdad de medias con un nivel de confianza del 95%.

No obstante, aunque se ha detectado una diferencia global entre tratamientos, esta prueba no permite identificar especificamente cuales tratamientos difieren entre sí; para ello se requiere realizar un análisis post-hoc como la prueba de Tukey.

  1. Anotar el modelo estadístico y formular la hipótesis pertinente.

Yij = μ + Ti + εij

H_o: T1 = T2 =….= Tk

H_a: Ti ≠ Tj para algún Ti ≠ Tj

  1. En una industria química se prueban diferentes mezclas para ver si difieren en cuanto al peso molecular final. Se prueban 4diferentes mezclas, con cinco repeticiones cada una. A continuación se muestra una parte de la tabla del análisis de varianza y los promedios obtenidos para cada mezcla.
##   mezcla      peso
## 1      A  9887.905
## 2      A  9953.965
## 3      A 10311.742
## 4      A 10014.102
## 5      A 10025.858
## 6      B  7343.013
##             Df   Sum Sq Mean Sq F value   Pr(>F)    
## mezcla       3 26562646 8854215   200.7 6.65e-13 ***
## Residuals   16   705826   44114                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  1. ¿Las mezclas difieren de manera significativa en cuanto a su peso molecular?
##             Pr(>F)
## mezcla        TRUE
## Residuals       NA

Con base en el análisis de varianza (ANOVA) realizado, se obtuvo un valor-p de 0.01, el cual es menor que el nivel de significancia comúnmente utilizado de 0.05. Esto indica que existe suficiente evidencia estadística para rechazar la hipótesis nula de igualdad de medias entre las mezclas. Por lo tanto, se concluye que al menos una de las mezclas presenta un peso molecular significativamente diferente de las demás. En consecuencia, las diferencias observadas en los pesos promedio entre las mezclas no pueden atribuirse únicamente al azar, sino que reflejan un efecto real del tipo de mezcla sobre el peso molecular final.

  1. Con el análisis de varianza y de acuerdo al promedio, ¿se puede asegurar que con la mezcla B se logra un menor peso molecular? Argumentar
##   mezcla      peso
## 1      A 10038.714
## 2      B  6991.136
## 3      C  8061.580
## 4      D  7521.868

A partir del análisis de varianza (valor-p = 0.01), ya se estableció que existen diferencias significativas entre las mezclas. Además, según los promedios obtenidos, la mezcla B presenta el peso molecular más bajo con un valor de 6991.14, en comparación con las otras mezclas (A = 10038.71, C = 8061.58, D = 7521.87).

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = peso ~ mezcla, data = datos)
## 
## $mezcla
##           diff        lwr        upr     p adj
## B-A -3047.5778 -3427.6271 -2667.5286 0.0000000
## C-A -1977.1337 -2357.1829 -1597.0845 0.0000000
## D-A -2516.8456 -2896.8948 -2136.7964 0.0000000
## C-B  1070.4441   690.3949  1450.4933 0.0000028
## D-B   530.7322   150.6830   910.7814 0.0051716
## D-C  -539.7119  -919.7611  -159.6627 0.0045064

Sí, se puede afirmar con respaldo estadístico que la mezcla B logra un peso molecular significativamente menor en comparación con las demás mezclas. El análisis post-hoc de Tukey muestra que la diferencia entre la mezcla B y cada una de las otras (A, C y D) es estadísticamente significativa, con valores p ajustados mucho menores que 0.05.

En particular:

  • La mezcla B difiere significativamente de A (), con una reducción de más de 3000 unidades.

  • También difiere de C y D, con diferencias de aproximadamente 1070 y 530 unidades, respectivamente, ambas significativas ().

Por lo tanto, con base en el ANOVA y la prueba de Tukey, se concluye que la mezcla B produce el menor peso molecular de manera estadísticamente significativa.

  1. Si al verificar los supuestos de varianza constante (varianzas iguales entre mezclas), estos no se cumplen, ¿qué significa eso? ¿Se puede seguir apoyando la conclusión del inciso a?.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.6536 0.5922
##       16

La prueba de Levene para homogeneidad de varianzas arrojó un valor-p de 0.5922, lo que indica que no existen diferencias significativas entre las varianzas de las distintas mezclas. Por tanto, se cumple el supuesto de varianza constante necesario para aplicar el ANOVA. Dado que los supuestos estadísticos se verifican adecuadamente, las conclusiones derivadas en el inciso a), respecto a la existencia de diferencias significativas entre mezclas en cuanto a su peso molecular, son estadísticamente válidas y confiables.

  1. Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen 6 replicas y los resultados obtenidos se muestran a continuación:
##   marca efectividad
## 1     1          72
## 2     1          65
## 3     1          67
## 4     1          75
## 5     1          62
## 6     1          73
  1. Formular la hipótesis adecuada y el modelo estadistico.
##             Df Sum Sq Mean Sq F value Pr(>F)  
## marca        2  296.3  148.17   2.793 0.0931 .
## Residuals   15  795.7   53.04                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) aplicado para comparar la efectividad entre tres marcas de spray muestra un valor-p de 0.0931, el cual es mayor al nivel de significancia comúnmente utilizado de 0.05. Esto indica que no existe evidencia estadísticamente suficiente para afirmar que las marcas difieren significativamente en su efectividad promedio. En consecuencia, no se puede rechazar la hipótesis nula de igualdad de medias. Aunque se observan algunas diferencias numéricas en los promedios, estas no son suficientemente grandes como para considerarse estadísticamente significativas.

  1. ¿Existe diferencia entre la efectividad promedio de los productos en spray?

Este valor-p es mayor que 0.05, el nivel de significancia comúnmente utilizado en pruebas estadísticas. Por lo tanto, no se rechaza la hipótesis nula, lo que implica que no se encontró evidencia estadísticamente significativa para afirmar que existe una diferencia en la efectividad promedio entre las marcas de spray.

En conclusión, con los datos disponibles y al nivel de significancia del 5%, no se puede afirmar que haya diferencias significativas entre los productos en cuanto a su efectividad. Sin embargo, dado que el valor-p está relativamente cerca de 0.05, podría ser útil recolectar más datos o repetir el experimento para confirmar esta tendencia.

  1. ¿Hay algún spray mejor? Argumentar.
##   marca efectividad
## 1     1    69.00000
## 2     2    59.16667
## 3     3    62.83333

A partir del análisis de medias realizado en RStudio, se observó que la marca 1 presentó la mayor efectividad promedio (69%), seguida por la marca 3 (62.83%) y la marca 2 (59.17%). Sin embargo, dado que el análisis de varianza (ANOVA) no mostró diferencias estadísticamente significativas entre los tratamientos (valor-p = 0.0931), no se puede concluir que alguna marca sea estadísticamente mejor que las otras.

Aunque la marca 1 muestra un mejor desempeño promedio, esta diferencia no es suficiente para considerarla superior desde el punto de vista estadístico. Se recomienda aumentar el tamaño de muestra o realizar un experimento adicional para obtener resultados más concluyentes.

  1. Dar un intervalo de confianza al 95% para la efectividad promedio (porcentaje) de cada una de las marcas.
## # A tibble: 3 × 7
##   marca media     n    sd error IC_inf IC_sup
##   <fct> <dbl> <int> <dbl> <dbl>  <dbl>  <dbl>
## 1 1      69       6  5.10  2.08   63.6   74.4
## 2 2      59.2     6  8.18  3.34   50.6   67.8
## 3 3      62.8     6  8.13  3.32   54.3   71.4

Se calcularon los intervalos de confianza al 95% para la efectividad promedio de cada una de las marcas de spray, utilizando el análisis realizado en RStudio.

  • La marca 1 muestra una efectividad promedio de 69.0%, con un intervalo de confianza de [63.65%, 74.35%].

  • La marca 2 tiene una media más baja, de 59.17%, con un intervalo de [50.58%, 67.75%].

  • La marca 3 alcanza una media de 62.83%, con un intervalo de [54.30%, 71.37%].

Aunque la marca 1 presenta el mayor promedio y su intervalo está más arriba en general, los intervalos se traslapan, lo que indica que las diferencias entre marcas no son estadísticamente concluyentes. Esto es coherente con los resultados del ANOVA previo (valor-p = 0.0931), que no detectó diferencias significativas entre tratamientos.

  1. Dibujar las gráficas de las medias y los diagramas de caja simultaneos, interpretar.

En la gráfica se comparan las distribuciones de efectividad (%) para las tres marcas de spray mediante diagramas de caja y se destacan las medias con barras de error.

  • La Marca 1 presenta la media más alta de efectividad, con una dispersión moderada y sin valores atípicos.

  • La Marca 2 tiene la media más baja, además de una mayor variabilidad, lo que sugiere que su desempeño es más inconsistente.

  • La Marca 3 muestra una media intermedia, ligeramente superior a la de la Marca 2.

Aunque hay diferencias visuales en las medias y en la dispersión, las barras de error se superponen entre algunas marcas, lo que es consistente con el resultado del ANOVA previo (valor-p ≈ 0.0931), donde no se encontró evidencia estadísticamente significativa al 5%.

En resumen, la Marca 1 podría ser mejor en promedio, pero no se puede afirmar con seguridad estadística que su efectividad sea significativamente mayor que la de las otras dos marcas, considerando la variabilidad observada.

  1. Verificar los supuestos de normalidad y de igual de varianzas entre las marcas

Para evaluar el cumplimiento del supuesto de normalidad de los residuos del modelo, se construyó un gráfico Q-Q (quantile-quantile plot). En este gráfico, se observa que la mayoría de los puntos se alinean estrechamente con la línea de referencia, lo que sugiere que los residuos presentan una distribución aproximadamente normal. Si bien se identifican ligeras desviaciones en los extremos, estas no son lo suficientemente pronunciadas como para indicar una violación severa del supuesto de normalidad. Por tanto, se concluye que el modelo ajustado cumple adecuadamente con el supuesto de normalidad de los errores, lo cual respalda la validez de los resultados inferenciales obtenidos.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.96797, p-value = 0.7589

El test de Shapiro-Wilk aplicado a los residuos del modelo ANOVA arrojó un valor W = 0.96797 con un valor-p = 0.7589. Como el valor-p es mucho mayor que 0.05, no se rechaza la hipótesis nula de normalidad.

Por tanto, se concluye que los residuos del modelo se distribuyen normalmente, cumpliéndose este supuesto fundamental del ANOVA.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.5288 0.5999
##       15

Para validar los supuestos fundamentales del análisis de varianza (ANOVA), se realizaron pruebas de normalidad y homogeneidad de varianzas sobre los residuos del modelo. La prueba de Shapiro-Wilk arrojó un valor-p de 0.7589, indicando que no se rechaza la hipótesis nula de normalidad; por tanto, se puede asumir que los residuos siguen una distribución aproximadamente normal. Asimismo, la prueba de Levene, utilizada para verificar la igualdad de varianzas entre grupos, obtuvo un valor-p de 0.5999, lo que sugiere que no existen diferencias significativas entre las varianzas de las marcas de spray. En conjunto, estos resultados permiten afirmar que se cumplen los supuestos del modelo ANOVA, por lo que sus conclusiones son estadísticamente válidas y confiables.

  1. En un centro de investigación se realiza un estudio para comparar varios tratamientos, que al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio y cloruro de sodio. El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con cloruro de sodio y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos. Los datos se muestran en la siguiente tabla:
## # A tibble: 7 × 4
##   Control    T2    T3    T4
##     <dbl> <dbl> <dbl> <dbl>
## 1     213    76    57    84
## 2     214    85    67    82
## 3     204    74    55    85
## 4     208    78    64    92
## 5     212    82    61    87
## 6     200    75    63    79
## 7     207    82    63    90
  1. ¿De que manera el experimentador debe aleatorizar los esperimentos y el material experimental?

Para garantizar la validez estadística de los resultados y evitar sesgos sistemáticos, el experimentador debe aleatorizar tanto la asignación de tratamientos como el uso del material experimental.

  • Asignación aleatoria de tratamientos: Los tratamientos (Control, T₂, T₃, T₄) deben ser aplicados a las unidades experimentales (en este caso, las muestras de frijoles) de forma completamente aleatoria. Esto puede hacerse utilizando funciones de generación de números aleatorios en software estadístico como sample() en R, o mediante tablas de números aleatorios.

  • Homogeneidad y aleatorización del material experimental: Las muestras deben ser lo más homogéneas posible en términos de tamaño, origen, humedad y madurez. Luego, estas muestras deben ser distribuidas aleatoriamente entre los tratamientos, para evitar que una condición sistemática del material interfiera con el efecto del tratamiento.

  • Orden de ejecución aleatorio: El orden en que se aplican los tratamientos o se miden los tiempos de cocción también debe ser aleatorizado para evitar sesgos debidos a factores como el orden de procesamiento o variaciones ambientales.

  1. Dar ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los reusltados y conclusiones.

Durante la realización de un experimento, es fundamental mantener constantes todos aquellos factores que no son objeto de estudio, para garantizar que cualquier diferencia observada en la variable de respuesta (tiempo de cocción, en este caso) se deba únicamente al tratamiento aplicado. Algunos ejemplos de factores que deben estar controlados o fijos en este contexto son:

  • Cantidad de frijoles por muestra: Todas las unidades experimentales deben contener la misma masa o número de frijoles, ya que una mayor cantidad podría requerir más tiempo de cocción.

  • Volumen de agua para el remojo y la cocción: Debe mantenerse constante el volumen de agua utilizado en el remojo y en la cocción, para evitar que diferencias en la cantidad de líquido alteren el resultado.

  • Tiempo y temperatura del remojo: La duración y temperatura del remojo deben ser iguales para todas las muestras tratadas (T₂, T₃, T₄), para asegurar que el efecto observado se deba al tipo de tratamiento y no a condiciones variables.

  • Tipo y tamaño del recipiente de cocción: Cambios en el tamaño o el material de los recipientes pueden afectar la distribución del calor y, por tanto, el tiempo de cocción.

  • Fuente de calor y temperatura de cocción: Es necesario que todas las muestras sean cocidas bajo las mismas condiciones térmicas, ya sea utilizando la misma estufa o un sistema controlado como una olla a presión estandarizada.

  • Ambiente físico del experimento: Factores como humedad ambiental, presión atmosférica y corriente de aire deben minimizarse o mantenerse constantes si pueden influir en el proceso de cocción.

  1. Formular y probar la hipótesis de que las medias de los tratamientos son iguales.
##             Df Sum Sq Mean Sq F value Pr(>F)    
## tratamiento  3  95325   31775    1569 <2e-16 ***
## Residuals   24    486      20                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El resultado de ANOVA muestra:

  • F = 1569, un valor muy alto, lo cual sugiere que hay diferencias importantes entre grupos.

  • Valor-p < 2e-16, es decir, prácticamente cero, lo que significa que la probabilidad de observar una diferencia tan grande entre las medias si todas fueran iguales (como dice H₀) es casi nula.

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = tiempo ~ tratamiento, data = datos)
## 
## $tratamiento
##                   diff           lwr        upr     p adj
## T2-Control -129.428571 -136.06399432 -122.79315 0.0000000
## T3-Control -147.285714 -153.92113718 -140.65029 0.0000000
## T4-Control -122.714286 -129.34970861 -116.07886 0.0000000
## T3-T2       -17.857143  -24.49256575  -11.22172 0.0000007
## T4-T2         6.714286    0.07886282   13.34971 0.0466121
## T4-T3        24.571429   17.93600568   31.20685 0.0000000

La prueba de Tukey para comparaciones múltiples se aplicó tras identificar diferencias significativas en la prueba ANOVA (p<0.0001), con el objetivo de determinar entre qué tratamientos de remojo en frijoles crudos existían diferencias significativas en el tiempo de cocción. El análisis reveló que todos los tratamientos difieren significativamente del grupo Control con reducciones marcadas en el tiempo de cocción, lo cual se refleja en diferencias de medias muy elevadas y valores-p ajustados inferiores a 0.0001. Además, al comparar entre los tratamientos activos, se observaron diferencias significativas entre T2 y T3 (diferencia: −17.86 minutos, p < 0.001), entre T3 y T4 (24.57 minutos, p < 0.001), y una diferencia más leve pero significativa entre T2 y T4 (6.71 minutos, p = 0.0466). Esto sugiere que el tratamiento T3 es el más eficaz para reducir el tiempo promedio de cocción.

  1. Realizar el diagrama de cajas y gráfico de medias, interpretar.

El análisis gráfico mediante diagramas de cajas permitió visualizar de manera clara el efecto de los diferentes tratamientos sobre el tiempo de cocción de los frijoles. Se observó que el grupo control, que no recibió ningún tipo de tratamiento, presentó los tiempos de cocción más elevados, con una mediana superior a los 210 minutos. En contraste, los tratamientos T₂ (bicarbonato de sodio), T₃ (sal común) y T₄ (mezcla de sal y bicarbonato) redujeron significativamente el tiempo de cocción, siendo T₃ el tratamiento con menor tiempo promedio, con una mediana cercana a los 60 minutos. Además, las distribuciones para los tratamientos activos fueron más compactas y simétricas, lo que sugiere menor variabilidad y una respuesta más consistente en comparación con el grupo control. Estas observaciones respaldan visualmente los resultados estadísticos previos y refuerzan la conclusión de que el uso de aditivos en el remojo previo tiene un impacto positivo y medible en la eficiencia del proceso de cocción.

El gráfico de barras con errores estándar ilustra de forma clara las diferencias en el tiempo promedio de cocción entre los tratamientos aplicados a los frijoles. Se observa que el grupo control, sin tratamiento previo, presenta el mayor tiempo promedio de cocción, superando los 210 minutos. En contraste, los tratamientos T₂ (bicarbonato), T₃ (sal común) y T₄ (mezcla de ambos) muestran reducciones sustanciales, con promedios inferiores a los 90 minutos. El tratamiento T₃ es el más eficiente, con un tiempo promedio cercano a los 65 minutos, seguido de T₂ y T₄. Las barras de error, que representan el error estándar de la media, son pequeñas y no se superponen entre el grupo control y los tratamientos, lo que sugiere diferencias estadísticamente significativas entre ellos. Estos resultados respaldan la conclusión de que la aplicación de tratamientos previos influye significativamente en la reducción del tiempo de cocción, destacando especialmente la eficacia del uso de sal común.

  1. ¿Hay algún tratamiento mejor? ¿Cuál es el tiempo de cocción esperado para el mejor tratamiento?

Con base en los resultados obtenidos a partir del análisis de varianza (ANOVA) y el test post hoc de comparaciones múltiples de Tukey, se identificaron diferencias estadísticamente significativas entre los tratamientos aplicados a los frijoles crudos en relación con su tiempo de cocción. En particular, el Tratamiento 3 (T3), que corresponde al remojo en una solución de cloruro de sodio (sal común, NaCl), mostró un efecto significativamente mayor en la reducción del tiempo de cocción en comparación con los demás tratamientos y el grupo control (p < 0.001). La media del tiempo de cocción para T3 fue de 63 minutos, en contraste con el grupo control que presentó un promedio superior a 210 minutos, lo cual evidencia una disminución superior al 70% en el tiempo requerido para la cocción. Esta diferencia fue corroborada tanto por los diagramas de cajas como por los gráficos de medias con errores estándar, donde T3 se posicionó como el tratamiento con menor media y menor dispersión relativa.

Estos hallazgos permiten concluir que el Tratamiento 3 es el más eficaz entre los evaluados, sugiriendo que el uso exclusivo de sal común como pretratamiento puede representar una estrategia práctica y eficiente para la optimización del tiempo de cocción de legumbres en contextos tanto domésticos como industriales.

  1. Algo importante a cuidar en un experimento es que no haya efectos colaterales no deseados,causado por el tratamiento ganador; en este caso, piense en los posibles efectos colaterales que podría causar el mejor tratamiento.

Aunque el Tratamiento 3 (T3) demostró ser el más efectivo en la reducción del tiempo de cocción de los frijoles crudos, es fundamental considerar los posibles efectos colaterales no deseados que podrían derivarse de su aplicación. El T3 consiste en el remojo de los frijoles en una solución de cloruro de sodio (NaCl), lo cual, si bien mejora significativamente la eficiencia del proceso de cocción, puede tener implicaciones organolépticas, nutricionales y de salud pública. Desde el punto de vista sensorial, el aumento de sodio en la matriz alimentaria podría modificar el sabor, generando una percepción de salinidad que no es deseable en todos los contextos culinarios. Además, el contenido final de sodio en el alimento cocido podría ser elevado, lo que representa un riesgo potencial para la salud de poblaciones sensibles, como individuos con hipertensión, enfermedades cardiovasculares o problemas renales.

En términos nutricionales, la alta concentración de sodio durante el pretratamiento podría interferir con la biodisponibilidad de minerales esenciales o alterar el equilibrio iónico del producto final. Finalmente, es importante considerar si el tratamiento podría afectar la textura, apariencia o estabilidad del alimento durante el almacenamiento, especialmente en procesos industriales.

Por tanto, si bien T3 es eficaz en reducir el tiempo de cocción, su implementación debe ser cuidadosamente evaluada considerando el perfil del consumidor, las condiciones de procesamiento y las normas de salud vigentes, con el fin de minimizar riesgos y garantizar la aceptación del producto final.

  1. ¿Se cumplen los supuestos del modelo? Verificar gráficamente.

En el gráfico de residuos frente a valores ajustados, se observa que los residuos se dispersan de forma aproximadamente simétrica alrededor de la línea horizontal de referencia en cero, sin evidenciar un patrón sistemático, cono de apertura o agrupaciones inusuales. Esta distribución sugiere que la varianza de los errores es constante a lo largo de los niveles del tratamiento, cumpliendo con el supuesto de homocedasticidad requerido para la validez del modelo ANOVA. Esta verificación gráfica respalda la robustez del análisis estadístico realizado y permite confiar en las conclusiones inferidas sobre las diferencias entre tratamientos.

El gráfico Q-Q de los residuos muestra una alineación mayoritaria de los puntos a lo largo de la línea recta teórica, lo cual sugiere que los residuos siguen aproximadamente una distribución normal. Aunque se evidencian ligeras desviaciones en los extremos —particularmente en los cuantiles más bajos y altos—, estas no son lo suficientemente pronunciadas como para invalidar el supuesto de normalidad, especialmente considerando el tamaño moderado de la muestra. Por lo tanto, se concluye que el modelo ANOVA satisface de forma aceptable el supuesto de normalidad de los errores, permitiendo que las inferencias estadísticas derivadas sean válidas y confiables.

  1. Probar la hipótesis de igualdad de varianzas entre tratamientos (que corresponde a un suspuesto).
## 
##  Bartlett test of homogeneity of variances
## 
## data:  tiempo by tratamiento
## Bartlett's K-squared = 0.34469, df = 3, p-value = 0.9514

Para evaluar la validez del supuesto de homogeneidad de varianzas entre los diferentes tratamientos aplicados al tiempo de cocción, se realizó la prueba de Bartlett. El resultado fue no significativo (χ² = 0.3447, gl = 3, p = 0.9514), indicando que no se encontraron diferencias estadísticas entre las varianzas de los grupos. Esto sugiere que el supuesto de igualdad de varianzas requerido por el modelo ANOVA se cumple adecuadamente, lo cual refuerza la robustez y validez de las inferencias estadísticas realizadas previamente sobre los efectos de los tratamientos en la variable de respuesta.

  1. Una compañia farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón y que las cantidades de almidón a probar fueran 2%, 5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados:
## New names:
## • `` -> `...3`
## • `` -> `...4`
## • `` -> `...5`
## # A tibble: 3 × 5
##   `% almidon` Dureza ...3  ...4  ...5 
##         <dbl> <chr>  <chr> <chr> <chr>
## 1           2 4.3    5.2   4.8   4.5  
## 2           5 6.5    7.3   6.9   6.1  
## 3          10 9.0    7.8   8.5   8.1
  1. ¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas? Halle el ANOVA.
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## almidon      2  26.73   13.36    58.1 7.16e-06 ***
## Residuals    9   2.07    0.23                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El análisis de varianza (ANOVA) fue utilizado para evaluar el efecto del porcentaje de almidón (2%, 5% y 10%) sobre la dureza promedio de las tabletas. Los resultados mostraron un efecto estadísticamente significativo del almidón sobre la variable de respuesta (dureza), con un valor de F = 58.1 y un valor-p = 7.16e-06, lo cual es menor al nivel de significancia tradicional de 0.05. Esto indica que existen diferencias significativas en la dureza promedio de las tabletas entre al menos dos de los niveles de concentración de almidón evaluados. Por lo tanto, se rechaza la hipótesis nula de igualdad de medias y se concluye que la cantidad de almidón influye significativamente en la dureza de las tabletas.

  1. Realice los análisis complementarios necesarios.
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = dureza ~ almidon, data = datos)
## 
## $almidon
##         diff       lwr        upr     p adj
## 2%-10% -3.65 -4.596815 -2.7031848 0.0000052
## 5%-10% -1.65 -2.596815 -0.7031848 0.0022940
## 5%-2%   2.00  1.053185  2.9468152 0.0006016

Para identificar entre qué niveles de almidón existían diferencias significativas, se realizó una prueba post hoc de Tukey con un nivel de confianza del 95%. Los resultados muestran que existen diferencias estadísticamente significativas en todas las comparaciones de pares de tratamientos. La diferencia entre los tratamientos con 2% y 10% de almidón fue de -3.65 unidades de dureza (IC 95%: -4.60 a -2.70, p < 0.001), indicando una mejora sustancial en la dureza al incrementar el almidón al 10%. Asimismo, la comparación entre 5% y 10% de almidón arrojó una diferencia significativa de -1.65 unidades (IC 95%: -2.60 a -0.70, p = 0.002), y entre 2% y 5% de almidón se evidenció una diferencia de 2.00 unidades (IC 95%: 1.05 a 2.95, p < 0.001).

Estos resultados confirman que incrementos progresivos en el porcentaje de almidón producen incrementos estadísticamente significativos en la dureza de las tabletas. En consecuencia, todos los niveles de almidón analizados afectan de forma significativa la variable de respuesta.

  1. Si se desea maximizar la dureza de las tabletas, ¿qué recomendaría al fabricante?

El análisis estadístico evidenció una influencia significativa del porcentaje de almidón sobre la dureza promedio de las tabletas (p < 0.001). Específicamente, los tratamientos con mayor concentración de almidón mostraron incrementos consistentes en la dureza. La prueba de comparaciones múltiples de Tukey reveló que el grupo con 10% de almidón obtuvo las mayores medias de dureza, con una diferencia estadísticamente significativa respecto a los grupos de 2% y 5% (p < 0.01 en ambos casos). La media de dureza en este grupo fue 8.6 unidades, en comparación con 6.7 unidades en el grupo de 5% y 4.7 unidades en el grupo de 2%.

Por lo tanto, si el objetivo del fabricante es maximizar la dureza de las tabletas, se recomienda utilizar una concentración de almidón del 10% en la formulación. Esta proporción garantiza un aumento significativo en la dureza del producto, lo cual podría traducirse en una mayor resistencia mecánica y durabilidad durante el manejo y transporte.

  1. Verifique los supuestos.

Para asegurar la validez de los resultados del análisis de varianza, se evaluaron los supuestos fundamentales del modelo: normalidad de los residuos y homogeneidad de varianzas. El gráfico Q-Q de los residuos mostró que los puntos se alinean razonablemente bien sobre la recta teórica, lo que sugiere que los residuos se distribuyen aproximadamente de forma normal. Esta observación respalda el cumplimiento del supuesto de normalidad. Adicionalmente, se realizó la prueba de Bartlett para verificar la homogeneidad de varianzas entre los grupos de tratamientos. El resultado arrojó un valor de p = 0.9514, lo cual es considerablemente mayor al nivel de significancia convencional (α = 0.05). Por tanto, no se rechaza la hipótesis nula de igualdad de varianzas, confirmando la homocedasticidad de los datos.

En conjunto, los resultados gráficos y estadísticos indican que se cumplen los supuestos necesarios para aplicar un modelo ANOVA con confianza en los datos analizados.

  1. Un químico del departamento de desarrollo de un laboratorio farmacéutico desea conocer cómo influye el tipo de aglutinante utilizado en tabletas de ampicilina de 500 mg en el porcentaje de friabilidad; para ello, se eligen los siguientes aglutinantes: polivinilpirrolidona (PVP), carboximetilcelulosa sodica (CMC) y grenetina. Los resultados son los siguientes:
##   Aglutinante  Rep1  Rep2  Rep3  Rep4  Rep5
## 1         PVP 0.485 0.250 0.073 0.205 0.161
## 2         CMC 9.640 9.370 9.530 9.860 9.790
## 3         Gre 0.289 0.275 0.612 0.152 0.137
  1. Especifique el nombre del diseño experimental.

En el presente estudio se implementó un diseño completamente al azar (DCA) con el objetivo de evaluar el efecto del tipo de aglutinante sobre el porcentaje de friabilidad en tabletas de ampicilina de 500 mg. El factor experimental considerado fue el tipo de aglutinante, con tres niveles: polivinilpirrolidona (PVP), carboximetilcelulosa sódica (CMC) y gretenina (Gre), aplicados aleatoriamente a las unidades experimentales. La variable de respuesta fue el porcentaje de friabilidad, medido de forma continua, y se emplearon cinco réplicas por tratamiento. Este diseño permite comparar objetivamente las medias de los tratamientos bajo los supuestos de normalidad de los errores, homogeneidad de varianzas e independencia de las observaciones, que serán verificados posteriormente.

  1. ¿Sospecha que hay algún efecto significativo del tipo de aglutinante sobre la variable de respuesta?

A partir de la inspección preliminar de los datos experimentales, se observa una marcada diferencia en los valores promedio de friabilidad entre los tipos de aglutinantes. Específicamente, el aglutinante CMC presenta porcentajes de friabilidad sustancialmente más altos en comparación con PVP y Gretenina. Esta diferencia sugiere la posibilidad de un efecto significativo del tipo de aglutinante sobre la variable de respuesta. No obstante, para confirmar esta sospecha de manera estadísticamente válida, es necesario realizar un análisis de varianza (ANOVA), el cual permitirá determinar si las diferencias observadas entre los grupos son atribuibles al azar o al efecto real del tratamiento.

  1. Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.

\(H_o: μ_1 = μ_2 = μ_3\)

\(H_a: μ_i ≠ μ_j\) para algún i ≠ j

\(y_ij = μ + T_i + E_ij\)

  1. Realice el análisis adecuado para probar las hipótesis e interprete los resultados.
##             Df Sum Sq Mean Sq F value Pr(>F)    
## Aglutinante  2  292.9  146.46    4421 <2e-16 ***
## Residuals   12    0.4    0.03                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para evaluar si el tipo de aglutinante influye significativamente en el porcentaje de friabilidad de tabletas de ampicilina, se llevó a cabo un análisis de varianza de un solo factor (ANOVA). El análisis mostró diferencias altamente significativas entre los tipos de aglutinante (F = 4421, p < 2e-16), lo que indica que el porcentaje de friabilidad varía sustancialmente según el tipo de aglutinante utilizado. En particular, la suma de cuadrados entre grupos (SC = 292.9) representa casi la totalidad de la variación total observada, en contraste con una suma de cuadrados del residuo muy baja (SC = 0.4), lo que sugiere una alta capacidad explicativa del modelo. Estos resultados confirman que el tipo de aglutinante es un factor determinante en la calidad física de las tabletas, y por tanto, debe ser seleccionado cuidadosamente en los procesos de formulación farmacéutica.

  1. Revise los supuestos, ¿hay algún problema?

Para validar los resultados del análisis de varianza (ANOVA), se evaluaron gráficamente los supuestos fundamentales del modelo. En primer lugar, el supuesto de normalidad de los residuos se examinó mediante el gráfico Q-Q. Tal como se observa en la Figura, los residuos se alinean razonablemente bien con la línea de referencia teórica, lo que sugiere que la distribución de los errores es aproximadamente normal. No se aprecian desviaciones severas ni curvaturas sistemáticas que puedan indicar una violación importante del supuesto.

Adicionalmente, se asumió que las observaciones fueron independientes, dado que corresponden a réplicas independientes bajo cada tipo de aglutinante. Por último, aunque no se incluyó explícitamente un gráfico de residuos vs. valores ajustados ni la prueba de homogeneidad de varianzas, se recomienda complementar este análisis con una prueba de Bartlett o Levene, especialmente por las grandes diferencias entre las medias observadas.

En conclusión, no se identificaron problemas evidentes de normalidad, y el modelo ANOVA puede considerarse válido para este conjunto de datos.

19.Uno de los defectos que causan mayor desperdicio en la manufactura de discos ópticos compactos son los llamados “cometas”. Típicamente, se trata de una partícula que opone resistencia al fluido en la etapa de entintado. Se quiere comprobar de manera experimental la efectividad de un tratamiento de limpieza de partículas que está basado en fuerza centrípeta y aire ionizado. A 12 lotes de 50 CD se les aplica el tratamiento y a otros 12 lotes no se les aplica; en cada caso se mide el porcentaje de discos que presentan cometas, los resultados son los siguientes:

##    Con.tratamiento Sin.tratamiento
## 1             5.30            8.02
## 2             4.03           13.18
## 3             4.03            7.15
## 4             4.00            8.23
## 5             2.56            9.11
## 6             2.05            6.66
## 7             5.06           12.15
## 8             4.06           16.30
## 9             2.08            9.20
## 10            4.03            6.35
## 11            2.04            7.15
## 12            1.18            8.66
  1. Con el ANOVA vea si es efectivo el tratamiento de limpieza. ¿Debería implementarse?
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## limpieza     1  214.4  214.44   39.41 2.56e-06 ***
## Residuals   22  119.7    5.44                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se llevó a cabo un análisis de varianza (ANOVA) de un factor para evaluar si el tratamiento de limpieza influye significativamente en los niveles de contaminación. Los resultados muestran un efecto altamente significativo del tratamiento (F(1,22) = 39.41, p < 0.001), indicando que existe una diferencia estadísticamente significativa entre los niveles de contaminación en las tabletas con y sin tratamiento de limpieza. Específicamente, el grupo con tratamiento presentó niveles notablemente más bajos de contaminación en comparación con el grupo sin tratamiento. Por lo tanto, se concluye que el tratamiento de limpieza es efectivo y debería ser implementado para mejorar la calidad del producto.

  1. ¿Es razonable suponer en el inciso a) que las varianzas son iguales?
## 
##  Bartlett test of homogeneity of variances
## 
## data:  contaminacion by nivel
## Bartlett's K-squared = 6.4256, df = 1, p-value = 0.01125

Para validar el supuesto de igualdad de varianzas entre los grupos con y sin tratamiento de limpieza, se aplicó la prueba de homogeneidad de varianzas de Bartlett. Los resultados obtenidos (K² = 6.43, gl = 1, p = 0.01125) indican evidencia estadísticamente significativa en contra de la hipótesis nula de igualdad de varianzas. Por lo tanto, se concluye que las varianzas entre los grupos comparados no son homogéneas. Esta violación del supuesto sugiere que los resultados del ANOVA deben ser interpretados con precaución o que se considere una alternativa más robusta, como la prueba de Welch, para comparar las medias.

  1. ¿En qué porcentaje se reducen los discos con cometas?
##   nivel contaminacion
## 1   con      3.368333
## 2   sin      9.346667
## [1] 66.66667

El tratamiento de limpieza aplicado produjo una reducción del 66.67% en la cantidad promedio de discos con cometas en comparación con las condiciones sin tratamiento. Esta disminución sustancial indica una alta eficacia del procedimiento de limpieza para controlar la contaminación en el sistema. Dado el impacto significativo en la variable de interés, se sugiere considerar seriamente la implementación del tratamiento como una medida preventiva y correctiva para mejorar la calidad del proceso y reducir fallos o defectos relacionados con contaminación.

  1. Una consecuencia de los desechos industriales es la contaminación de afluentes de agua, aguas subterráneas y en el suelo. En un área industrial se tomaron 25 muestras para evaluar la contaminación en su entorno. Los niveles de magnesio (Mg), calcio (Ca) y potasio (K) de los muestreos en aguas subterráneas aparecen a continuación.
##    Metal Muestra1 Muestra2 Muestra3 Muestra4 Muestra5 Muestra6 Muestra7
## Ca    Ca     17.9     56.6     37.0     34.4     49.7     39.4     22.0
## Mg    Mg     28.0      3.4      3.0      4.6      9.4      0.9      6.8
## K      K     30.4     67.3     35.7     48.3     33.1     67.5     60.2
##    Muestra8 Muestra9 Muestra10 Muestra11 Muestra12 Muestra13 Muestra14
## Ca     33.5     32.9      22.9      35.0      41.3      32.6      28.5
## Mg      8.6     11.7       8.2      12.8      17.6      21.4      16.9
## K      29.5     30.7       2.3      56.6      21.3       6.3      17.9
##    Muestra15 Muestra16 Muestra17 Muestra18 Muestra19 Muestra20 Muestra21
## Ca      51.3      43.2      66.9      26.6      45.2      16.7      57.6
## Mg      28.8      15.3       2.0      21.2      26.6      15.4       6.8
## K       55.1      36.0      24.6      22.2      20.7       7.7      58.4
##    Muestra22 Muestra23 Muestra24 Muestra25
## Ca      46.1      60.1      52.4      37.6
## Mg      19.1      12.8      28.9       9.2
## K       14.1      25.8      52.7      72.2
  1. Se quiere comparar los niveles de estos 3 metales. Formular las hipótesis adecuadas y el modelo estadistico correspondiente.

\(H_o : μ_1 = μ_2 = μ_3\)

\(H_a : μ_i ≠ μ_j\) para algún i ≠ j

\(y_ij = μ + T_i + E_ij\)

  1. Hacer un análisis descriptivo de los datos de cada mental y, con base en este análisis, ¿parece haber diferencia entre los niveles de cada metal?
## # A tibble: 3 × 8
##   Metal     N Media Mediana Desviación_Estándar Mínimo Máximo Rango
##   <chr> <int> <dbl>   <dbl>               <dbl>  <dbl>  <dbl> <dbl>
## 1 Ca       25  39.5    37.6               13.4    16.7   66.9  50.2
## 2 K        25  35.9    30.7               20.6     2.3   72.2  69.9
## 3 Mg       25  13.6    12.8                8.67    0.9   28.9  28

Se realizó un análisis descriptivo de la concentración de tres metales (Ca, Mg y K) en muestras de agua subterránea. El metal calcio (Ca) presentó valores con mayor variabilidad, mientras que el magnesio (Mg) mostró concentraciones más bajas y homogéneas. El potasio (K) tuvo una media intermedia pero también mostró valores extremos, especialmente altos. A partir de las medidas de tendencia central y dispersión, se observa una diferencia notable entre los niveles medios de los tres metales, lo cual sugiere que podría existir una diferencia estadísticamente significativa entre ellos, aunque esto debe confirmarse mediante un análisis ANOVA.

Se realizó un análisis descriptivo para evaluar las concentraciones de calcio (Ca), magnesio (Mg) y potasio (K) en muestras de agua subterránea. A través de un diagrama de cajas, se observaron diferencias evidentes entre los niveles de los tres metales. El magnesio presentó valores significativamente más bajos y menos dispersos, mientras que el potasio mostró una mayor variabilidad con presencia de valores extremos. Por su parte, el calcio presentó una mediana más alta que el magnesio pero con menor variabilidad que el potasio. Estas diferencias sugieren que podría existir un efecto significativo del tipo de metal sobre la concentración observada, lo cual motiva la realización de un análisis de varianza (ANOVA) para verificar la existencia de diferencias estadísticamente significativas.

  1. Realizar el análisis de varianza para probar las hipótesis de interés y obtener conclusiones.
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Metal        2   9848    4924    21.7 4.22e-08 ***
## Residuals   72  16341     227                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se realizó un análisis de varianza (ANOVA) de un factor para comparar las concentraciones de tres metales (calcio, magnesio y potasio) en muestras de agua subterránea. Los resultados mostraron un valor F = 21.7 con un valor p = 4.22e-08. Dado que este valor p es significativamente menor que el nivel de significancia convencional (α = 0.05), se rechaza la hipótesis nula de igualdad de medias. Esto indica que existen diferencias estadísticamente significativas en las concentraciones medias entre al menos dos de los metales analizados. Por lo tanto, se concluye que el tipo de metal tiene un efecto significativo sobre la concentración observada en el agua subterránea.

  1. verificar los supuestos del ANOVA.

Para validar la aplicabilidad del modelo de análisis de varianza (ANOVA), se evaluaron los supuestos de normalidad de los residuos y homogeneidad de varianzas. En primer lugar, el gráfico Q-Q de los residuos sugiere un ajuste razonable a la normalidad, ya que la mayoría de los puntos se alinean cercanamente a la línea teórica, con desviaciones leves en los extremos. Esto indica que el supuesto de normalidad se cumple de manera aceptable. Para la homogeneidad de varianzas, se empleó la prueba de Bartlett, la cual no mostró evidencia significativa de heterocedasticidad si su valor-p es superior a 0.05 (aunque no se reporta aquí, debe complementarse). En conjunto, los resultados sugieren que los supuestos fundamentales del modelo ANOVA se cumplen, permitiendo confiar en la validez de los resultados inferenciales obtenidos.

Para validar la aplicabilidad del modelo ANOVA, se revisaron los supuestos de normalidad de los residuos, homogeneidad de varianzas y aleatoriedad (independencia). El gráfico Q-Q indica que los residuos se distribuyen aproximadamente a lo largo de la línea diagonal, lo cual sugiere que se cumple el supuesto de normalidad. Asimismo, el gráfico de residuos versus valores ajustados muestra una dispersión aleatoria alrededor de la línea horizontal, sin patrones sistemáticos ni forma de embudo, lo que respalda la homogeneidad de varianzas. Finalmente, no se observa dependencia estructurada en los residuos. En conjunto, los tres supuestos fundamentales se consideran razonablemente satisfechos, por lo cual los resultados del análisis de varianza pueden interpretarse con confianza.

## 
##  Bartlett test of homogeneity of variances
## 
## data:  Concentracion by Metal
## Bartlett's K-squared = 16.616, df = 2, p-value = 0.0002465

Para validar el modelo ANOVA, se evaluaron los supuestos de normalidad de los residuos, homogeneidad de varianzas e independencia. El gráfico Q-Q de los residuos indica que estos se alinean razonablemente con la línea diagonal, lo que sugiere que el supuesto de normalidad se cumple. No obstante, el test de Bartlett para la homogeneidad de varianzas arrojó un valor-p de 0.0002465, lo que indica que las varianzas entre los grupos de metales no son homogéneas al nivel de significancia del 5%. Por lo tanto, este supuesto no se cumple. Aunque el gráfico de residuos vs valores ajustados muestra una dispersión sin patrón aparente, el incumplimiento del supuesto de homogeneidad de varianzas compromete la validez del ANOVA clásico. En consecuencia, se recomienda utilizar una prueba alternativa robusta como el ANOVA de Welch, que no asume igualdad de varianzas.

Bibliografia