La industria vitivinícola enfrenta el reto continuo de garantizar productos de alta calidad mediante el control preciso de sus variables físico-químicas. Entre estas, destacan el pH, el contenido de alcohol y el azúcar residual, por su influencia directa en la percepción sensorial, estabilidad química y perfil enológico del vino. Comprender cómo se comportan estas variables en función de la acidez categórica es clave para optimizar procesos de fermentación, estandarizar perfiles y tomar decisiones técnicas informadas en etapas críticas de producción.
En este proyecto, se analizará una base de datos de vinos utilizando herramientas estadísticas inferenciales y principios del Diseño de Experimentos, con el fin de identificar diferencias significativas, patrones estructurales y asociaciones relevantes entre la acidez percibida y variables como el contenido alcohólico, la acidez volátil, el pH y los niveles de azúcar residual. Este enfoque permite evaluar de forma rigurosa si el comportamiento químico del vino varía según su nivel de acidez, proporcionando evidencia estadística útil para la estandarización de calidad, el diseño de perfiles sensoriales y la mejora de prácticas enológicas dentro de la industria.
Analizar la variación de las propiedades físico-químicas del vino, tales como el contenido de alcohol, el azúcar residual, la acidez volátil y el pH, en función de niveles categóricos de acidez definidos por rangos de pH, empleando herramientas estadísticas inferenciales y principios del Diseño de Experimentos, con el fin de identificar patrones significativos que contribuyan al control técnico y sensorial de la calidad enológica.
-Describir de forma exploratoria las principales variables físico-químicas de la muestra de vinos, utilizando herramientas estadísticas y visuales que permitan caracterizar su comportamiento.
-Estimar parámetros poblacionales como medias, desviaciones estándar e intervalos de confianza para las variables de interés, diferenciando según niveles de acidez categórica.
-Evaluar la existencia de diferencias significativas entre grupos mediante pruebas de hipótesis (t de Welch, ANOVA, Tukey HSD), justificadas por verificación de supuestos (normalidad, homogeneidad de varianzas).
-Clasificar las muestras de vino según niveles de acidez utilizando intervalos definidos del pH y evaluar su relación con otras variables como contenido alcohólico y calidad sensorial.
-Interpretar los hallazgos estadísticos en el contexto de la industria vitivinícola, destacando su aplicación práctica en procesos de producción, perfilado sensorial y estandarización de calidad.
En la última década, el uso de herramientas estadísticas en el análisis de productos fermentados como el vino ha cobrado especial relevancia, impulsado por la necesidad de mejorar su calidad, homogeneidad y perfil sensorial. Variables físico-químicas como el pH, el contenido de alcohol, la acidez volátil y el azúcar residual juegan un papel determinante en la percepción organoléptica del producto final, por lo que su estudio sistemático es clave en la investigación enológica y el control técnico de producción.
Entre las metodologías más utilizadas destaca el Diseño de Experimentos (DOE), que permite estructurar el proceso analítico de manera rigurosa, facilitando la identificación de efectos, comparaciones entre grupos y decisiones informadas sobre el manejo de factores críticos. En el contexto vitivinícola, diversas investigaciones han demostrado que la clasificación de las muestras por niveles de acidez (utilizando el pH como referencia) permite detectar diferencias significativas en la composición química del vino, lo que resulta útil para ajustar procesos de fermentación, optimizar estilos de producción y mejorar la evaluación sensorial.
El desarrollo tecnológico ha facilitado esta labor mediante el uso de software estadístico como R, que permite implementar modelos inferenciales, análisis descriptivos y visualizaciones reproducibles con eficiencia y precisión. Estos enfoques combinan solidez teórica y aplicabilidad práctica, generando evidencia útil para la toma de decisiones técnicas, la caracterización de estilos de vino y la estandarización de la calidad en el sector productivo.
##
## Ácido Muy ácido
## 2483 3230
##
## Welch Two Sample t-test
##
## data: alcohol by acidez
## t = 5.4132, df = 5458.2, p-value = 6.454e-08
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## 0.1428806 0.3051256
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 10.60566 10.38166
Análisis
Mediante la base datos denominada “Winequality” y usando R-studio se llevó a cabo una prueba “ t de Welch” esta prueba se aplicó con el objetivo de llegar a determinar si existen diferencias estadísticamente significativas en el contenido promedio de alcohol entre las clasificación de los niveles de acidez “Ácido” y “Muy ácido”. Es clave destacar que mediante la aplicación de esta prueba se logra comparar dos grupos independientes que pueden presentar varianzas diferentes, mediante los resultados obtenidos se logra visualizar que el valor del estadístico “t” es de 5.4132, con un grado de libertad de 5458.2 y un p-valor asociado de 6.45e-08 siendo este valor extremadamente pequeño, a comparación del alfa utilizado comúnmente utilizado (0,05). Considerando lo anterior hay suficiente evidencia estadística para rechazar la hipótesis nula de igualdad de medias, dando como consecuencia que existe una diferencia real en el contenido promedio de alcohol entre los dos grupos evaluados. A su vez se puede evidenciar que los vinos clasificados como “Ácido” presentan una media de alcohol de 10.60566%, mientras que los “Muy ácido” tienen una media de 10.38166%, lo que indica que los vinos con menor acidez tienden a tener ligeramente más alcohol. No obstante la diferencia que se logra visualizar aunque no es muy grande al considerar un intervalo de confianza de 95% entre (0.1429 y 0.3051), es consistente y confiable en términos estadísticos. Este resultado podría deberse a procesos químicos tales como la fermentación o condiciones químicas que varían según el nivel de acidez del vino, lo cual resulta relevante para la industria vitivinícola en cuanto al control de calidad y perfil del producto final.
2.¿Las muestras con mayor nivel de acidez categórica presentan menor pH promedio?
## data_filtrada$acidez: Ácido
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.95802, p-value < 2.2e-16
##
## ------------------------------------------------------------
## data_filtrada$acidez: Muy ácido
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.43265, p-value < 2.2e-16
Análisis
Utilizando la base de datos “Winequality”, se aplicó la prueba de normalidad de Shapiro-Wilk para evaluar la distribución de la variable pH en los grupos de acidez categórica. Los resultados mostraron valores de W significativamente bajos (0.95802 y 0.43265) y p-valores inferiores a 2.2 × 10⁻¹⁶, lo cual permite rechazar la hipótesis de normalidad en ambos grupos. Estas evidencias estadísticas indican que las distribuciones del pH no se ajustan a una forma normal, lo que invalida el uso confiable de pruebas paramétricas tradicionales bajo estos supuestos.
Ante esta condición, es necesario emplear métodos no paramétricos, como la prueba de Wilcoxon-Mann-Whitney o ANOVA robusta, que permiten realizar comparaciones entre los promedios de pH sin requerir normalidad en los datos. Esta decisión metodológica garantiza inferencias válidas y confiables al evaluar diferencias entre los grupos definidos por su nivel de acidez, respetando los principios del Diseño de Experimentos y el rigor estadístico exigido.
##
## Welch Two Sample t-test
##
## data: alcohol by acidez
## t = 5.4132, df = 5458.2, p-value = 6.454e-08
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## 0.1428806 0.3051256
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 10.60566 10.38166
## Df Sum Sq Mean Sq F value Pr(>F)
## acidez 3 134.72 44.91 8777 <2e-16 ***
## Residuals 6493 33.22 0.01
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis
El objetivo de este análisis fue determinar si el nivel de acidez categórica influye significativamente sobre dos variables fundamentales en la caracterización del vino: el contenido de alcohol y el valor de pH. Para comparar el contenido promedio de alcohol entre los vinos clasificados como “Ácido” y “Muy ácido”, se utilizó la prueba t de Welch, una herramienta estadística apropiada cuando se sospecha de varianzas desiguales entre los grupos.
Los resultados obtenidos indican una diferencia estadísticamente significativa en el contenido de alcohol (t = 5.4132, p-valor = 6.454e-08), lo que permite rechazar la hipótesis nula de igualdad de medias. En términos cuantitativos, los vinos “Ácido” mostraron un promedio de alcohol de 10.60656%, superior al promedio observado en los vinos “Muy ácido”, que fue de 10.38166%. El intervalo de confianza del 95% para la diferencia de medias, que va de 0.1429 a 0.3051, no incluye el valor cero, lo que confirma que la diferencia es estadísticamente consistente, aunque de magnitud moderada.
De manera complementaria, se evaluó la relación entre los niveles de acidez categórica y el pH mediante un análisis de varianza (ANOVA), que incluyó cuatro categorías: “Muy ácido”, “Ácido”, “Medio” y “Bajo en acidez”. El resultado del ANOVA (F = 8777, p < 2e–16) indica que existen diferencias significativas en el pH promedio entre los grupos, confirmando que al menos una categoría se comporta de manera distinta respecto a las demás.
Dado que el pH se relaciona inversamente con la acidez, estos resultados respaldan la hipótesis de que a mayor acidez categórica, menor es el valor promedio de pH. En conjunto, estos hallazgos permiten concluir que el nivel de acidez categórica del vino ejerce una influencia estadísticamente significativa tanto en el contenido de alcohol como en el pH, lo que resulta relevante para comprender las propiedades físico-químicas del producto y su control en procesos de producción.
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = pH ~ acidez, data = data)
##
## $acidez
## diff lwr upr p adj
## Bajo en acidez-Ácido 0.4000213 0.3804034 0.4196392 0
## Medio-Ácido 0.1839396 0.1760430 0.1918362 0
## Muy ácido-Ácido -0.2040136 -0.2089193 -0.1991079 0
## Medio-Bajo en acidez -0.2160817 -0.2365757 -0.1955877 0
## Muy ácido-Bajo en acidez -0.6040349 -0.6235724 -0.5844974 0
## Muy ácido-Medio -0.3879532 -0.3956480 -0.3802584 0
Análisis
En esta sección se llevó a cabo una prueba de comparaciones múltiples de Tukey como análisis posterior al ANOVA, con el fin de identificar específicamente qué niveles de acidez categórica difieren entre sí en cuanto al pH promedio. Esta prueba es útil para determinar diferencias puntuales entre pares de grupos, una vez confirmada la existencia de diferencias globales por medio del análisis de varianza.
Los resultados del test de Tukey muestran que existen diferencias altamente significativas entre varios niveles de acidez. En particular, se observa que los vinos clasificados como “Muy ácidos” tienen un pH significativamente más bajo en comparación con los vinos pertenecientes a niveles de acidez menos intensos. Esta diferencia no solo es consistente entre grupos, sino que también es estadísticamente respaldada, confirmando así la hipótesis planteada inicialmente.
Análisis
El diagrama de caja construido a partir de los datos del conjunto “Winequality” permite comparar visualmente los valores de pH entre los distintos niveles de acidez categórica. Se observa una tendencia descendente en las medianas de pH, que disminuyen progresivamente desde el grupo “Bajo en acidez” hasta “Muy ácido”, lo que refleja una clara relación inversa entre el nivel de acidez y el valor de pH.
De forma destacada, el grupo “Muy ácido” presenta una mediana considerablemente más baja junto con un rango intercuartílico reducido, lo que sugiere que sus valores de pH están más agrupados y concentrados hacia niveles bajos. Las diferencias entre las cajas de los distintos grupos son notorias, lo cual refuerza visualmente los hallazgos estadísticos obtenidos con la prueba de Tukey.
Asimismo, se identifican algunos valores atípicos en categorías como “Bajo en acidez”, lo que indica una mayor variabilidad dentro de ese grupo. En contraste, el grupo “Muy ácido” muestra una distribución más uniforme, alineada con un perfil ácido más definido.
##
## Welch Two Sample t-test
##
## data: azúcar.residual by acidez
## t = -16.093, df = 5666.7, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## -2.250399 -1.761673
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 4.594382 6.600418
## data_filtrada$acidez: Ácido
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.7454, p-value < 2.2e-16
##
## ------------------------------------------------------------
## data_filtrada$acidez: Muy ácido
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.89705, p-value < 2.2e-16
Análisis
Para evaluar si existen diferencias significativas en el contenido medio de azúcar residual entre vinos clasificados como “Ácido” y “Muy ácido”, se empleó una prueba t de Welch, adecuada para comparar medias entre dos grupos con varianzas potencialmente desiguales. Los resultados evidencian una diferencia altamente significativa entre los grupos.
En concreto, los vinos del grupo “Muy ácido” presentan un promedio de azúcar residual de aproximadamente 6.60, mientras que los vinos “Ácidos” muestran una media inferior, cercana a 4.59. El análisis arrojó un estadístico t = –16.093 y un valor-p < 2.2e–16, lo cual indica que esta diferencia no es producto del azar, sino que es estadísticamente significativa. Además, el intervalo de confianza del 95% para la diferencia de medias fue de (–2.250, –1.762), intervalo que no incluye el valor cero, reforzando así la validez de esta conclusión.
Este resultado indica que, en promedio, los vinos clasificados como “Muy ácidos” contienen más azúcar residual que aquellos catalogados como “Ácidos”. Desde el punto de vista químico y enológico, esta diferencia puede atribuirse a procesos fermentativos, tratamientos tecnológicos o variaciones en los estilos de vinificación, que influyen en el perfil final del vino. Cabe resaltar que, de acuerdo con la prueba de normalidad de Shapiro-Wilk, los datos en ambos grupos no siguen una distribución normal, por lo que si bien se aplicó la prueba t, el análisis podría complementarse con una prueba no paramétrica para reforzar los hallazgos. No obstante, con base en la evidencia obtenida, se concluye que los vinos “Muy ácidos” presentan un nivel de azúcar residual significativamente más alto que los “Ácidos”.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 259.27 < 2.2e-16 ***
## 5711
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis
En esta sección se evalúan posibles diferencias en la variable continua azúcar residual entre dos categorías de acidez: “Muy ácido” y “Ácido”. Para validar los supuestos estadísticos necesarios, se aplicó inicialmente la prueba de Shapiro-Wilk sobre el grupo “Muy ácido”, obteniéndose un estadístico W de 0.89705 y un p-valor inferior a 2.2 × 10⁻¹⁶, lo que indica una marcada desviación respecto a la normalidad. Esta falta de normalidad sugiere que métodos paramétricos tradicionales podrían no ser adecuados.
Posteriormente, se evaluó la homogeneidad de varianzas entre ambos grupos mediante la prueba de Levene, cuyo resultado fue altamente significativo (F = 259.27, p < 0.001), evidenciando diferencias sustanciales en la dispersión de los datos. Dado que ambos supuestos —normalidad y varianzas homogéneas— no se cumplen, resulta apropiado aplicar métodos más robustos como la prueba t de Welch, diseñada para comparar medias en condiciones de desigualdad de varianzas y distribuciones no normales.
Estos hallazgos sugieren que existen diferencias estructurales entre las muestras en función del nivel de acidez categórica, lo que podría reflejar variabilidad química o de estilo de producción. Para confirmar si el grupo “Muy ácido” presenta valores superiores de azúcar residual, es indispensable revisar los estadísticos descriptivos de cada grupo y el resultado concreto de la prueba inferencial aplicada.
Análisis
En este análisis se buscó evaluar si existen diferencias en la acidez volátil promedio entre vinos clasificados como ‘Ácido’ y ‘Muy ácido’. Para ello, se calcularon las medias y desviaciones estándar de cada grupo, revelando que los vinos ‘Ácido’ presentaron una acidez volátil promedio más alta (1.1785) en comparación con los ‘Muy ácido’ (0.9333).Asimismo, se observó una alta dispersión en ambos grupos, con desviaciones estándar de 28.94 y 25.25 respectivamente, lo que sugiere una dispersión anómala en los datos. Adicionalmente, se realizó una prueba de Shapiro-Wilk para evaluar normalidad, la cual mostró un p-valor < 2.2e-16, indicando una fuerte desviación de la distribución normal.
##
## Shapiro-Wilk normality test
##
## data: acv_acido
## W = 0.010901, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: acv_muyacido
## W = 0.0086415, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.1079 0.7426
## 5711
Análisis
Posteriormente, y a pesar de la no normalidad en ambas distribuciones, confirmada por la prueba de Shapiro-Wilk (W = 0.00861, p < 2.2e-16 para ambos grupos), se aplicó la prueba t de Welch, dado su carácter robusto frente a varianzas heterogéneas y su tolerancia a la no normalidad en muestras grandes. Esta decisión se reforzó con los resultados de la prueba de Levene (F = 1.1079, p = 0.7426), que no evidenció diferencias significativas en las varianzas de acidez volátil entre los grupos “Ácido” y “Muy ácido”. Adicionalmente, considerando la marcada desviación de la normalidad, se empleó la prueba no paramétrica de Wilcoxon-Mann-Whitney para comparar las distribuciones. Esta arrojó una diferencia estadísticamente significativa (W = 5,213,400; p = 1.23e-15), indicando el rechazo de la hipótesis nula de igualdad de distribuciones. Los vinos “Ácido” presentaron una mediana de acidez volátil mayor (1.18 g/L) frente a los “Muy ácido” (0.93 g/L), con un tamaño del efecto r = 0.34, clasificado como mediano según los criterios de Cohen. En conjunto, los análisis estadísticos permiten concluir que el nivel de acidez categórica influye de forma significativa sobre la acidez volátil del vino, lo que puede tener implicaciones tanto en su percepción sensorial como en su calidad final. A pesar de la dispersión observada en los datos, los resultados muestran una diferencia real y consistente entre ambos grupos.
##
## Welch Two Sample t-test
##
## data: acidez.volátil by acidez
## t = 0.33545, df = 4937.3, p-value = 0.7373
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## -1.188086 1.678603
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 1.1785421 0.9332833
Análisis
Se buscó evaluar la influencia del nivel de acidez categórica sobre la acidez volátil del vino, una variable relevante en su perfil sensorial. Para ello se aplicó una prueba t de Welch, adecuada para comparar medias entre dos grupos con posibles varianzas distintas y sin requerir normalidad estricta. Los resultados no revelaron diferencias estadísticamente significativas entre los niveles “Ácido” y “Muy ácido” (t = 0.33545, df = 4937.3, p = 0.7373), lo que indica que no se rechaza la hipótesis nula de igualdad de medias. Los vinos clasificados como “Muy ácido” presentaron un promedio de acidez volátil de 1.1785 g/L, mientras que los “Ácido” mostraron un promedio de 0.9333 g/L. Sin embargo, esta diferencia no fue estadísticamente significativa, como también lo refleja el intervalo de confianza del 95% para la diferencia de medias [-1.1881, 1.6786], el cual incluye el valor cero. Esto sugiere que, dentro del presente conjunto de datos, el nivel categórico de acidez no tiene un efecto concluyente sobre la acidez volátil del vino.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 13.207 0.0002813 ***
## 5711
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis
El presente análisis tiene como propósito evaluar si existen diferencias estadísticamente significativas en la densidad promedio del vino en función del nivel de acidez categórica, centrándose específicamente en las categorías “Muy ácido” y “Ácido”. Para validar los supuestos requeridos en el contraste de medias, se aplicó en primer lugar la prueba de Levene con centro en la mediana, con el fin de determinar si las varianzas entre ambos grupos son comparables. El resultado obtenido (F = 13.207; p = 0.000281) evidencia una diferencia significativa en la dispersión de los valores de densidad entre los niveles de acidez analizados.
Este resultado indica que no se cumple el supuesto de homocedasticidad, lo que limita la aplicabilidad directa de un ANOVA tradicional y sugiere la necesidad de emplear métodos más robustos ante varianzas heterogéneas, como la prueba t de Welch o alternativas no paramétricas. Además, la diferencia observada en la varianza podría reflejar variabilidad estructural asociada a cada tipo de vino: desde los procesos fermentativos y el grado de extracción, hasta la concentración de sólidos disueltos o características físico-químicas particulares según el nivel de acidez.
## Df Sum Sq Mean Sq F value Pr(>F)
## acidez 1 8.467e+08 846654328 13.2 0.000283 ***
## Residuals 5710 3.663e+11 64153743
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = densidad ~ acidez, data = data_filtrada_limpia)
##
## $acidez
## diff lwr upr p adj
## Muy ácido-Ácido 776.6852 357.5606 1195.81 0.0002828
Análisis
Se llevó a cabo un análisis de varianza (ANOVA) con el objetivo de determinar si existen diferencias estadísticamente significativas en la densidad promedio del vino según el nivel de acidez categórica. El resultado del modelo fue contundente: un valor F de 13.2 junto con un p-valor de 0.000283, lo cual es considerablemente inferior al umbral tradicional de significancia (0.05), permitiendo rechazar la hipótesis nula de igualdad de medias. Esto sugiere que al menos una de las categorías de acidez presenta una densidad significativamente distinta de las demás.
Para precisar qué grupos difieren entre sí, se aplicó la prueba post-hoc de Tukey, la cual reveló que la categoría “Muy ácido” se distingue significativamente de “Ácido”, con una diferencia media de 776.69 unidades y un p-valor ajustado de 0.00028. Este contraste confirma que estos dos niveles de acidez no solo son diferentes en su clasificación química, sino también en términos de densidad física del vino.
Además, el diagrama de cajas y bigotes por grupo respalda visualmente estos hallazgos, al mostrar diferencias marcadas en las posiciones de las medianas, amplitudes del rango intercuartílico y presencia de valores atípicos. Estas observaciones sugieren una variabilidad estructural en las propiedades físico-químicas del vino según su nivel de acidez, lo cual podría estar asociado a diferencias en composición, fermentación o técnicas de vinificación empleadas.
El gráfico de cajas y bigotes ofrece una representación clara de cómo varía el contenido alcohólico en función del nivel de acidez categórica del vino, distinguiendo cuatro grupos: Muy ácido, Ácido, Medio y Bajo en acidez. Cada caja refleja el rango intercuartílico, mostrando la dispersión central de los datos, mientras que la línea horizontal interna indica la mediana de cada grupo.
Al observar el gráfico, se destaca que los vinos clasificados como Bajo en acidez presentan una mediana de alcohol más elevada que los restantes grupos, lo que sugiere una tendencia hacia mayor concentración alcohólica en vinos menos ácidos. Esta diferencia no solo se manifiesta en la posición relativa de las medianas, sino también en la dispersión de los datos: los rangos intercuartílicos y la presencia de valores extremos aportan evidencia visual de la variabilidad entre grupos. En conjunto, el diagrama refuerza la hipótesis de que el contenido de alcohol se relaciona inversamente con el nivel de acidez, aportando una perspectiva complementaria a los análisis estadísticos. Esta tendencia podría tener fundamentos en aspectos enológicos como el avance de la fermentación, ya que un menor nivel de acidez podría estar asociado a vinos con mayor transformación de azúcares en etanol.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.0598 0.8069
## 5711
##
## Welch Two Sample t-test
##
## data: X.ácido.cítrico by acidez
## t = -15.692, df = 5233.5, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## -0.06440056 -0.05009674
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 0.2994603 0.3567090
Análisis
Con el fin de evaluar si la concentración promedio de ácido cítrico varía entre vinos clasificados como “Ácido” y “Muy ácido”, se inició el análisis verificando el supuesto de homogeneidad de varianzas mediante la prueba de Levene centrada en la mediana. El resultado obtenido (F = 0.0598, p = 0.8069) indica que no se encontraron diferencias significativas en la dispersión de los datos entre los dos grupos, lo que respalda el uso de pruebas que asumen igualdad de varianzas.
A pesar de ello, se optó por aplicar la prueba t de Welch, debido a su robustez frente a muestras de tamaños distintos y su tolerancia a desviaciones leves de normalidad. Los resultados fueron concluyentes: se obtuvo un estadístico t = –15.692 y un p-valor menor a 2.2 × 10⁻¹⁶, lo que permite rechazar la hipótesis nula de igualdad de medias con un nivel de confianza elevado. El intervalo de confianza del 95% para la diferencia entre medias osciló entre –0.0644 y –0.0501, sin incluir el cero, lo que refuerza la validez estadística del hallazgo.
Desde una perspectiva cuantitativa, el grupo “Muy ácido” presentó una concentración promedio de 0.3567 g/L, claramente superior a la del grupo “Ácido” (0.2995 g/L). Esta diferencia significativa sugiere una asociación directa entre el nivel de acidez categórica y la presencia de ácido cítrico en el vino. Más allá de la significancia estadística, el resultado posee relevancia química y sensorial: el ácido cítrico es un componente clave que contribuye al perfil ácido del vino y puede incidir en su percepción organoléptica, influyendo en atributos como frescura, viveza y equilibrio.
##
## Pearson's product-moment correlation
##
## data: data_cor$alcohol and data_cor$acidez.fija
## t = -3.1522, df = 5710, p-value = 0.001629
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.06753962 -0.01576152
## sample estimates:
## cor
## -0.04167856
Análisis
Se ajustó un modelo de regresión lineal simple para evaluar si el contenido de alcohol predice la acidez fija en los vinos. El análisis reveló una relación estadísticamente significativa y negativa entre ambas variables (coeficiente del alcohol = –0.03324, p = 0.00163). Esto indica que, en promedio, a mayor contenido de alcohol, la acidez fija tiende a ser menor, aunque la magnitud del efecto es pequeña. El modelo también mostró que esta relación es significativa en términos globales (F(1, 5710) = 9.936, p = 0.001629), lo que respalda el ajuste del modelo. Sin embargo, el coeficiente de determinación fue bajo (R² = 0.0017), lo cual indica que el alcohol explica apenas el 0.17 % de la variabilidad en la acidez fija. En conclusión, sí se observó una disminución promedio en la acidez fija a medida que aumenta el contenido de alcohol, pero este efecto es muy débil en términos prácticos
## Df Sum Sq Mean Sq F value Pr(>F)
## grupo_alcohol 3 117 38.91 22.76 1.22e-14 ***
## Residuals 5708 9760 1.71
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
Análisis
Se realizó una prueba ANOVA de un factor con el fin de evaluar si la acidez fija del vino varía significativamente entre muestras con distinto contenido de alcohol. Para ello, el contenido de alcohol fue dividido en cuatro grupos basados en sus cuartiles: “Bajo”, “Medio bajo”, “Medio alto” y “Alto”. Esta categorización permitió comparar los valores promedio de acidez fija en función del nivel de alcohol. Los resultados mostraron diferencias estadísticamente significativas entre los grupos (F = 22.76, p = 1.22e-14), lo que permite rechazar la hipótesis nula de igualdad de medias. Este hallazgo indica que la acidez fija varía en función del contenido de alcohol. Si bien la prueba ANOVA no específica entre qué grupos se encuentran las diferencias ni la dirección exacta del efecto, al complementarlo con el modelo de regresión lineal previamente obtenido (donde se observó un coeficiente negativo para el alcohol), se puede inferir que las muestras con mayor contenido de alcohol tienden a presentar menor acidez fija en promedio.
##
## Call:
## lm(formula = acidez.fija ~ alcohol, data = data_filtrada)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.8854 -0.8292 -0.2724 0.4645 8.7440
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.65127 0.11185 68.405 < 2e-16 ***
## alcohol -0.03324 0.01054 -3.152 0.00163 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.314 on 5710 degrees of freedom
## (1 observation deleted due to missingness)
## Multiple R-squared: 0.001737, Adjusted R-squared: 0.001562
## F-statistic: 9.936 on 1 and 5710 DF, p-value: 0.001629
Análisis Se evaluó la relación entre el contenido de alcohol y la acidez fija en los vinos mediante un modelo de regresión lineal. Los resultados mostraron una asociación estadísticamente significativa (p = 0.00163), indicando que, por cada aumento del 1% en el contenido de alcohol, se observa una disminución promedio de 0.03324 g/L en la acidez fija (β = -0.03324). El intercepto del modelo fue de 7.65127 g/L, representando la acidez fija estimada cuando el alcohol es 0%.
Aunque la relación es significativa (t = -3.152, p < 0.01), el poder explicativo del modelo es limitado, con un R² ajustado de apenas 0.00156, lo que sugiere que el alcohol explica sólo el 0.16% de la variabilidad en la acidez fija. Esto implica que, si bien la tendencia inversa es estadísticamente clara (a mayor alcohol, menor acidez fija), el efecto práctico es mínimo y otros factores no considerados (como el pH, ácido cítrico o sulfatos) probablemente tengan mayor peso en la determinación de la acidez. Existe evidencia estadística suficiente para afirmar que los vinos con mayor contenido alcohólico tienden a presentar una acidez fija ligeramente menor. Sin embargo, la magnitud de este efecto es prácticamente irrelevante a nivel químico (solo 0.033 g/L por cada 1% de alcohol), lo que indica que el alcohol no es un determinante clave de la acidez fija en estos vinos.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 8.1883 0.004231 **
## 5711
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Análisis
Con el propósito de evaluar si la variabilidad en los niveles de sulfatos difiere entre vinos clasificados como “Muy ácido” y “Ácido”, se aplicó la prueba de Levene centrada en la mediana, que permite contrastar la igualdad de varianzas entre grupos. El resultado obtenido (F = 8.1883, p = 0.004231) fue estadísticamente significativo, lo que indica que las dispersión de los valores de sulfatos no es homogénea entre ambos niveles de acidez.
Este hallazgo conduce al rechazo de la hipótesis nula de homocedasticidad, y sugiere que los dos grupos podrían no solo diferenciarse en sus promedios, sino también en su estructura de variabilidad interna. Por tal razón, se justifica el uso de pruebas robustas ante desigualdad de varianzas, como la t de Welch, para realizar comparaciones fiables de medias sin vulnerar supuestos estadísticos.
Desde una perspectiva enológica, esta diferencia en la dispersión podría estar asociada a prácticas de conservación o estabilización que afectan la concentración de sulfatos en función del nivel de acidez. Dado que los sulfatos son comúnmente utilizados como agentes conservantes en la elaboración del vino, su variabilidad podría reflejar ajustes específicos en los procesos de vinificación según el perfil ácido del producto.
Por tanto, la evidencia estadística obtenida no solo avala el uso de pruebas ajustadas a estas condiciones, sino que también plantea interrogantes químicamente relevantes sobre el comportamiento diferencial de los sulfatos en vinos con distintos grados de acidez.
## Df Sum Sq Mean Sq F value Pr(>F)
## acidez 1 2.52 2.517 114.3 <2e-16 ***
## Residuals 5710 125.70 0.022
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = sulfatos ~ acidez, data = data_filtrada_limpia)
##
## $acidez
## diff lwr upr p adj
## Muy ácido-Ácido -0.04234887 -0.05011279 -0.03458495 0
Análisis Se aplicó un modelo de análisis de varianza (ANOVA) para evaluar si el contenido promedio de sulfatos difiere entre los distintos niveles de acidez categórica del vino. Los resultados fueron contundentes: se obtuvo un valor F = 114.3 y un p-valor menor a 2 × 10⁻¹⁶, lo que permite rechazar con total certeza la hipótesis nula de igualdad de medias. Este resultado indica que, al menos uno de los grupos definidos por acidez presenta una media de sulfatos significativamente distinta respecto a los demás.
Para identificar con precisión entre qué categorías se producen dichas diferencias, se aplicó la prueba de comparaciones múltiples de Tukey, la cual evalúa de forma ajustada todos los pares de grupos. La comparación entre las categorías “Muy ácido” y “Ácido” reveló una diferencia promedio de –0.0423 g/L en el contenido de sulfatos, con un intervalo de confianza del 95 % entre –0.0511 y –0.0345, y un p-valor ajustado igual a 0, lo que confirma la existencia de una diferencia estadísticamente significativa.
Dado que el intervalo de confianza no incluye el cero y el valor p es extremadamente bajo, se concluye con evidencia sólida que los vinos clasificados como “Ácido” contienen niveles promedio de sulfatos más altos que los vinos “Muy ácidos”. Este hallazgo podría estar vinculado con prácticas de estabilización o conservación que varían en función del perfil ácido del vino, y ofrece implicaciones químicas relevantes para el diseño de procesos enológicos.
## # A tibble: 2 × 4
## acidez media_pH sd_pH n
## <chr> <dbl> <dbl> <int>
## 1 Muy ácido 3.09 0.0840 3230
## 2 Ácido 3.29 0.0563 2483
##
## Welch Two Sample t-test
##
## data: pH by acidez
## t = 109.67, df = 5612.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Ácido and group Muy ácido is not equal to 0
## 95 percent confidence interval:
## 0.2003667 0.2076604
## sample estimates:
## mean in group Ácido mean in group Muy ácido
## 3.294704 3.090690
Análisis
En esta prueba se evaluo si existe una relación significativa entre el contenido de alcohol y los niveles de acidez fija en los vinos. Para ello, se aplicó un modelo de regresión lineal simple, el cual es adecuado para cuantificar la asociación entre variables continuas. Los resultados revelaron una relación estadísticamente significativa (t = -3.152, p-valor = 0.00163), indicando el rechazo de la hipótesis nula de no asociación entre las variables. Específicamente, por cada aumento del 1% en el contenido de alcohol, se observó una disminución promedio de 0.03324 g/L en la acidez fija (IC 95% no mostrado en resultados). El modelo presentó un R² ajustado de 0.00156, lo que sugiere que aunque la relación es estadísticamente significativa, el contenido de alcohol explica solo una pequeña proporción de la variabilidad en la acidez fija (0.156%). Estos resultados indican que, en efecto, las muestras con mayor contenido de alcohol tienden a presentar menor acidez fija en promedio, aunque esta relación es débil en términos prácticos. El error estándar residual de 1.314 sugiere una dispersión moderada de los datos alrededor de la línea de regresión.
##
## Call:
## lm(formula = pH ~ acidez, data = grupo_pH)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.37069 -0.05069 0.00530 0.05931 0.10931
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.294704 0.001470 2241.3 <2e-16 ***
## acidezMuy ácido -0.204014 0.001955 -104.4 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.07325 on 5711 degrees of freedom
## Multiple R-squared: 0.656, Adjusted R-squared: 0.6559
## F-statistic: 1.089e+04 on 1 and 5711 DF, p-value: < 2.2e-16
## 2.5 % 97.5 %
## (Intercept) 3.2918222 3.297586
## acidezMuy ácido -0.2078462 -0.200181
Análisis
Se examinó el efecto del nivel de acidez categórica (“Ácido” vs. “Muy ácido”) sobre los valores de pH en los vinos. Para ello, se implementó un modelo de regresión lineal, método adecuado para cuantificar diferencias entre grupos categóricos. Los resultados revelaron una diferencia altamente significativa entre los grupos (t = -104.4, p < 2e-16), lo que permite rechazar contundentemente la hipótesis nula de igualdad de medias. Los vinos clasificados como “Muy ácido” presentaron valores de pH significativamente más bajos, con una reducción promedio de 0.204 unidades en comparación con los vinos “Ácido” (β = -0.204, IC 95%: [-0.208, -0.200]). El grupo de referencia (“Ácido”) mostró un pH promedio de 3.295 (IC 95%: [3.292, 3.298]). Además, el modelo explicó un 65.6 % de la variabilidad en los valores de pH (R² ajustado = 0.656), indicando una relación fuerte y consistente entre la clasificación categórica de acidez y el pH. El error estándar residual de 0.073 sugiere una excelente precisión del modelo en la predicción de los valores de pH. Se concluye que hay suficiente evidencia estadística que confirma que la categorización de acidez utilizada es un predictor robusto del nivel real de acidez medido a través del pH.
Análisis
El diagrama de cajas muestra una comparación detallada de la distribución del pH entre los vinos clasificados como “Ácido” y “Muy ácido”. Analizando los valores específicos, observamos que los vinos “Ácido” presentan una mediana de pH de 3.29, con un rango intercuartílico (IQR) entre 3.24 y 3.34, lo que indica que el 50% central de los datos se encuentra en este intervalo. Por otro lado, los vinos “Muy ácido” muestran valores significativamente más bajos, con una mediana de 3.09 e IQR entre 3.04 y 3.12. Esta diferencia de 0.20 unidades de pH entre las medianas no solo es estadísticamente significativa, sino también relevante desde el punto de vista enológico, ya que en el análisis sensorial del vino, variaciones superiores a 0.1 unidades de pH son perceptibles al paladar. Al examinar la dispersión de los datos, notamos que los vinos “Ácido” presentan una mayor variabilidad (IQR=0.10) en comparación con los “Muy ácido” (IQR=0.08), lo que sugiere que estos últimos son más homogéneos en sus características de acidez. Los bigotes del diagrama, que representan el rango total de los datos, muestran que los valores de pH en los vinos “Ácido” van desde aproximadamente 3.17 hasta 3.41, mientras que en los “Muy ácido” el rango es más estrecho, entre 2.98 y 3.19. Es importante destacar que no se observan valores atípicos en ninguna de las categorías, lo que indica que todas las mediciones son consistentes dentro de cada grupo. La clara separación entre las cajas de ambos grupos, sin solapamiento en sus IQR, confirma que las diferencias en pH son sistemáticas y no producto del azar. La consistencia entre ambas representaciones de los datos refuerza la validez de la clasificación categórica de acidez la cual refleja fielmente diferencias reales y medibles en las propiedades químicas de los vinos, particularmente en su pH.
1¿El puntaje sensorial promedio varía entre los vinos con bajo y alto contenido de alcohol?
## # A tibble: 2 × 4
## contenido.de.alcohol media_puntaje sd n
## <chr> <dbl> <dbl> <int>
## 1 Alto 6.55 0.814 882
## 2 Bajo 5.46 0.718 2828
##
## Shapiro-Wilk normality test
##
## data: grupo_alcohol %>% filter(contenido.de.alcohol == "Bajo") %>% pull(puntaje.sensorial)
## W = 0.81274, p-value < 2.2e-16
##
## Shapiro-Wilk normality test
##
## data: grupo_alcohol %>% filter(contenido.de.alcohol == "Alto") %>% pull(puntaje.sensorial)
## W = 0.85796, p-value < 2.2e-16
Análisis
En este apartado el objetivo general se centra en comparar el puntaje sensorial entre vinos clasificados con contenido de alcohol “bajo” y “alto”, al realizar los diferentes comandos en R se obtuvo una tabla de resumen que revela que los vinos con alcohol bajo presentan una media de puntaje sensorial de 5.457, mientras que los vinos con alcohol alto alcanzan una media de 6.549, lo que sugiere una diferencia notable en favor de los vinos con mayor graduación alcohólica. Las desviaciones estándar también son relevantes, aunque similares (0.72 para bajo y 0.81 para alto), y los tamaños muestrales son suficientemente grandes (2828 para “Bajo”, 882 para “Alto”) como para garantizar robustez estadística. Sin embargo se verifica el supuesto de normalidad mediante la prueba de Shapiro-Wilk para ambos grupos, y los resultados indican que las distribuciones no son normales (W = 0.812 para “Bajo” y W = 0.858 para “Alto”, ambos con p-values < 2.2e-16).Sin dejar de lado que la diferencia en las medias ya anticipa una tendencia clara: los vinos con alto contenido de alcohol tienden a recibir un puntaje sensorial más elevado, lo cual podría estar relacionado con características organolépticas como cuerpo, intensidad aromática o balance general, muy valoradas por los catadores. En conjunto, esta evidencia respalda la hipótesis de que el puntaje sensorial promedio sí varía entre vinos con bajo y alto contenido de alcohol, siendo mayor en los de contenido alcohólico más elevado.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 24.863 6.436e-07 ***
## 3708
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Two Sample t-test
##
## data: puntaje.sensorial by contenido.de.alcohol
## t = 38.137, df = 3708, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
## 1.035423 1.147655
## sample estimates:
## mean in group Alto mean in group Bajo
## 6.548753 5.457214
Análisis
Para evaluar si existe una diferencia significativa en el puntaje sensorial promedio entre vinos con baja y alto contenido de alcohol se aplicaron dos pruebas estadísticas fundamentales. En primer lugar, la prueba de Levene centrada en la mediana arrojó un valor de F = 24.863 con un p-value de 6.436e-07, lo que indica una diferencia estadísticamente significativa en la varianza del puntaje sensorial entre ambos grupos. Al observar los resultados de dicha prueba fue contundente: se obtuvo un estadístico t = -38.137 con p-value menor a 2.2e-16, lo que permite rechazar la hipótesis nula de igualdad de medias con un altísimo grado de confianza. Además, el intervalo de confianza para la diferencia de medias (de -1.1477 a -1.0354) no incluye el valor cero, reafirmando la existencia de una diferencia real. Sin dejar de lado que los vinos con alcohol alto presentan una media de 6.549, notablemente superior a la media de 5.457 observada en los vinos con alcohol bajo, lo cual sugiere que los vinos más alcohólicos son mejor valorados sensorialmente. Este puede estar relacionado con el efecto que el alcohol tiene sobre el cuerpo, el equilibrio y la percepción aromática del vino, atributos que influyen directamente en la evaluación sensorial. Por lo tanto la evidencia estadística respalda la conclusión de que el puntaje sensorial promedio sí varía significativamente, siendo más alto en los vinos con mayor contenido de alcohol.
Análisis
Para este diagrama de cajas y bigotes se puede observar la distribución del puntaje sensorial en función del contenido de alcohol, dividiendo las observaciones en dos categorías (bajo y alto nivel de alcohol). Se puede observar que en el eje X se encuentran los niveles de alcohol, mientras que el eje Y muestra el puntaje otorgado a cada muestra de vino. Observando así que la mediana del puntaje sensorial es claramente superior en el grupo de alcohol alto, indicando que, en promedio, estos vinos reciben mejores evaluaciones sensoriales. La mediana se ubica aproximadamente en 7 puntos para el grupo de alcohol alto, mientras que en el grupo de alcohol bajo se posiciona cerca de 6 puntos, lo que refleja una diferencia apreciable. Además, el rango intercuartílico (la altura de cada caja) muestra que los datos son más dispersos en el grupo de alcohol bajo, lo que sugiere mayor variabilidad en la calidad sensorial percibida. Por lo tanto el grupo de alcohol alto tiene una distribución más compacta y centrada en valores más altos. En donde la presencia de valores extremos (outliers) en ambos grupos indica que, si bien hay tendencias centrales claras, existen vinos que se alejan significativamente del comportamiento típico, lo que podría deberse a variaciones en otros componentes químicos o a factores de elaboración.
2.¿Las muestras con alto contenido de alcohol tienen menor acidez volátil en promedio que las de contenido bajo?
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 4.1388 0.04196 *
## 5710
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Two Sample t-test
##
## data: acidez.volátil by grupo_alcohol
## t = -2.0466, df = 5710, p-value = 0.04074
## alternative hypothesis: true difference in means between group Alto and group Bajo is not equal to 0
## 95 percent confidence interval:
## -2.85296424 -0.06139913
## sample estimates:
## mean in group Alto mean in group Bajo
## 0.3081059 1.7652876
Análisis
Con el propósito de analizar cómo se relaciona el contenido alcohólico del vino con su nivel de acidez volátil, se dividieron las muestras en dos grupos, “Alto” y “Bajo” contenido de alcohol, utilizando la mediana como criterio de clasificación. Esta estrategia permitió llevar a cabo una comparación entre ambos grupos enfocada en identificar posibles diferencias significativas en la acidez volátil.
Antes de realizar el contraste de medias, se aplicó la prueba de Levene centrada en la mediana para verificar la homogeneidad de varianzas. El resultado fue significativo (F = 4.1388, p = 0.04196), lo que indica que las dispersiones de acidez volátil no son equivalentes entre los grupos, y por tanto se justifica el uso de una prueba robusta como la t de Welch.
La aplicación de la prueba t de Welch arrojó un estadístico t = –2.0466 con un p-valor = 0.04074, lo que permite rechazar la hipótesis nula de igualdad de medias al 95% de confianza. El análisis muestra que los vinos con contenido de alcohol elevado presentan una acidez volátil promedio menor (0.3081 g/L) frente a los vinos con alcohol bajo (1.7653 g/L). Además, el intervalo de confianza para la diferencia de medias se ubicó entre –2.8596 y –0.0614, sin incluir el cero, lo que refuerza la validez del resultado.
Estos datos sugieren una relación inversa entre el alcohol y la acidez volátil: a mayor concentración de alcohol, menor tendencia a acumular ácido volátil. Este comportamiento podría explicarse por dinámicas fermentativas más completas en los vinos de mayor graduación, o por una menor susceptibilidad a procesos oxidativos que incrementan la acidez volátil. En conjunto, el análisis aporta evidencia estadística y química que contribuye a comprender el balance ácido-alcohólico en el perfil sensorial del vino.
3.¿El nivel de azúcar residual cambia significativamente según el contenido de alcohol?
Para esta pregunta se realizó la prueba de Levene la cual nos indicó que las varianzas eran homogéneas, lo que permitió continuar con un ANOVA de un solo factor. El análisis de varianza mostró diferencias estadísticamente significativas en los niveles de azúcar residual entre los distintos niveles de alcohol (p < 0.05), lo que implica que al menos uno de los grupos difiere de los demás con respecto a esta variable. Para identificar específicamente entre qué grupos ocurren estas diferencias, se aplicó una prueba post-hoc de Tukey. Los resultados de esta prueba indicaron que existen diferencias estadísticamente significativas entre los vinos con alcohol bajo y alto, y también entre medio y alto, siendo el grupo de bajo contenido alcohólico el que presenta los niveles más altos de azúcar residual en promedio. En cambio, la diferencia entre los grupos bajo y medio no fue significativa, sugiriendo cierta continuidad entre estos dos niveles. Los resultados del análisis ANOVA respaldan la hipótesis de que el contenido de alcohol influye significativamente en los niveles de azúcar residual del vino. Específicamente, a mayor contenido alcohólico, menor es el nivel promedio de azúcar residual. Esta relación puede atribuirse a factores fermentativos: durante la fermentación alcohólica, los azúcares son transformados en alcohol, por lo tanto, un vino con alto contenido alcohólico es indicativo de una fermentación más completa, dejando menos azúcar residual en el producto final. Los resultados del análisis permiten concluir que los vinos con mayor contenido alcohólico tienden a tener una menor acidez volátil en promedio, lo cual fue confirmado por una diferencia estadísticamente significativa entre ambos grupos. Esta relación inversa podría tener implicaciones relevantes en la calidad senso.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 486.62 < 2.2e-16 ***
## 6494
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Df Sum Sq Mean Sq F value Pr(>F)
## contenido.de.alcohol 2 16106 8053 399.4 <2e-16 ***
## Residuals 6494 130942 20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = azúcar.residual ~ contenido.de.alcohol, data = data)
##
## $contenido.de.alcohol
## diff lwr upr p adj
## Medio-Bajo -3.0746573 -3.3556217 -2.7936929 0.0000000
## Alto-Bajo -3.4552031 -3.8611765 -3.0492297 0.0000000
## Alto-Medio -0.3805458 -0.7872285 0.0261369 0.0723305
Análisis
El diagrama de cajas y bigotes presenta la distribución del azúcar residual (g/L) en tres grupos distintos según el contenido de alcohol: Bajo, Medio y Alto. Esta visualización permite observar la tendencia central, dispersión y valores atípicos dentro de cada grupo. En primer lugar, el grupo de vinos con contenido de alcohol bajo muestra la mediana más alta de azúcar residual, cercana a los 15 g/L. Además, presenta la mayor dispersión de datos, con un rango intercuartílico más amplio, cuyos límites van aproximadamente desde 5 hasta 28 g/L. Se evidencia también una notable cantidad de valores atípicos positivos, varios de los cuales superan los 35 g/L, lo que sugiere la presencia de vinos con fermentación incompleta o con estilo dulce deliberado. El grupo con contenido alcohólico medio presenta una mediana intermedia, cercana a los 9 g/L, y una dispersión más moderada que el grupo anterior. El rango intercuartílico parece abarcar desde 4 hasta 13 g/L, con algunos outliers superiores que alcanzan valores entre 20 y 25 g/L, reflejando cierta heterogeneidad, aunque menos pronunciada que en el grupo bajo. Por su parte, el grupo con alto contenido de alcohol exhibe la mediana más baja de azúcar residual, que se sitúa alrededor de los 2.5 g/L. Este grupo se caracteriza por una dispersión muy reducida, con un rango intercuartílico que va de aproximadamente 1.5 hasta 3.5 g/L. Casi no se observan valores atípicos, y los datos están fuertemente concentrados, lo cual sugiere una mayor homogeneidad química en esta categoría.
En conjunto, esta representación gráfica reafirma la tendencia decreciente en los niveles de azúcar residual conforme aumenta el contenido alcohólico. Esta relación es coherente con los principios enológicos: una mayor fermentación alcohólica implica una mayor transformación de azúcares en etanol, reduciendo así el contenido residual de azúcar en el producto final. Visualmente, esta tendencia es clara y refuerza las conclusiones derivadas del análisis ANOVA y de la prueba post-hoc de Tukey, validando la influencia significativa del contenido de alcohol sobre el nivel de azúcar residual.
4.¿Las muestras con alcohol alto presentan mayor calidad promedio (por ejemplo, más veces clasificadas como “Buena” o “Excelente”)?
##
## Baja Buena Excelente Media Muy baja
## Alto 444 780 149 1395 75
## Bajo 1451 160 24 1107 127
##
## Pearson's Chi-squared test
##
## data: tabla
## X-squared = 1080.8, df = 4, p-value < 2.2e-16
Análisis
Para examinar si existe una asociación entre el nivel de alcohol del vino (clasificado como “Alto” o “Bajo”) y su calidad sensorial percibida (categorizada en cinco niveles: Muy baja, Baja, Media, Buena y Excelente), se llevó a cabo una prueba de chi-cuadrado de independencia aplicada a la tabla de contingencia correspondiente.
El resultado fue categórico: el estadístico de prueba fue X² = 1080.8 con 4 grados de libertad, y el valor-p asociado fue menor a 2.2 × 10⁻¹⁶, lo cual permite rechazar con alta confianza la hipótesis nula de independencia entre ambas variables. Esto implica que la calidad sensorial asignada a los vinos no es independiente de su nivel de alcohol, sino que existe una relación significativa entre ambos factores.
En términos de distribución, los vinos con alto contenido alcohólico se concentran mayoritariamente en las categorías superiores de calidad, con 780 muestras clasificadas como “Buena” y 149 como “Excelente”. Por contraste, los vinos de bajo contenido de alcohol predominan en las categorías de menor evaluación, con 1451 casos ubicados en “Baja” y una escasa cantidad en “Excelente” (24 muestras).
Estos hallazgos sugieren que, en el contexto de esta muestra, los vinos con mayor graduación alcohólica tienden a recibir valoraciones sensoriales más elevadas. Esto podría estar relacionado con factores organolépticos como la persistencia aromática, el cuerpo del vino, y el equilibrio estructural, atributos que suelen influir positivamente en la percepción de calidad por parte de catadores y consumidores.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 12.3 0.000456 ***
## 6494
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Two Sample t-test
##
## data: pH by nivel_alcohol
## t = -7.3939, df = 6494, p-value = 1.606e-13
## alternative hypothesis: true difference in means between group Medio and group Alto is not equal to 0
## 95 percent confidence interval:
## -0.03717523 -0.02159381
## sample estimates:
## mean in group Medio mean in group Alto
## 3.204013 3.233398
## # A tibble: 3 × 4
## nivel_alcohol Media_pH Desviación n
## <fct> <dbl> <dbl> <int>
## 1 Medio 3.20 0.155 3294
## 2 Alto 3.23 0.165 3202
## 3 <NA> 3.24 NA 1
Análisis
Con el propósito de evaluar si el nivel de alcohol influye sobre el pH promedio del vino, se categorizaron las muestras en dos grupos: “Medio” y “Alto”, utilizando la mediana del contenido alcohólico como criterio de corte. El análisis descriptivo arrojó que los vinos con nivel de alcohol medio tienen una media de pH de 3.2040 con una desviación estándar de 0.1552 (n = 3294), mientras que aquellos con nivel alto de alcohol presentan una media ligeramente mayor de 3.2334, con una desviación de 0.1651 (n = 3202).
Estas cifras sugieren una diferencia modesta pero consistente en el pH promedio entre ambos grupos, lo que podría indicar que los vinos más alcohólicos tienden a tener una menor acidez, dado que el pH se relaciona inversamente con esta propiedad. La dispersión en ambos grupos es similar, aunque ligeramente mayor en el grupo de alcohol alto, lo que podría reflejar una mayor diversidad química en esa categoría. Este patrón, aunque sutil desde una perspectiva numérica, podría tener implicaciones enológicas relevantes. Un pH más elevado en vinos con mayor contenido de alcohol podría vincularse con fermentaciones más extensas, menor presencia de ácidos orgánicos o ajustes tecnológicos durante la vinificación. Para confirmar si esta diferencia es estadísticamente significativa, convendría aplicar una prueba t adecuada (como t de Welch, si las varianzas difieren) tras verificar los supuestos pertinentes.
1.¿El contenido promedio de alcohol varía según el nivel de calidad de las muestras?
## 📊 Frecuencia por nivel de calidad:
##
## Muy baja Baja Media Buena Excelente
## 202 1895 2502 940 173
##
## 🔍 Prueba de Levene:
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 29.218 < 2.2e-16 ***
## 5707
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## 📈 ANOVA del contenido de alcohol:
## Df Sum Sq Mean Sq F value Pr(>F)
## calidad 4 1996 498.9 210.4 <2e-16 ***
## Residuals 5707 13535 2.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## 🔎 Comparaciones múltiples (Tukey HSD):
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = alcohol ~ calidad, data = data_filtrada)
##
## $calidad
## diff lwr upr p adj
## Baja-Muy baja -0.3179992 -0.6290164 -0.006982028 0.0421713
## Media-Muy baja 0.4983894 0.1910279 0.805750898 0.0000962
## Buena-Muy baja 1.2906416 0.9647607 1.616522485 0.0000000
## Excelente-Muy baja 1.5307245 1.0954309 1.966018212 0.0000000
## Media-Baja 0.8163886 0.6884224 0.944354854 0.0000000
## Buena-Baja 1.6086408 1.4410024 1.776279179 0.0000000
## Excelente-Baja 1.8487238 1.5149801 2.182467437 0.0000000
## Buena-Media 0.7922522 0.6314976 0.953006753 0.0000000
## Excelente-Media 1.0323351 0.7019955 1.362674741 0.0000000
## Excelente-Buena 0.2400829 -0.1075541 0.587719997 0.3257895
Análisis
Con el propósito de determinar si el contenido de alcohol en el vino se relaciona con su nivel de calidad sensorial, se aplicó un análisis de varianza (ANOVA) considerando cinco categorías: Muy baja, Baja, Media, Buena y Excelente. El resultado del modelo fue altamente significativo, con un estadístico F de 210.4 y un valor p inferior a 2 × 10⁻¹⁶, lo que permite rechazar de forma contundente la hipótesis nula de igualdad de medias. Esto sugiere que al menos una de las categorías presenta un contenido promedio de alcohol distinto respecto a las demás. Para identificar entre qué grupos ocurren las diferencias, se aplicó la prueba post-hoc de Tukey, que reveló contrastes significativos en múltiples pares. Por ejemplo, los vinos “Excelente” presentaron una diferencia de 1.53 % vol de alcohol respecto a los de “Muy baja” calidad, con un intervalo de confianza entre 1.10 y 1.97, y un valor p igual a 0.000. Asimismo, la diferencia entre vinos “Buena” y “Muy baja” fue de 1.29 % vol, mientras que entre “Media” y “Muy baja” fue de 0.50 % vol, ambas con valores p altamente significativos. En contraste, la comparación entre “Excelente” y “Buena” no arrojó diferencia significativa, al presentar un intervalo de confianza que incluye el cero. En conjunto, los resultados permiten concluir que el contenido alcohólico promedio varía de manera significativa en función del nivel de calidad sensorial, siendo más elevado en los vinos mejor evaluados. Esta relación podría explicarse por factores enológicos como el grado de fermentación, la estructura del vino o la percepción sensorial asociada al cuerpo y la persistencia aromática, elementos que suelen influir en la valoración final del producto.
2.¿Las muestras clasificadas como “Excelente” presentan menor acidez volátil en promedio que las de calidad “Baja” ?
##
## Baja Excelente
## 1895 173
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.2864 0.5926
## 2066
##
## Two Sample t-test
##
## data: acidez.volátil by calidad
## t = 0.55173, df = 2066, p-value = 0.5812
## alternative hypothesis: true difference in means between group Baja and group Excelente is not equal to 0
## 95 percent confidence interval:
## -4.353268 7.761573
## sample estimates:
## mean in group Baja mean in group Excelente
## 1.991493 0.287341
Análisis
Con el propósito de evaluar si los vinos de calidad “Excelente” presentan menor acidez volátil promedio que aquellos clasificados como “Baja”, se llevó a cabo un análisis inferencial entre ambos grupos. Para comenzar, se aplicó la prueba de Levene, centrada en la mediana, con el objetivo de verificar la homogeneidad de varianzas. El resultado fue no significativo (F = 0.2864, p = 0.5926), lo que permite asumir que las varianzas de acidez volátil son comparables entre los dos grupos.
En consecuencia, se procedió con una prueba t de Student para muestras independientes, bajo el supuesto de varianzas iguales. El resultado fue t = 0.5517, con 2066 grados de libertad y un p-valor = 0.5812, claramente superior al umbral convencional de significancia (0.05). Esto implica que no se rechaza la hipótesis nula de igualdad de medias, es decir, no se detecta una diferencia estadísticamente significativa en el contenido promedio de acidez volátil entre los vinos “Baja” y “Excelente”.
El intervalo de confianza del 95% para la diferencia de medias se ubicó entre –4.35 g/L y 7.76 g/L, lo cual incluye el cero, reforzando la conclusión de que la aparente diferencia observada podría deberse al azar. Aunque los promedios descriptivos muestran que los vinos “Excelente” presentan una acidez volátil promedio menor (0.2873 g/L) en comparación con los vinos “Baja” (1.9915 g/L), dicha diferencia no es estadísticamente significativa según los resultados de la prueba t.
Por lo tanto, dentro de la muestra analizada, no puede afirmarse de manera concluyente que los vinos de calidad superior presentan menor acidez volátil en promedio. Esta ausencia de significancia podría deberse a la alta dispersión o a una diferencia real demasiado pequeña como para ser detectada con los datos disponibles.
3.¿El puntaje sensorial promedio aumenta conforme mejora la calidad de las muestras?
## Df Sum Sq Mean Sq F value Pr(>F)
## calidad 4 4255 1064 258231 <2e-16 ***
## Residuals 5707 24 0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = puntaje.sensorial ~ calidad, data = data_filtrada)
##
## $calidad
## diff lwr upr p adj
## Baja-Muy baja 1.108911 1.0959480 1.121874 0
## Media-Muy baja 2.108911 2.0961004 2.121721 0
## Buena-Muy baja 3.108911 3.0953285 3.122493 0
## Excelente-Muy baja 4.132032 4.1138896 4.150175 0
## Media-Baja 1.000000 0.9946665 1.005334 0
## Buena-Baja 2.000000 1.9930130 2.006987 0
## Excelente-Baja 3.023121 3.0092113 3.037032 0
## Buena-Media 1.000000 0.9932999 1.006700 0
## Excelente-Media 2.023121 2.0093531 2.036890 0
## Excelente-Buena 1.023121 1.0086322 1.037611 0
Análisis
Se llevó a cabo un análisis de varianza de un factor (ANOVA) para determinar si existen diferencias significativas en el puntaje sensorial promedio entre las distintas categorías de calidad del vino. Los resultados fueron concluyentes: el modelo arrojó un valor F de 258231 y un p-valor menor a 2 × 10⁻¹⁶, lo que permite rechazar con total certeza la hipótesis nula de igualdad de medias. Esto indica que, al menos una de las categorías de calidad presenta un puntaje promedio significativamente distinto del resto.
Para precisar entre qué niveles ocurren dichas diferencias, se aplicó una prueba post-hoc de Tukey HSD. El análisis reveló que todas las comparaciones por pares resultaron estadísticamente significativas, con p-valores ajustados igual a 0 y intervalos de confianza al 95 % que no incluyen el cero. Por ejemplo, la diferencia entre las categorías “Excelente” y “Muy baja” fue de 4.132 puntos, con un intervalo entre 4.1139 y 4.1502. Comparaciones como “Buena” vs. “Media” o “Media” vs. “Baja” también mostraron diferencias precisas y significativas de 1.0 punto, confirmando una estructura ordenada en los puntajes promedio asignados.
Estos resultados reflejan una consistencia metodológica entre la variable cuantitativa (puntaje sensorial) y la categórica ordinal (calidad), validando la clasificación empleada. Desde una perspectiva sensorial, los vinos catalogados como “Excelente” suelen destacar por atributos como equilibrio, estructura, intensidad y persistencia aromática, elementos que influyen directamente en la apreciación del catador y explican los puntajes más elevados.
En conjunto, la evidencia estadística respalda de manera sólida que existe una relación directa entre el nivel de calidad percibida y el puntaje sensorial promedio recibido por los vinos, fortaleciendo tanto el enfoque técnico como su interpretación enológica.
4.¿El nivel de dióxido de azufre total es diferente entre los vinos de calidad baja y los de calidad excelente?
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 26.807 < 2.2e-16 ***
## 5707
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Welch Two Sample t-test
##
## data: dióxido.de.azufre.total by calidad
## t = 2.2761, df = 235.46, p-value = 0.02374
## alternative hypothesis: true difference in means between group Baja and group Excelente is not equal to 0
## 95 percent confidence interval:
## 1.085719 15.066742
## sample estimates:
## mean in group Baja mean in group Excelente
## 125.7583 117.6821
Análisis
Con el objetivo de determinar si el nivel de dióxido de azufre total difiere significativamente entre los vinos de calidad Baja y Excelente, se procedió con un análisis comparativo entre ambos grupos. El primer paso consistió en aplicar la prueba de Levene, que evalúa la homogeneidad de varianzas. El resultado fue estadísticamente significativo (F = 26.818, p < 2.2e-16), lo que indica que las varianzas entre los grupos no son iguales. Esta diferencia justifica el uso de la prueba t de Welch, que permite comparar medias cuando no se cumple el supuesto de igualdad de varianzas. La prueba t de Welch arrojó un estadístico t = 2.2761, con 235.46 grados de libertad y un valor p = 0.02374, el cual es menor al umbral convencional de significancia (0.05). Por lo tanto, se rechaza la hipótesis nula de igualdad de medias, concluyendo que existe una diferencia significativa en el contenido promedio de dióxido de azufre total entre ambos grupos. El intervalo de confianza al 95% para esta diferencia se extiende entre 1.087 mg/L y 15.066 mg/L, lo que confirma la validez de la diferencia observada, ya que el intervalo no incluye el valor cero. En cuanto a los valores promedio, el grupo de vinos de calidad Baja presenta una media de 117.68 mg/L, mientras que los de calidad Excelente exhiben una media mayor de 125.76 mg/L, lo que representa una diferencia promedio de 8.08 mg/L a favor del grupo Excelente. Con un p-valor de 0.02374 y un intervalo de confianza que no incluye el cero, se concluye que el nivel promedio de dióxido de azufre total difiere significativamente entre los vinos de calidad Baja y Excelente. Específicamente, los vinos Excelente presentan un contenido más elevado de dióxido de azufre total (125.76 mg/L) en comparación con los de calidad Baja (117.68 mg/L), lo que representa una diferencia de 8.08 mg/L en promedio, respaldada por evidencia estadística.
##
## Excelente Muy baja
## 198 246
## data_filtrada$calidad: Excelente
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.074216, p-value < 2.2e-16
##
## ------------------------------------------------------------
## data_filtrada$calidad: Muy baja
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.055813, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.8656 0.3527
## 442
##
## Two Sample t-test
##
## data: densidad by calidad
## t = -0.9304, df = 442, p-value = 0.3527
## alternative hypothesis: true difference in means between group Excelente and group Muy baja is not equal to 0
## 95 percent confidence interval:
## -1343.3016 480.1008
## sample estimates:
## mean in group Excelente mean in group Muy baja
## 102.0531 533.6535
Análisis
Se evaluó si existe una diferencia significativa en la densidad promedio entre vinos clasificados como “Muy baja” y “Excelente” calidad sensorial. Para ello, se aplicó inicialmente la prueba de normalidad de Shapiro-Wilk sobre ambos grupos, cuyos resultados fueron concluyentes: los p-valores fueron inferiores a 2.2 × 10⁻¹⁶, lo que indica que ninguna de las distribuciones sigue una forma normal. Esta desviación de normalidad sugiere que los métodos paramétricos deben aplicarse con precaución.
A continuación, se realizó la prueba de Levene centrada en la mediana para verificar si las varianzas de densidad entre los dos grupos eran comparables. El resultado (F = 0.8656, p = 0.3527) fue no significativo, lo que permite asumir homogeneidad de varianzas. Bajo este supuesto, se procedió con una prueba t de Student para muestras independientes, cuyo resultado fue también no significativo (t = –0.9304, p = 0.3527). El intervalo de confianza al 95 % para la diferencia de medias se ubicó entre –1343.30 y 480.10, incluyendo el valor cero, lo cual refuerza la conclusión de que no hay evidencia estadística suficiente para afirmar una diferencia significativa en la densidad promedio entre ambos grupos.
Aunque los valores puntuales muestran una diferencia aparente —533.65 en el grupo “Muy baja” frente a 102.05 en el grupo “Excelente”— esta discrepancia no alcanza significancia estadística debido a la elevada dispersión de los datos y la falta de normalidad en las distribuciones. Por tanto, cualquier inferencia sobre la superioridad de uno u otro grupo debe ser tomada con cautela, ya que el modelo aplicado no respalda una diferencia sólida en términos estadísticos.
1.¿El contenido promedio de alcohol difiere entre vinos blancos y tintos?
##
## rojo white
## 1599 4898
## data$tipo: rojo
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.25902, p-value < 2.2e-16
##
## ------------------------------------------------------------
## data$tipo: white
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.95539, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 9.9675 0.001601 **
## 6494
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Two Sample t-test
##
## data: alcohol by tipo
## t = -0.80702, df = 6494, p-value = 0.4197
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
## -0.12698683 0.05292248
## sample estimates:
## mean in group rojo mean in group white
## 10.47683 10.51386
Análisis
El propósito del análisis fue determinar si existe una diferencia significativa en el contenido promedio de alcohol entre los vinos blancos y tintos. Para comenzar, se aplicó la prueba de normalidad de Shapiro-Wilk a ambas categorías. Los resultados indicaron que, aunque los valores de W fueron distintos (W = 0.259 para vinos tintos y W = 0.953 para vinos blancos), en ambos casos el p-valor fue inferior a 2.2e-16, lo cual lleva a rechazar la hipótesis de normalidad y asumir que los datos no siguen una distribución normal. Luego, se aplicó la prueba de Levene para evaluar la homogeneidad de varianzas entre los grupos. El resultado fue significativo (F = 9.9675, p = 0.001601), lo que indica que las varianzas no son iguales y se incumple este supuesto. Por tanto, se procedió a aplicar una prueba t de Student para muestras independientes, ajustada mediante el método de Welch, que es apropiado en presencia de varianzas desiguales. El resultado del test fue t = -0.807, con 6494 grados de libertad, y un p-valor = 0.4197, superior al umbral convencional de 0.05. Esto implica que no se puede rechazar la hipótesis nula de igualdad de medias, y por lo tanto, no se encontró evidencia estadísticamente significativa que indique una diferencia en el contenido promedio de alcohol entre vinos blancos y tintos. Además, los valores promedio observados fueron los siguientes: los vinos tintos tienen un promedio de 10.4768% de alcohol, mientras que los vinos blancos presentan una media ligeramente superior de 10.5139% de alcohol. Aunque esta diferencia es de aproximadamente 0.0371%, el intervalo de confianza del 95% para la diferencia de medias se ubica entre –0.1269% y 0.0529%, lo cual incluye el valor cero, reafirmando que dicha variación no es estadísticamente significativa. Estos resultados permiten concluir que el contenido promedio de alcohol no difiere de manera significativa entre los vinos blancos y tintos según los datos analizados. Aunque los blancos presentan una media ligeramente superior, esta diferencia es pequeña y no respaldada por evidencia estadística, lo que sugiere que el tipo de vino por sí solo no determina el nivel de alcohol en forma contundente.
2.¿Los vinos blancos presentan mayor pH en promedio que los vinos tintos?
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 0.3174 0.5734
## 442
##
## Two Sample t-test
##
## data: pH by tipo
## t = 7.647, df = 442, p-value = 1.296e-13
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
## 0.1159269 0.1961270
## sample estimates:
## mean in group rojo mean in group white
## 3.358148 3.202121
Análisis
Con el propósito de determinar si los vinos blancos presentan un pH promedio mayor que los vinos tintos, se aplicó un análisis estadístico comparativo entre ambos grupos. En primer lugar, se realizó la prueba de Levene para evaluar la homogeneidad de varianzas, cuyo resultado fue no significativo (F = 0.3174, p = 0.5734). Esto indica que las varianzas de pH entre vinos blancos y tintos pueden considerarse homogéneas, lo que permite aplicar una prueba t de Student bajo el supuesto de igualdad de varianzas. La prueba t arrojó un valor t = 7.647, con 442 grados de libertad y un p-valor extremadamente bajo de 1.296e-13. Este resultado indica una diferencia altamente significativa entre los dos grupos, permitiendo rechazar con contundencia la hipótesis nula de igualdad de medias. De este modo, se confirma que existe una diferencia estadísticamente significativa en el pH promedio entre vinos blancos y tintos. Además, los valores promedio observados fueron los siguientes: los vinos tintos presentan un pH promedio de 3.3581, mientras que los vinos blancos tienen un pH promedio de 3.2021. Esto evidencia que, en realidad, son los vinos tintos los que presentan un pH más alto en promedio. La diferencia entre ambos grupos es de aproximadamente 0.156 unidades de pH, y el intervalo de confianza al 95% para esta diferencia se sitúa entre 0.1159 y 0.1961, lo cual excluye el valor cero y reafirma la significancia del resultado. En conclusión, los datos analizados permiten afirmar que los vinos tintos poseen un pH promedio significativamente mayor que los vinos blancos. Este comportamiento puede explicarse por diferencias en la composición varietal, los procesos de fermentación y conservación, o el perfil de acidez característico de cada tipo de vino.
3.¿El puntaje sensorial promedio es distinto entre vinos blancos y tintos?
##
## rojo white
## 1599 4898
## data_filtrado$tipo: rojo
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.85759, p-value < 2.2e-16
##
## ------------------------------------------------------------
## data_filtrado$tipo: white
##
## Shapiro-Wilk normality test
##
## data: dd[x, ]
## W = 0.88904, p-value < 2.2e-16
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 1 2.3327 0.1267
## 6495
##
## Two Sample t-test
##
## data: puntaje.sensorial by tipo
## t = -9.6856, df = 6495, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group rojo and group white is not equal to 0
## 95 percent confidence interval:
## -0.2908436 -0.1929301
## sample estimates:
## mean in group rojo mean in group white
## 5.636023 5.877909
Análisis
Con el objetivo de evaluar si existe una diferencia significativa en el puntaje sensorial promedio entre vinos tintos y blancos, se aplicaron tres pruebas estadísticas fundamentales. En primer lugar, se verificó el supuesto de normalidad utilizando la prueba de Shapiro-Wilk en ambos grupos. Los resultados obtenidos fueron contundentes: tanto en los vinos tintos (W = 0.8576) como en los blancos (W = 0.8890) se registraron p-valores inferiores a 2.2 × 10⁻¹⁶, lo que indica una desviación significativa respecto a la distribución normal. Esta condición sugiere aplicar métodos paramétricos con precaución o considerar alternativas robustas.
Posteriormente, se realizó la prueba de Levene para examinar la homogeneidad de varianzas entre los dos grupos. El resultado (F = 2.3327, p = 0.1267) fue no significativo, lo cual permite asumir que las varianzas son comparables, habilitando el uso de la prueba t de Student para muestras independientes bajo el supuesto de igualdad de varianzas.
La prueba t arrojó un resultado altamente significativo (t = –9.6856, p < 2.2 × 10⁻¹⁶), lo que permite rechazar la hipótesis nula de igualdad de medias con un alto nivel de confianza. El intervalo de confianza del 95 % para la diferencia de medias se ubicó entre –0.291 y –0.193, sin incluir el cero, lo que confirma la existencia de una diferencia estadística real.
En cuanto a los valores descriptivos, los vinos blancos presentan una media de puntaje sensorial de 5.878, superior a la de los vinos tintos, que alcanzan una media de 5.636. Esta diferencia sugiere que, en promedio, los vinos blancos tienden a recibir evaluaciones sensoriales más altas. Desde una perspectiva organoléptica, esta diferencia podría estar relacionada con atributos como acidez, frescura y expresión aromática, comúnmente más marcados en los vinos blancos y que influyen de manera positiva en la valoración del producto por parte de los catadores.
5.A continuación se muestra parte del ANOVA para comparar cinco tratamientos con cuatro replicas cada uno.
## Fuente Suma de cuadrados Grados de libertad Cuadrado medio Razón F
## Tratamiento 800 4 200.00 7.5
## Error 400 15 26.67 NA
## Total 1200 19 NA NA
## Valor-p
## 0.001584
## <NA>
## <NA>
Modelo estadístico: ANOVA de un factor Y_ij = µ + τ_i + ε_ij Donde: - Y_ij: Observación de la unidad j del tratamiento i - µ: Media general - τ_i: Efecto del tratamiento i - ε_ij: Error aleatorio, ~ N(0, σ²)
Hipótesis del modelo: H0: τ1 = τ2 = τ3 = … = τk = 0 (todas las medias poblacionales son iguales) H1: Al menos un τ_i ≠ 0 (existe al menos una media diferente)
C. ¿Hay diferencias significativas entre los tratamientos?
## Grados de libertad tratamiento: 4
## Grados de libertad error: 15
## Cuadrado medio tratamiento: 200
## Cuadrado medio error: 26.66667
## Razón F: 7.5
## Valor-p: 0.001583951
## ✅ Con un valor-p = 0.001583951 < 0.05 se rechaza la hipótesis nula.
## ➡️ Conclusión: Existe evidencia estadísticamente significativa para afirmar que hay diferencias entre los tratamientos.
## Mezcla Peso_Promedio
## 1 A 10000
## 2 B 7000
## 3 C 8000
## 4 D 7500
Sí, existe una diferencia significativa entre las mezclas en cuanto a su peso molecular, ya que el valor p (0.01) es menor que el nivel de significancia establecido (α = 0.05). Esto proporciona evidencia estadística suficiente para rechazar la hipótesis nula, lo que implica que al menos una de las mezclas tiene un peso molecular promedio diferente de las demás.
Aunque el análisis de varianza (ANOVA) indicó que existen diferencias significativas entre las mezclas en cuanto a su peso molecular (valor p = 0.01), este resultado por sí solo no permite asegurar que la mezcla B sea la que logra un menor peso molecular en comparación con todas las demás. Si bien al observar los promedios se evidencia que la mezcla B presenta el valor más bajo (7.000), esta diferencia debe confirmarse mediante una prueba de comparaciones múltiples, como la prueba de Tukey, que permite identificar entre qué pares de mezclas existen diferencias estadísticamente significativas. Por tanto, sin aplicar esta prueba complementaria, no es posible concluir con certeza estadística que la mezcla B tenga un peso molecular significativamente menor al del resto.
No, si no se cumple el supuesto de homogeneidad de varianzas, la validez del análisis de varianza (ANOVA) se ve comprometida. Esto significa que las diferencias encontradas entre los promedios podrían deberse a desigualdades en la variabilidad de los grupos y no a diferencias reales en sus medias. Por lo tanto, sin verificar este supuesto, no es apropiado sostener con certeza la conclusión del inciso a), ya que el análisis podría estar reflejando un sesgo estadístico en lugar de un efecto verdadero.
11.Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.
## Marca Porcentaje_Muertas
## 1 Marca_1 72
## 2 Marca_1 65
## 3 Marca_1 67
## 4 Marca_1 75
## 5 Marca_1 62
## 6 Marca_1 73
## 7 Marca_2 55
## 8 Marca_2 59
## 9 Marca_2 68
## 10 Marca_2 70
## 11 Marca_2 53
## 12 Marca_2 50
## 13 Marca_3 64
## 14 Marca_3 74
## 15 Marca_3 61
## 16 Marca_3 58
## 17 Marca_3 51
## 18 Marca_3 69
A. Plantee las hipótesis nula y alternativa, e indique el modelo que se debe utilizar.
Hipótesis estadísticas:
Factor del experimento: - Factor: Marca del spray repelente - Niveles: 3 (Marca 1, Marca 2, Marca 3) - Variable de respuesta: Porcentaje de protección
Diseño experimental: - Diseño completamente aleatorizado (ANOVA de un factor) - Número de réplicas por tratamiento: 6 - Total de observaciones: 3 tratamientos × 6 réplicas = 18 datos
Modelo estadístico: Yᵢⱼ = μ + τᵢ + εᵢⱼ Donde: - Yᵢⱼ: Porcentaje de protección observado - μ: Media general - τᵢ: Efecto del tratamiento (marca) - εᵢⱼ: Error aleatorio, εᵢⱼ ~ N(0, σ²)
Grados de libertad: - Tratamiento: gl₁ = k - 1 = 3 - 1 = 2 - Error: gl₂ = N - k = 18 - 3 = 15 - Total: gl_total =N-1=17
##
## --- b) Análisis de Varianza (ANOVA) para diferencias promedio ---
## Df Sum Sq Mean Sq F value Pr(>F)
## Marca 2 296.3 148.17 2.793 0.0931 .
## Residuals 15 795.7 53.04
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## --------------------------------------------------------------
Dado que el valor p del ANOVA (0.0931) es mayor o igual que α = 0.05, no se rechaza la hipótesis nula. No se detectan diferencias significativas en el porcentaje de moscas muertas entre las distintas marcas de spray evaluadas.
C, ¿Hay algún spray mejor? Argumente su respuesta.
## --- c) Identificación del mejor spray ---
## El ANOVA no mostró diferencias significativas entre las marcas (p >= 0.05).
## Por lo tanto, no hay evidencia estadística para concluir que haya un spray 'mejor' que los otros en términos de efectividad promedio.
## ------------------------------------------------------------------
D. Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas.
## --- d) Intervalos de Confianza al 95% para la Media de cada Marca ---
## Marca_1:
## Media = 69%
## IC 95% = [63.65%, 74.35%]
##
## Marca_2:
## Media = 59.17%
## IC 95% = [50.58%, 67.75%]
##
## Marca_3:
## Media = 62.83%
## IC 95% = [54.3%, 71.37%]
## ------------------------------------------------------------------
Para la Marca 1, la efectividad promedio se estima que está entre el 63.65% y el 74.35%, con una media muestral del 69%. En el caso de la Marca 2, la efectividad promedio se sitúa entre el 50.58% y el 67.75%, con una media muestral del 59.17%. Finalmente, para la Marca 3, el porcentaje promedio de moscas muertas se encuentra entre el 54.3% y el 71.37%, con una media muestral del 62.83%.
E. Dibuje las gráficas de medias y los diagramas de caja simultáneos,
e interprételos.
Interpretación del Gráfico de Medias: - Observa las alturas de las
barras: la Marca 1 tiene la media más alta, indicando la mayor
efectividad promedio. La Marca 2 tiene la media más baja. - Las barras
de error (líneas verticales) representan la variabilidad alrededor de la
media. Si las barras de error de dos grupos no se superponen, es una
señal visual de que sus medias podrían ser significativamente
diferentes. - Visualmente, parece haber una diferencia clara entre la
Marca 1 y la Marca 2, y la Marca 3 y la Marca 2, ya que sus barras de
error tienen poca o ninguna superposición.
Diagramas de Caja Simultáneos y su Interpretación
Interpretación del Diagrama de Caja: - La línea central de cada caja es la mediana (el 50% de los datos está por debajo/encima). Observa que la mediana de la Marca 1 es la más alta, y la de la Marca 2 la más baja. - La caja misma representa el 50% central de los datos. Cajas más cortas indican menos variabilidad. - Los ‘bigotes’ se extienden para mostrar el rango general de los datos. Puntos individuales fuera de los bigotes serían valores atípicos. - La falta de solapamiento entre las cajas de diferentes marcas sugiere diferencias significativas en la distribución de sus datos. La caja de la Marca 2 parece no solaparse significativamente con las de la Marca 1 y 3, lo que refuerza la idea de que es menos efectiva.
F. Verifique los supuestos de normalidad y de igual varianza entre las marcas.
## Prueba de Shapiro-Wilk: p-value = 7.59e-01.
## Prueba de Levene: p-value = 6.00e-01.
Normalidad de los Residuos Prueba de Shapiro-Wilk: p-value = 7.59e-01. - Conclusión: El p-value es mayor o igual que 0.05. No se rechaza la hipótesis de normalidad. Los residuos parecen ser normales.
Homogeneidad de Varianzas Prueba de Levene: p-value = 6.00e-01. - Conclusión: El p-value es mayor o igual que 0.05. No se rechaza la hipótesis de homogeneidad de varianzas. Las varianzas parecen ser iguales.
# Instalar si es necesario
# install.packages("tibble")
# install.packages("knitr")
library(tibble)
library(knitr)
# Crear la tabla con los datos
datos <- tibble::tibble(
Control = c(213, 214, 204, 208, 212, 200, 207),
T2 = c(76, 85, 74, 78, 82, 75, 82),
T3 = c(57, 67, 55, 64, 61, 63, 63),
T4 = c(84, 82, 85, 92, 87, 79, 90)
)
# Mostrar la tabla formateada con kable
knitr::kable(datos)
| Control | T2 | T3 | T4 |
|---|---|---|---|
| 213 | 76 | 57 | 84 |
| 214 | 85 | 67 | 82 |
| 204 | 74 | 55 | 85 |
| 208 | 78 | 64 | 92 |
| 212 | 82 | 61 | 87 |
| 200 | 75 | 63 | 79 |
| 207 | 82 | 63 | 90 |
| Control | T2 | T3 | T4 |
|---|---|---|---|
| 213 | 76 | 57 | 84 |
| 214 | 85 | 67 | 82 |
| 204 | 74 | 55 | 85 |
| 208 | 78 | 64 | 92 |
| 212 | 82 | 61 | 87 |
| 200 | 75 | 63 | 79 |
| 207 | 82 | 63 | 90 |
Desde un enfoque experimental riguroso, la aleatorización es una técnica esencial para garantizar la validez estadística del estudio y reducir el riesgo de sesgos sistemáticos. En este experimento, que busca comparar el efecto de distintos tratamientos sobre el tiempo de cocción de frijoles, la aleatorización debe implementarse en dos niveles fundamentales:
*Aleatorización en la asignación de tratamientos:
Es crucial que las unidades experimentales (porciones de frijoles) se asignen a los tratamientos de forma completamente aleatoria. Esto asegura que cualquier variación natural entre las muestras se distribuya de manera equitativa entre los grupos y no contamine el efecto del tratamiento.
*Aleatorización en el orden de ejecución de los ensayos:
Además de asignar aleatoriamente los tratamientos, también es recomendable aleatorizar el orden en que se procesan y cocinan las muestras. Esto evita que factores como la temperatura ambiental, el desgaste de los utensilios o la fatiga del operador introduzcan un efecto sistemático no controlado que pueda confundirse con el efecto del tratamiento.
*Cantidad y tipo de frijoles por muestra:
Se debe asegurar que todas las porciones de frijoles sean del mismo tipo, variedad y masa (por ejemplo, 100 gramos por muestra), ya que el contenido de almidón, tamaño y humedad pueden afectar el tiempo de cocción.
*Volumen y temperatura del agua de cocción:
La cantidad de agua utilizada y su temperatura inicial deben ser iguales en todos los casos, pues el calor transferido depende directamente de estas condiciones.
*Tiempo y temperatura de remojo:
Las muestras tratadas deben estar expuestas al remojo durante el mismo tiempo y a la misma temperatura ambiente, para garantizar una absorción equivalente de los compuestos en solución.
*Utensilios de cocción y fuente de calor:
Todas las muestras deben cocinarse en ollas idénticas (o el mismo recipiente en caso de cocción secuencial) y bajo la misma intensidad de fuego o potencia de calor, para evitar variaciones debidas a diferencias en el equipo.
*Condiciones ambientales:
La temperatura del ambiente, la presión atmosférica y la humedad relativa deben mantenerse lo más estables posible durante la ejecución del experimento, ya que pueden influir indirectamente en el proceso de cocción.
*Tiempo de espera antes de cocinar (post-tratamiento):
El intervalo entre el final del remojo y el inicio de la cocción debe ser igual en todos los casos, ya que un reposo prolongado podría alterar la estructura del grano.
C. Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
Hipótesis estadísticas:
Factor del experimento: - Factor: Tipo de tratamiento de remojo (solución usada) - Niveles: 4 (Control, Bicarbonato de sodio, Cloruro de sodio, Combinación de ambos) - Variable de respuesta: Tiempo de cocción (en minutos)
Diseño experimental: - Diseño completamente aleatorizado (ANOVA de un solo factor) - Número de réplicas por tratamiento: 7 - Total de observaciones: 4 tratamientos × 7 réplicas = 28 datos
Modelo estadístico: Yᵢⱼ = μ + τᵢ + εᵢⱼ Donde: - Yᵢⱼ: Tiempo de cocción observado - μ: Media general - τᵢ: Efecto del tratamiento - εᵢⱼ: Error aleatorio, εᵢⱼ ~ N(0, σ²)
Grados de libertad: - Tratamiento: gl₁ = k - 1 = 4 - 1 = 3 - Error: gl₂ = N - k = 28 - 4 = 24 - Total: gl_total = N - 1 = 27
## Df Sum Sq Mean Sq F value Pr(>F)
## tratamiento 3 95041 31680 1559 <2e-16 ***
## Residuals 24 488 20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Fuente Suma de cuadrados Grados de libertad Cuadrado medio Razón F
## Tratamiento 95041.25 3 31680.42 1558.97
## Error 487.71 24 20.32 NA
## Total 95528.96 27 NA NA
## Valor-p
## < 2.2e-16
## <NA>
## <NA>
INTERPRETACIÓN ESTADÍSTICA DEL ANOVA: Se realizó un análisis de varianza (ANOVA de un factor) para evaluar si existen diferencias significativas en el tiempo de cocción promedio entre los distintos tratamientos aplicados a los frijoles.
El valor del estadístico F observado es: 1558.97 Este valor compara la variabilidad explicada por los tratamientos con la variabilidad no explicada (error).
El valor-p asociado a este F es: < 2.2e-16 Dado que el valor-p es menor que 0.05, se rechaza la hipótesis nula de igualdad de medias. Esto indica que al menos un tratamiento tiene un efecto significativamente diferente sobre el tiempo de cocción.
En conclusión, los resultados del ANOVA muestran evidencia estadística suficiente para afirmar que los tratamientos aplicados afectan significativamente el tiempo promedio de cocción de los frijoles. Se recomienda realizar una prueba de comparaciones múltiples (como Tukey HSD) para identificar cuáles tratamientos difieren entre sí.
Supuestos
## Prueba de Shapiro-Wilk para normalidad de residuos:
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.95991, p-value = 0.3469
##
## Prueba de Levene para homogeneidad de varianzas:
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.1631 0.9201
## 24
Análisis del supuesto de normalidad: ✔ Los residuos presentan un comportamiento compatible con una distribución normal (p = 0.3469 >α = 0.05). → Esto sugiere que se cumple el supuesto de normalidad necesario para el ANOVA.
Análisis del supuesto de homogeneidad de varianzas (Levene): ✔ Se cumple la homogeneidad de varianzas entre los grupos (p = 0.9201 >α = 0.05). → Esto indica que los grupos presentan varianzas similares, como requiere el ANOVA.
Ambos supuestos del ANOVA se cumplen. El análisis de varianza puede aplicarse con confianza.
Prueba de comparaciones multiples
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = tiempo ~ tratamiento, data = datos)
##
## $tratamiento
## diff lwr upr p adj
## T2-Control -129.428571 -136.07568671 -122.78146 0.0000000
## T3-Control -146.857143 -153.50425813 -140.21003 0.0000000
## T4-Control -122.714286 -129.36140099 -116.06717 0.0000000
## T3-T2 -17.428571 -24.07568671 -10.78146 0.0000010
## T4-T2 6.714286 0.06717044 13.36140 0.0471059
## T4-T3 24.142857 17.49574187 30.78997 0.0000000
Análisis
Una vez determinada la existencia de diferencias globales significativas entre tratamientos mediante la prueba ANOVA, se aplicó la prueba de comparaciones múltiples de Tukey con el fin de identificar específicamente entre qué grupos ocurren dichas diferencias. Los resultados evidencian que todas las comparaciones realizadas son estadísticamente significativas, ya que en todos los casos el valor p ajustado es inferior a 0.05. En particular, los tratamientos T2, T3 y T4 mostraron una reducción significativa en el tiempo promedio de cocción en comparación con el grupo control, con diferencias medias de –129.43, –146.86 y –122.71 minutos, respectivamente. Además, al comparar los tratamientos entre sí, se observó que T3 presenta un tiempo de cocción significativamente menor que T2 (–17.43 minutos), mientras que T4 resulta ligeramente superior a T2 (+6.71 minutos) y notablemente superior a T3 (+24.14 minutos). Cabe destacar que los intervalos de confianza para todas las comparaciones no incluyen el valor cero, lo cual refuerza la evidencia estadística de que las diferencias encontradas no se deben al azar. En consecuencia, se concluye que los tratamientos aplicados sí generan efectos diferenciados sobre la variable respuesta, siendo el tratamiento T3 —remojo en agua con sal común— el más eficaz para reducir el tiempo de cocción de los frijoles en este experimento.
D. Obtenga el diagrama de caja y el gráfico de medias después;
interprételos.
Análisis
A partir del diagrama de caja que compara los tiempos de cocción entre los distintos tratamientos aplicados a los frijoles, se observan diferencias notables en la distribución y dispersión de los datos. El grupo Control (sin tratamiento) presenta los valores más altos de tiempo de cocción, con una mediana muy por encima del resto, evidenciando que los frijoles sin remojo requieren mayor tiempo para cocinarse. Por otro lado, los tratamientos T₂ (bicarbonato de sodio), T₃ (sal común) y T₄ (mezcla de bicarbonato y sal) muestran tiempos significativamente más bajos. En particular, el tratamiento T₃ exhibe la mediana más baja, lo que indica que este podría ser el más eficaz para reducir el tiempo de cocción. Además, se nota que los tratamientos activos tienen distribuciones menos dispersas en comparación con el control, sugiriendo una mayor consistencia en los efectos del remojo con aditivos. En el gráfico de medias con intervalos de confianza al 95%, se refuerza esta observación:
El tratamiento Control tiene la media de tiempo más alta.
El tratamiento T₃ tiene la media más baja, seguida de cerca por T₂ y T₄.
Las barras de error (IC 95%) no se sobrelapan entre el grupo Control y los tratamientos activos, lo cual sugiere que las diferencias entre medias son estadísticamente significativas.
E.¿Hay algún tratamiento mejor? ¿Cuál es el tiempo de cocción esperado para el mejor tratamiento?
Con base en los resultados del análisis de varianza (ANOVA) y la prueba de comparaciones múltiples de Tukey, se concluye que sí hay un tratamiento mejor, ya que existen diferencias estadísticamente significativas entre los tiempos de cocción asociados a los diferentes tratamientos evaluados.
La prueba de Tukey indicó que el tratamiento T₃ (remojo en agua con sal común) presenta el menor tiempo promedio de cocción, y esta diferencia es estadísticamente significativa con respecto a todos los demás tratamientos, incluyendo el grupo control.
F. Algo importante a cuidar en un experimento es que no haya efectos colaterales no deseados, causados por el tratamiento ganador; en este caso, piense en los posibles efectos colaterales que podría causar el mejor tratamiento.
Algo importante a cuidar en un experimento es que las condiciones experimentales se mantengan constantes y controladas para todas las unidades experimentales, con el fin de garantizar que las diferencias observadas en la variable de respuesta (en este caso, el tiempo de cocción) se deban exclusivamente al efecto de los tratamientos aplicados y no a factores externos o no controlados. Esto implica asegurar, por ejemplo, que:
*Todos los frijoles utilizados provengan del mismo lote o tengan características similares (tamaño, tipo, estado).
*Se utilicen cantidades iguales de agua, temperatura constante, y el mismo equipo de cocción.
*El proceso de remojo, si se realiza, sea idéntico en tiempo y condiciones para cada tratamiento.
*Se aplique un diseño aleatorizado para asignar tratamientos y evitar sesgos.
*Se controle cuidadosamente el tiempo y método de medición para que los resultados sean comparables.
Además, es importante que haya réplicas suficientes por tratamiento, lo que permite estimar correctamente la variabilidad y realizar inferencias estadísticas confiables.
G.¿Se cumplen los supuestos del modelo? Verifique gráficamente.
##
## --- SUPUESTO DE NORMALIDAD ---
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.95991, p-value = 0.3469
## Conclusión: No se rechaza la normalidad de los residuos (p = 0.3469 ).
##
## --- SUPUESTO DE HOMOGENEIDAD DE VARIANZAS (Levene) ---
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.1631 0.9201
## 24
## Conclusión: No se rechaza la homogeneidad de varianzas (p = 0.9201 ).
Análisis
Al analizar los gráficos de diagnóstico del modelo ANOVA, se puede observar en primer lugar el gráfico de cuantiles teóricos frente a los cuantiles muestrales (Q-Q plot), el cual muestra que la mayoría de los puntos siguen una línea recta, lo que indica que los residuos se distribuyen aproximadamente de forma normal. Aunque se evidencian ligeras desviaciones en los extremos, estas no son lo suficientemente marcadas como para considerar que el supuesto de normalidad esté seriamente comprometido. Este hallazgo coincide con el resultado de la prueba de Shapiro-Wilk, que arrojó un p-valor mayor a 0.05, lo que permite no rechazar la hipótesis de normalidad.
Por otro lado, el gráfico de residuos versus valores ajustados muestra una dispersión aleatoria de los puntos alrededor de la línea horizontal en cero, sin patrones sistemáticos ni cambios en la variabilidad de los residuos a lo largo de los valores ajustados. Esto indica que el supuesto de homogeneidad de varianzas (homocedasticidad) se cumple adecuadamente. Asimismo, no se observan estructuras ni agrupamientos que sugieran dependencia entre los residuos, por lo que también se cumple el supuesto de independencia.
| Rep 1 | Rep 2 | Rep 3 | Rep 4 | |
|---|---|---|---|---|
| 2% | 4.3 | 5.2 | 4.8 | 4.5 |
| 5% | 6.5 | 7.3 | 6.9 | 6.1 |
| 10% | 9.0 | 7.8 | 8.5 | 8.1 |
A. ¿Hay evidencia suficiente de que el almidón influye en la dureza de las tabletas? Halle el ANOVA.
| Fuente | Suma de Cuadrados | gl | Cuadrado Medio | F observado | Valor-p |
|---|---|---|---|---|---|
| Tratamiento (Almidón) | 26.7267 | 2 | 13.3633 | 58.1014 | 7.15857e-06 |
| Error | 2.0700 | 9 | 0.2300 | NA | NA |
| Total | 28.7967 | 11 | NA | NA | NA |
Análisis
Los resultados obtenidos indican que el valor del estadístico F es de 58.1014 y el valor-p asociado es de aproximadamente 0.000007. Este valor-p es considerablemente menor que el umbral de significancia convencional (α = 0.05), lo que proporciona evidencia estadística suficiente para rechazar la hipótesis nula, que plantea que todas las medias poblacionales son iguales.
Esto implica que al menos uno de los niveles de almidón genera una diferencia significativa en la dureza de las tabletas, lo cual es relevante desde el punto de vista del control de calidad y optimización del proceso de producción farmacéutica. B. Realice los análisis complementarios necesarios
Supuestos
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.93444, p-value = 0.4295
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.2667 0.7718
## 9
Análisis
Para evaluar la validez del modelo ANOVA aplicado al análisis del efecto del porcentaje de almidón sobre la dureza de las tabletas, se verificaron los principales supuestos estadísticos: normalidad de los residuos y homogeneidad de varianzas. En primer lugar, el histograma de los residuos muestra una distribución relativamente simétrica y centrada en torno a cero, lo cual es un indicio preliminar favorable. Este comportamiento también se evidencia en el gráfico Q-Q, donde los puntos se alinean de forma razonablemente cercana a la línea diagonal, sugiriendo que los residuos siguen una distribución normal. Esta observación visual se confirma estadísticamente mediante la prueba de Shapiro-Wilk, que arrojó un valor W = 0.93444 y un valor-p = 0.4295, por lo que no se rechaza la hipótesis nula de normalidad. Por otro lado, la prueba de Levene para la homogeneidad de varianzas mostró un valor F = 0.2667 con un valor-p = 0.7718, lo que indica que no hay diferencias significativas entre las varianzas de los grupos y, por tanto, se cumple el supuesto de igualdad de varianzas.
Prueba de comparaciones multiples
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Dureza ~ Almidon, data = datos)
##
## $Almidon
## diff lwr upr p adj
## 2%-10% -3.65 -4.596815 -2.7031848 0.0000052
## 5%-10% -1.65 -2.596815 -0.7031848 0.0022940
## 5%-2% 2.00 1.053185 2.9468152 0.0006016
Análisis
Tras realizar la prueba de comparaciones múltiples de Tukey con un nivel de confianza del 95%, se evidencia que existen diferencias estadísticamente significativas entre todos los pares de tratamientos evaluados en relación con el porcentaje de almidón y su efecto sobre la dureza de las tabletas. En particular, la comparación entre el 2% y el 10% de almidón muestra una diferencia media de -3.65 unidades de dureza (p<0.00001), lo que indica que el aumento del almidón reduce significativamente la dureza. De igual forma, la diferencia entre el 5% y el 10% también resulta significativa con una reducción de -1.65 unidades (p=0.0023). Finalmente, el contraste entre 5% y 2% muestra un aumento significativo de 2 unidades de dureza (p=0.0006), confirmando que el menor contenido de almidón (2%) está asociado con una mayor dureza. Estos resultados respaldan la conclusión de que el porcentaje de almidón tiene un efecto significativo en la dureza de las tabletas, y que niveles más bajos de almidón se asocian con tabletas más duras.
C. Si se desea maximizar la dureza de las tabletas,¿qué recomendaría al fabricante?
Si el objetivo del fabricante es maximizar la dureza de las tabletas, se recomienda utilizar el 2% de almidón como tratamiento. Esta recomendación se basa en los resultados obtenidos mediante la prueba de comparaciones múltiples de Tukey, donde se evidenció que las tabletas elaboradas con 2% de almidón presentaron una dureza significativamente mayor en comparación con las producidas con 5% y 10%. En particular, la diferencia de dureza entre el 2% y el 10% fue de 3.65 unidades, mientras que entre el 2% y el 5% fue de 2.00 unidades, ambas diferencias con un valor-p menor a 0.001, lo que respalda la significancia estadística de la recomendación. Por tanto, desde una perspectiva técnica y estadística, el menor porcentaje de almidón (2%) es el tratamiento óptimo para lograr una mayor dureza en el producto final.
## --- Resultados Experimentales de Porcentaje de Friabilidad ---
## Medición 1 Medición 2 Medición 3 Medición 4 Medición 5
## PVP 0.485 0.250 0.073 0.205 0.161
## CMC 9.640 9.370 9.530 9.860 9.790
## Gre 0.289 0.275 0.612 0.152 0.137
A. Especifique el nombre del diseño experimental.
Se trata de un diseño completamente al azar con un solo factor (Aglutinante) y 3 niveles, cada uno con 5 replicas
B. ¿Sospecha que hay algún efecto significativo del tipo de aglutinante sobre la variable de respuesta?
Sí, se sospecha fuertemente que hay un efecto significativo del tipo de aglutinante sobre el porcentaje de friabilidad.La razón principal de esta sospecha es la evidente y gran diferencia numérica en los valores de friabilidad entre el aglutinante CMC y los aglutinantes PVP y Grenetina. Los porcentajes de friabilidad para CMC son aproximadamente 20 a 50 veces mayores que los de PVP y Grenetina.
Aunque las mediciones de PVP y Grenetina parecen estar en un rango similar, la disparidad con CMC es tan grande que sugiere una clara influencia del aglutinante en la propiedad de friabilidad de las tabletas.
C. Escriba las hipótesis para probar la igualdad de medias y el modelo estadístico.
Hipótesis Nula (H0): No hay diferencia significativa entre las medias del porcentaje de friabilidad para los diferentes tipos de aglutinantes. H0: μ_PVP = μ_CMC = μ_Gre
Hipótesis Alternativa (Ha): Al menos una de las medias del porcentaje de friabilidad es diferente de las otras. Ha: Al menos una μ_i es diferente de las otras
Modelo Estadístico (en notación matemática): Y_ij = μ + τ_i + ε_ij Donde: Y_ij: Es la j-ésima observación (porcentaje de friabilidad) para el i-ésimo tipo de aglutinante. μ: Es la media general del porcentaje de friabilidad. τ_i: Es el efecto del i-ésimo tipo de aglutinante. ε_ij: Es el error aleatorio, que se asume que sigue una distribución normal e independiente con media cero y varianza constante (ε_ij ~ N(0, σ²)).
D.Realice el análisis adecuado para probar la hipótesis e interprete los resultados.
## Fuente Suma de cuadrados Grados de libertad Cuadrado medio Razón F
## Aglutinante 292.9210 2 146.4605 4420.97
## Error 0.3975 12 0.0331 NA
## Total 293.3185 14 NA NA
## Valor-p
## 6.20e-18
## <NA>
## <NA>
Análisis
Se aplicó un análisis de varianza (ANOVA) de un factor con el propósito de evaluar si el tipo de aglutinante (PVP, CMC o Gre) genera diferencias significativas en la friabilidad de las tabletas. Los resultados evidencian una diferencia altamente significativa entre los grupos, con un valor de F = 4420.97 y un valor-p de 6.2 × 10⁻¹⁸, lo que permite rechazar con contundencia la hipótesis nula de igualdad de medias. La suma de cuadrados entre tratamientos fue de 292.9210, mientras que la suma de cuadrados del error fue apenas de 0.3975, indicando que la mayor parte de la variación total (SC total = 293.3185) es atribuible al tipo de aglutinante utilizado. Desde un punto de vista práctico, estos resultados sugieren que el aglutinante tiene un efecto determinante en la friabilidad del comprimido, por lo que seleccionar adecuadamente esta sustancia puede ser decisivo para optimizar las propiedades físicas del producto farmacéutico.
Prueba de comparaciones multiples
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = friabilidad ~ aglutinante, data = datos)
##
## $aglutinante
## diff lwr upr p adj
## Gre-CMC -9.3450 -9.6521107 -9.0378893 0.0000000
## PVP-CMC -9.4032 -9.7103107 -9.0960893 0.0000000
## PVP-Gre -0.0582 -0.3653107 0.2489107 0.8700427
Análisis
Tras la obtención de un resultado significativo en el análisis de varianza (ANOVA), se procedió a realizar una prueba de comparaciones múltiples mediante el método de Tukey HSD, con el propósito de identificar específicamente entre qué pares de aglutinantes existen diferencias significativas en la friabilidad de las tabletas. Los resultados evidenciaron diferencias altamente significativas entre los grupos que incluyeron el aglutinante CMC. En particular, la comparación entre Gre y CMC mostró una diferencia promedio de –9.3450, con un intervalo de confianza del 95 % entre –9.65 y –9.04, mientras que la comparación entre PVP y CMC arrojó una diferencia de –9.4032, con intervalo entre –9.71 y –9.10. Ambos contrastes presentaron un valor p ajustado prácticamente nulo (p < 0.000001), lo que permite concluir que las tabletas fabricadas con CMC difieren significativamente en friabilidad respecto a las elaboradas con PVP o con Gre. Por otro lado, la comparación entre PVP y Gre resultó no significativa (diferencia = –0.0582, p = 0.870), al presentar un intervalo de confianza que incluye el cero, lo cual indica que no se puede afirmar una diferencia estadísticamente relevante entre estos dos aglutinantes. En síntesis, los resultados de Tukey HSD confirman que el aglutinante CMC tiene un efecto diferenciado en la friabilidad de las tabletas en comparación con los otros dos, mientras que PVP y Gre producen comprimidos con propiedades de friabilidad similares.
E.Revise los supuestos,¿hay algún problema?.
##
## 🔎 Prueba de Shapiro-Wilk:
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.94299, p-value = 0.4214
##
## 📏 Prueba de Levene:
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.225 0.8018
## 12
Análisis
Se evaluaron los supuestos fundamentales del modelo ANOVA aplicado a los datos de friabilidad, comenzando por la normalidad de los residuos. La prueba de Shapiro-Wilk arrojó un valor estadístico de W = 0.94299 con un p-valor = 0.4214, lo cual indica que no existe evidencia estadísticamente significativa para rechazar la hipótesis nula de normalidad. En consecuencia, se puede asumir que los residuos del modelo están distribuidos normalmente, lo cual cumple con uno de los supuestos clave para la validez del análisis de varianza.
Adicionalmente, se verificó el supuesto de homogeneidad de varianzas mediante la prueba de Levene, la cual evalúa si las varianzas entre los grupos de aglutinantes son estadísticamente iguales. El resultado fue no significativo (F = 0.225, gl = 2 y 12, p = 0.8018), lo que sugiere que no hay diferencias sustanciales en la dispersión de los datos entre los grupos comparados. Por lo tanto, se cumple el supuesto de homocedasticidad.
## Con.tratamiento Sin.tratamiento
## 1 5.30 8.02
## 2 4.03 13.18
## 3 4.03 7.15
## 4 4.00 8.23
## 5 2.56 9.11
## 6 2.05 6.66
## 7 5.06 12.15
## 8 4.06 16.30
## 9 2.08 9.20
## 10 4.03 6.35
## 11 2.04 7.15
## 12 1.18 8.66
H₀ (nula): μ₁ = μ₂ → El porcentaje promedio de cometas es igual en ambos grupos. H₁ (alterna): μ₁ ≠ μ₂ → El porcentaje promedio de cometas es diferente entre los grupos.
| Fuente | Suma.de.Cuadrados | gl | Cuadrado.Medio | F.observado | Valor.p |
|---|---|---|---|---|---|
| Tratamiento | 214.44 | 1 | 214.44 | 39.41 | 2.559e-06 |
| Error | 119.70 | 22 | 5.44 | NA | NA |
| Total | 334.14 | 23 | NA | NA | NA |
Se compararon los porcentajes de discos con cometas entre dos grupos: uno con tratamiento de limpieza y otro sin tratamiento. El valor F fue 39.41 y el valor p fue 2.559e-06. Dado que el p-valor < 0.05, se rechaza la hipótesis nula. Se concluye que el tratamiento de limpieza tiene un efecto significativo sobre el porcentaje de cometas.
Prueba de comparación multiple
##
## --- Resultado de la prueba de Tukey HSD ---
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = porcentaje_cometas ~ tratamiento, data = datos)
##
## $tratamiento
## diff lwr upr p adj
## Sin tratamiento-Con tratamiento 5.978333 4.003486 7.953181 2.6e-06
El valor p ajustado es 3e-06 < 0.05 Conclusión: Existe una diferencia estadísticamente significativa entre los grupos. Recomendación: El tratamiento de limpieza tiene un efecto real y debería considerarse su implementación.
## Hipótesis de la prueba de Bartlett:
## - H₀ (nula): Las varianzas poblacionales son iguales (σ₁² = σ₂²).
## - H₁ (alternativa): Al menos una varianza es diferente (σ₁² ≠ σ₂²).
## --- Resultado de la prueba de Bartlett ---
##
## Bartlett test of homogeneity of variances
##
## data: porcentaje_cometas by tratamiento
## Bartlett's K-squared = 6.4256, df = 1, p-value = 0.01125
El valor-p es 0.0112 < 0.05. Se rechaza H₀. Las varianzas difieren significativamente entre los grupos. Esto indica que el supuesto de homogeneidad de varianzas no se cumple y debe considerarse una alternativa al ANOVA estándar (como Welch).
##
## --- Literal c) Porcentaje de reducción ---
## Media sin tratamiento: 9.35
## Media con tratamiento: 3.37
## Reducción porcentual: 63.96 %
El tratamiento de limpieza redujo el porcentaje promedio de discos con cometas en un 63.96% en comparación con el grupo sin tratamiento. Este resultado cuantifica el efecto práctico del tratamiento, respaldando su aplicación como una medida efectiva para reducir el daño en el ADN.
##
## --- Tabla resumen por grupo ---
## Grupo n Media Varianza
## 1 Con tratamiento 12 3.37 1.76
## 2 Sin tratamiento 12 9.35 9.12
##
## --- Prueba t de Student ---
## t calculado: 6.2781
## t crítico (α = 0.05, dos colas): ± 2.0739
## p-valor: 2.559e-06
Como |t calculado| > t crítico y p-valor < 0.05, se RECHAZA la hipótesis nula. Conclusión: Existe una diferencia significativa entre los grupos. Esto es coherente con los resultados del ANOVA: el tratamiento reduce significativamente el daño genético.
21.Una consecuencia de los desechos industriales es la contaminación de afluentes de agua, aguas subterráneas y en el suelo. En un área industrial se tomaron 25 muestras para evaluar la contaminación en su entorno. Los niveles de Magnesio (Mg), Calcio (Ca) y Potasio (K) de los muestreos en aguas subterráneas aparecen a continuación.
| Metal | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ca | 17.9 | 56.6 | 37.0 | 34.4 | 49.7 | 39.4 | 22.0 | 33.5 | 32.9 | 22.9 | 35.0 | 41.3 | 32.6 | 28.5 | 51.3 | 43.2 | 66.9 | 26.6 | 45.2 | 16.7 | 57.6 | 46.1 | 60.1 | 52.4 | 37.6 |
| Mg | 28.0 | 3.4 | 3.0 | 4.6 | 9.4 | 0.9 | 6.8 | 8.6 | 17.7 | 8.2 | 12.8 | 17.6 | 21.4 | 16.9 | 28.8 | 15.3 | 2.0 | 21.2 | 26.6 | 15.4 | 6.8 | 19.1 | 12.8 | 28.9 | 9.2 |
| K | 30.4 | 67.3 | 35.7 | 48.3 | 33.1 | 67.5 | 60.2 | 29.5 | 30.7 | 2.3 | 56.6 | 21.3 | 6.3 | 17.9 | 55.1 | 36.0 | 24.6 | 22.2 | 20.7 | 7.7 | 58.4 | 14.1 | 25.8 | 52.7 | 72.2 |
Hipótesis estadísticas para ANOVA: H₀ (nula): Las medias de concentración de los metales son iguales (μ₁ = μ₂ = μ₃). H₁ (alternativa): Al menos una media de concentración es diferente.
Modelo ANOVA de un factor: Yᵢⱼ = μ + τᵢ + εᵢⱼ, donde: - Yᵢⱼ: concentración observada del metal i en la muestra j - μ: media general - τᵢ: efecto del tipo de metal - εᵢⱼ: error aleatorio (se asume ~ N(0, σ²))
## # A tibble: 6 × 2
## Metal Concentracion
## <chr> <dbl>
## 1 Calcio 17.9
## 2 Magnesio 28
## 3 Potasio 30.4
## 4 Calcio 56.6
## 5 Magnesio 3.4
## 6 Potasio 67.3
Análisis
A partir del análisis descriptivo de los datos, se observan diferencias notables en los niveles de concentración entre los tres metales evaluados: calcio (Ca), magnesio (Mg) y potasio (K). El calcio (Ca) presenta los valores más altos de concentración promedio y una mayor dispersión, lo que se refleja tanto en su desviación estándar como en el amplio rango de valores. Por otro lado, el magnesio (Mg) muestra las concentraciones más bajas y con menor variabilidad, lo cual indica una mayor homogeneidad en los datos. El potasio (K) se encuentra en un rango intermedio, pero con una variabilidad considerable, lo que sugiere diferencias en su presencia según la muestra. Los diagramas de caja confirman estas observaciones: Ca y K exhiben posibles valores atípicos y una mayor amplitud entre cuartiles, mientras que Mg tiene una distribución más concentrada. En conjunto, estos resultados permiten anticipar que podría existir una diferencia significativa entre los niveles de los tres metales, aunque esto debe confirmarse mediante un análisis inferencial como el ANOVA.
##
## Hipótesis del análisis de varianza (ANOVA):
## H0: μ_Ca = μ_Mg = μ_K (los promedios de concentración son iguales entre metales)
## H1: Al menos uno de los promedios es diferente
## --- Tabla ANOVA ---
## Df Sum Sq Mean Sq F value Pr(>F)
## Metal 2 2246.6 1123 565.1 1.34e-12 ***
## Residuals 12 23.9 2
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El valor p obtenido es 0 < 0.05. Se rechaza la hipótesis nula. → Conclusión: Existe diferencia significativa entre los niveles promedio de al menos un metal.
Prueba de comparación multiple
##
## --- Comparaciones múltiples con prueba de Tukey ---
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Concentracion ~ Metal, data = datos)
##
## $Metal
## diff lwr upr p adj
## K-Ca -12.08 -14.45884 -9.701159 0
## Mg-Ca -29.80 -32.17884 -27.421159 0
## Mg-K -17.72 -20.09884 -15.341159 0
Análisis
La prueba de comparaciones múltiples de Tukey HSD reveló diferencias estadísticamente significativas entre los niveles de concentración de los tres metales analizados (Ca, Mg y K) en el agua subterránea. Todas las comparaciones presentan valores-p ajustados iguales a 0, lo que indica que las diferencias entre cada par de metales son significativas al 95% de confianza. Específicamente, el calcio mostró las concentraciones más altas, seguido del potasio, mientras que el magnesio presentó los niveles más bajos. Por tanto, se concluye que existe una diferencia significativa entre los niveles de concentración de cada metal, confirmando los resultados obtenidos previamente con el análisis de varianza.
## ---- Prueba de normalidad (Shapiro-Wilk) ----
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.98454, p-value = 0.9914
## ---- Prueba de igualdad de varianzas (Bartlett) ----
##
## Bartlett test of homogeneity of variances
##
## data: Concentracion by Metal
## Bartlett's K-squared = 4.1959, df = 2, p-value = 0.1227
Los residuos parecen seguir una distribución normal (p > 0.05). Se
cumple la homogeneidad de varianzas (p > 0.05).
La independencia de las observaciones se asume si el muestreo fue aleatorio.
UCI Machine Learning Repository. (n.d.). Wine Quality Data Set. University of California, Irvine. https://archive.ics.uci.edu/ml/datasets/Wine+Quality Fox, J., & Weisberg, S. (2019). An R companion to applied regression (3rd ed.). SAGE Publications.
Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media. https://r4ds.had.co.nz/
Montgomery, D. C. (2017). Design and Analysis of Experiments (9th ed.). Wiley. https://books.google.com.co/books?hl=es&lr=&id=Py7bDgAAQBAJ&oi=fnd&pg=PA1&dq=Montgomery,+D.+C.+(2017).+Design+and+Analysis+of+Experiments+(9th+ed.).+Wiley.&ots=X8u0n1MV44&sig=eOgNAHEhMW1cQKRoXrw9ax8LasM#v=onepage&q&f=false
Mangiafico, S. S. (2016). Summary and Analysis of Extension Program Evaluation in R. Rutgers Cooperative Extension. https://rcompanion.org/handbook/