https://doi.org/10.1016/B978-0-12-805309-6.00009-X
Con el propósito de solucionar un método de análisis químico (húmedo), se dispone de una gran cantidad de muestra que ha sido bien molida y mezclada. Se recogieron datos adecuados para poder realizar un ANOVA sencillo de una vía.
Para empezar, se disolvieron 10 g de muestra en 100 mL de agua.El siguiente paso fue tomar varias alícuotas diferentes y recoger múltiples lecturas de cada una de ellas. Se colocaron seis alícuotas en cada uno de los seis frascos y se repitieron seis mediciones en cada uno de ellos. Estas alícuotas dieron los resultados mostrados en la Tabla 9-2.
X= Número de Alícuota
Considerando los datos realice:
Análisis de Anova, evaluando todos los supuestos.
Analice los resultados obtenidos
Genere algunas ideas que usted considere puedan describir el comportamiento de los datos y formule algunas mejoras para el mencionado experimento.
library(knitr)
library(rsm)
library(tidyr)
library(rstatix)
##
## Attaching package: 'rstatix'
## The following object is masked from 'package:stats':
##
## filter
library(ggpubr)
## Loading required package: ggplot2
library(car)
## Loading required package: carData
library(pid)
## Registered S3 method overwritten by 'DoE.base':
## method from
## factorize.factor conf.design
df1<-read.csv("https://raw.githubusercontent.com/KilmaraAbrego/DATOS-1/main/PROBLEMA%20%236%20PROYECTO%20FINAL%20%20-%20Hoja%201.csv")
df<- df1 %>% gather(key="Alícuota",value="Y",X1,X2,X3,X4,X5,X6) %>% convert_as_factor(Alícuota)
df
## Alícuota Y
## 1 X1 7.25
## 2 X1 7.68
## 3 X1 7.76
## 4 X1 8.10
## 5 X1 7.50
## 6 X1 7.58
## 7 X2 10.07
## 8 X2 9.02
## 9 X2 9.51
## 10 X2 10.64
## 11 X2 10.27
## 12 X2 9.64
## 13 X3 5.96
## 14 X3 6.66
## 15 X3 5.87
## 16 X3 6.95
## 17 X3 6.54
## 18 X3 6.29
## 19 X4 7.10
## 20 X4 6.10
## 21 X4 6.27
## 22 X4 5.99
## 23 X4 6.32
## 24 X4 5.54
## 25 X5 5.74
## 26 X5 6.90
## 27 X5 6.29
## 28 X5 6.37
## 29 X5 5.99
## 30 X5 6.58
## 31 X6 4.74
## 32 X6 6.75
## 33 X6 6.71
## 34 X6 6.51
## 35 X6 5.95
## 36 X6 6.50
df %>% group_by(Alícuota) %>% get_summary_stats(Y,type="mean_sd")
## # A tibble: 6 x 5
## Alícuota variable n mean sd
## <fct> <chr> <dbl> <dbl> <dbl>
## 1 X1 Y 6 7.64 0.284
## 2 X2 Y 6 9.86 0.583
## 3 X3 Y 6 6.38 0.418
## 4 X4 Y 6 6.22 0.513
## 5 X5 Y 6 6.31 0.413
## 6 X6 Y 6 6.19 0.767
Ho: Las medias (u) de los factores son iguales.
Ha: Las medias (u) de los factores son distintas.
modelo<-aov(Y~Alícuota,data=df)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## Alícuota 5 63.86 12.773 47.4 2.4e-13 ***
## Residuals 30 8.08 0.269
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
bxp<-ggboxplot(df,x="Alícuota",y="Y",col="purple1")
bxp
Al observar el gráfico se muestra que las alícuotas de X1 y X2 no están cerca a las demás repeticiones mostrando algún error de analista.Se debe confirmar con un test LSD.
Tenemos datos anomalos según gráfico ubicados en X1, X4 y X6, los cuales deben ser confirmados por una prueba de outlaiers para su sginificancia.
#Outliers
df %>% group_by(Alícuota) %>% identify_outliers(Y)
## # A tibble: 4 x 4
## Alícuota Y is.outlier is.extreme
## <fct> <dbl> <lgl> <lgl>
## 1 X1 8.1 TRUE FALSE
## 2 X4 7.1 TRUE FALSE
## 3 X4 5.54 TRUE FALSE
## 4 X6 4.74 TRUE FALSE
La prueba nos confirma que son datos anómalos pero que no son extremos.
library(agricolae)
LSD<-LSD.test(modelo,"Alícuota",group = TRUE)
bar.group(x=LSD$groups,horiz = TRUE,col="purple2",xlab="Y", xlim=c(0,13),ylab="Alícuota",main="Prueba LSD - Comparación de medias ")
La prueba aplicada nos confirma que las alícuotas X1 (grupo b) y X2 (grupo a), no son estadísticamente parecidas a las X3, X4, X5 y X6 (grupo c).
##Prueba de Normalidad
qqnorm(modelo$residuals)
qqline(modelo$residuals)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.97369, p-value = 0.5345
El gráfico de normalidad y el Shapiro con un p-value de 0.5345, muestran la distribución normal de los datos.
leveneTest(modelo)
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 5 0.4724 0.7938
## 30
Se confirma la homogeneidad de las varianzas a un 95% de confianza, ya que el p>0.05.
plot(modelo$residuals, ylab = "Residuales",main = "Pruebas de Independencia de los Residuos")
abline(h=0)
El gráfico muestra una dispersión de residuos normal.
plot(df$Alícuota,modelo$residuals,col=c('purple1','purple2','purple3','purple4'),xlab = "Alícuotas",ylab="Residuales",main="Gráfico de los Residuales")
Al haber sobreposición entre las cajas y sus medianas, se confirma la homocedasticidad de los residuales.
Inicialmente el problema nos muestra un panorama donde como analistas de resultados se esperaba en vista que todas las alícuotas provienen de la misma solución madre, no hubiera diferencias significativass entre Alícuotas. Al realizar el tratamiento de los datos se obtuvo un valor de p < 0.0001, indicando que las alícuotas no son iguales (X1 y X2), y para las demás Alícuotas no se mostraron diferencias significativas estadísticamente. Incluso no se hae necesario descartar los outliers puesto que no tienen mayor afectación o significancia para la prueba. Se puede repetir la prueba controlando el factor que pudiera estar causando la desviación de los valores atipicos (outliers).