library(readxl)
library(summarytools)
library(rmarkdown)
Ejercicio 1
datos1 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 1.xlsx")
datos1
## # A tibble: 50 × 2
## cantidad crecimiento
## <chr> <dbl>
## 1 A 62.6
## 2 A 59.6
## 3 A 64.5
## 4 A 59.3
## 5 A 58.6
## 6 A 64.6
## 7 A 50.9
## 8 A 56.2
## 9 A 52.3
## 10 A 62.8
## # ℹ 40 more rows
#Analisis descriptivo
Ho= no hay diferencias en las tasas de crecimiento bacteriano
Ha= hay diferencias en las tasas de crecimiento bacteriano
conteo_valoresconcentración<- table(datos1$cantidad)
conteo_valoresconcentración
##
## A B C D E
## 10 10 10 10 10
Como podemos observar, se observan 5 tratamientos con 10 replicas cada una
summarytools::descr(datos1[,2])
## Descriptive Statistics
## datos1$crecimiento
## N: 50
##
## crecimiento
## ----------------- -------------
## Mean 36.71
## Std.Dev 15.99
## Min 7.80
## Q1 22.80
## Median 36.75
## Q3 49.90
## Max 64.60
## MAD 19.87
## IQR 26.67
## CV 0.44
## Skewness 0.08
## SE.Skewness 0.34
## Kurtosis -1.13
## N.Valid 50.00
## Pct.Valid 100.00
A partir de los resultados arrojados por el programa podemos concluir que: la media del crecimiento de las colonias de bacterias es de 36.71 donde el 50% de los datos se ubica entre 7.80 y 36.75. Por otro lado el 50% restante se ubico entre 36.75 y 64.60.Finalmente la curtosis de -1.13 nos indica que los datos se distribuyen a la izquierda de la media (platicurtica) y presenta un coeficiente de asimetria de 0,08.
resultados_descriptivos1 <- aggregate(crecimiento ~ cantidad, data = datos1, summary)
print(resultados_descriptivos1)
## cantidad crecimiento.Min. crecimiento.1st Qu. crecimiento.Median
## 1 A 50.900 56.800 59.450
## 2 B 35.200 43.025 48.000
## 3 C 27.000 31.125 38.400
## 4 D 19.200 22.650 24.250
## 5 E 7.800 11.850 17.000
## crecimiento.Mean crecimiento.3rd Qu. crecimiento.Max.
## 1 59.144 62.750 64.600
## 2 46.040 49.800 50.900
## 3 36.450 40.150 45.500
## 4 25.470 29.425 32.700
## 5 16.440 21.025 24.900
LLevando a cabo el análisis descriptivo por tratamiento se obtuvieron os sigueintes resultados:
Para la concentración A de CO2: el promedio de crecimiento es de 59.144, el valor mínimo de creciemiento es 50.900, el valor máximo de crecimiento es 64,600, el 50% de las observaciones(5) presentaron un crecimiento entre 50.900 y 59.450 , mientras que el restante 50% (5) presento un crecimiento entre 59.450 y 64.600.
Para la concentración B de CO2: el promedio de crecimiento es de 46.040 , el valor mínimo de creciemiento es 35.200, el valor máximo de crecimiento es 50.900, el 50% de las observaciones(5) presentaron un crecimiento entre 35.200 y 48.000 , mientras que el restante 50% (5) presento un crecimiento entre 48.000 y 50.900.
Para la concentración C de CO2: el promedio de crecimiento es de 36.450 , el valor mínimo de creciemiento es 27.000 , el valor máximo de crecimiento es 45.500 , el 50% de las observaciones(5) presentaron un crecimiento entre 27.000 y 38.400 , mientras que el restante 50% (5) presento un crecimiento entre 38.400 y 45.500.
Para la concentración D de CO2: el promedio de crecimiento es de 25.470 , el valor mínimo de creciemiento es 19.200 , el valor máximo de crecimiento es 32.700 , el 50% de las observaciones(5) presentaron un crecimiento entre 19.200 y 24.250 , mientras que el restante 50% (5) presento un crecimiento entre 24.250 y 32.700.
Para la concentración E de CO2: el promedio de crecimiento es de 16.440 , el valor mínimo de creciemiento es 7.800 , el valor máximo de crecimiento es 24.900 , el 50% de las observaciones(5) presentaron un crecimiento entre 7.800 y 17.000 , mientras que el restante 50% (5) presento un crecimiento entre 17.000 y 24.900.
#ANOVA
H0: No hay efecto significativo del dióxido de carbono en la tasa de crecimiento de Pseudomonas fragi.
La hipótesis alternativa (H1) sería:
H1: El dióxido de carbono tiene un efecto significativo en la tasa de crecimiento de Pseudomonas fragi.
modelo_anova1 <- aov (crecimiento~cantidad , data =datos1)
resumen_anova1 <- summary(modelo_anova1)
print(resumen_anova1)
## Df Sum Sq Mean Sq F value Pr(>F)
## cantidad 4 11276 2819.0 101.6 <2e-16 ***
## Residuals 45 1248 27.7
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A partir de la prueba ANOVA, obtenemos un p valor de2e-16, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula.
boxplot(datos1$crecimiento ~ datos1$cantidad, data = datos1, col = c("red", "blue", "green","orange","violet"), ylab = "concentración", xlab = "crecimiento")
Finalmente para complementar esto, como podemos observar en la gráfica , los bloques en los cuales se distribuyen los datos bajo los diferentes tratamientos se ubican de manera heterogenea, lo cual nos permite corroborar que efectivamente no hay igualdad en las tasas de crecimiento
#metodos de comparaciones multiples
Método de Tuckey
TukeyHSD(modelo_anova1)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = crecimiento ~ cantidad, data = datos1)
##
## $cantidad
## diff lwr upr p adj
## B-A -13.104 -19.79726 -6.410743 0.0000133
## C-A -22.694 -29.38726 -16.000743 0.0000000
## D-A -33.674 -40.36726 -26.980743 0.0000000
## E-A -42.704 -49.39726 -36.010743 0.0000000
## C-B -9.590 -16.28326 -2.896743 0.0016733
## D-B -20.570 -27.26326 -13.876743 0.0000000
## E-B -29.600 -36.29326 -22.906743 0.0000000
## D-C -10.980 -17.67326 -4.286743 0.0002622
## E-C -20.010 -26.70326 -13.316743 0.0000000
## E-D -9.030 -15.72326 -2.336743 0.0034171
Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas las concentraciones pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica
plot(TukeyHSD(modelo_anova1))
Metodo de Duncan
library(agricolae)
metodos.Duncan1 <-duncan.test(modelo_anova1, trt = "cantidad", group = T, console = T)
##
## Study: modelo_anova1 ~ "cantidad"
##
## Duncan's new multiple range test
## for crecimiento
##
## Mean Square Error: 27.74374
##
## cantidad, means
##
## crecimiento std r se Min Max Q25 Q50 Q75
## A 59.144 4.809646 10 1.665645 50.9 64.6 56.800 59.45 62.750
## B 46.040 5.052656 10 1.665645 35.2 50.9 43.025 48.00 49.800
## C 36.450 5.933942 10 1.665645 27.0 45.5 31.125 38.40 40.150
## D 25.470 4.483315 10 1.665645 19.2 32.7 22.650 24.25 29.425
## E 16.440 5.894480 10 1.665645 7.8 24.9 11.850 17.00 21.025
##
## Alpha: 0.05 ; DF Error: 45
##
## Critical Range
## 2 3 4 5
## 4.744378 4.989340 5.150042 5.266244
##
## Means with the same letter are not significantly different.
##
## crecimiento groups
## A 59.144 a
## B 46.040 b
## C 36.450 c
## D 25.470 d
## E 16.440 e
De la salida anterior los tratamientos que comparten al menos una letra en la columna grupos se consideran no significativamente diferentes entre sí. Estos tratamientos forman grupos estadísticamente similares.
Mientras que los tratamientos que tienen letras diferentes en la columna grupos se consideran significativamente diferentes entre sí. Si un tratamiento tiene una letra diferente de otro, significa que hay una diferencia estadísticamente significativa en sus medias, para nuestro caso (concentraciones de CO2) todos los tratamientos son significativamente diferentes.
Lo cual se observa en la siguiente gráfica
plot(metodos.Duncan1, variation="IQR" )
Verificación de los supuestos
library(car)
## Loading required package: carData
residuos<-residuals(modelo_anova1)
par(mfrow=c(1,3))
dplot<-density(residuos)
plot(dplot,
main="Curva de densidad observada",
xlab = "Residuos", #Etiqueta del eje x
ylab = "Densidad") #Etiqueta del eje y
polygon(dplot,
col = "green",
border = "black")
qqPlot(residuos,
pch =20,
main="QQ-Plot de los residuos", #
xlab = "Cuantiles teóricos",
ylab="Cuantiles observados de los residuos")
## [1] 17 28
boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot de los residuos")
Prueba de Shapiro Wilk
Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)
Ha: los residuos de la variable concentración no siguen la distribución normal.
shapiro.test(residuals(modelo_anova1))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_anova1)
## W = 0.96274, p-value = 0.1158
Como p= a 0.1158Por lo tanto no hay evidencia estadística suficiente para rechazar H0
Homogeneidad de varianzas
boxplot(residuos~ datos1$cantidad,
main = "Boxplot de Residuos por concentración de CO2",
xlab = "Concentración",
col="orange",
ylab = "Residuos")
En la siguiente gráfica, se representan los valores predichos por el modelo para la variable concentración del material en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica, no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.
library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))
plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")
En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas
Ho: Los residuos de la variable cantidad son iguales para los ditintos niveles de concentración de CO2
Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2
library(stats)
bartlett.test(residuos ~ datos1$cantidad)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by datos1$cantidad
## Bartlett's K-squared = 1.0671, df = 4, p-value = 0.8995
De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8995) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
leveneTest(residuos ~ datos1$cantidad
)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 4 0.192 0.9414
## 45
De acuerdo al valor arrojado por la prueba de Levene, valor de p ( 0.9414) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
Independiencia de los residuos
Ho: Los residuos entre los tratamientos son independientes
Ha: Los residuos entre los tratamientos no son independientes
durbinWatsonTest(modelo_anova1)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.001687377 1.947055 0.43
## Alternative hypothesis: rho != 0
Al realizar la prueba de independencia de residuos para la variable concentración, se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.424) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos.
Ejercicio 2
datos2 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 2.xlsx")
datos2
## # A tibble: 18 × 2
## Efectividad Marca
## <dbl> <chr>
## 1 72 A
## 2 65 A
## 3 67 A
## 4 75 A
## 5 62 A
## 6 73 A
## 7 55 B
## 8 59 B
## 9 68 B
## 10 70 B
## 11 53 B
## 12 50 B
## 13 64 C
## 14 74 C
## 15 61 C
## 16 58 C
## 17 51 C
## 18 69 C
Hipótesis Nula (H0): No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas.
Hipótesis Alternativa (H1): Existen diferencias significativas en la efectividad entre al menos dos de las marcas de spray para matar moscas.
#modelo estadístico Yij = µ + τi + εij
Donde:
Yij es el porcentaje de moscas muertas en la réplica j del grupo i. µ es la media general de todos los datos combinados. τi es el efecto del grupo i (i = 1, 2, 3 representando las tres marcas de spray). εij es el error aleatorio asociado con cada observación.
conteo_valoresefectividad<- table(datos2$Marca)
conteo_valoresefectividad
##
## A B C
## 6 6 6
Como podemos observar cada tratamiento en este caso cada marca tiene 6 replicas
summarytools::descr(datos2[,1])
## Descriptive Statistics
## datos2$Efectividad
## N: 18
##
## Efectividad
## ----------------- -------------
## Mean 63.67
## Std.Dev 8.01
## Min 50.00
## Q1 58.00
## Median 64.50
## Q3 70.00
## Max 75.00
## MAD 8.90
## IQR 11.50
## CV 0.13
## Skewness -0.25
## SE.Skewness 0.54
## Kurtosis -1.33
## N.Valid 18.00
## Pct.Valid 100.00
A partir de los resultados arrojados por el programa podemos concluir que: la media la media de la efectividad de los spary contra moscas es de 63.67 donde el 50% de los datos se ubica entre 58.00 y 64.50. Por otro lado el 50% restante se ubico entre 64.50 y 75.00.Finalmente la curtosis de -1.33 nos indica que los datos se distribuyen a la izquierda de la media (platicurtica) y presenta un coeficiente de asimetria de -0,25.
resultados_descriptivos2 <- aggregate(Efectividad ~ Marca, data = datos2, summary)
print(resultados_descriptivos2)
## Marca Efectividad.Min. Efectividad.1st Qu. Efectividad.Median
## 1 A 62.00000 65.50000 69.50000
## 2 B 50.00000 53.50000 57.00000
## 3 C 51.00000 58.75000 62.50000
## Efectividad.Mean Efectividad.3rd Qu. Efectividad.Max.
## 1 69.00000 72.75000 75.00000
## 2 59.16667 65.75000 70.00000
## 3 62.83333 67.75000 74.00000
LLevando a cabo el análisis descriptivo por tratamiento se obtuvieron os sigueintes resultados:
Para la marca A : el promedio de efectividad de los spary contra moscas 69.00000 , el valor mínimo de efectividad es 62.00000, el valor máximo de efectividad es 75.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 62.00000 y 69.50000 , mientras que el restante 50% (3) presento una efectividad de entre 69.50000 y 75.00000.
Para la marca B : el promedio de efectividad de los spary contra moscas 59.16667 , el valor mínimo de efectividad es 50.00000, el valor máximo de efectividad es 70.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 50.00000 y 57.00000 , mientras que el restante 50% (3) presento una efectividad de entre 57.00000 y 70.00000.
Para la marca C : el promedio de efectividad de los spary contra moscas 62.83333 , el valor mínimo de efectividad es 51.00000, el valor máximo de efectividad es 74.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 51.00000 y 62.50000 , mientras que el restante 50% (3) presento una efectividad de entre 62.50000 y 74.00000.
modelo_anova2 <- aov (Efectividad~Marca , data =datos2)
resumen_anova2 <- summary(modelo_anova2)
print(resumen_anova2)
## Df Sum Sq Mean Sq F value Pr(>F)
## Marca 2 296.3 148.17 2.793 0.0931 .
## Residuals 15 795.7 53.04
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
-¿Existe diferencia entre la efectividad promedio de los productos en spray? y ¿Hay algún spray mejor? Argumente su respuesta.
Como el P-valor es de 0.0931 concluimos que hay estadistico suficiente para determinar que se rechaza la hipotesis alternativa por lo tanto .No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. por lo tanto da igual el tipo de spray utilizado pues sus resultados no son estadisticamente diferentes.
Datosi= c(72,65,67,75,62,73,55,59,68,70,53,50,64,74,61,58,51,69)
intervalo_confianza <- t.test(Datosi, conf.level = 0.95)
intervalo_confianza
##
## One Sample t-test
##
## data: Datosi
## t = 33.702, df = 17, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 59.68105 67.65228
## sample estimates:
## mean of x
## 63.66667
-Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas
Para los datos observados el intervalo de confianza corresponde a los valores de 59.68105 67.65228 con df=17
boxplot(datos2$Efectividad ~ datos2$Marca, data = datos2, col = c("red", "blue", "green","violet
"), ylab = "Efectividad", xlab = "Marca")
Para la marca A, se observa la distribución de sus datos donde se observa que van desde 65 hasta menos de 75 con datos atipicos presentado con valores de 75 y menos de 65, la marca B por su parte tiene una distribución mucho más amplia que va desde 55 hasta valores cercanos de 70 con datos atipicos que se presentan en 50 y 70 , finalmente la marca C presenta una distribución de entre 70 y 60 con datos muy atipicos que se presentan en 50 y 75. teniendo en cuenta esta gráfica podriamos decir que la marca A puede ser más efectiva pues tiene menor variación en sus datos
Ejercicio 3
-¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental?
Los experimentos deben asignarse aleatroiamente a los tratamientos por lo tanto se recomendaria utilizar un software matemático de aleatorización que garantice la disminución del sesgo del investigador.Por otro lado el material experimental debe ser homogeneo es decir que debe usarse un mismo lote y tipo de frijoles (en este caso) para disminuir los posibles errores
-Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones
+Temperatura del agua: La temperatura del agua debe mantenerse constante para cada tratamiento para que no afecte el tiempo de cocción. Utiliza un termómetro para controlar la temperatura.
+Cantidad de agua: Asegúrate de usar la misma cantidad de agua para cada lote de frijoles en todos los tratamientos.
+Tiempo de remojo: Si el tiempo de remojo es un factor importante, asegúrate de que sea constante para todos los tratamientos.
-Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
Hipótesis Nula (H0): Las medias de los tiempos de cocción para los cuatro tratamientos son iguales.
Hipótesis Alternativa (H1):Al menos una de las medias de los tiempos de cocción es diferente de las demás.
datos3 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 3.xlsx")
modelo_anova3 <- aov (Tiempo~Tratamiento , data =datos3)
resumen_anova3 <- summary(modelo_anova3)
print(resumen_anova3)
## Df Sum Sq Mean Sq F value Pr(>F)
## Tratamiento 3 95041 31680 1559 <2e-16 ***
## Residuals 24 488 20
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A partir de la prueba ANOVA, obtenemos un p valor de 2e-16, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que Las medias de los tiempos de cocción para los cuatro tratamientos son iguales.
datos3 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 3.xlsx")
boxplot(datos3$Tiempo ~ datos3$Tratamiento, data = datos3, col = c("red", "blue", "green","orange","violet"), ylab = "Tiempo", xlab = "Tratamiento")
la gráfica presenta como los niveles de los tratamientos no varian mucho pero con respecto al control si se observa un cambio considerable no obstante según el estadistico de prueba no se rechaza la hipotesis nula.
Método de Tuckey
TukeyHSD(modelo_anova3)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Tiempo ~ Tratamiento, data = datos3)
##
## $Tratamiento
## diff lwr upr p adj
## B-A -17.428571 -24.07568671 -10.78146 0.0000010
## C-A 6.714286 0.06717044 13.36140 0.0471059
## Control-A 129.428571 122.78145615 136.07569 0.0000000
## C-B 24.142857 17.49574187 30.78997 0.0000000
## Control-B 146.857143 140.21002758 153.50426 0.0000000
## Control-C 122.714286 116.06717044 129.36140 0.0000000
Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas los tratamientos pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica
plot(TukeyHSD(modelo_anova3))
Método de Duncan
library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova3, trt = "Tratamiento", group = T, console = T)
##
## Study: modelo_anova3 ~ "Tratamiento"
##
## Duncan's new multiple range test
## for Tiempo
##
## Mean Square Error: 20.32143
##
## Tratamiento, means
##
## Tiempo std r se Min Max Q25 Q50 Q75
## A 78.85714 4.180453 7 1.703837 74 85 75.5 78 82.0
## B 61.42857 4.157609 7 1.703837 55 67 59.0 63 63.5
## C 85.57143 4.503967 7 1.703837 79 92 83.0 85 88.5
## Control 208.28571 5.122313 7 1.703837 200 214 205.5 208 212.5
##
## Alpha: 0.05 ; DF Error: 24
##
## Critical Range
## 2 3 4
## 4.973148 5.223301 5.383910
##
## Means with the same letter are not significantly different.
##
## Tiempo groups
## Control 208.28571 a
## C 85.57143 b
## A 78.85714 c
## B 61.42857 d
en este caso todos los tratamientos son significativamente diferentes.
plot(metodos.Duncan1, variation="IQR" )
Verificación de los supuestos
library(car)
residuos<-residuals(modelo_anova3)
par(mfrow=c(1,3))
dplot<-density(residuos)
plot(dplot,
main="Curva de densidad observada",
xlab = "Residuos", #Etiqueta del eje x
ylab = "Densidad") #Etiqueta del eje y
polygon(dplot,
col = "green",
border = "black")
qqPlot(residuos,
pch =20,
main="QQ-Plot de los residuos", #
xlab = "Cuantiles teóricos",
ylab="Cuantiles observados de los residuos")
## [1] 6 27
boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot de los residuos")
Prueba de Shapiro Wilk
Ho: Los residuos de la variable Tratamiento se distribuyen normalmente con media cero y varianza constante ei N(0,1)
Ha: los residuos de la variable Tratamiento no siguen la distribución normal.
shapiro.test(residuals(modelo_anova3))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_anova3)
## W = 0.95991, p-value = 0.3469
Como p= a 0.3469 Por lo tanto no hay evidencia estadística suficiente para rechazar H0
boxplot(residuos~ datos3$Tratamiento,
main = "Boxplot de Residuos por concentración de CO2",
xlab = "Tratamientos",
col="orange",
ylab = "Residuos")
No se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.
library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))
plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")
En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas
Ho: Los residuos de la variable tratamiento son iguales para los ditintos tiempos de cocción.
Ha: Existen por lo menos dos varianzas distintas para los ditintos tratamientos
library(stats)
bartlett.test(residuos ~ datos3$Tratamiento)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by datos3$Tratamiento
## Bartlett's K-squared = 0.3302, df = 3, p-value = 0.9543
De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.9543) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
leveneTest(residuos ~ datos3$Tratamiento)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 3 0.1631 0.9201
## 24
De acuerdo al valor arrojado por la prueba de Levene, valor de p (0.9201) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
Independiencia de los residuos
Ho: Los residuos entre los tratamientos son independientes
Ha: Los residuos entre los tratamientos no son independientes
durbinWatsonTest(modelo_anova3)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.4142606 2.74274 0.17
## Alternative hypothesis: rho != 0
Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.136) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos
Ejercicio 4
Hipótesis Nula (H0): La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas. En otras palabras, las medias de la dureza de las tabletas en los lotes con 2%, 5% y 10% de almidón son iguales.
Hipótesis Alternativa (H1): La cantidad de almidón tiene un efecto significativo en la dureza promedio de las tabletas. Al menos uno de los niveles de almidón (2%, 5% o 10%) tiene una media de dureza diferente de las otras.
datos4<- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 4.xlsx")
modelo_anova4 <- aov (Dureza~Almidón, data =datos4)
resumen_anova4 <- summary(modelo_anova4)
print(resumen_anova4)
## Df Sum Sq Mean Sq F value Pr(>F)
## Almidón 2 26.73 13.36 58.1 7.16e-06 ***
## Residuals 9 2.07 0.23
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A partir de la prueba ANOVA, obtenemos un p valor de 3.8e-06, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas. En otras palabras, las medias de la dureza de las tabletas en los lotes con 2%, 5% y 10% de almidón son iguales.
boxplot(datos4$Dureza ~ datos4$Almidón, data = datos4, col = c("red", "blue", "green","orange"), ylab = "Dureza", xlab = "Almidón")
Método de Tuckey
TukeyHSD (modelo_anova4)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Dureza ~ Almidón, data = datos4)
##
## $Almidón
## diff lwr upr p adj
## B-A 2.00 1.0531848 2.946815 0.0006016
## C-A 3.65 2.7031848 4.596815 0.0000052
## C-B 1.65 0.7031848 2.596815 0.0022940
Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas los tratamientos pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica
plot(TukeyHSD(modelo_anova4))
Método de Duncan
library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova4, trt = "Almidón", group = T, console = T)
##
## Study: modelo_anova4 ~ "Almidón"
##
## Duncan's new multiple range test
## for Dureza
##
## Mean Square Error: 0.23
##
## Almidón, means
##
## Dureza std r se Min Max Q25 Q50 Q75
## A 4.70 0.3915780 4 0.2397916 4.3 5.2 4.450 4.65 4.900
## B 6.70 0.5163978 4 0.2397916 6.1 7.3 6.400 6.70 7.000
## C 8.35 0.5196152 4 0.2397916 7.8 9.0 8.025 8.30 8.625
##
## Alpha: 0.05 ; DF Error: 9
##
## Critical Range
## 2 3
## 0.7671348 0.8006971
##
## Means with the same letter are not significantly different.
##
## Dureza groups
## C 8.35 a
## B 6.70 b
## A 4.70 c
en este caso todos los tratamientos son significativamente diferentes.
plot(metodos.Duncan2, variation="IQR" )
Verificación de los supuestos
library(car)
residuos<-residuals(modelo_anova4)
par(mfrow=c(1,3))
dplot<-density(residuos)
plot(dplot,
main="Curva de densidad observada",
xlab = "Residuos", #Etiqueta del eje x
ylab = "Densidad") #Etiqueta del eje y
polygon(dplot,
col = "green",
border = "black")
qqPlot(residuos,
pch =20,
main="QQ-Plot de los residuos", #
xlab = "Cuantiles teóricos",
ylab="Cuantiles observados de los residuos")
## [1] 9 8
boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot de los residuos")
Prueba de Shapiro Wilk
Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)
Ha: los residuos de la variable concentración no siguen la distribución normal.
shapiro.test(residuals(modelo_anova4))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_anova4)
## W = 0.93444, p-value = 0.4295
Como p= a 0.4295 Por lo tanto no hay evidencia estadística suficiente para rechazar H0
Homogeneidad de varianzas
boxplot(residuos~ datos4$Almidón,
main = "Boxplot de Residuos por concentración de CO2",
xlab = "Almidón",
col="orange",
ylab = "Residuos")
no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.
library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))
plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")
En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas
Ho: Los residuos de la variable desgaste son iguales para los ditintos niveles de concentración de CO2
Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2
library(stats)
bartlett.test(residuos ~ datos4$Almidón)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by datos4$Almidón
## Bartlett's K-squared = 0.25398, df = 2, p-value = 0.8807
De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8807) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
leveneTest(residuos ~ datos4$Almidón)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.2667 0.7718
## 9
De acuerdo al valor arrojado por la prueba de Levene , valor de p ( 0.172) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
Independiencia de los residuos
Ho: Los residuos entre los tratamientos son independientes
Ha: Los residuos entre los tratamientos no son independientes
durbinWatsonTest(modelo_anova4)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.5398551 2.972222 0.194
## Alternative hypothesis: rho != 0
Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.168) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos
Ejercicio 5
Hipótesis Nula (H0): La fertilización nitrogenada no tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. En otras palabras, las medias de los rendimientos para los tres niveles de fertilización nitrogenada son iguales.
Hipótesis Alternativa (H1): La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los niveles de fertilización nitrogenada tiene una media de rendimiento diferente de los otros.
-¿Las diferencias muestrales hacen obvia la presencia de diferencias poblacionales?
A partir de la observación de los datos recolectados se puede llegar a inferir que efectivamente se presentan diferencias entre el rendimiento de las hectareas.
datos5 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 5.xlsx")
datos5
## # A tibble: 15 × 2
## Nivel Rendimiento
## <chr> <dbl>
## 1 A 14.8
## 2 A 14.7
## 3 A 14.7
## 4 A 14.5
## 5 A 15.1
## 6 B 25.2
## 7 B 25.4
## 8 B 25.1
## 9 B 25.0
## 10 B 25.3
## 11 C 32.6
## 12 C 32.5
## 13 C 32.3
## 14 C 32.7
## 15 C 32.1
modelo_anova5 <- aov (Rendimiento~Nivel , data =datos5)
resumen_anova5 <- summary(modelo_anova5)
print(resumen_anova5)
## Df Sum Sq Mean Sq F value Pr(>F)
## Nivel 2 788.3 394.2 10132 <2e-16 ***
## Residuals 12 0.5 0.0
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
a partir de la prueba ANOVA, obtenemos un p valor de 5.4e-14, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que La fertilización nitrogenada no tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. En otras palabras, las medias de los rendimientos para los tres niveles de fertilización nitrogenada son iguales.
boxplot(datos5$Rendimiento ~ datos5$Nivel, data = datos5, col = c("red", "blue", "green","orange","violet"), ylab = "Nivel", xlab = "Rendimiento")
En la gráfica podemos observa como el nivel 1 se distribuye en valores de 15 con un datos atipicos que corresponden a valores entre 15 y 14,7 , tambien se presenta un solo dato atipico superior que se ubica en 15,1. Con respecto al nivel 2 A se distribuye en valores de 25. Finalmente el Nivel 3 se distribuyen en valores de 32 con algunos datos atipicos que van desde 32,1 hasta 32, 7
TukeyHSD(modelo_anova5)
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Rendimiento ~ Nivel, data = datos5)
##
## $Nivel
## diff lwr upr p adj
## B-A 10.43658 10.10377 10.76939 0
## C-A 17.66058 17.32777 17.99339 0
## C-B 7.22400 6.89119 7.55681 0
Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas los tratamientos pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica
plot(TukeyHSD(modelo_anova4))
Método de Duncan
library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova5, trt = "Nivel", group = T, console = T)
##
## Study: modelo_anova5 ~ "Nivel"
##
## Duncan's new multiple range test
## for Rendimiento
##
## Mean Square Error: 0.03890497
##
## Nivel, means
##
## Rendimiento std r se Min Max Q25 Q50 Q75
## A 14.75962 0.2037867 5 0.08820995 14.5141 15.065 14.676 14.720 14.823
## B 25.19620 0.1418986 5 0.08820995 25.0310 25.401 25.131 25.151 25.267
## C 32.42020 0.2346289 5 0.08820995 32.1110 32.669 32.256 32.460 32.605
##
## Alpha: 0.05 ; DF Error: 12
##
## Critical Range
## 2 3
## 0.2718019 0.2844986
##
## Means with the same letter are not significantly different.
##
## Rendimiento groups
## C 32.42020 a
## B 25.19620 b
## A 14.75962 c
en este caso todos los tratamientos son significativamente diferentes
plot(metodos.Duncan2, variation="IQR" )
library(car)
residuos<-residuals(modelo_anova5)
par(mfrow=c(1,3))
dplot<-density(residuos)
plot(dplot,
main="Curva de densidad observada",
xlab = "Residuos", #Etiqueta del eje x
ylab = "Densidad") #Etiqueta del eje y
polygon(dplot,
col = "green",
border = "black")
qqPlot(residuos,
pch =20,
main="QQ-Plot de los residuos", #
xlab = "Cuantiles teóricos",
ylab="Cuantiles observados de los residuos")
## [1] 15 5
boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot de los residuos")
Prueba de Shapiro Wilk
Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)
Ha: los residuos de la variable concentración no siguen la distribución normal.
shapiro.test(residuals(modelo_anova5))
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_anova5)
## W = 0.97219, p-value = 0.8891
Como p= a 0.8891 Por lo tanto no hay evidencia estadística suficiente para rechazar H0
Homogeneidad de varianzas
boxplot(residuos~ datos5$Nivel,
main = "Boxplot de rendimiento x hectarea",
xlab = "Almidón",
col="orange",
ylab = "Residuos")
no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.
library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))
plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")
En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas
Ho: Los residuos de la variable nivel son iguales para los ditintos niveles de rendimiento
Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles del tratamiento nivel
library(stats)
bartlett.test(residuos ~ datos5$Nivel)
##
## Bartlett test of homogeneity of variances
##
## data: residuos by datos5$Nivel
## Bartlett's K-squared = 0.8865, df = 2, p-value = 0.6419
De acuerdo al valor arrojado por la prueba de bartlett, valor de p (0.6419) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
leveneTest(residuos ~ datos5$Nivel)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
## Df F value Pr(>F)
## group 2 0.5372 0.5978
## 12
De acuerdo al valor arrojado por la prueba de Levene, valor de p (0.5978) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior
Independiencia de los residuos
Ho: Los residuos entre los tratamientos son independientes
Ha: Los residuos entre los tratamientos no son independientes
durbinWatsonTest(modelo_anova5)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.4464995 2.679612 0.398
## Alternative hypothesis: rho != 0
Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.39) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos