Taller #1

library(readxl)

 library(summarytools)

 library(rmarkdown)

Ejercicio 1

datos1 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 1.xlsx")

datos1

## # A tibble: 50 × 2
##    cantidad crecimiento
##    <chr>          <dbl>
##  1 A               62.6
##  2 A               59.6
##  3 A               64.5
##  4 A               59.3
##  5 A               58.6
##  6 A               64.6
##  7 A               50.9
##  8 A               56.2
##  9 A               52.3
## 10 A               62.8
## # ℹ 40 more rows

#Analisis descriptivo

Ho= no hay diferencias en las tasas de crecimiento bacteriano

Ha= hay diferencias en las tasas de crecimiento bacteriano

conteo_valoresconcentración<- table(datos1$cantidad)
conteo_valoresconcentración

## 
##  A  B  C  D  E 
## 10 10 10 10 10

Como podemos observar, se observan 5 tratamientos con 10 replicas cada una

summarytools::descr(datos1[,2])

## Descriptive Statistics  
## datos1$crecimiento  
## N: 50  
## 
##                     crecimiento
## ----------------- -------------
##              Mean         36.71
##           Std.Dev         15.99
##               Min          7.80
##                Q1         22.80
##            Median         36.75
##                Q3         49.90
##               Max         64.60
##               MAD         19.87
##               IQR         26.67
##                CV          0.44
##          Skewness          0.08
##       SE.Skewness          0.34
##          Kurtosis         -1.13
##           N.Valid         50.00
##         Pct.Valid        100.00

A partir de los resultados arrojados por el programa podemos concluir que: la media del crecimiento de las colonias de bacterias es de 36.71 donde el 50% de los datos se ubica entre 7.80 y 36.75. Por otro lado el 50% restante se ubico entre 36.75 y 64.60.Finalmente la curtosis de -1.13 nos indica que los datos se distribuyen a la izquierda de la media (platicurtica) y presenta un coeficiente de asimetria de 0,08.

resultados_descriptivos1 <- aggregate(crecimiento ~ cantidad, data = datos1, summary)

print(resultados_descriptivos1)

##   cantidad crecimiento.Min. crecimiento.1st Qu. crecimiento.Median
## 1        A           50.900              56.800             59.450
## 2        B           35.200              43.025             48.000
## 3        C           27.000              31.125             38.400
## 4        D           19.200              22.650             24.250
## 5        E            7.800              11.850             17.000
##   crecimiento.Mean crecimiento.3rd Qu. crecimiento.Max.
## 1           59.144              62.750           64.600
## 2           46.040              49.800           50.900
## 3           36.450              40.150           45.500
## 4           25.470              29.425           32.700
## 5           16.440              21.025           24.900

LLevando a cabo el análisis descriptivo por tratamiento se obtuvieron os sigueintes resultados:

Para la concentración A de CO2: el promedio de crecimiento es de 59.144, el valor mínimo de creciemiento es 50.900, el valor máximo de crecimiento es 64,600, el 50% de las observaciones(5) presentaron un crecimiento entre 50.900 y 59.450 , mientras que el restante 50% (5) presento un crecimiento entre 59.450 y 64.600.

Para la concentración B de CO2: el promedio de crecimiento es de 46.040 , el valor mínimo de creciemiento es 35.200, el valor máximo de crecimiento es 50.900, el 50% de las observaciones(5) presentaron un crecimiento entre 35.200 y 48.000 , mientras que el restante 50% (5) presento un crecimiento entre 48.000 y 50.900.

Para la concentración C de CO2: el promedio de crecimiento es de 36.450 , el valor mínimo de creciemiento es 27.000 , el valor máximo de crecimiento es 45.500 , el 50% de las observaciones(5) presentaron un crecimiento entre 27.000 y 38.400 , mientras que el restante 50% (5) presento un crecimiento entre 38.400 y 45.500.

Para la concentración D de CO2: el promedio de crecimiento es de 25.470 , el valor mínimo de creciemiento es 19.200 , el valor máximo de crecimiento es 32.700 , el 50% de las observaciones(5) presentaron un crecimiento entre 19.200 y 24.250 , mientras que el restante 50% (5) presento un crecimiento entre 24.250 y 32.700.

Para la concentración E de CO2: el promedio de crecimiento es de 16.440 , el valor mínimo de creciemiento es 7.800 , el valor máximo de crecimiento es 24.900 , el 50% de las observaciones(5) presentaron un crecimiento entre 7.800 y 17.000 , mientras que el restante 50% (5) presento un crecimiento entre 17.000 y 24.900.

#ANOVA

H0: No hay efecto significativo del dióxido de carbono en la tasa de crecimiento de Pseudomonas fragi.

La hipótesis alternativa (H1) sería:

H1: El dióxido de carbono tiene un efecto significativo en la tasa de crecimiento de Pseudomonas fragi.

modelo_anova1 <- aov (crecimiento~cantidad , data =datos1)
resumen_anova1 <- summary(modelo_anova1)

print(resumen_anova1)

##             Df Sum Sq Mean Sq F value Pr(>F)    
## cantidad     4  11276  2819.0   101.6 <2e-16 ***
## Residuals   45   1248    27.7                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de la prueba ANOVA, obtenemos un p valor de2e-16, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula.

boxplot(datos1$crecimiento ~ datos1$cantidad, data = datos1, col = c("red", "blue", "green","orange","violet"), ylab = "concentración", xlab = "crecimiento")

Finalmente para complementar esto, como podemos observar en la gráfica , los bloques en los cuales se distribuyen los datos bajo los diferentes tratamientos se ubican de manera heterogenea, lo cual nos permite corroborar que efectivamente no hay igualdad en las tasas de crecimiento

#metodos de comparaciones multiples

Método de Tuckey

TukeyHSD(modelo_anova1)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = crecimiento ~ cantidad, data = datos1)
## 
## $cantidad
##        diff       lwr        upr     p adj
## B-A -13.104 -19.79726  -6.410743 0.0000133
## C-A -22.694 -29.38726 -16.000743 0.0000000
## D-A -33.674 -40.36726 -26.980743 0.0000000
## E-A -42.704 -49.39726 -36.010743 0.0000000
## C-B  -9.590 -16.28326  -2.896743 0.0016733
## D-B -20.570 -27.26326 -13.876743 0.0000000
## E-B -29.600 -36.29326 -22.906743 0.0000000
## D-C -10.980 -17.67326  -4.286743 0.0002622
## E-C -20.010 -26.70326 -13.316743 0.0000000
## E-D  -9.030 -15.72326  -2.336743 0.0034171

Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas las concentraciones pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica

plot(TukeyHSD(modelo_anova1))

Metodo de Duncan

library(agricolae)
metodos.Duncan1 <-duncan.test(modelo_anova1, trt = "cantidad", group = T, console = T)

## 
## Study: modelo_anova1 ~ "cantidad"
## 
## Duncan's new multiple range test
## for crecimiento 
## 
## Mean Square Error:  27.74374 
## 
## cantidad,  means
## 
##   crecimiento      std  r       se  Min  Max    Q25   Q50    Q75
## A      59.144 4.809646 10 1.665645 50.9 64.6 56.800 59.45 62.750
## B      46.040 5.052656 10 1.665645 35.2 50.9 43.025 48.00 49.800
## C      36.450 5.933942 10 1.665645 27.0 45.5 31.125 38.40 40.150
## D      25.470 4.483315 10 1.665645 19.2 32.7 22.650 24.25 29.425
## E      16.440 5.894480 10 1.665645  7.8 24.9 11.850 17.00 21.025
## 
## Alpha: 0.05 ; DF Error: 45 
## 
## Critical Range
##        2        3        4        5 
## 4.744378 4.989340 5.150042 5.266244 
## 
## Means with the same letter are not significantly different.
## 
##   crecimiento groups
## A      59.144      a
## B      46.040      b
## C      36.450      c
## D      25.470      d
## E      16.440      e

De la salida anterior los tratamientos que comparten al menos una letra en la columna grupos se consideran no significativamente diferentes entre sí. Estos tratamientos forman grupos estadísticamente similares.

Mientras que los tratamientos que tienen letras diferentes en la columna grupos se consideran significativamente diferentes entre sí. Si un tratamiento tiene una letra diferente de otro, significa que hay una diferencia estadísticamente significativa en sus medias, para nuestro caso (concentraciones de CO2) todos los tratamientos son significativamente diferentes.

Lo cual se observa en la siguiente gráfica

plot(metodos.Duncan1, variation="IQR" )

Verificación de los supuestos

library(car)

## Loading required package: carData

residuos<-residuals(modelo_anova1) 

par(mfrow=c(1,3)) 
dplot<-density(residuos) 
plot(dplot, 
      main="Curva de densidad observada",
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, 
        col = "green", 
        border = "black") 

qqPlot(residuos, 
       pch =20, 
       main="QQ-Plot de los residuos", #
       xlab = "Cuantiles teóricos",  
       ylab="Cuantiles observados de los residuos")

## [1] 17 28

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

Prueba de Shapiro Wilk

Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)

Ha: los residuos de la variable concentración no siguen la distribución normal.

shapiro.test(residuals(modelo_anova1))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova1)
## W = 0.96274, p-value = 0.1158

Como p= a 0.1158Por lo tanto no hay evidencia estadística suficiente para rechazar H0

Homogeneidad de varianzas

boxplot(residuos~ datos1$cantidad, 
        main = "Boxplot de Residuos por concentración de CO2", 
        xlab = "Concentración",
        col="orange",
        ylab = "Residuos")

En la siguiente gráfica, se representan los valores predichos por el modelo para la variable concentración del material en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica, no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

Ho: Los residuos de la variable cantidad son iguales para los ditintos niveles de concentración de CO2

Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2

library(stats)
bartlett.test(residuos ~ datos1$cantidad)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos1$cantidad
## Bartlett's K-squared = 1.0671, df = 4, p-value = 0.8995

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8995) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

leveneTest(residuos ~ datos1$cantidad
           )

## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4   0.192 0.9414
##       45

De acuerdo al valor arrojado por la prueba de Levene, valor de p ( 0.9414) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

Independiencia de los residuos

Ho: Los residuos entre los tratamientos son independientes

Ha: Los residuos entre los tratamientos no son independientes

durbinWatsonTest(modelo_anova1)

##  lag Autocorrelation D-W Statistic p-value
##    1    -0.001687377      1.947055    0.43
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable concentración, se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.424) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos.

Ejercicio 2

datos2 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 2.xlsx")
datos2

## # A tibble: 18 × 2
##    Efectividad Marca
##          <dbl> <chr>
##  1          72 A    
##  2          65 A    
##  3          67 A    
##  4          75 A    
##  5          62 A    
##  6          73 A    
##  7          55 B    
##  8          59 B    
##  9          68 B    
## 10          70 B    
## 11          53 B    
## 12          50 B    
## 13          64 C    
## 14          74 C    
## 15          61 C    
## 16          58 C    
## 17          51 C    
## 18          69 C

Hipótesis Nula (H0): No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas.

Hipótesis Alternativa (H1): Existen diferencias significativas en la efectividad entre al menos dos de las marcas de spray para matar moscas.

#modelo estadístico Yij = µ + τi + εij

Donde:

Yij es el porcentaje de moscas muertas en la réplica j del grupo i. µ es la media general de todos los datos combinados. τi es el efecto del grupo i (i = 1, 2, 3 representando las tres marcas de spray). εij es el error aleatorio asociado con cada observación.

conteo_valoresefectividad<- table(datos2$Marca)
conteo_valoresefectividad

## 
## A B C 
## 6 6 6

Como podemos observar cada tratamiento en este caso cada marca tiene 6 replicas

summarytools::descr(datos2[,1])

## Descriptive Statistics  
## datos2$Efectividad  
## N: 18  
## 
##                     Efectividad
## ----------------- -------------
##              Mean         63.67
##           Std.Dev          8.01
##               Min         50.00
##                Q1         58.00
##            Median         64.50
##                Q3         70.00
##               Max         75.00
##               MAD          8.90
##               IQR         11.50
##                CV          0.13
##          Skewness         -0.25
##       SE.Skewness          0.54
##          Kurtosis         -1.33
##           N.Valid         18.00
##         Pct.Valid        100.00

A partir de los resultados arrojados por el programa podemos concluir que: la media la media de la efectividad de los spary contra moscas es de 63.67 donde el 50% de los datos se ubica entre 58.00 y 64.50. Por otro lado el 50% restante se ubico entre 64.50 y 75.00.Finalmente la curtosis de -1.33 nos indica que los datos se distribuyen a la izquierda de la media (platicurtica) y presenta un coeficiente de asimetria de -0,25.

resultados_descriptivos2 <- aggregate(Efectividad ~ Marca, data = datos2, summary)

print(resultados_descriptivos2)

##   Marca Efectividad.Min. Efectividad.1st Qu. Efectividad.Median
## 1     A         62.00000            65.50000           69.50000
## 2     B         50.00000            53.50000           57.00000
## 3     C         51.00000            58.75000           62.50000
##   Efectividad.Mean Efectividad.3rd Qu. Efectividad.Max.
## 1         69.00000            72.75000         75.00000
## 2         59.16667            65.75000         70.00000
## 3         62.83333            67.75000         74.00000

LLevando a cabo el análisis descriptivo por tratamiento se obtuvieron os sigueintes resultados:

Para la marca A : el promedio de efectividad de los spary contra moscas 69.00000 , el valor mínimo de efectividad es 62.00000, el valor máximo de efectividad es 75.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 62.00000 y 69.50000 , mientras que el restante 50% (3) presento una efectividad de entre 69.50000 y 75.00000.

Para la marca B : el promedio de efectividad de los spary contra moscas 59.16667 , el valor mínimo de efectividad es 50.00000, el valor máximo de efectividad es 70.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 50.00000 y 57.00000 , mientras que el restante 50% (3) presento una efectividad de entre 57.00000 y 70.00000.

Para la marca C : el promedio de efectividad de los spary contra moscas 62.83333 , el valor mínimo de efectividad es 51.00000, el valor máximo de efectividad es 74.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 51.00000 y 62.50000 , mientras que el restante 50% (3) presento una efectividad de entre 62.50000 y 74.00000.

modelo_anova2 <- aov (Efectividad~Marca , data =datos2)
resumen_anova2 <- summary(modelo_anova2)

print(resumen_anova2)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## Marca        2  296.3  148.17   2.793 0.0931 .
## Residuals   15  795.7   53.04                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

-¿Existe diferencia entre la efectividad promedio de los productos en spray? y ¿Hay algún spray mejor? Argumente su respuesta.

Como el P-valor es de 0.0931 concluimos que hay estadistico suficiente para determinar que se rechaza la hipotesis alternativa por lo tanto .No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. por lo tanto da igual el tipo de spray utilizado pues sus resultados no son estadisticamente diferentes.

Datosi= c(72,65,67,75,62,73,55,59,68,70,53,50,64,74,61,58,51,69)
intervalo_confianza <- t.test(Datosi, conf.level = 0.95)
intervalo_confianza

## 
##  One Sample t-test
## 
## data:  Datosi
## t = 33.702, df = 17, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  59.68105 67.65228
## sample estimates:
## mean of x 
##  63.66667

-Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas

Para los datos observados el intervalo de confianza corresponde a los valores de 59.68105 67.65228 con df=17

boxplot(datos2$Efectividad ~ datos2$Marca, data = datos2, col = c("red", "blue", "green","violet
                                                                "), ylab = "Efectividad", xlab = "Marca")

Para la marca A, se observa la distribución de sus datos donde se observa que van desde 65 hasta menos de 75 con datos atipicos presentado con valores de 75 y menos de 65, la marca B por su parte tiene una distribución mucho más amplia que va desde 55 hasta valores cercanos de 70 con datos atipicos que se presentan en 50 y 70 , finalmente la marca C presenta una distribución de entre 70 y 60 con datos muy atipicos que se presentan en 50 y 75. teniendo en cuenta esta gráfica podriamos decir que la marca A puede ser más efectiva pues tiene menor variación en sus datos

Ejercicio 3

-¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental?

Los experimentos deben asignarse aleatroiamente a los tratamientos por lo tanto se recomendaria utilizar un software matemático de aleatorización que garantice la disminución del sesgo del investigador.Por otro lado el material experimental debe ser homogeneo es decir que debe usarse un mismo lote y tipo de frijoles (en este caso) para disminuir los posibles errores

-Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones

+Temperatura del agua: La temperatura del agua debe mantenerse constante para cada tratamiento para que no afecte el tiempo de cocción. Utiliza un termómetro para controlar la temperatura.

+Cantidad de agua: Asegúrate de usar la misma cantidad de agua para cada lote de frijoles en todos los tratamientos.

+Tiempo de remojo: Si el tiempo de remojo es un factor importante, asegúrate de que sea constante para todos los tratamientos.

-Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.

Hipótesis Nula (H0): Las medias de los tiempos de cocción para los cuatro tratamientos son iguales.

Hipótesis Alternativa (H1):Al menos una de las medias de los tiempos de cocción es diferente de las demás.

datos3 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 3.xlsx")
modelo_anova3 <- aov (Tiempo~Tratamiento , data =datos3)
resumen_anova3 <- summary(modelo_anova3)

print(resumen_anova3)

##             Df Sum Sq Mean Sq F value Pr(>F)    
## Tratamiento  3  95041   31680    1559 <2e-16 ***
## Residuals   24    488      20                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de la prueba ANOVA, obtenemos un p valor de 2e-16, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que Las medias de los tiempos de cocción para los cuatro tratamientos son iguales.

datos3 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 3.xlsx")
boxplot(datos3$Tiempo ~ datos3$Tratamiento, data = datos3, col = c("red", "blue", "green","orange","violet"), ylab = "Tiempo", xlab = "Tratamiento")

la gráfica presenta como los niveles de los tratamientos no varian mucho pero con respecto al control si se observa un cambio considerable no obstante según el estadistico de prueba no se rechaza la hipotesis nula.

Método de Tuckey

TukeyHSD(modelo_anova3)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Tiempo ~ Tratamiento, data = datos3)
## 
## $Tratamiento
##                 diff          lwr       upr     p adj
## B-A       -17.428571 -24.07568671 -10.78146 0.0000010
## C-A         6.714286   0.06717044  13.36140 0.0471059
## Control-A 129.428571 122.78145615 136.07569 0.0000000
## C-B        24.142857  17.49574187  30.78997 0.0000000
## Control-B 146.857143 140.21002758 153.50426 0.0000000
## Control-C 122.714286 116.06717044 129.36140 0.0000000

Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre todas los tratamientos pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95% lo cual concuerda con la representación gráfica

plot(TukeyHSD(modelo_anova3))

Método de Duncan

library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova3, trt = "Tratamiento", group = T, console = T)

## 
## Study: modelo_anova3 ~ "Tratamiento"
## 
## Duncan's new multiple range test
## for Tiempo 
## 
## Mean Square Error:  20.32143 
## 
## Tratamiento,  means
## 
##            Tiempo      std r       se Min Max   Q25 Q50   Q75
## A        78.85714 4.180453 7 1.703837  74  85  75.5  78  82.0
## B        61.42857 4.157609 7 1.703837  55  67  59.0  63  63.5
## C        85.57143 4.503967 7 1.703837  79  92  83.0  85  88.5
## Control 208.28571 5.122313 7 1.703837 200 214 205.5 208 212.5
## 
## Alpha: 0.05 ; DF Error: 24 
## 
## Critical Range
##        2        3        4 
## 4.973148 5.223301 5.383910 
## 
## Means with the same letter are not significantly different.
## 
##            Tiempo groups
## Control 208.28571      a
## C        85.57143      b
## A        78.85714      c
## B        61.42857      d

en este caso todos los tratamientos son significativamente diferentes.

plot(metodos.Duncan1, variation="IQR" )

Verificación de los supuestos

library(car)

residuos<-residuals(modelo_anova3) 

par(mfrow=c(1,3)) 
dplot<-density(residuos) 
plot(dplot, 
      main="Curva de densidad observada",
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, 
        col = "green", 
        border = "black") 

qqPlot(residuos, 
       pch =20, 
       main="QQ-Plot de los residuos", #
       xlab = "Cuantiles teóricos",  
       ylab="Cuantiles observados de los residuos")

## [1]  6 27

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

Prueba de Shapiro Wilk

Ho: Los residuos de la variable Tratamiento se distribuyen normalmente con media cero y varianza constante ei N(0,1)

Ha: los residuos de la variable Tratamiento no siguen la distribución normal.

shapiro.test(residuals(modelo_anova3))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova3)
## W = 0.95991, p-value = 0.3469

Como p= a 0.3469 Por lo tanto no hay evidencia estadística suficiente para rechazar H0

boxplot(residuos~ datos3$Tratamiento, 
        main = "Boxplot de Residuos por concentración de CO2", 
        xlab = "Tratamientos",
        col="orange",
        ylab = "Residuos")

No se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

Ho: Los residuos de la variable tratamiento son iguales para los ditintos tiempos de cocción.

Ha: Existen por lo menos dos varianzas distintas para los ditintos tratamientos

library(stats)
bartlett.test(residuos ~ datos3$Tratamiento)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos3$Tratamiento
## Bartlett's K-squared = 0.3302, df = 3, p-value = 0.9543

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.9543) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

leveneTest(residuos ~ datos3$Tratamiento)

## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.1631 0.9201
##       24

De acuerdo al valor arrojado por la prueba de Levene, valor de p (0.9201) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

Independiencia de los residuos

Ho: Los residuos entre los tratamientos son independientes

Ha: Los residuos entre los tratamientos no son independientes

durbinWatsonTest(modelo_anova3)

##  lag Autocorrelation D-W Statistic p-value
##    1      -0.4142606       2.74274    0.17
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.136) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos

Ejercicio 4

Hipótesis Nula (H0): La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas. En otras palabras, las medias de la dureza de las tabletas en los lotes con 2%, 5% y 10% de almidón son iguales.

Hipótesis Alternativa (H1): La cantidad de almidón tiene un efecto significativo en la dureza promedio de las tabletas. Al menos uno de los niveles de almidón (2%, 5% o 10%) tiene una media de dureza diferente de las otras.

datos4<- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 4.xlsx")

modelo_anova4 <- aov (Dureza~Almidón, data =datos4)

resumen_anova4 <- summary(modelo_anova4)

print(resumen_anova4)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Almidón      2  26.73   13.36    58.1 7.16e-06 ***
## Residuals    9   2.07    0.23                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de la prueba ANOVA, obtenemos un p valor de 3.8e-06, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas. En otras palabras, las medias de la dureza de las tabletas en los lotes con 2%, 5% y 10% de almidón son iguales.

boxplot(datos4$Dureza ~ datos4$Almidón,  data = datos4, col = c("red", "blue", "green","orange"), ylab = "Dureza", xlab = "Almidón")

Método de Tuckey

TukeyHSD (modelo_anova4)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Dureza ~ Almidón, data = datos4)
## 
## $Almidón
##     diff       lwr      upr     p adj
## B-A 2.00 1.0531848 2.946815 0.0006016
## C-A 3.65 2.7031848 4.596815 0.0000052
## C-B 1.65 0.7031848 2.596815 0.0022940

plot(TukeyHSD(modelo_anova4))

Método de Duncan

library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova4, trt = "Almidón", group = T, console = T)

## 
## Study: modelo_anova4 ~ "Almidón"
## 
## Duncan's new multiple range test
## for Dureza 
## 
## Mean Square Error:  0.23 
## 
## Almidón,  means
## 
##   Dureza       std r        se Min Max   Q25  Q50   Q75
## A   4.70 0.3915780 4 0.2397916 4.3 5.2 4.450 4.65 4.900
## B   6.70 0.5163978 4 0.2397916 6.1 7.3 6.400 6.70 7.000
## C   8.35 0.5196152 4 0.2397916 7.8 9.0 8.025 8.30 8.625
## 
## Alpha: 0.05 ; DF Error: 9 
## 
## Critical Range
##         2         3 
## 0.7671348 0.8006971 
## 
## Means with the same letter are not significantly different.
## 
##   Dureza groups
## C   8.35      a
## B   6.70      b
## A   4.70      c

en este caso todos los tratamientos son significativamente diferentes.

plot(metodos.Duncan2, variation="IQR" )

Verificación de los supuestos

library(car)

residuos<-residuals(modelo_anova4) 

par(mfrow=c(1,3)) 
dplot<-density(residuos) 
plot(dplot, 
      main="Curva de densidad observada",
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, 
        col = "green", 
        border = "black") 

qqPlot(residuos, 
       pch =20, 
       main="QQ-Plot de los residuos", #
       xlab = "Cuantiles teóricos",  
       ylab="Cuantiles observados de los residuos")

## [1] 9 8

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

Prueba de Shapiro Wilk

Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)

Ha: los residuos de la variable concentración no siguen la distribución normal.

shapiro.test(residuals(modelo_anova4))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova4)
## W = 0.93444, p-value = 0.4295

Como p= a 0.4295 Por lo tanto no hay evidencia estadística suficiente para rechazar H0

Homogeneidad de varianzas

boxplot(residuos~ datos4$Almidón, 
        main = "Boxplot de Residuos por concentración de CO2", 
        xlab = "Almidón",
        col="orange",
        ylab = "Residuos")

no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

Ho: Los residuos de la variable desgaste son iguales para los ditintos niveles de concentración de CO2

Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2

library(stats)
bartlett.test(residuos ~ datos4$Almidón)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos4$Almidón
## Bartlett's K-squared = 0.25398, df = 2, p-value = 0.8807

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8807) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

leveneTest(residuos ~ datos4$Almidón)

## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.2667 0.7718
##        9

De acuerdo al valor arrojado por la prueba de Levene , valor de p ( 0.172) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

Independiencia de los residuos

Ho: Los residuos entre los tratamientos son independientes

Ha: Los residuos entre los tratamientos no son independientes

durbinWatsonTest(modelo_anova4)

##  lag Autocorrelation D-W Statistic p-value
##    1      -0.5398551      2.972222   0.194
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.168) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos

Ejercicio 5

Hipótesis Nula (H0): La fertilización nitrogenada no tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. En otras palabras, las medias de los rendimientos para los tres niveles de fertilización nitrogenada son iguales.

Hipótesis Alternativa (H1): La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los niveles de fertilización nitrogenada tiene una media de rendimiento diferente de los otros.

-¿Las diferencias muestrales hacen obvia la presencia de diferencias poblacionales?

A partir de la observación de los datos recolectados se puede llegar a inferir que efectivamente se presentan diferencias entre el rendimiento de las hectareas.

datos5 <- read_excel("C:/Users/Usuario/Downloads/diseno/Datos ejercicio 5.xlsx")

datos5

## # A tibble: 15 × 2
##    Nivel Rendimiento
##    <chr>       <dbl>
##  1 A            14.8
##  2 A            14.7
##  3 A            14.7
##  4 A            14.5
##  5 A            15.1
##  6 B            25.2
##  7 B            25.4
##  8 B            25.1
##  9 B            25.0
## 10 B            25.3
## 11 C            32.6
## 12 C            32.5
## 13 C            32.3
## 14 C            32.7
## 15 C            32.1

modelo_anova5 <- aov (Rendimiento~Nivel , data =datos5)
resumen_anova5 <- summary(modelo_anova5)

print(resumen_anova5)

##             Df Sum Sq Mean Sq F value Pr(>F)    
## Nivel        2  788.3   394.2   10132 <2e-16 ***
## Residuals   12    0.5     0.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

a partir de la prueba ANOVA, obtenemos un p valor de 5.4e-14, por lo tanto concluimos que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que La fertilización nitrogenada no tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. En otras palabras, las medias de los rendimientos para los tres niveles de fertilización nitrogenada son iguales.

boxplot(datos5$Rendimiento ~ datos5$Nivel, data = datos5, col = c("red", "blue", "green","orange","violet"), ylab = "Nivel", xlab = "Rendimiento")

En la gráfica podemos observa como el nivel 1 se distribuye en valores de 15 con un datos atipicos que corresponden a valores entre 15 y 14,7 , tambien se presenta un solo dato atipico superior que se ubica en 15,1. Con respecto al nivel 2 A se distribuye en valores de 25. Finalmente el Nivel 3 se distribuyen en valores de 32 con algunos datos atipicos que van desde 32,1 hasta 32, 7

TukeyHSD(modelo_anova5)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Rendimiento ~ Nivel, data = datos5)
## 
## $Nivel
##         diff      lwr      upr p adj
## B-A 10.43658 10.10377 10.76939     0
## C-A 17.66058 17.32777 17.99339     0
## C-B  7.22400  6.89119  7.55681     0

plot(TukeyHSD(modelo_anova4))

Método de Duncan

library(agricolae)
metodos.Duncan2 <-duncan.test(modelo_anova5, trt = "Nivel", group = T, console = T)

## 
## Study: modelo_anova5 ~ "Nivel"
## 
## Duncan's new multiple range test
## for Rendimiento 
## 
## Mean Square Error:  0.03890497 
## 
## Nivel,  means
## 
##   Rendimiento       std r         se     Min    Max    Q25    Q50    Q75
## A    14.75962 0.2037867 5 0.08820995 14.5141 15.065 14.676 14.720 14.823
## B    25.19620 0.1418986 5 0.08820995 25.0310 25.401 25.131 25.151 25.267
## C    32.42020 0.2346289 5 0.08820995 32.1110 32.669 32.256 32.460 32.605
## 
## Alpha: 0.05 ; DF Error: 12 
## 
## Critical Range
##         2         3 
## 0.2718019 0.2844986 
## 
## Means with the same letter are not significantly different.
## 
##   Rendimiento groups
## C    32.42020      a
## B    25.19620      b
## A    14.75962      c

en este caso todos los tratamientos son significativamente diferentes

plot(metodos.Duncan2, variation="IQR" )

library(car)

residuos<-residuals(modelo_anova5) 

par(mfrow=c(1,3)) 
dplot<-density(residuos) 
plot(dplot, 
      main="Curva de densidad observada",
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, 
        col = "green", 
        border = "black") 

qqPlot(residuos, 
       pch =20, 
       main="QQ-Plot de los residuos", #
       xlab = "Cuantiles teóricos",  
       ylab="Cuantiles observados de los residuos")

## [1] 15  5

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

Prueba de Shapiro Wilk

Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1)

Ha: los residuos de la variable concentración no siguen la distribución normal.

shapiro.test(residuals(modelo_anova5))

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova5)
## W = 0.97219, p-value = 0.8891

Como p= a 0.8891 Por lo tanto no hay evidencia estadística suficiente para rechazar H0

Homogeneidad de varianzas

boxplot(residuos~ datos5$Nivel, 
        main = "Boxplot de rendimiento x hectarea", 
        xlab = "Almidón",
        col="orange",
        ylab = "Residuos")

no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

Ho: Los residuos de la variable nivel son iguales para los ditintos niveles de rendimiento

Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles del tratamiento nivel

library(stats)
bartlett.test(residuos ~ datos5$Nivel)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos5$Nivel
## Bartlett's K-squared = 0.8865, df = 2, p-value = 0.6419

De acuerdo al valor arrojado por la prueba de bartlett, valor de p (0.6419) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

leveneTest(residuos ~ datos5$Nivel)

## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.5372 0.5978
##       12

De acuerdo al valor arrojado por la prueba de Levene, valor de p (0.5978) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior

Independiencia de los residuos

Ho: Los residuos entre los tratamientos son independientes

Ha: Los residuos entre los tratamientos no son independientes

durbinWatsonTest(modelo_anova5)

##  lag Autocorrelation D-W Statistic p-value
##    1      -0.4464995      2.679612   0.398
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable Tratamiento se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.39) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos

Taller #1

Julián Pérez

2023-09-03