##R EJEMPLO Comparación de cuatro Metodos de ensamble. Un equipo de mejora investiga el efecto de cuatro Metodos de ensamble A, B, C y D, sobre el tiempo de ensamble en minutos. En primera instancia, la estrategia experimental es aplicar cuatro veces los cuatro Metodos de ensamble en orden completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 3.1. Si se usa el diseño completamente al azar (DCA), se supone que, además del Metodo de ensamble, no existe ningún otro factor que influya de manera significativa sobre la variable de respuesta (tiempo de ensamble).

# install.packages("readxl")#solo una vez
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
datos <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/matrizANOVA.xlsx")
datos # para visualizar los datos
## # A tibble: 16 × 2
##    Desgaste Método
##       <dbl> <chr> 
##  1        6 A     
##  2        8 A     
##  3        7 A     
##  4        8 A     
##  5        7 B     
##  6        9 B     
##  7       10 B     
##  8        8 B     
##  9       11 C     
## 10       16 C     
## 11       11 C     
## 12       13 C     
## 13       10 D     
## 14       12 D     
## 15       11 D     
## 16        9 D
conteo_valoresmetodo <- table(datos$Método)
conteo_valoresmetodo
## 
## A B C D 
## 4 4 4 4
#install.packages("summarytools")# solo una vez
library()
summarytools::descr(datos[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## datos$Desgaste  
## N: 16  
## 
##                     Desgaste
## ----------------- ----------
##              Mean       9.75
##           Std.Dev       2.57
##               Min       6.00
##                Q1       8.00
##            Median       9.50
##                Q3      11.00
##               Max      16.00
##               MAD       2.22
##               IQR       3.00
##                CV       0.26
##          Skewness       0.68
##       SE.Skewness       0.56
##          Kurtosis      -0.11
##           N.Valid      16.00
##         Pct.Valid     100.00
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.2.3
summarytools::descr(datos[,1])
## Descriptive Statistics  
## datos$Desgaste  
## N: 16  
## 
##                     Desgaste
## ----------------- ----------
##              Mean       9.75
##           Std.Dev       2.57
##               Min       6.00
##                Q1       8.00
##            Median       9.50
##                Q3      11.00
##               Max      16.00
##               MAD       2.22
##               IQR       3.00
##                CV       0.26
##          Skewness       0.68
##       SE.Skewness       0.56
##          Kurtosis      -0.11
##           N.Valid      16.00
##         Pct.Valid     100.00
resultados_descriptivos <- aggregate(Desgaste ~ Método, data = datos, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   Método Desgaste.Min. Desgaste.1st Qu. Desgaste.Median Desgaste.Mean
## 1      A          6.00             6.75            7.50          7.25
## 2      B          7.00             7.75            8.50          8.50
## 3      C         11.00            11.00           12.00         12.75
## 4      D          9.00             9.75           10.50         10.50
##   Desgaste.3rd Qu. Desgaste.Max.
## 1             8.00          8.00
## 2             9.25         10.00
## 3            13.75         16.00
## 4            11.25         12.00
resultados_descriptivos <- aggregate(Desgaste ~ Método, data = datos, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   Método Desgaste.Min. Desgaste.1st Qu. Desgaste.Median Desgaste.Mean
## 1      A          6.00             6.75            7.50          7.25
## 2      B          7.00             7.75            8.50          8.50
## 3      C         11.00            11.00           12.00         12.75
## 4      D          9.00             9.75           10.50         10.50
##   Desgaste.3rd Qu. Desgaste.Max.
## 1             8.00          8.00
## 2             9.25         10.00
## 3            13.75         16.00
## 4            11.25         12.00
modelo_anova <- aov(Desgaste ~ Método, data = datos)
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## Método       3   69.5  23.167   9.424 0.00177 **
## Residuals   12   29.5   2.458                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
boxplot(datos$Desgaste~datos$Método,data = datos,col= c("red","blue","green","orange"),ylab="precio", xlab="zona")

#EJERCICIO 1:

#Se sabe que el dióxido de carbono tiene un efecto crítico en el crecimiento microbiológico. Cantidades pequeñas de CO2 estimulan el crecimiento de muchos microorganismos, mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este último efecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos. Se realizó un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento de Pseudomonas fragi, un corruptor de alimentos. Se administró dióxido de carbono a cinco presiones atmósfericas diferentes. La respuesta anotada es el cambio porcentual en la masa celular después de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada nivel. Se obtuvieron los siguientes datos:

#Nivel del factor

(presión en atmósferas de CO2)

library(readxl)
ejercicio2 <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/datosejercicio.xlsx")
ejercicio2 # para visualizar los datos
## # A tibble: 50 × 2
##    concentracion crecimiento
##    <chr>               <dbl>
##  1 A                    62.6
##  2 A                    59.6
##  3 A                    64.5
##  4 A                    59.3
##  5 A                    58.6
##  6 A                    64.6
##  7 A                    50.9
##  8 A                    56.2
##  9 A                    52.3
## 10 A                    62.8
## # ℹ 40 more rows

#Analisis descriptivo

#Ho= no hay diferencias en las tasas de crecimiento bacteriano

#Ha= hay diferencias en las tasas de crecimiento bacteriano

conteo_valorestasadecrecimiento <- table(ejercicio2$concentracion)
conteo_valorestasadecrecimiento
## 
##  A  B  C  D  E 
## 10 10 10 10 10

#se observan 5 tratamientos con 10 replicas cada uno

summarytools::descr(ejercicio2[,2])#
## Descriptive Statistics  
## ejercicio2$crecimiento  
## N: 50  
## 
##                     crecimiento
## ----------------- -------------
##              Mean         36.71
##           Std.Dev         15.99
##               Min          7.80
##                Q1         22.80
##            Median         36.75
##                Q3         49.90
##               Max         64.60
##               MAD         19.87
##               IQR         26.67
##                CV          0.44
##          Skewness          0.08
##       SE.Skewness          0.34
##          Kurtosis         -1.13
##           N.Valid         50.00
##         Pct.Valid        100.00

#De acuerdo a los datos observados, se puede concluir que la media del crecimiento de las colonias de bacterias es de 36.71 donde el 50% de los datos se ubica entre 7.80 y 36.75.

ejercicio2
## # A tibble: 50 × 2
##    concentracion crecimiento
##    <chr>               <dbl>
##  1 A                    62.6
##  2 A                    59.6
##  3 A                    64.5
##  4 A                    59.3
##  5 A                    58.6
##  6 A                    64.6
##  7 A                    50.9
##  8 A                    56.2
##  9 A                    52.3
## 10 A                    62.8
## # ℹ 40 more rows
re <- aggregate(crecimiento~ concentracion, data = ejercicio2, summary)

# Imprimir los resultados descriptivos
print(re)
##   concentracion crecimiento.Min. crecimiento.1st Qu. crecimiento.Median
## 1             A           50.900              56.800             59.450
## 2             B           35.200              43.025             48.000
## 3             C           27.000              31.125             38.400
## 4             D           19.200              22.650             24.250
## 5             E            7.800              11.850             17.000
##   crecimiento.Mean crecimiento.3rd Qu. crecimiento.Max.
## 1           59.144              62.750           64.600
## 2           46.040              49.800           50.900
## 3           36.450              40.150           45.500
## 4           25.470              29.425           32.700
## 5           16.440              21.025           24.900

#Análisis descriptivo por tratamiento:

#Concentración A de CO2: el promedio de crecimiento es de 59.144, el valor mínimo de creciemiento es 50.900, el valor máximo de crecimiento es 64,600, el 50% de las observaciones(5) presentaron un crecimiento entre 50.900 y 59.450 , mientras que el restante 50% (5) presento un crecimiento entre 59.450 y 64.600.

#Concentración B de CO2: el promedio de crecimiento es de 46.040 , el valor mínimo de creciemiento es 35.200, el valor máximo de crecimiento es 50.900, el 50% de las observaciones(5) presentaron un crecimiento entre 35.200 y 48.000 , mientras que el restante 50% (5) presento un crecimiento entre 48.000 y 50.900.

#Concentración C de CO2: el promedio de crecimiento es de 36.450 , el valor mínimo de creciemiento es 27.000 , el valor máximo de crecimiento es 45.500 , el 50% de las observaciones(5) presentaron un crecimiento entre 27.000 y 38.400 , mientras que el restante 50% (5) presento un crecimiento entre 38.400 y 45.500.

#Concentración D de CO2: el promedio de crecimiento es de 25.470 , el valor mínimo de creciemiento es 19.200 , el valor máximo de crecimiento es 32.700 , el 50% de las observaciones(5) presentaron un crecimiento entre 19.200 y 24.250 , mientras que el restante 50% (5) presento un crecimiento entre 24.250 y 32.700.

#Concentración E de CO2: el promedio de crecimiento es de 16.440 , el valor mínimo de creciemiento es 7.800 , el valor máximo de crecimiento es 24.900 , el 50% de las observaciones(5) presentaron un crecimiento entre 7.800 y 17.000 , mientras que el restante 50% (5) presento un crecimiento entre 17.000 y 24.900.

modelo_anova <- aov(crecimiento ~ concentracion, data = ejercicio2)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##               Df Sum Sq Mean Sq F value Pr(>F)    
## concentracion  4  11276  2819.0   101.6 <2e-16 ***
## Residuals     45   1248    27.7                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#ANOVA

#H0: El CO2 no tiene un efecto significativo sobre la tasa de crecimiento de Pseudomonas fragi.

#H1: El CO2 tiene un efecto significativo en la tasa de crecimiento de Pseudomonas fragi. #Segun los datos arrojados por el ANOVA, obtenemos un p valor de 2e-16, asi que se concluye que hay evidencia estadística suficiente para rechazar H0.

boxplot(ejercicio2$crecimiento ~ ejercicio2$concentracion, data = ejercicio2, col = c("red", "blue", "green","orange","pink"), ylab = "Precio", xlab = "Zona")

#Resumen: #Hipotesis: #Ho= no hay diferencias en las tasas de crecimiento bacteriano #Ha= hay diferencias en las tasas de crecimiento bacteriano

#La media del crecimiento de las colonias de bacterias es de 36.71 donde el valor central se ubica en 36.75 (mediana). por otro lado el valor minimo correspondio a 7.80 y el valor maximo correspode a 64.60.La curtosis de -1.13 nos indica que los datos presentan un sesgo negativo de la media.

#A partir de la informacion que arroja el ANOVA, con un p valor de 2e-16, se concluye que hay evidencia estadística suficiente para rechazar la hipotesis nula.

#Segun el diagrama de cajas y bigotes, se observa que los datos bajo los diferentes tratamientos se ubican de manera diferente, de esta manera se confirma que no hay igualdad en las tasas de crecimiento

#METODOS DE COMPARACIONES MULTIPLES #Método de Tukey

TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = crecimiento ~ concentracion, data = ejercicio2)
## 
## $concentracion
##        diff       lwr        upr     p adj
## B-A -13.104 -19.79726  -6.410743 0.0000133
## C-A -22.694 -29.38726 -16.000743 0.0000000
## D-A -33.674 -40.36726 -26.980743 0.0000000
## E-A -42.704 -49.39726 -36.010743 0.0000000
## C-B  -9.590 -16.28326  -2.896743 0.0016733
## D-B -20.570 -27.26326 -13.876743 0.0000000
## E-B -29.600 -36.29326 -22.906743 0.0000000
## D-C -10.980 -17.67326  -4.286743 0.0002622
## E-C -20.010 -26.70326 -13.316743 0.0000000
## E-D  -9.030 -15.72326  -2.336743 0.0034171

#Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre las tasas de crecimiento microbiano A-C una diferencia de -22.694 cuyo intervalo de confianza del 95% para la diferencia es (-29,39, -16) y un p-valor de 0,000, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de crecimiento microbiano son iguales.

#También se estima que existen diferencia significativas entre las tasas de recimiento microbiano A-E con una diferencia de -42.704 cuyo intervalo de confianza del 95% para la diferencia es (-49,39, -36) y un p-valor de 0.000, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que las tasas de crecimiento microbiano en los dos tratamiento son iguales.

#Para la comparación de las demás tratamientos(tasas de crecimiento microbiano) no resulto significativo.

plot(TukeyHSD(modelo_anova))

#Lo mencionado anteriormente se confirma con la grafica de la diferencia de medias(intervalos de confianza) en los distintos niveles del método.

#Duncan:

library(agricolae)
## Warning: package 'agricolae' was built under R version 4.2.3
metodos.Duncan <-duncan.test(modelo_anova, trt = "concentracion", group = T, console = T)
## 
## Study: modelo_anova ~ "concentracion"
## 
## Duncan's new multiple range test
## for crecimiento 
## 
## Mean Square Error:  27.74374 
## 
## concentracion,  means
## 
##   crecimiento      std  r       se  Min  Max    Q25   Q50    Q75
## A      59.144 4.809646 10 1.665645 50.9 64.6 56.800 59.45 62.750
## B      46.040 5.052656 10 1.665645 35.2 50.9 43.025 48.00 49.800
## C      36.450 5.933942 10 1.665645 27.0 45.5 31.125 38.40 40.150
## D      25.470 4.483315 10 1.665645 19.2 32.7 22.650 24.25 29.425
## E      16.440 5.894480 10 1.665645  7.8 24.9 11.850 17.00 21.025
## 
## Alpha: 0.05 ; DF Error: 45 
## 
## Critical Range
##        2        3        4        5 
## 4.744378 4.989340 5.150042 5.266244 
## 
## Means with the same letter are not significantly different.
## 
##   crecimiento groups
## A      59.144      a
## B      46.040      b
## C      36.450      c
## D      25.470      d
## E      16.440      e

#Segun los datos arrojados, se entiende que los tratamientos que comparten al menos una letra en la columna grupos no son significativamente diferentes entre sí. Estos tratamientos forman grupos estadísticamente similares. De esta manera si un tratamiento tiene una letra diferente de otro, significa que hay una diferencia estadísticamente significativa en sus medias, para nuestro caso (concentraciones de CO2) todos los tratamientos son significativamente diferentes.

plot(metodos.Duncan, variation="IQR" )

#supuestos

library(car)
## Warning: package 'car' was built under R version 4.2.3
## Loading required package: carData
residuos<-residuals(modelo_anova) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 17 28

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

#Sin embargo, para confirmar de manera más sólida que los residuos siguen una distribución normal, se realiza la prueba de Shapiro-Wilk.Para la prueba Shapiro-Wilk para ratificar el cumplimiento del supuesto de normalidad de los residuos, evaluando las hipótesis:

#Ho= Los residuos de la variable (concentración) se distribuyen normalmente con media cero y varianza constante ei N(0,1) #Ha= Ha: los residuos de la variable (concentración) no siguen la distribución normal.

shapiro.test(residuals(modelo_anova)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova)
## W = 0.96274, p-value = 0.1158

#Por lo tanto no hay evidencia estadística suficiente para rechazar H0,es decir se acepta la hipótesis nula, debido a que el valor de p (p-value = 0.1158) es mayor al valor del nivel de significancia (alfa=0.05), por lo que se concluye que los residuos de la variable tasa de crecimiento microbiano están normalmente distribuidos con media cero y varianza constante.

#Homogeneidad de varianzas

boxplot(residuos ~ ejercicio2$concentracion, 
        main = "Boxplot de tasa de crecimiento microbiano", 
        xlab = "crecmiento",
        col="orange",
        ylab = "concentracion")

#En la siguiente gráfica, se representan los valores predichos por el modelo de tasa de crecimiento en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica, no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

#En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas (entre más dispersos menos correlacionados)

#Sin embargo, para validar de manera más sólida la homogeneidad de varianzas, se llevó a cabo la prueba de bartlett y la prueba de Levene. #Donde las hipotesis correspondientes son:

#Ho:Los residuos de la variable (concentracion) son iguales para los ditintos niveles de concentración de CO2 #Ha:Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2

#Es decir, #Ho: σ2A=σ2B=σ2C=σ2D=σ2

#Ha: σ2i=σ2j para i,j∈{A,B,C,D} e i≠j

library(stats)
bartlett.test(residuos ~ ejercicio2$concentracion)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by ejercicio2$concentracion
## Bartlett's K-squared = 1.0671, df = 4, p-value = 0.8995

#De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8995) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ ejercicio2$concentracion)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4   0.192 0.9414
##       45

#De acuerdo al valor arrojado por la prueba de levene, valor de p (0.9414) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova) 
##  lag Autocorrelation D-W Statistic p-value
##    1    -0.001687377      1.947055   0.478
##  Alternative hypothesis: rho != 0

#Puesto que el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos.

#Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa.

#Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.458) es superior al nivel de significancia de 5% (α=0.05) por lo que se concluye que existe independencia de los residuos.

#Ejercicio 2

#Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.

#H0: No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. #H1): Existen diferencias significativas en la efectividad de al menos dos de las marcas de spray para matar moscas.

#modelo estadístico Yij = µ + τi + εij = Donde: Yij es el porcentaje de moscas muertas en la réplica j del grupo i. µ es la media general de todos los datos combinados. τi es el efecto del grupo i (i = 1, 2, 3 representando las tres marcas de spray). εij es el error aleatorio asociado con cada observación.

ejercicio3 <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/ejercicio 2.xlsx")
ejercicio3
## # A tibble: 18 × 2
##    marca replica
##    <chr>   <dbl>
##  1 A          72
##  2 A          65
##  3 A          67
##  4 A          75
##  5 A          62
##  6 A          73
##  7 B          55
##  8 B          59
##  9 B          68
## 10 B          70
## 11 B          53
## 12 B          50
## 13 C          64
## 14 C          74
## 15 C          61
## 16 C          58
## 17 C          51
## 18 C          69
conteo_Replicas <-table(ejercicio3$marca)
conteo_Replicas
## 
## A B C 
## 6 6 6

#cada tratamiento en este caso cada marca tiene 6 replicas

summarytools::descr(ejercicio3)
## Non-numerical variable(s) ignored: marca
## Descriptive Statistics  
## ejercicio3$replica  
## N: 18  
## 
##                     replica
## ----------------- ---------
##              Mean     63.67
##           Std.Dev      8.01
##               Min     50.00
##                Q1     58.00
##            Median     64.50
##                Q3     70.00
##               Max     75.00
##               MAD      8.90
##               IQR     11.50
##                CV      0.13
##          Skewness     -0.25
##       SE.Skewness      0.54
##          Kurtosis     -1.33
##           N.Valid     18.00
##         Pct.Valid    100.00

Segun los datos arrojados, podemos concluir que la media la media de la efectividad de las marcas de spray es de 63.67 donde el 50% de los datos se ubica entre 58.00 y 64.50. Respecto al comportamiento del 50% restante se ubico entre 64.50 y 75.00.La curtosis de -1.33 con lo que se puede inferir que datos presentan un sesgo negativo.

resul <- aggregate(replica~ marca,data = ejercicio3, summary)
resul
##   marca replica.Min. replica.1st Qu. replica.Median replica.Mean
## 1     A     62.00000        65.50000       69.50000     69.00000
## 2     B     50.00000        53.50000       57.00000     59.16667
## 3     C     51.00000        58.75000       62.50000     62.83333
##   replica.3rd Qu. replica.Max.
## 1        72.75000     75.00000
## 2        65.75000     70.00000
## 3        67.75000     74.00000

#Análisis descriptivo:

#Marca A : el promedio de efectividad de los spary contra moscas 69.00000 , el valor mínimo de efectividad es 62.00000, el valor máximo de efectividad es 75.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 62.00000 y 69.50000 , mientras que el restante 50% (3) presento una efectividad de entre 69.50000 y 75.00000.

#Marca B : el promedio de efectividad de los spary contra moscas 59.16667 , el valor mínimo de efectividad es 50.00000, el valor máximo de efectividad es 70.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 50.00000 y 57.00000 , mientras que el restante 50% (3) presento una efectividad de entre 57.00000 y 70.00000.

#Marca C : el promedio de efectividad de los spary contra moscas 62.83333 , el valor mínimo de efectividad es 51.00000, el valor máximo de efectividad es 74.00000, el 50% de las observaciones(3) presentaron una efectividad de entre 51.00000 y 62.50000 , mientras que el restante 50% (3) presento una efectividad de entre 62.50000 y 74.00000.

modelo_anova<-aov(replica~marca,data=ejercicio3)
# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## marca        2  296.3  148.17   2.793 0.0931 .
## Residuals   15  795.7   53.04                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#¿Existe diferencia entre la efectividad promedio de los productos en spray? y ¿Hay algún spray mejor? Argumente su respuesta.

Dado que el P-valor arrojado por el ANOVa es de 0.0931 se concluye que hay evidencia estadistica suficiente para rechazar Ha por lo tanto No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas.

ejercicio4= c(72,65,67,75,62,73,55,59,68,70,53,50,64,74,61,58,51,69)
intervalo_confianza <- t.test(ejercicio4, conf.level = 0.95)
intervalo_confianza
## 
##  One Sample t-test
## 
## data:  ejercicio4
## t = 33.702, df = 17, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  59.68105 67.65228
## sample estimates:
## mean of x 
##  63.66667

#Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas #Para los datos observados el intervalo de confianza corresponde a los valores de 59.68105 67.65228 con df=17

boxplot(ejercicio3$replica ~ ejercicio3$marca, data = ejercicio3, col = c("red", "blue", "green","violet
                                                                "), ylab = "Efectividad", xlab = "Marca")

#Segun el diagrama de caja y bigotes, la caja correspondiente a la marca A, los datos alcanzan valores de 65 hasta casi 75 y los bigotes de entre 75 y casi 65, la caja correspondiente a la marca B presenta valores desde 55 hasta casi 70 y los bigotes van de 50 a 70 , finalmente la caja correspondiente a la marca C presenta valores de entre 70 y 60 con datos con bigotes en 50 a 75.

#Resumen:

#H0:No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. #H1: Existen diferencias significativas en la efectividad entre al menos dos de las marcas de spray para matar moscas. #modelo estadístico Yij = µ + τi + εij #Yij es el porcentaje de moscas muertas en la réplica j del grupo i. #¡µ es la media general de todos los datos combinados. #τi es el efecto del grupo i (i = 1, 2, 3 representando las tres marcas de spray). #εij es el error aleatorio asociado con cada observación.

#la media de la efectividad de los spary contra moscas es de 36,71 donde el valor central se ubica en 36,75 (mediana). por otro lado el valor minimo correspondio a 50.0 y el valor maximo correspode a 75.00.Finalmente la curtosis de -1.33 nos indica que los datos presentsan un sesgo negativo de la media

#¿Existe diferencia entre la efectividad promedio de los productos en spray? #¿Hay algún spray mejor? Argumente su respuesta.

#Como el P-valor es de 0.0931. Se concluye que hay evidencia estadistica suficiente para determinar que se rechaza H1, es decir, No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. por lo tanto da igual el tipo de spray utilizado pues sus resultados no son estadisticamente diferentes.

#Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas. #Para los datos observados el intervalo de confianza corresponde a valores de 59.68105 67.65228 con df=17

#Ejercicio 3 #En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO3) y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con sal común y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos. Los datos se muestran en la siguiente tabla:

#¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental? Los experimentos deben organizarse de manera aleatoria. El obejeto en este caso frijoles, deben contar con caracteristicas homogeneas para asi asegurar resultados reales y disminuir errores.

#Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones #Alcalinidad del agua: Se debe asegurar un ph ideal para no afectar la calidad de los frijoles. #Tiempo: Se debe contabilizar y mantener los frijoles en agua durante el mismo tiempo para cada tratamiento. #Temperatura: La temperatura del agua debe mantenerse constante para cada tratamiento. #Cantidad: Se debe utilizar la misma cantidad de agua y frijoles para cada tratamiento.

#Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.

#H0:Las medias de los tiempos de cocción para los cuatro tratamientos son iguales. #H1:Al menos una de las medias de los tiempos de cocción es diferente de las demás.

ejercicio4 <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/ejercicio3.xlsx")
ejercicio4
## # A tibble: 28 × 2
##    tratamiento tiempo
##    <chr>        <dbl>
##  1 t              213
##  2 t              214
##  3 t              204
##  4 t              208
##  5 t              212
##  6 t              200
##  7 t              207
##  8 a               76
##  9 a               85
## 10 a               74
## # ℹ 18 more rows
conteo_Control <- table(ejercicio4$tratamiento)
conteo_Control
## 
## a b c t 
## 7 7 7 7
summarytools::descr(ejercicio4)
## Non-numerical variable(s) ignored: tratamiento
## Descriptive Statistics  
## ejercicio4$tiempo  
## N: 28  
## 
##                     tiempo
## ----------------- --------
##              Mean   108.54
##           Std.Dev    59.48
##               Min    55.00
##                Q1    70.50
##            Median    82.00
##                Q3   146.00
##               Max   214.00
##               MAD    18.53
##               IQR    46.75
##                CV     0.55
##          Skewness     1.01
##       SE.Skewness     0.44
##          Kurtosis    -0.87
##           N.Valid    28.00
##         Pct.Valid   100.00
res <- aggregate(tiempo ~ tratamiento,data = ejercicio4, summary)
modelo_anova3 <- aov(tiempo ~ tratamiento, data = ejercicio4)


# Resumen del ANOVA
resumen_anova3 <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova3)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## marca        2  296.3  148.17   2.793 0.0931 .
## Residuals   15  795.7   53.04                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales. #H0:Las medias de los tiempos de cocción para los cuatro tratamientos son iguales. #H1:Al menos una de las medias de los tiempos de cocción es diferente de las demás.

#A partir de la prueba ANOVA, obtenemos un p valor de 0.0931, asi que se concluye que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que Las medias de los tiempos de cocción para los cuatro tratamientos son iguales.

boxplot(ejercicio4$tiempo ~ ejercicio4$tratamiento, data = ejercicio4, col = c("red", "blue", "green","orange","violet"), ylab = "tiempo", xlab = "tratamiento")

#En la gráfica se observa como los niveles de tratamientos no presentan cambios muy notorios entre ellos, pero respecto al control, se observa un cambio considerable. #TUKEY:

TukeyHSD(modelo_anova3)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = tiempo ~ tratamiento, data = ejercicio4)
## 
## $tratamiento
##           diff          lwr       upr     p adj
## b-a -17.428571 -24.07568671 -10.78146 0.0000010
## c-a   6.714286   0.06717044  13.36140 0.0471059
## t-a 129.428571 122.78145615 136.07569 0.0000000
## c-b  24.142857  17.49574187  30.78997 0.0000000
## t-b 146.857143 140.21002758 153.50426 0.0000000
## t-c 122.714286 116.06717044 129.36140 0.0000000

#b-a: La diferencia estimada entre el grupo b y el grupo a es de -17.428571. El intervalo de confianza del 95% para esta diferencia va desde -24.07568671 hasta -10.78146. El valor p es muy pequeño (0.0000010), lo que sugiere una diferencia estadísticamente significativa entre estos dos grupos.

#t-a: La diferencia estimada entre el grupo t y el grupo a es de 129.428571. El intervalo de confianza del 95% para esta diferencia va desde 122.78145615 hasta 136.07569. El valor p es muy pequeño (0.0000000), lo que sugiere una diferencia estadísticamente significativa entre estos dos grupos.

#t-b: La diferencia estimada entre el grupo t y el grupo b es de 146.857143. El intervalo de confianza del 95% para esta diferencia va desde 140.21002758 hasta 153.50426. El valor p es muy pequeño (0.0000000), lo que sugiere una diferencia estadísticamente significativa entre estos dos grupos.

plot(TukeyHSD(modelo_anova3))

#Lo mencionado anteriormente se confirma con la grafica de la diferencia de medias(intervalos de confianza) en los distintos niveles del método.

#Duncan

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova3, trt = "tratamiento", group = T, console = T)
## 
## Study: modelo_anova3 ~ "tratamiento"
## 
## Duncan's new multiple range test
## for tiempo 
## 
## Mean Square Error:  20.32143 
## 
## tratamiento,  means
## 
##      tiempo      std r       se Min Max   Q25 Q50   Q75
## a  78.85714 4.180453 7 1.703837  74  85  75.5  78  82.0
## b  61.42857 4.157609 7 1.703837  55  67  59.0  63  63.5
## c  85.57143 4.503967 7 1.703837  79  92  83.0  85  88.5
## t 208.28571 5.122313 7 1.703837 200 214 205.5 208 212.5
## 
## Alpha: 0.05 ; DF Error: 24 
## 
## Critical Range
##        2        3        4 
## 4.973148 5.223301 5.383910 
## 
## Means with the same letter are not significantly different.
## 
##      tiempo groups
## t 208.28571      a
## c  85.57143      b
## a  78.85714      c
## b  61.42857      d

#De la salida anterior los tratamientos que comparten al menos una letra en la columna grupos se consideran no significativamente diferentes entre sí. Estos tratamientos forman grupos estadísticamente similares. Mientras que los tratamientos que tienen letras diferentes en la columna grupos se consideran significativamente diferentes entre sí.Para este caso los tratamientos(tiempos de coccion) A.B.C y T, no comparten letra por lo tanto se consideran significativamente diferentes. #Lo cual se observa en la siguiente gráfica

plot(metodos.Duncan, variation="IQR" )

library(car)
## Loading required package: carData
residuos<-residuals(modelo_anova3) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1]  6 27

boxplot(residuos, col = c("red"), ylab = "tiempo", main="Box-plot  tratamientos coccion")

#Sin embargo, para confirmar de manera más sólida que los residuos siguen una distribución normal, se realiza la prueba de Shapiro-Wilk.

#Para la prueba Shapiro-Wilk para ratificar el cumplimiento del supuesto de normalidad de los residuos, evaluando las hipótesis:

#H0:Los residuos de la variable (Tratamiento) se distribuyen normalmente con media cero y varianza constante ei N(0,1) #H1:los residuos de la variable (Tratamiento) no siguen la distribución normal.

shapiro.test(residuals(modelo_anova3)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova3)
## W = 0.95991, p-value = 0.3469

#Por lo tanto no hay evidencia estadística suficiente para rechazar H0,es decir se acepta la hipótesis nula, debido a que el valor de p (p-value = 0.3469 ) es mayor al valor del nivel de significancia (alfa=0.05), por lo que se concluye que los residuos de la variable tiempo de coccion están normalmente distribuidos con media cero y varianza constante. #Homogeneidad:

boxplot(residuos ~ ejercicio4$tratamiento, 
        main = "Boxplot de Residuos por tiempo coccion", 
        xlab = "tratamiento",
        col="orange",
        ylab = "Residuos")

#se puede apreciar gráficamente que la dispersión de los residuos para cada tratamiento no presenta diferencias significativas entre si

#En la siguiente gráfica, se representan los valores predichos por el modelo para el tiempo de coccion en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica, no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

library(stats)
bartlett.test(residuos ~ ejercicio4$tratamiento) #Esta prueba requiere que el diseño se balanceado (el número de repeticiones debe ser igual para cada tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by ejercicio4$tratamiento
## Bartlett's K-squared = 0.3302, df = 3, p-value = 0.9543

#De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.9543) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ ejercicio4$tratamiento)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.1631 0.9201
##       24

#De acuerdo al valor arrojado por la prueba de levene, valor de p (0.9201) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova3) 
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.4142606       2.74274    0.17
##  Alternative hypothesis: rho != 0

#Puesto que el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos.Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa. Al realizar la prueba de independencia de residuos para la variable coccion se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.15) es superior al nivel de significancia de 5% (α=0.05) por lo que se concluye que existe independencia de los residuos.

#Ejercicio 4 #Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón, y que las cantidades de almidón a aprobar fueran 2%, 5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados:

#H0: La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas. #H1: La cantidad de almidón tiene un efecto significativo en la dureza promedio de las tabletas.

library(readxl)
ejercicio5 <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/ejercicio 4.xlsx")

#H0:La cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas, Las medias no difieren. #H1:La cantidad de almidón tiene un efecto significativo en la dureza promedio de las tabletas. Al menos una media difiere.

modelo_anova4 <- aov (dureza~almidon , data =ejercicio5)
resumen_anova4 <- summary(modelo_anova4)

print(resumen_anova4)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## almidon      2  26.73   13.36    58.1 7.16e-06 ***
## Residuals    9   2.07    0.23                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#a partir del ANOVA, se obtiene un p valor de 7.16e-06, de esta manera se concluye que hay evidencia estadística suficiente que permite rechazar H0: la cantidad de almidón no tiene un efecto significativo en la dureza promedio de las tabletas,las medias de la dureza de las tabletas de almidón son iguales.

boxplot(ejercicio5$dureza ~ ejercicio5$almidon,  data = ejercicio5, col = c("red", "blue", "green","orange"), ylab = "Dureza", xlab = "Almidón")

#Tukey

TukeyHSD(modelo_anova4)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = dureza ~ almidon, data = ejercicio5)
## 
## $almidon
##     diff       lwr      upr     p adj
## B-A 2.00 1.0531848 2.946815 0.0006016
## C-A 3.65 2.7031848 4.596815 0.0000052
## C-B 1.65 0.7031848 2.596815 0.0022940

#Segun los datos arrojados, se puede concluir que existen diferencia significativas entre todas los tratamientos pues los valores P obtenidos se situan por debajo de 0,05 con un nivel de confianza del 95%.

plot(TukeyHSD(modelo_anova4))

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova4, trt = "almidon", group = T, console = T)
## 
## Study: modelo_anova4 ~ "almidon"
## 
## Duncan's new multiple range test
## for dureza 
## 
## Mean Square Error:  0.23 
## 
## almidon,  means
## 
##   dureza       std r        se Min Max   Q25  Q50   Q75
## A   4.70 0.3915780 4 0.2397916 4.3 5.2 4.450 4.65 4.900
## B   6.70 0.5163978 4 0.2397916 6.1 7.3 6.400 6.70 7.000
## C   8.35 0.5196152 4 0.2397916 7.8 9.0 8.025 8.30 8.625
## 
## Alpha: 0.05 ; DF Error: 9 
## 
## Critical Range
##         2         3 
## 0.7671348 0.8006971 
## 
## Means with the same letter are not significantly different.
## 
##   dureza groups
## C   8.35      a
## B   6.70      b
## A   4.70      c

#Todos los tratamientos son significativamente diferentes.

plot(metodos.Duncan, variation="IQR" )

#Supuestos:

library(car)
residuos<-residuals(modelo_anova4) 

par(mfrow=c(1,3)) 
dplot<-density(residuos) 
plot(dplot, 
      main="Curva de densidad observada",
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, 
        col = "green", 
        border = "black") 

qqPlot(residuos, 
       pch =20, 
       main="QQ-Plot de los residuos", #
       xlab = "Cuantiles teóricos",  
       ylab="Cuantiles observados de los residuos")
## [1] 9 8

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

#Prueba de Shapiro Wilk

#Ho: Los residuos de la variable (dureza) se distribuyen normalmente con media cero y varianza constante ei N(0,1) #H1: los residuos de la variable (dureza) no siguen la distribución normal.

shapiro.test(residuals(modelo_anova4))
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova4)
## W = 0.93444, p-value = 0.4295

#Como p= a 0.4295 Por lo tanto no hay evidencia estadística suficiente para rechazar H0 #Homogeneidad:

boxplot(residuos~ ejercicio5$almidon, 
        main = "Boxplot de Residuos dureza", 
        xlab = "Almidón",
        col="orange",
        ylab = "Residuos")

#No se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

#se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

#Ho: Los residuos de la variable dureza son iguales para las ditintos cantidades de almidon

#Ha: Existen por lo menos dos varianzas distintas para los ditintos cantidades de almidon

library(stats)
bartlett.test(residuos ~ ejercicio5$almidon)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by ejercicio5$almidon
## Bartlett's K-squared = 0.25398, df = 2, p-value = 0.8807

#De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8807) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión que en el item anterior

durbinWatsonTest(modelo_anova4)
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.5398551      2.972222   0.176
##  Alternative hypothesis: rho != 0

#En la prueba de independencia de residuos para la variable dureza se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.188) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos

#Ejercicio 5

ejercicio6 <- read_excel("D:/Informacion Usuario/Documents/diseno experimental/ejercicio5.xlsx")
modelo_anova5 <- aov(concentracion ~ niveles, data = ejercicio6)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova5)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## niveles      2  788.3   394.2   10118 <2e-16 ***
## Residuals   12    0.5     0.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#H0:La fertilización nitrogenada no tiene un efecto significativo en el rendimiento de toneladas por hectárea de pasto, Las medias no varían.

#H1: La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos una de las medias varian.

#¿Las diferencias muestrales hacen obvia la presencia de diferencias poblacionales? Segun los datos arrojados por el ANOVA ha resultado significativo valor F = 10118 y p-valor 2e-16, es menor que 0.05, no hay evidencia estadistica suficiente para considerar que los promedios son iguales, por esto se rechaza H0 por lo que se supone que existen por lo menos dos métodos de fertilizacion nitrogenada, con diferencias significativas en el promedio de rendimiento.

boxplot(ejercicio6$concentracion ~ ejercicio6$niveles, data = ejercicio6, col = c("red", "blue", "green","orange","violet"), ylab = "Nivel", xlab = "Rendimiento")

#En la gráfica se logra observar como el nivel A se presenta valores de 15 y los bigotes alcanzan valores de entre 15 y 14,7 ,se presenta un solo dato extremo en la parte superior que se ubica en 15,1. Con respecto al nivel B se distribuye en valores de 25. Finalmente el Nivel 3 se distribuye en valores de 32.

TukeyHSD(modelo_anova5)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = concentracion ~ niveles, data = ejercicio6)
## 
## $niveles
##         diff      lwr      upr p adj
## B-A 10.43658 10.10355 10.76961     0
## C-A 17.66038 17.32735 17.99341     0
## C-B  7.22380  6.89077  7.55683     0

#Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre los métodos de ensamble A y B con una diferencia de 10,436 cuyo intervalo de confianza del 95% para la diferencia es (10.10, 10.76) y un p-valor de 0, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de fertilizacion en los dos tratamiento son iguales.

#También se estima que existen diferencia significativas entre los métodos de ensamble A Y C con una diferencia de 17,66 cuyo intervalo de confianza del 95% para la diferencia es (17,32, 17,99) y un p-valor de 0, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de fertilizacion en los dos tratamiento son iguales.

#Para la comparación de los demás tratamientos(fertilizacion nitrogenada) no resulto significativo.

plot(TukeyHSD(modelo_anova5))

#Duncan

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova5, trt = "niveles", group = T, console = T)
## 
## Study: modelo_anova5 ~ "niveles"
## 
## Duncan's new multiple range test
## for concentracion 
## 
## Mean Square Error:  0.03895657 
## 
## niveles,  means
## 
##   concentracion       std r         se     Min    Max    Q25    Q50    Q75
## A      14.75962 0.2037867 5 0.08826842 14.5141 15.065 14.676 14.720 14.823
## B      25.19620 0.1418986 5 0.08826842 25.0310 25.401 25.131 25.151 25.267
## C      32.42000 0.2349585 5 0.08826842 32.1100 32.669 32.256 32.460 32.605
## 
## Alpha: 0.05 ; DF Error: 12 
## 
## Critical Range
##         2         3 
## 0.2719821 0.2846872 
## 
## Means with the same letter are not significantly different.
## 
##   concentracion groups
## C      32.42000      a
## B      25.19620      b
## A      14.75962      c

#De la salida anterior los tratamientos que comparten al menos una letra en la columna grupos se consideran no significativamente diferentes entre sí. Estos tratamientos forman grupos estadísticamente similares. #Lo cual se observa en la siguiente gráfica

plot(metodos.Duncan, variation="IQR" )

library(car)
## Loading required package: carData
residuos<-residuals(modelo_anova5) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 15  5

boxplot(residuos, col = c("red"), ylab = "concentracion", main="Box-plot fertilizacion")

#Prueba de Shapiro Wilk

#Ho: Los residuos de la variable concentración se distribuyen normalmente con media cero y varianza constante ei N(0,1) #H1: los residuos de la variable concentración no siguen la distribución normal.

shapiro.test(residuals(modelo_anova5)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova5)
## W = 0.97231, p-value = 0.8906

#Por lo tanto no hay evidencia estadística suficiente para rechazar H0, es decir se acepta la hipótesis nula, debido a que el valor de p (p-value = 0,89 ) es mayor al valor del nivel de significancia (alfa=0.05), por lo que se concluye que los residuos de la variable fertilizacion están normalmente distribuidos con media cero y varianza constante.

boxplot(residuos ~ ejercicio6$niveles, 
        main = "Boxplot de Residuos concentracion", 
        xlab = "niveles",
        col="orange",
        ylab = "Residuos")

#no se observa ninguna tendencia aparente en la distribución de los valores, lo que sugiere que no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

#En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas

#Ho: Los residuos de la variable nivel son iguales para los ditintos niveles de concentracion #Ha: Existen por lo menos dos varianzas distintas para los ditintos niveles del tratamiento #En la grafica anterior se observan dispersos los puntos sin seguir un patron, esto es un indicio de homogeneidad de varianzas (entre más dispersos menos correlacionados)

library(stats)
bartlett.test(residuos ~ ejercicio6$niveles)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by ejercicio6$niveles
## Bartlett's K-squared = 0.8907, df = 2, p-value = 0.6406

#De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.6406) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ ejercicio6$niveles)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2   0.539 0.5968
##       12

#De acuerdo al valor arrojado por la prueba de levene, valor de p (0,5968) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova5) 
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.4463569       2.67855    0.35
##  Alternative hypothesis: rho != 0

#Puesto que el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos. Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa.Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0,402) es superior al nivel de significancia de 5% (α=0.05) por lo que se concluye que existe independencia de los residuos.