Ejemplo 1

Comparación de cuatro Metodos de ensamble. Un equipo de mejora investiga el efecto de cuatro Metodos de ensamble A, B, C y D, sobre el tiempo de ensamble en minutos. En primera instancia, la estrategia experimental es aplicar cuatro veces los cuatro Metodos de ensamble en orden completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 3.1. Si se usa el diseño completamente al azar (DCA), se supone que, además del Metodo de ensamble, no existe ningún otro factor que influya de manera significativa sobre la variable de respuesta (tiempo de ensamble).

datos <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/matrizANOVA.xlsx")
print(datos)
## # A tibble: 16 × 2
##    Desgaste Metodo
##       <dbl> <chr> 
##  1        6 A     
##  2        8 A     
##  3        7 A     
##  4        8 A     
##  5        7 B     
##  6        9 B     
##  7       10 B     
##  8        8 B     
##  9       11 C     
## 10       16 C     
## 11       11 C     
## 12       13 C     
## 13       10 D     
## 14       12 D     
## 15       11 D     
## 16        9 D

Análisis Descriptivo

conteo_valoresmetodo <- table(datos$Metodo)
conteo_valoresmetodo
## 
## A B C D 
## 4 4 4 4
library(summarytools)
summarytools::descr(datos[,1])
## Descriptive Statistics  
## datos$Desgaste  
## N: 16  
## 
##                     Desgaste
## ----------------- ----------
##              Mean       9.75
##           Std.Dev       2.57
##               Min       6.00
##                Q1       8.00
##            Median       9.50
##                Q3      11.00
##               Max      16.00
##               MAD       2.22
##               IQR       3.00
##                CV       0.26
##          Skewness       0.68
##       SE.Skewness       0.56
##          Kurtosis      -0.11
##           N.Valid      16.00
##         Pct.Valid     100.00
# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(Desgaste ~ Metodo, data = datos, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   Metodo Desgaste.Min. Desgaste.1st Qu. Desgaste.Median Desgaste.Mean
## 1      A          6.00             6.75            7.50          7.25
## 2      B          7.00             7.75            8.50          8.50
## 3      C         11.00            11.00           12.00         12.75
## 4      D          9.00             9.75           10.50         10.50
##   Desgaste.3rd Qu. Desgaste.Max.
## 1             8.00          8.00
## 2             9.25         10.00
## 3            13.75         16.00
## 4            11.25         12.00

ANOVA

# Realizar el ANOVA
modelo_anova <- aov(Desgaste ~ Metodo, data = datos)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## Metodo       3   69.5  23.167   9.424 0.00177 **
## Residuals   12   29.5   2.458                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Crear el diagrama de cajas por categorías
boxplot(datos$Desgaste ~ datos$Metodo, data = datos, col = c("coral1", "dodgerblue", "aquamarine","orchid1"), ylab = "Precio", xlab = "Zona")

Ejercicio 1

Se sabe que el dióxido de carbono tiene un efecto crítico en el crecimiento microbiológico. Cantidades pequeñas de CO2 estimulan el crecimiento de muchos microorganismos, mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este último efecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos. Se realizó un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento de Pseudomonas fragi, un corruptor de alimentos. Se administró dióxido de carbono a cinco presiones atmósfericas diferentes. La respuesta anotada es el cambio porcentual en la masa celular después de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada nivel. Se obtuvieron los siguientes datos:

Nivel del factor (presión en atmósferas de CO2)

datos2 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio1.xlsx")
print(datos2)
## # A tibble: 50 × 2
##    Crecimiento Presion
##          <dbl> <chr>  
##  1        62.6 A      
##  2        59.6 A      
##  3        64.5 A      
##  4        59.3 A      
##  5        58.6 A      
##  6        64.6 A      
##  7        50.9 A      
##  8        56.2 A      
##  9        52.3 A      
## 10        62.8 A      
## # ℹ 40 more rows

Análisis Descriptivo

A continuación el número de observaciones por tratamiento:

conteo_valoresmetodo2 <- table(datos2$Presion)
conteo_valoresmetodo2
## 
##  A  B  C  D  E 
## 10 10 10 10 10

Como el número de observaciones por tratamiento es el mismo, se dice que el diseño es balanceado.

summarytools::descr(datos2[,1])
## Descriptive Statistics  
## datos2$Crecimiento  
## N: 50  
## 
##                     Crecimiento
## ----------------- -------------
##              Mean         36.71
##           Std.Dev         15.99
##               Min          7.80
##                Q1         22.80
##            Median         36.75
##                Q3         49.90
##               Max         64.60
##               MAD         19.87
##               IQR         26.67
##                CV          0.44
##          Skewness          0.08
##       SE.Skewness          0.34
##          Kurtosis         -1.13
##           N.Valid         50.00
##         Pct.Valid        100.00

Con estos resultados podemos concluir que: el promedio de crecimiento es de 36.71, con una desviación estándar de 15.99, el valor mínimo de crecimiento es de 7.80, el valor máximo por su parte es de 64.60. El 50% de las observaciones (25), presentaron un crecimiento entre 7.80 y 36.75. El 50% restante presentó un crecimiento entre 36.75 y 64.60. El coeficiente de asimetría fue de 0.08, lo que sugiere que la asimetría es positiva leve en la distribución de los datos. El coeficiente de curtosis fue de -1.13, lo que indica que la distribución es platicúltica.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos2 <- aggregate(Crecimiento ~ Presion, data = datos2, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos2)
##   Presion Crecimiento.Min. Crecimiento.1st Qu. Crecimiento.Median
## 1       A           50.900              56.800             59.450
## 2       B           35.200              43.025             48.000
## 3       C           27.000              31.125             38.400
## 4       D           19.200              22.650             24.250
## 5       E            7.800              11.850             17.000
##   Crecimiento.Mean Crecimiento.3rd Qu. Crecimiento.Max.
## 1           59.140              62.750           64.600
## 2           46.040              49.800           50.900
## 3           36.450              40.150           45.500
## 4           25.470              29.425           32.700
## 5           16.440              21.025           24.900

Para el método A: el promedio de crecimiento es de 59.140, el valor mínimo de crecimiento es 50.900, el valor máximo de crecimiento es de 64.600, el 50% de las observaciones(5) presentaron un crecimiento entre 50.900 y 59.450, mientras que el restante 50% (5) presento un crecimiento entre 59.450 y 64.600.

Para el método B: el promedio de crecimiento es de 46.040, el valor mínimo de crecimiento es 35.200, el valor máximo de crecimiento es de 50.900, el 50% de las observaciones(5) presentaron un crecimiento entre 35.200 y 48.000, mientras que el restante 50% (5) presento un crecimiento entre 48.000 y 50.900.

Para el método C: el promedio de crecimiento es de 36.450, el valor mínimo de crecimiento es 27.000, el valor máximo de crecimiento es de 45.500, el 50% de las observaciones(5) presentaron un crecimiento entre 27.000 y 38.400, mientras que el restante 50% (5) presento un crecimiento entre 38.400 y 45.500.

Para el método D: el promedio de crecimiento es de 25.470, el valor mínimo de crecimiento es 19.200, el valor máximo de crecimiento es de 32.700, el 50% de las observaciones(5) presentaron un crecimiento entre 19.200 y 24.250, mientras que el restante 50% (5) presento un crecimiento entre 24.250 y 32.700.

Para el método E: el promedio de crecimiento es de 16.440, el valor mínimo de crecimiento es 7.800, el valor máximo de crecimiento es de 24.900, el 50% de las observaciones(5) presentaron un crecimiento entre 7.800 y 17.000, mientras que el restante 50% (5) presento un crecimiento entre 17.000 y 24.900.

ANOVA

H0: No hay diferencias significativas entre las medias de la tasa de crecimiento de Pseudomonas en todos los niveles de presión de CO2.

Ha: Existen por lo menos una diferencia significativa en las medias de la tasa de crecimiento de Pseudomonas en diferentes niveles de presión de CO2.

# Realizar el ANOVA
modelo_anova2 <- aov(Crecimiento ~ Presion, data = datos2)


# Resumen del ANOVA
resumen_anova2 <- summary(modelo_anova2)

# Imprimir el resumen del ANOVA
print(resumen_anova2)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## Presion      4  11274  2818.6   101.6 <2e-16 ***
## Residuals   45   1248    27.7                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El valor F del ANOVA es de 101.6 y el p-valor es de 2e-16. Como el P-valor es menor que alpha (0.05), se rechaza H0 de que no hay diferencias entre las medias, es decir, si existe una diferencia significativa.

# Crear el diagrama de cajas por categorías
boxplot(datos2$Crecimiento ~ datos2$Presion, data = datos2, col = c("darkorchid1", "lightsalmon", "chartreuse1","cornsilk","red"), ylab = "Crecimiento", xlab = "Presion")

En la gráfica se observa que existen diferencias en los promedios de crecimiento entre el método A y los métodos C, D y E. También se observa una diferencia entre el método B y los métodos D y E. El método C solo es diferente con el método A.

Como se rechazó la hipótesis nula con el test ANOVA, se necesita averiguar cuál o cuales pares de medias son diferentes, para ello se aplica los métodos de comparaciones múltiples o pruebas de rango múltiple (Post Hoc).

TukeyHSD(modelo_anova2)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Crecimiento ~ Presion, data = datos2)
## 
## $Presion
##       diff      lwr        upr     p adj
## B-A -13.10 -19.7921  -6.407896 0.0000133
## C-A -22.69 -29.3821 -15.997896 0.0000000
## D-A -33.67 -40.3621 -26.977896 0.0000000
## E-A -42.70 -49.3921 -36.007896 0.0000000
## C-B  -9.59 -16.2821  -2.897896 0.0016698
## D-B -20.57 -27.2621 -13.877896 0.0000000
## E-B -29.60 -36.2921 -22.907896 0.0000000
## D-C -10.98 -17.6721  -4.287896 0.0002615
## E-C -20.01 -26.7021 -13.317896 0.0000000
## E-D  -9.03 -15.7221  -2.337896 0.0034105

Luego de realizar las comparaciones con el método Tukey, con un intérvalo de confianza del 95%, se puede observar que existen diferencias significativas en todos los tratamientos de presión de CO2.

La mayor diferencia se observa en los tratamientos A y E, donde existe una diferencia de -42,704, con un intérvalo de confianza de 95% para la diferencia de (-49.4, -36) y un p valor de 2e-16, mucho menor a 0.05. No existe evidencia suficiente para considerar que el crecimiento en los dos tratamientos es igual.

También existe una diferencia en el crecimiento microbiano de los tratamientos D-A con un valor de -33.674 y con un intérvalo de confianza del 95% para la diferencia es (-40.36,26.98) y un p- valor de 2e-16, mucho menor a 0.05. No existe evidencia suficiente para considerar que el crecimiento en los dos tratamientos es igual.

plot(TukeyHSD(modelo_anova2))

En la gráfica se puede observar una congruencia con la conclusión a la que se llegó en la comparación con el método de Tukey, se observa una diferencia en las vedias en distintos niveles de los tratamientos.

Método de Duncan

metodos.Duncan <-agricolae::duncan.test(modelo_anova2, trt = "Presion", group = TRUE, console = TRUE)
## 
## Study: modelo_anova2 ~ "Presion"
## 
## Duncan's new multiple range test
## for Crecimiento 
## 
## Mean Square Error:  27.73418 
## 
## Presion,  means
## 
##   Crecimiento      std  r       se  Min  Max    Q25   Q50    Q75
## A       59.14 4.804674 10 1.665358 50.9 64.6 56.800 59.45 62.750
## B       46.04 5.052656 10 1.665358 35.2 50.9 43.025 48.00 49.800
## C       36.45 5.933942 10 1.665358 27.0 45.5 31.125 38.40 40.150
## D       25.47 4.483315 10 1.665358 19.2 32.7 22.650 24.25 29.425
## E       16.44 5.894480 10 1.665358  7.8 24.9 11.850 17.00 21.025
## 
## Alpha: 0.05 ; DF Error: 45 
## 
## Critical Range
##        2        3        4        5 
## 4.743560 4.988480 5.149154 5.265336 
## 
## Means with the same letter are not significantly different.
## 
##   Crecimiento groups
## A       59.14      a
## B       46.04      b
## C       36.45      c
## D       25.47      d
## E       16.44      e
metodos.Duncan
## $statistics
##    MSerror Df   Mean       CV
##   27.73418 45 36.708 14.34653
## 
## $parameters
##     test  name.t ntr alpha
##   Duncan Presion   5  0.05
## 
## $duncan
##      Table CriticalRange
## 2 2.848372      4.743560
## 3 2.995440      4.988480
## 4 3.091920      5.149154
## 5 3.161684      5.265336
## 
## $means
##   Crecimiento      std  r       se  Min  Max    Q25   Q50    Q75
## A       59.14 4.804674 10 1.665358 50.9 64.6 56.800 59.45 62.750
## B       46.04 5.052656 10 1.665358 35.2 50.9 43.025 48.00 49.800
## C       36.45 5.933942 10 1.665358 27.0 45.5 31.125 38.40 40.150
## D       25.47 4.483315 10 1.665358 19.2 32.7 22.650 24.25 29.425
## E       16.44 5.894480 10 1.665358  7.8 24.9 11.850 17.00 21.025
## 
## $comparison
## NULL
## 
## $groups
##   Crecimiento groups
## A       59.14      a
## B       46.04      b
## C       36.45      c
## D       25.47      d
## E       16.44      e
## 
## attr(,"class")
## [1] "group"

Según los datos obtenidos, los tratamientos que comparten al menos una letra en la columna grupos no son significativamente diferentes entre sí.Es decir que son estadísticamente similares. Si un tratamiento tiene una letra diferente de otro significa que hay una diferencia estadísticamente significativa en sus medias, en este caso todos los tratamientos son significativamente diferentes.

Lo anterior se observa en la siguiente gráfica

plot(metodos.Duncan, variation="IQR" )

## Distribución normal de los datos

Este supuesto se basa en la idea de que los residuos siguen una distribución normal. Para comprobar esto,se realiza una curva de densidad que muestra cómo se distribuyen las frecuencias de los residuos. En la imagen se observa que la curva se asemeja a una campana de Gauss, lo que sugiere que los residuos podrían seguir una distribución normal.

En el gráfico de probabilidad normal se observan los los cuantiles de los residuos que en este caso están mostrados como puntos negros y éstos se acercan a la línea central, que representa los cuantiles de una distribución normal teórica. Este patrón de los datos indica que no hay evidencia de que los residuos incumplan el supuesto de normalidad.

library(car)
## Loading required package: carData
## Loading required package: carData
residuos<-residuals(modelo_anova2) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 17 28

boxplot(residuos, col = c("aquamarine1"), ylab = "residuos", main="Box-plot de los residuos")

A partir de los datos, para confirmar que los residuos siguen una distribución normal se realiza la prueba de Shapiro-Wilk evaluando la hipótesis:

H0= Los residuos de la variable (Presion) se distribuyen normalmente con media cero y varianza constante ei N(0,1)

Ha= los residuos de la variable (Presion) no siguen la distribución normal.

shapiro.test(residuals(modelo_anova2)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova2)
## W = 0.9627, p-value = 0.1153

El test dice que no hay evidencia significativa para rechazar H0, debido a que el valor de P: 0.1153 es mayor al nivel de significancia, alpha: 0.05. Se concluye que los residuos de la variable de tasa de crecimiento están distribuidos normalmente con media de cero y varianza constante.

Homogeneidad de varianzas

boxplot(residuos ~ datos2$Presion, main = "Boxplot de tasa de crecimiento microbiano", xlab = "Presion",col="pink",ylab = "Crecimiento")

En la gráfica se presentan los calores predichos por el modelo de la tasa de crecimiento en función de la raíz cuadrada de los residuos estandarizados. En esta gráfica no se observa ninguna tendencia aparente en la distribución de valores. Es decir, no hay evidencia de incumplimiento del supuesto de homogeneidad de varianzas.

color_1 <-colorRampPalette(c("palevioletred1", "paleturquoise1", "darkgreen"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

En la anterior gráfica se observan puntos dispersos sin seguir un patrón específico. Eso es un indicio de homogeneidad de varianzas.

Ho: Los residuos de la variable (Presion) son iguales para los ditintos niveles de concentración de CO2

Ha:Existen por lo menos dos varianzas distintas para los ditintos niveles de concentración de CO2

Es decir, #Ho: σ2A=σ2B=σ2C=σ2D=σ2

Ha: σ2i=σ2j para i,j∈{A,B,C,D} e i≠j

bartlett.test(residuos ~ datos2$Presion)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos2$Presion
## Bartlett's K-squared = 1.0701, df = 4, p-value = 0.899

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8995) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión de la grafica anterior.

leveneTest(residuos ~ datos2$Presion)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4  0.1926  0.941
##       45

De acuerdo al valor arrojado por la prueba de levene, valor de p (0.941) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova2)
##  lag Autocorrelation D-W Statistic p-value
##    1    -0.001714932      1.947068   0.432
##  Alternative hypothesis: rho != 0

Como el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos. Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa. Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.458) es superior al nivel de significancia de 5% (α=0.05), se concluye que existe independencia de los residuos.

Ejercicio 2

Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.

H0: No hay diferencias significativas en la efectividad entre las tres marcas de spray para matar moscas. Ha: Existen diferencias significativas en la efectividad de al menos dos de las marcas de spray para matar moscas.

modelo estadístico Yij = µ + τi + εij

datos3 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio2.xlsx")
datos3
## # A tibble: 18 × 2
##    Replicas Marca
##       <dbl> <dbl>
##  1       72     1
##  2       65     1
##  3       67     1
##  4       75     1
##  5       62     1
##  6       73     1
##  7       55     2
##  8       59     2
##  9       68     2
## 10       70     2
## 11       53     2
## 12       50     2
## 13       64     3
## 14       74     3
## 15       61     3
## 16       58     3
## 17       51     3
## 18       69     3
conteo_valoresmetodo3 <- table(datos3$Marca)
conteo_valoresmetodo3
## 
## 1 2 3 
## 6 6 6

cada tratamiento en este caso cada marca tiene 6 replicas.

summarytools::descr(datos3[,1])
## Descriptive Statistics  
## datos3$Replicas  
## N: 18  
## 
##                     Replicas
## ----------------- ----------
##              Mean      63.67
##           Std.Dev       8.01
##               Min      50.00
##                Q1      58.00
##            Median      64.50
##                Q3      70.00
##               Max      75.00
##               MAD       8.90
##               IQR      11.50
##                CV       0.13
##          Skewness      -0.25
##       SE.Skewness       0.54
##          Kurtosis      -1.33
##           N.Valid      18.00
##         Pct.Valid     100.00

Segun los resultados, se concluye que la media de la efectividad de las marcas de spray es de 63.67, la desviación estándar es de 8.01. El 50% de los datos se ubica entre 58.00 y 64.50. Respecto al comportamiento del 50% restante se ubico entre 64.50 y 75.00.La curtosis de -1.33 con lo que se puede infiere que presentan una distribución platicúrtica o achatada.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos3 <- aggregate(Replicas ~ Marca, data = datos3, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos3)
##   Marca Replicas.Min. Replicas.1st Qu. Replicas.Median Replicas.Mean
## 1     1      62.00000         65.50000        69.50000      69.00000
## 2     2      50.00000         53.50000        57.00000      59.16667
## 3     3      51.00000         58.75000        62.50000      62.83333
##   Replicas.3rd Qu. Replicas.Max.
## 1         72.75000      75.00000
## 2         65.75000      70.00000
## 3         67.75000      74.00000

Marca 1 : el promedio de efectividad de los spray contra moscas 69.000 , el valor mínimo de efectividad es 62.000, el valor máximo de efectividad es 75.000, el 50% de las observaciones(3) presentaron una efectividad de entre 62.000 y 69.500 , mientras que el restante 50% (3) presento una efectividad de entre 69.500 y 75.000.

Marca 2 : el promedio de efectividad de los spray contra moscas 59.1667 , el valor mínimo de efectividad es 50.000, el valor máximo de efectividad es 70.000, el 50% de las observaciones(3) presentaron una efectividad de entre 50.000 y 57.000 , mientras que el restante 50% (3) presento una efectividad de entre 57.000 y 70.000.

Marca 3 : el promedio de efectividad de los spray contra moscas 62.833 , el valor mínimo de efectividad es 51.000, el valor máximo de efectividad es 74.000, el 50% de las observaciones(3) presentaron una efectividad de entre 51.000 y 62.500 , mientras que el restante 50% (3) presento una efectividad de entre 62.500 y 74.000.

ANOVA

# Realizar el ANOVA
modelo_anova3 <- aov(Replicas ~ Marca, data = datos3)


# Resumen del ANOVA
resumen_anova3 <- summary(modelo_anova3)

# Imprimir el resumen del ANOVA
print(resumen_anova3)
##             Df Sum Sq Mean Sq F value Pr(>F)
## Marca        1  114.1  114.08   1.867  0.191
## Residuals   16  977.9   61.12

¿Existe diferencia entre la efectividad promedio de los productos en spray?

La prueba ANOVA arroja un valor de F de 1.867 y un p-value de 0.191, como el p valor es mayor que el nivel de significancia alpha (0.05), existe evidencia estadística suficiente para NO rechazar H0. No hay diferencias significativas en la efectividad de las tres marcas de spray. No considero que haya un spray mejor.

# Crear el diagrama de cajas por categorías
boxplot(datos3$Replicas ~ datos3$Marca, data = datos3, col = c("lightskyblue", "yellow","mediumpurple1"), ylab = "Efectividad", xlab = "Marca")

Según el diagrama de cajas y bigotes, en la marca A la caja alcanza valores desde 65 hasta casi 75 y los bigotes de entre 75 y casi 62, la caja correspondiente a la marca B presenta valores desde 55 hasta casi 70 y los bigotes van de 50 a 70 , finalmente la caja correspondiente a la marca C presenta valores de entre 70 y 60 con datos con bigotes en 50 a 75. Hay solapamientos en las tres cajas por lo que se podría deducir que no hay diferencias en las medias de los spray. Aunque el tamaño mayor de la caja de marca 2 podría indicar que cuenta con una mayor variabilidad en sus datos. Por su parte no se presentan valores atípicos. Por lo tanto se vuelve a concluir que no hay un spray mejor que otro.

Ejercicio 3

En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO3) y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con sal común y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos.

Para garantizar resultados precisos y minimizar posibles errores, se necesita que los experimentos se lleven a cabo siguiendo un diseño aleatorio. Es necesario que el objeto de estudio, los frijoles, posean características homogéneas y uniformes para obtener resustados consistentes.

H0:Las medias de los tiempos de cocción para los tratamientos son iguales. Ha:Al menos una de las medias de los tiempos de cocción es diferente.

datos4 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio3.xlsx")
datos4 # para visualizar los datos 
## # A tibble: 28 × 2
##    Tiempo Tratamiento
##     <dbl> <chr>      
##  1    213 C          
##  2    214 C          
##  3    204 C          
##  4    208 C          
##  5    212 C          
##  6    200 C          
##  7    207 C          
##  8     76 T2         
##  9     85 T2         
## 10     74 T2         
## # ℹ 18 more rows

La tabla anterior muestra los tratamientos y los tiempos de cocción que tomaron los fríjoles.

conteo_valoresmetodo4 <- table(datos4$Tratamiento)
conteo_valoresmetodo4
## 
##  C T2 T3 T4 
##  7  7  7  7

Cada tratamiento en este caso tiene 7 replicas.

summarytools::descr(datos4[,1])
## Descriptive Statistics  
## datos4$Tiempo  
## N: 28  
## 
##                     Tiempo
## ----------------- --------
##              Mean   108.54
##           Std.Dev    59.48
##               Min    55.00
##                Q1    70.50
##            Median    82.00
##                Q3   146.00
##               Max   214.00
##               MAD    18.53
##               IQR    46.75
##                CV     0.55
##          Skewness     1.01
##       SE.Skewness     0.44
##          Kurtosis    -0.87
##           N.Valid    28.00
##         Pct.Valid   100.00

Con estos resultados podemos concluir que: el promedio de tiempo de cocción es de 108.54 minutos, con una desviación estándar de 59.48, el valor mínimo de tiempo de cocción es de 55 minutos, el valor máximo por su parte es de 214. El 50% de las observaciones (14), presentaron un tiempo de cocción entre 55 y 82 minutos. El 50% restante presentó un tiempo de cocción entre 82 y 214 minutos. El coeficiente de asimetría fue de 1.01, lo que sugiere que la asimetría es positiva, sesgada hacia la derecha en la distribución de los datos. El coeficiente de curtosis fue de -0.87, lo que indica que la distribución es platicúltica.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos4 <- aggregate(Tiempo ~ Tratamiento, data = datos4, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos4)
##   Tratamiento Tiempo.Min. Tiempo.1st Qu. Tiempo.Median Tiempo.Mean
## 1           C   200.00000      205.50000     208.00000   208.28571
## 2          T2    74.00000       75.50000      78.00000    78.85714
## 3          T3    55.00000       59.00000      63.00000    61.42857
## 4          T4    79.00000       83.00000      85.00000    85.57143
##   Tiempo.3rd Qu. Tiempo.Max.
## 1      212.50000   214.00000
## 2       82.00000    85.00000
## 3       63.50000    67.00000
## 4       88.50000    92.00000

Control: El tiempo mínimo de cocción registrado en este tratamiento es de 200 minutos.El cuartil 1 indica el 25% de los tiempos de cocción que están por debajo de 205.5 minutos.El tiempo máximo de cocción registrado en este tratamiento es de 214 minutos.

Tratamiento 1: Los tiempos son considerablemente más bajos que en el control, con un tiempo mínimo de 74 minutos y un máximo de 85 minutos.

Tratamiento 2: Los tiempos de cocción son aún más bajos que en el control y en el tratamiento 1, con un mínimo de 55 minutos y un máximo de 67 minutos.

Tratamiento 3: Este tratamiento muestra tiempos de cocción más altos en comparación con los otros tratamientos, pero sus tiempos de cocción son menores que los del control. Tiene tiempo mínimo de 79 minutos y un máximo de 92 minutos.

ANOVA

# Realizar el ANOVA
modelo_anova4 <- aov(Tiempo ~ Tratamiento, data = datos4)


# Resumen del ANOVA
resumen_anova4 <- summary(modelo_anova4)

# Imprimir el resumen del ANOVA
print(resumen_anova4)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## Tratamiento  3  95041   31680    1559 <2e-16 ***
## Residuals   24    488      20                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A partir de la prueba ANOVA, obtenemos un p valor de 2e-16, mucho menor que el nivel de significancia (0.05), por lo que se concluye que hay evidencia estadística suficiente que permite rechazar la hipotesis nula que sugiere que Las medias de los tiempos de cocción para los cuatro tratamientos son iguales. Es decir que se acepta Ha que dice que al menos una de las medias de los tipos de cocción es diferente.

# Crear el diagrama de cajas por categorías
boxplot(datos4$Tiempo ~ datos4$Tratamiento, data = datos4, col = c("violetred1", "turquoise1", "springgreen","slateblue1"), ylab = "Tiempo", xlab = "Tratamientos")

El diagrama de cajas permite interpretar los mismos resultados obtenidos en la prueba ANOVA. Existe diferencia en las medias del grupo control con los demás tramientos de manera notable.

TukeyHSD(modelo_anova4)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Tiempo ~ Tratamiento, data = datos4)
## 
## $Tratamiento
##              diff           lwr        upr     p adj
## T2-C  -129.428571 -136.07568671 -122.78146 0.0000000
## T3-C  -146.857143 -153.50425813 -140.21003 0.0000000
## T4-C  -122.714286 -129.36140099 -116.06717 0.0000000
## T3-T2  -17.428571  -24.07568671  -10.78146 0.0000010
## T4-T2    6.714286    0.06717044   13.36140 0.0471059
## T4-T3   24.142857   17.49574187   30.78997 0.0000000

Las diferencias de los tres tratamientos en comparación con el tratamiento C son estadísticamente significativas, ya que son muy bajos, cercanos a cero.

T3-T2: El tiempo de cocción promedio en el tratamiento T3 es diferente (-17.43) del tratamiento T2. Con un intérvalo de confianza del 95% va desde -24.07568671 hasta -10.78146. El valor de p es muy pequeño: 0.0000010, lo que sugiere una diferencia estadísticamente significativa.

T4-T2: El tiempo de cocción promedio en el tratamiento T4 es significativamente diferente del tratamiento T2, con una diferencia de 6.714. Con un nivel de significancia de 95% para esta diferencia va desde 0.06717044 hasta 13.36140. El p valor es menor a 0.05 (0.0471059), lo que sugiere que existe una diferencia entre estos dos grupos.

T4-T3: El tiempo de cocción promedio en el tratamiento T4 es significativamente diferente del tratamiento T3, la diferencia es de 24.142. Con un nivel de significancia de 95% para esta diferencia va desde 17.496 hasta 30.789. El p valor es menor a 0.05 (0.0000000), lo que sugiere que existe una diferencia entre estos dos grupos.

plot(TukeyHSD(modelo_anova4))

Lo mencionado anteriormente se confirma con la grafica de la diferencia de medias(intervalos de confianza) en los distintos niveles de los métodos. Se observa que hay diferencias en las el tiempo promedio de cocción en los tratamientos, además respecto al control también se observan diferencias mayormente significativas.

Ejercicio 4

Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón, y que las cantidades de almidón a aprobar fueran 2%, 5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados:

H0: La cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas.

Ha: La cantidad de almidón tiene un efecto significativo en la dureza de las tabletas.

datos5 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio4.xlsx")
datos5 # para visualizar los datos 
## # A tibble: 12 × 2
##    Dureza Almidon
##     <dbl> <chr>  
##  1    4.3 A      
##  2    5.2 A      
##  3    4.8 A      
##  4    4.5 A      
##  5    6.5 B      
##  6    7.3 B      
##  7    6.9 B      
##  8    6.1 B      
##  9    9   C      
## 10    7.8 C      
## 11    8.5 C      
## 12    8.1 C

ANOVA

H0: La cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas.

Ha: La cantidad de almidón tiene un efecto significativo en la dureza de las tabletas.

# Realizar el ANOVA
modelo_anova5 <- aov(Dureza ~ Almidon, data = datos5)


# Resumen del ANOVA
resumen_anova5 <- summary(modelo_anova5)

# Imprimir el resumen del ANOVA
print(resumen_anova5)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Almidon      2  26.73   13.36    58.1 7.16e-06 ***
## Residuals    9   2.07    0.23                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas?

Sí hay evidencia suficiente con los datos obtenidos en la prueba ANOVA. Ya que como P- Valor es de 7.16e-06, que es un valor muy pequeño, menor que el nivel de significancia (0.05). Así que existe evidencia estadística suficiente que permite rechazar H0: la cantidad de almidón no tiene un efecto significativo en la dureza de las tabletas,las medias de la dureza de las tabletas de almidón son iguales.

Ejercicio 5

Los datos que se presentan enseguida son rendimientos en toneladas por hectárea de un pasto con tres niveles de fertilización nitrogenada. El diseño fue completamente aleatorizado, con cinco repeticiones por tratamiento.

H0: La fertilización nitrogenada no tiene un efecto significativo en el rendimiento de toneladas por hectárea de pasto, los promedios no varían.

Ha: La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los promedios varian.

datos6 <- readxl::read_excel("C:/Users/nana_/OneDrive/Escritorio/Disenoexp/Ejercicio5.xlsx")
datos6 # para visualizar los datos 
## # A tibble: 15 × 2
##    Valores NivelesN
##      <dbl> <chr>   
##  1    14.8 A       
##  2    14.7 A       
##  3    14.7 A       
##  4    14.5 A       
##  5    15.1 A       
##  6    25.2 B       
##  7    25.4 B       
##  8    25.1 B       
##  9    25.0 B       
## 10    25.3 B       
## 11    32.6 C       
## 12    32.5 C       
## 13    32.3 C       
## 14    32.7 C       
## 15    32.1 C
summarytools::descr(datos6[,1])
## Descriptive Statistics  
## datos6$Valores  
## N: 15  
## 
##                     Valores
## ----------------- ---------
##              Mean     24.13
##           Std.Dev      7.51
##               Min     14.51
##                Q1     14.82
##            Median     25.15
##                Q3     32.26
##               Max     32.67
##               MAD     10.84
##               IQR     17.24
##                CV      0.31
##          Skewness     -0.20
##       SE.Skewness      0.58
##          Kurtosis     -1.69
##           N.Valid     15.00
##         Pct.Valid    100.00

Con estos resultados podemos concluir que: el promedio de rendimiento en toneladas por hectárea es de 24.13, con una desviación estándar de 7.51, el valor mínimo rendimiento en toneladas por hectárea es de 14.51, el valor máximo por su parte es de 32.67. El 50% de las observaciones (15), presentaron un rendimiento en toneladas por hectárea 14.51 y 25.15. El 50% restante presentó un tiempo de cocción entre 25.15 y 32.67. El coeficiente de asimetría fue de -0.20, lo que sugiere que la asimetría negativa. El coeficiente de curtosis fue de -1.69, lo que indica que la distribución es platicúrtica.

ANOVA

# Realizar el ANOVA
modelo_anova6 <- aov(Valores ~ NivelesN, data = datos6)


# Resumen del ANOVA
resumen_anova6 <- summary(modelo_anova6)

# Imprimir el resumen del ANOVA
print(resumen_anova6)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## NivelesN     2  788.3   394.2   10132 <2e-16 ***
## Residuals   12    0.5     0.0                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

H0: La fertilización nitrogenada no tiene un efecto significativo en el rendimiento de toneladas por hectárea de pasto, los promedios no varían.

Ha: La fertilización nitrogenada tiene un efecto significativo en los rendimientos de toneladas por hectárea del pasto. Al menos uno de los promedios varian.

Los resultados del ANOVA indican que el valor F = 10132 y p-valor 2e-16, como el P- valor es menor que 0.05, lo anterior indica que se debe rechazar H0. No hay evidencia estadistica suficiente para considerar que los promedios son iguales, lo que se supone que existen por lo menos dos métodos de fertilizacion nitrogenada, con diferencias significativas en el promedio de rendimiento.

Método de Tukey

TukeyHSD(modelo_anova6)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Valores ~ NivelesN, data = datos6)
## 
## $NivelesN
##         diff      lwr      upr p adj
## B-A 10.43658 10.10377 10.76939     0
## C-A 17.66058 17.32777 17.99339     0
## C-B  7.22400  6.89119  7.55681     0

El método de Tukey permite comparar las medias y evaluar si existen diferencias significativas en los niveles de fertilización nitrogenada.

B-A: La diferencia entre los rendimientos en el nivel B y el nivel A es de 10.43658. El intervalo de confianza del 95% para esta diferencia va desde 10.10377 hasta 10.76939 unidades. El valor p es igual a 0, lo que significa que hay una diferencia significativa entre estos dos niveles.

C-A: La diferencia entre los rendimientos en el nivel C y el nivel A es de 17.66058. El intervalo de confianza del 95% para esta diferencia va desde 17.32777 hasta 17.99339 unidades. El valor p es igual a 0, lo que indica que existe una diferencia significativa entre estos dos niveles.

C-B: La diferencia entre los rendimientos en el nivel C y el nivel B es de 7.22400. El intervalo de confianza del 95% para esta diferencia va desde 6.89119 hasta 7.55681 unidades. Al igual que en los casos anteriores, el valor p es igual a 0, lo que sugiere que existe una diferencia significativa entre estos dos niveles.

Según los análisis de Tukey, si existen diferencias estadísticas significativas que permiten determinar que hay diferencias poblacionales entre los tres niveles de fertilización nitrogenada.

# Crear el diagrama de cajas por categorías
boxplot(datos6$Valores ~ datos6$NivelesN, data = datos6, col = c("yellowgreen", "powderblue", "lightcoral","violet"), ylab = "Precio", xlab = "Zona")

En la gráfica se logran observar las cajas de los niveles, ninguna se solapa. El nivel A pr tiene valores de 15 s bigotes alcanzan valores de entre 15. El nivel B presenta valores de 25. El Nivel 3 por su parte, se distribuye en valores de 32. No hay solapamiento ni de las cajas ni de los bigotes, por lo que podemos respaldar los datos obtenidos en el ANOVA y en el método de Tukey que nos indicaban que si hay diferencias significativas entre los niveles de fertilización y el rendimiento por hectárea.