Ejercicio 1

Se sabe que el dióxido de carbono tiene un efecto crítico en el crecimiento microbiológico. Cantidades pequeñas de CO2 estimulan el crecimiento de muchos microorganismos, mientras que altas concentraciones inhiben el crecimiento de la mayor parte de ellos. Este último efecto se utiliza comercialmente cuando se almacenan productos alimenticios perecederos. Se realizó un estudio para investigar el efecto de CO2 sobre la tasa de crecimiento de Pseudomonas fragi, un corruptor de alimentos. Se administró dióxido de carbono a cinco presiones atmósfericas diferentes. La respuesta anotada es el cambio porcentual en la masa celular después de un tiempo de crecimiento de una hora. Se utilizaron diez cultivos en cada nivel. Se obtuvieron los siguientes datos:

Nivel del factor

(presión en atmósferas de CO2)

# install.packages("readxl")#solo una vez
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
PRIMER_EJERCICIO <- read_excel("C:/Users/Angie/Desktop/Diseño 2023-2/PRIMER EJERCICIO.xlsx")
PRIMER_EJERCICIO # para visualizar los datos 
## # A tibble: 50 × 2
##    mediciones metodo
##         <dbl> <chr> 
##  1       62.6 A     
##  2       59.6 A     
##  3       64.5 A     
##  4       59.3 A     
##  5       58.6 A     
##  6       64.6 A     
##  7       50.9 A     
##  8       56.2 A     
##  9       52.3 A     
## 10       62.8 A     
## # … with 40 more rows
conteo_valoresmetodo <- table(PRIMER_EJERCICIO$metodo)
conteo_valoresmetodo
## 
##  A  B  C  D  E 
## 10 10 10 10 10

Ya que el numero de observaciones por tratamiento es el mismo se concluye que es un diseño balanceado

#install.packages("summarytools")# solo una vez
library(summarytools)
## Warning: package 'summarytools' was built under R version 4.2.3
summarytools::descr(PRIMER_EJERCICIO[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## PRIMER_EJERCICIO$mediciones  
## N: 50  
## 
##                     mediciones
## ----------------- ------------
##              Mean        36.71
##           Std.Dev        15.99
##               Min         7.80
##                Q1        22.80
##            Median        36.75
##                Q3        49.90
##               Max        64.60
##               MAD        19.87
##               IQR        26.67
##                CV         0.44
##          Skewness         0.08
##       SE.Skewness         0.34
##          Kurtosis        -1.13
##           N.Valid        50.00
##         Pct.Valid       100.00

A partir de los resultados se puede concluir que el promedio del efecto de CO2 es de36.71 con desviacion estandar de 15.99 y el valor minimo de efecto del CO2 en el creciemiento de de Pseudomonas fragi es de 7.80, el valor maximo de efecto de CO2 es de 64.60, el 50% de las observaciones (25) presentaron un efecto entre 7.80 y 36.75, mientras que el restante 50% (25) presento un efecto entre 36.75 y 64.60, el coeficiente de asimetria fue de 0.08 presentando una asimetrica .,,, ademas el coficiente de curtosis fue de -1.13, indiando distribuccion levemente platicurtica.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(mediciones ~ metodo, data = PRIMER_EJERCICIO, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   metodo mediciones.Min. mediciones.1st Qu. mediciones.Median mediciones.Mean
## 1      A          50.900             56.800            59.450          59.140
## 2      B          35.200             43.025            48.000          46.040
## 3      C          27.000             31.125            38.400          36.450
## 4      D          19.200             22.650            24.250          25.470
## 5      E           7.800             11.850            17.000          16.440
##   mediciones.3rd Qu. mediciones.Max.
## 1             62.750          64.600
## 2             49.800          50.900
## 3             40.150          45.500
## 4             29.425          32.700
## 5             21.025          24.900
# Realizar el ANOVA
modelo_anova <- aov(mediciones ~ metodo, data = PRIMER_EJERCICIO)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)    
## metodo       4  11274  2818.6   101.6 <2e-16 ***
## Residuals   45   1248    27.7                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(H_o: \mu_A=\mu_B=\mu_C=\mu_D\)

\(H_a: \mu_i\neq \mu_j\) para \(i\neq j\)

# Crear el diagrama de cajas por categorías
boxplot(PRIMER_EJERCICIO$mediciones ~ PRIMER_EJERCICIO$metodo, data = PRIMER_EJERCICIO, col = c("red", "blue", "green","orange"), ylab = "metodo", xlab = "mediciones")

De la grafica anterior se puede evidenciar que que existe diferencias en losm promedios de medicones de crecimeinto de Pseudomonas fragipor el efecto de CO2 en el metodo A y el metodo de efecto de CO2

# METODO DE TUKEY 
TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = mediciones ~ metodo, data = PRIMER_EJERCICIO)
## 
## $metodo
##       diff      lwr        upr     p adj
## B-A -13.10 -19.7921  -6.407896 0.0000133
## C-A -22.69 -29.3821 -15.997896 0.0000000
## D-A -33.67 -40.3621 -26.977896 0.0000000
## E-A -42.70 -49.3921 -36.007896 0.0000000
## C-B  -9.59 -16.2821  -2.897896 0.0016698
## D-B -20.57 -27.2621 -13.877896 0.0000000
## E-B -29.60 -36.2921 -22.907896 0.0000000
## D-C -10.98 -17.6721  -4.287896 0.0002615
## E-C -20.01 -26.7021 -13.317896 0.0000000
## E-D  -9.03 -15.7221  -2.337896 0.0034105

Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre los métodos de ensamble A y E con una diferencia de -42.70 cuyo intervalo de confianza del 95% para la diferencia es (-29.3821, -15.997896) y un p-valor (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de desgaste en los dos tratamiento son iguales.

plot(TukeyHSD(modelo_anova))

Método de Duncan

library(agricolae)
## Warning: package 'agricolae' was built under R version 4.2.3
metodos.Duncan <-duncan.test(modelo_anova, trt = "metodo", group = T, console = T)
## 
## Study: modelo_anova ~ "metodo"
## 
## Duncan's new multiple range test
## for mediciones 
## 
## Mean Square Error:  27.73418 
## 
## metodo,  means
## 
##   mediciones      std  r       se  Min  Max    Q25   Q50    Q75
## A      59.14 4.804674 10 1.665358 50.9 64.6 56.800 59.45 62.750
## B      46.04 5.052656 10 1.665358 35.2 50.9 43.025 48.00 49.800
## C      36.45 5.933942 10 1.665358 27.0 45.5 31.125 38.40 40.150
## D      25.47 4.483315 10 1.665358 19.2 32.7 22.650 24.25 29.425
## E      16.44 5.894480 10 1.665358  7.8 24.9 11.850 17.00 21.025
## 
## Alpha: 0.05 ; DF Error: 45 
## 
## Critical Range
##        2        3        4        5 
## 4.743560 4.988480 5.149154 5.265336 
## 
## Means with the same letter are not significantly different.
## 
##   mediciones groups
## A      59.14      a
## B      46.04      b
## C      36.45      c
## D      25.47      d
## E      16.44      e

De la salida anterior los tratamientos no comparten letra por lo tanto se consideran significativamente diferentes.

Lo cual se observa en la siguiente gráfica

#out <- duncan.test(model, "virus", main = "yield of sweetpotato, Dealt with different virus")
plot(metodos.Duncan, variation="IQR" )

Verificación de los supuestos del modelo

Distribución normal de los residuos

library(car)
## Warning: package 'car' was built under R version 4.2.3
## Loading required package: carData
## Warning: package 'carData' was built under R version 4.2.2
residuos<-residuals(modelo_anova) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 17 28

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

shapiro.test(residuals(modelo_anova)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova)
## W = 0.9627, p-value = 0.1153

Por lo tanto no hay evidencia estadística suficiente para no rechazar H0 , es decir se acepta la hipótesis , debido a que el valor de p (p-value = 0.1153 ) es menor al valor del nivel de significancia (alfa=0.05)

Homogeneidad de varianzas

boxplot(residuos ~ PRIMER_EJERCICIO$metodo, 
        main = "Boxplot de Residuos por método ", 
        xlab = "Método ",
        col="orange",
        ylab = "Residuos")

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

library(stats)
bartlett.test(residuos ~ PRIMER_EJERCICIO$metodo) #Esta prueba requiere que el diseño se balanceado (el número de repeticiones debe ser igual para cada tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by PRIMER_EJERCICIO$metodo
## Bartlett's K-squared = 1.0701, df = 4, p-value = 0.899

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.899) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ PRIMER_EJERCICIO$metodo)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  4  0.1926  0.941
##       45
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  3  0.9474 0.4485
##       12

Independencia de los residuos

durbinWatsonTest(modelo_anova) 
##  lag Autocorrelation D-W Statistic p-value
##    1    -0.001714932      1.947068   0.436
##  Alternative hypothesis: rho != 0

Puesto que el valor de DW es aproximadamente igual a 2 (1-Rho) donde Rho es la autocorrelación de la muestra de los residuos.

Se debe tener en cuenta que si el valor del estadístico Durbin Watson (DW) está próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay autocorrelación perfecta positiva. Si tiene un valor de 4 existe autocorrelación perfecta negativa.

Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.45) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos.

EJERCICIO 2

Se hace un estudio sobre la efectividad de tres marcas de spray para matar moscas.Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y los resultados obtenidos se muestran a continuación.

Mediciones Formule la hipótesis adecuada y el modelo estadístico. ¿Existe diferencia entre la efectividad promedio de los productos en spray? ¿Hay algún spray mejor? Argumente su respuesta. Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada una de las marcas. Dibuje las gráficas de medias y los diagramas de caja simultáneos, después interprételos.

# install.packages("readxl")#solo una vez
library(readxl)
datos2 <- read_excel("C:/Users/Angie/Desktop/Diseño 2023-2/ejercicio2.xlsx")
datos2# para visualizar los datos
## # A tibble: 18 × 2
##    porcentaje marca
##         <dbl> <chr>
##  1         72 a    
##  2         65 a    
##  3         67 a    
##  4         75 a    
##  5         62 a    
##  6         73 a    
##  7         55 b    
##  8         59 b    
##  9         68 b    
## 10         70 b    
## 11         53 b    
## 12         50 b    
## 13         64 c    
## 14         74 c    
## 15         61 c    
## 16         58 c    
## 17         51 c    
## 18         69 c
conteo_valoresmarca <- table(datos2$marca)
conteo_valoresmarca
## 
## a b c 
## 6 6 6

El numero de observaciones por tratamiento es el mismo se concluye que es un diseño balanceado

#install.packages("summarytools")# solo una vez
library(summarytools)
summarytools::descr(datos2[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## datos2$porcentaje  
## N: 18  
## 
##                     porcentaje
## ----------------- ------------
##              Mean        63.67
##           Std.Dev         8.01
##               Min        50.00
##                Q1        58.00
##            Median        64.50
##                Q3        70.00
##               Max        75.00
##               MAD         8.90
##               IQR        11.50
##                CV         0.13
##          Skewness        -0.25
##       SE.Skewness         0.54
##          Kurtosis        -1.33
##           N.Valid        18.00
##         Pct.Valid       100.00

A partir de los resultados se puede concluir que el promedio de la efectividad de de las tres marcas de spray es de 63.67 con desviacion estandar de 8.01 y el valor minimo de efectividad de los spray es de 50,00, el valor maximo de efectividad de los tipos de spray es de 75.00 el 50% de las observaciones (9) presentaron una efectividad entre 50.00 y 64.50, mientras que el restante 50% (9) presento un efectividad entre 64.50 y 75.00, el coeficiente de asimetria fue de -0.25 presentando una asimetrica .,,, ademas el coficiente de curtosis fue de -1.33, indiando distribuccion ……

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(porcentaje ~ marca, data = datos2, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   marca porcentaje.Min. porcentaje.1st Qu. porcentaje.Median porcentaje.Mean
## 1     a        62.00000           65.50000          69.50000        69.00000
## 2     b        50.00000           53.50000          57.00000        59.16667
## 3     c        51.00000           58.75000          62.50000        62.83333
##   porcentaje.3rd Qu. porcentaje.Max.
## 1           72.75000        75.00000
## 2           65.75000        70.00000
## 3           67.75000        74.00000
# Realizar el ANOVA
modelo_anova <- aov(porcentaje ~ marca, data = datos2)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## marca        2  296.3  148.17   2.793 0.0931 .
## Residuals   15  795.7   53.04                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\(H_o: \mu_A=\mu_B=\mu_C=\mu_D\)

\(H_a: \mu_i\neq \mu_j\) para \(i\neq j\)

# Crear el diagrama de cajas por categorías
boxplot(datos2$porcentaje ~ datos2$marca, data = datos2, col = c("red", "blue", "green","orange"), ylab = "marca", xlab = "porcentaje")

# METODO DE TUKEY 
TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = porcentaje ~ marca, data = datos2)
## 
## $marca
##          diff        lwr       upr     p adj
## b-a -9.833333 -20.755528  1.088861 0.0808333
## c-a -6.166667 -17.088861  4.755528 0.3340612
## c-b  3.666667  -7.255528 14.588861 0.6654850

Al realizar las pruebas de Tukey, se concluye que existen diferencias significativas entre las marcas de spray para matar las moscas A-B con una diferencia de -9.833333 cuyo intervalo de confianza del 95% para la diferencia es (-1y7.088861 , 4.744428) y un p-valor de 0.3340612, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de efectividad de las marcas de spray utilizadas para matar las moscas son iguales

plot(TukeyHSD(modelo_anova))

Método de Duncan

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova, trt = "marca", group = T, console = T)
## 
## Study: modelo_anova ~ "marca"
## 
## Duncan's new multiple range test
## for porcentaje 
## 
## Mean Square Error:  53.04444 
## 
## marca,  means
## 
##   porcentaje      std r       se Min Max   Q25  Q50   Q75
## a   69.00000 5.099020 6 2.973338  62  75 65.50 69.5 72.75
## b   59.16667 8.183316 6 2.973338  50  70 53.50 57.0 65.75
## c   62.83333 8.134290 6 2.973338  51  74 58.75 62.5 67.75
## 
## Alpha: 0.05 ; DF Error: 15 
## 
## Critical Range
##        2        3 
## 8.962607 9.395232 
## 
## Means with the same letter are not significantly different.
## 
##   porcentaje groups
## a   69.00000      a
## c   62.83333     ab
## b   59.16667      b

Mientras que los tratamientos que tienen letras diferentes en la columna grupos se consideran significativamente diferentes entre sí. Si un tratamiento tiene una letra diferente de otro, significa que hay una diferencia estadísticamente significativa en sus medias, para nuestro caso los tratamientos(marca de spray ) C con A, no comparten letra por lo tanto se consideran significativamente diferentes.

#out <- duncan.test(model, "virus", main = "yield of sweetpotato, Dealt with different virus")
plot(metodos.Duncan, variation="IQR" )

library(car)
residuos<-residuals(modelo_anova) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 17 14

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

shapiro.test(residuals(modelo_anova)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova)
## W = 0.96797, p-value = 0.7589
boxplot(residuos ~ datos2$marca, 
        main = "Boxplot de Residuos por marcas  de spray", 
        xlab = "marca",
        col="orange",
        ylab = "Residuos")

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

library(stats)
bartlett.test(residuos ~ datos2$marca) #Esta prueba requiere que el diseño se balanceado (el número de repeticiones debe ser igual para cada tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos2$marca
## Bartlett's K-squared = 1.1889, df = 2, p-value = 0.5519

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.5519) mayor a 0.05 no se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ datos2$marca)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.5288 0.5999
##       15

De acuerdo al valor arrojado por la prueba de levene, valor de p ( 0.5999) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova) 
##  lag Autocorrelation D-W Statistic p-value
##    1     -0.05414747       2.04919   0.638
##  Alternative hypothesis: rho != 0

EJERCICIO 3

En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO3 ) y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con sal común y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable de respuesta es el tiempo de cocción en minutos.

Mediciones ¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental? Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y las conclusiones. Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales. Obtenga el diagrama de caja y el gráfico de medias, después interprételos.

# install.packages("readxl")#solo una vez
library(readxl)
datos3 <- read_excel("C:/Users/Angie/Desktop/Diseño 2023-2/ejercicio3.xlsx")
datos3# para visualizar los datos
## # A tibble: 21 × 2
##    Replica Control
##      <dbl> <chr>  
##  1      76 A      
##  2      57 A      
##  3      84 A      
##  4      85 B      
##  5      67 B      
##  6      82 B      
##  7      74 C      
##  8      55 C      
##  9      85 C      
## 10      78 D      
## # … with 11 more rows
conteo_valoresControl <- table(datos3$Control)
conteo_valoresControl
## 
## A B C D E F G 
## 3 3 3 3 3 3 3

El numero de observaciones por tratamiento es el mismo se concluye que es un diseño balanceado

#install.packages("summarytools")# solo una vez
library(summarytools)
summarytools::descr(datos3[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## datos3$Replica  
## N: 21  
## 
##                     Replica
## ----------------- ---------
##              Mean     75.29
##           Std.Dev     11.19
##               Min     55.00
##                Q1     64.00
##            Median     78.00
##                Q3     84.00
##               Max     92.00
##               MAD     10.38
##               IQR     20.00
##                CV      0.15
##          Skewness     -0.35
##       SE.Skewness      0.50
##          Kurtosis     -1.29
##           N.Valid     21.00
##         Pct.Valid    100.00

A partir de los resultados se puede concluir que el promedio de los tratamientos que reducen el tiempo de cocion de frijoles es de 75.29 con desviacion estandar de 11.19 y el valor minimo de los tratamientos que reducen el tiempo de cocion de os frijoles es de 55.00, el valor maximo de los tratamientos de 92.00 el 49.5% de las observaciones (10.5) presentaron una efectividad entre 55.00 y 78.00, mientras que el restante 49.5% (10.5) presento un efectividad entre 78.00 y 92.00, el coeficiente de asimetria fue de -0.35 presentando una asimetrica .,,, ademas el coficiente de curtosis fue de -1.29, indiando distribuccion

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(Replica ~ Control, data = datos3, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   Control Replica.Min. Replica.1st Qu. Replica.Median Replica.Mean
## 1       A     57.00000        66.50000       76.00000     72.33333
## 2       B     67.00000        74.50000       82.00000     78.00000
## 3       C     55.00000        64.50000       74.00000     71.33333
## 4       D     64.00000        71.00000       78.00000     78.00000
## 5       E     61.00000        71.50000       82.00000     76.66667
## 6       F     63.00000        69.00000       75.00000     72.33333
## 7       G     63.00000        72.50000       82.00000     78.33333
##   Replica.3rd Qu. Replica.Max.
## 1        80.00000     84.00000
## 2        83.50000     85.00000
## 3        79.50000     85.00000
## 4        85.00000     92.00000
## 5        84.50000     87.00000
## 6        77.00000     79.00000
## 7        86.00000     90.00000
# Realizar el ANOVA
modelo_anova <- aov(Replica ~ Control, data = datos3)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value Pr(>F)
## Control      6    177   29.49   0.177  0.979
## Residuals   14   2327  166.24
# Crear el diagrama de cajas por categorías
boxplot(datos3$Replica ~ datos3$Control, data = datos3, col = c("red", "blue", "green","orange"), ylab = "Control", xlab = "Replica")

TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Replica ~ Control, data = datos3)
## 
## $Control
##           diff       lwr      upr     p adj
## B-A  5.6666667 -30.27993 41.61326 0.9976454
## C-A -1.0000000 -36.94659 34.94659 0.9999999
## D-A  5.6666667 -30.27993 41.61326 0.9976454
## E-A  4.3333333 -31.61326 40.27993 0.9994767
## F-A  0.0000000 -35.94659 35.94659 1.0000000
## G-A  6.0000000 -29.94659 41.94659 0.9967815
## C-B -6.6666667 -42.61326 29.27993 0.9943266
## D-B  0.0000000 -35.94659 35.94659 1.0000000
## E-B -1.3333333 -37.27993 34.61326 0.9999995
## F-B -5.6666667 -41.61326 30.27993 0.9976454
## G-B  0.3333333 -35.61326 36.27993 1.0000000
## D-C  6.6666667 -29.27993 42.61326 0.9943266
## E-C  5.3333333 -30.61326 41.27993 0.9983156
## F-C  1.0000000 -34.94659 36.94659 0.9999999
## G-C  7.0000000 -28.94659 42.94659 0.9926574
## E-D -1.3333333 -37.27993 34.61326 0.9999995
## F-D -5.6666667 -41.61326 30.27993 0.9976454
## G-D  0.3333333 -35.61326 36.27993 1.0000000
## F-E -4.3333333 -40.27993 31.61326 0.9994767
## G-E  1.6666667 -34.27993 37.61326 0.9999981
## G-F  6.0000000 -29.94659 41.94659 0.9967815

Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre los métodos de ensamble C y G con una diferencia de 7 cuyo intervalo de confianza del 95% para la diferencia es (-28.94659, 42.94659) y un p-valor de 0.9926574, lo que resulta significativo (mayor de 0.05), es decir se dispone de evidencia suficiente para considerar que los promedios en los dos tratamiento son iguales.

plot(TukeyHSD(modelo_anova))

## Método de Duncan

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova, trt = "Metodo", group = T, console = T)
## Name:  Metodo 
##  Control
library(car)
residuos<-residuals(modelo_anova) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1]  8 14

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

shapiro.test(residuals(modelo_anova)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova)
## W = 0.87255, p-value = 0.01066
boxplot(residuos ~ datos3$Control, 
        main = "Boxplot de Residuos por método de ensamble", 
        xlab = "Método de ensamble",
        col="orange",
        ylab = "Residuos")

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

\(H_o: \mu_A=\mu_B=\mu_C=\mu_D\)

\(H_a: \mu_i\neq \mu_j\) para \(i\neq j\)

library(stats)
bartlett.test(residuos ~ datos3$Control) #Esta prueba requiere que el diseño se balanceado (el número de repeticiones debe ser igual para cada tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by datos3$Control
## Bartlett's K-squared = 0.90307, df = 6, p-value = 0.989

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.989) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ datos3$Control)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  6  0.1195 0.9922
##       14

De acuerdo al valor arrojado por la prueba de levene, valor de p (0.9922) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

durbinWatsonTest(modelo_anova) 
##  lag Autocorrelation D-W Statistic p-value
##    1       -0.501671      2.939081   0.282
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable desgaste se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.274) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos.

EJERCICIO 4

Una compañía farmacéutica desea evaluar el efecto que tiene la cantidad de almidón en la dureza de las tabletas. Se decidió producir lotes con una cantidad determinada de almidón, y que las cantidades de almidón a aprobar fueran 2%, 5% y 10%. La variable de respuesta sería el promedio de la dureza de 20 tabletas de cada lote. Se hicieron 4 réplicas por tratamiento y se obtuvieron los siguientes resultados:

Mediciones ¿Hay evidencia suficiente de que el almidón influye en la dureza en las tabletas? Halle el ANOVA.

# install.packages("readxl")#solo una vez
library(readxl)
ejercicio4<- read_excel("C:/Users/Angie/Desktop/Diseño 2023-2/ejercicio4.xlsx")
ejercicio4# para visualizar los datos
## # A tibble: 12 × 2
##    dureza porcentaje
##     <dbl> <chr>     
##  1    4.3 A         
##  2    5.2 A         
##  3    4.8 A         
##  4    4.5 A         
##  5    6.5 B         
##  6    7.3 B         
##  7    6.9 B         
##  8    6.1 B         
##  9    9   C         
## 10    7.8 C         
## 11    8.5 C         
## 12    8.1 C
conteo_valoresporcentaje <- table(ejercicio4$porcentaje)
conteo_valoresporcentaje
## 
## A B C 
## 4 4 4

Diseño balanceado

#install.packages("summarytools")# solo una vez
library(summarytools)
summarytools::descr(ejercicio4[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## ejercicio4$dureza  
## N: 12  
## 
##                     dureza
## ----------------- --------
##              Mean     6.58
##           Std.Dev     1.62
##               Min     4.30
##                Q1     5.00
##            Median     6.70
##                Q3     7.95
##               Max     9.00
##               MAD     2.15
##               IQR     2.77
##                CV     0.25
##          Skewness    -0.05
##       SE.Skewness     0.64
##          Kurtosis    -1.60
##           N.Valid    12.00
##         Pct.Valid   100.00

A partir de los resultados que arroja el programa podemos concluir: el promedio de dureza es de 6.58, con desviación estándar de 1.62, el valor mínimo de dureza es de 4.3, el valor máximo de dureza es de 9, el 50% de las observaciones(6) presentaron un dureza entre 4.3 y 6.7, mientras que el restante 50% (6) presento un dureza entre 6.7 y 9, el coeficiente de asimetría fue de -0.05 presentando una asimetría negativa leve, además el coeficiente de curtosis fue de -1.60.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(dureza ~ porcentaje, data = ejercicio4, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   porcentaje dureza.Min. dureza.1st Qu. dureza.Median dureza.Mean
## 1          A       4.300          4.450         4.650       4.700
## 2          B       6.100          6.400         6.700       6.700
## 3          C       7.800          8.025         8.300       8.350
##   dureza.3rd Qu. dureza.Max.
## 1          4.900       5.200
## 2          7.000       7.300
## 3          8.625       9.000
# Realizar el ANOVA
modelo_anova <- aov(dureza ~ porcentaje, data = ejercicio4)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## porcentaje   2  26.73   13.36    58.1 7.16e-06 ***
## Residuals    9   2.07    0.23                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Crear el diagrama de cajas por categorías
boxplot(ejercicio4$dureza ~ ejercicio4$porcentaje, data = ejercicio4, col = c("red", "blue", "green","orange"), ylab = "porcentaje", xlab = "dureza")

## Modelo Tukey

TukeyHSD(modelo_anova)
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = dureza ~ porcentaje, data = ejercicio4)
## 
## $porcentaje
##     diff       lwr      upr     p adj
## B-A 2.00 1.0531848 2.946815 0.0006016
## C-A 3.65 2.7031848 4.596815 0.0000052
## C-B 1.65 0.7031848 2.596815 0.0022940

Luego de realizar las prueba de comparaciones múltiples de Tukey, se concluye que existen diferencia significativas entre los porcentaje de dureza C y A con una diferencia de 3.65 cuyo intervalo de confianza del 95% para la diferencia es (2.7031848, 4.596815) y un p-valor de 0.0000052, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de desgaste en los dos tratamiento son iguales.

También se estima que existen diferencia significativas entre los porcentaje de dureza B-A con una diferencia de 2.00 cuyo intervalo de confianza del 95% para la diferencia es (1.0531848, 2.946815) y un p-valor de 0.0006016, lo que resulta significativo (menor de 0.05), es decir no se dispone de evidencia suficiente para considerar que los promedios de desgaste en los dos tratamiento son iguales.

plot(TukeyHSD(modelo_anova))

library(agricolae)
metodos.Duncan <-duncan.test(modelo_anova, trt = "porcentaje", group = T, console = T)
## 
## Study: modelo_anova ~ "porcentaje"
## 
## Duncan's new multiple range test
## for dureza 
## 
## Mean Square Error:  0.23 
## 
## porcentaje,  means
## 
##   dureza       std r        se Min Max   Q25  Q50   Q75
## A   4.70 0.3915780 4 0.2397916 4.3 5.2 4.450 4.65 4.900
## B   6.70 0.5163978 4 0.2397916 6.1 7.3 6.400 6.70 7.000
## C   8.35 0.5196152 4 0.2397916 7.8 9.0 8.025 8.30 8.625
## 
## Alpha: 0.05 ; DF Error: 9 
## 
## Critical Range
##         2         3 
## 0.7671348 0.8006971 
## 
## Means with the same letter are not significantly different.
## 
##   dureza groups
## C   8.35      a
## B   6.70      b
## A   4.70      c

De la salida anterior los tratamientos no comparten letra por lo tanto se consideran significativamente diferentes.

#out <- duncan.test(model, "virus", main = "yield of sweetpotato, Dealt with different virus")
plot(metodos.Duncan, variation="IQR" )

library(car)
residuos<-residuals(modelo_anova) #Creando un objeto llamado residuos que contiene los residuos el modelo

par(mfrow=c(1,3)) #Para dividir el área del gráfico en dos partes (una fila y dos columnas)

dplot<-density(residuos) #Creando un objeto llamado dplot que recibe un Density_Plot de los residuos

plot(dplot, #Graficando el objeto dplot
      main="Curva de densidad observada", #Título principal de la gráfica
      xlab = "Residuos", #Etiqueta del eje x
      ylab = "Densidad") #Etiqueta del eje y
polygon(dplot, #Añadiendo el poligono
        col = "green", #Definiendo el color del poligono
        border = "black") #Color del borde del poligono

qqPlot(residuos, #Un gráfico Cuantil-Cuantil de los residuos
       pch =20, #Forma de los puntos
       main="QQ-Plot de los residuos", #Título principal
       xlab = "Cuantiles teóricos",  #Etiqueta eje x
       ylab="Cuantiles observados de los residuos") #Etiqueta eje y
## [1] 9 8

boxplot(residuos, col = c("red"), ylab = "residuos", main="Box-plot  de los residuos")

shapiro.test(residuals(modelo_anova)) #Prueba Shapiro-Wilk para los residuos de la variable
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_anova)
## W = 0.93444, p-value = 0.4295

Homogeneidad de varianzas

boxplot(residuos ~ ejercicio4$porcentaje, 
        main = "Boxplot de Residuos porcentaje de dureza", 
        xlab = "dureza",
        col="orange",
        ylab = "Residuos")

library(car)
color_1 <-colorRampPalette(c("yellow ", "blue", "yellow"))


plot(residuos, main = "Prueba de independencia", pch=20,cex = 2, col=color_1(120), ylab = "Residuos", xlab = " ")

\(H_o: \mu_A=\mu_B=\mu_C=\mu_D\)

\(H_a: \mu_i\neq \mu_j\) para \(i\neq j\)

library(stats)
bartlett.test(residuos ~ ejercicio4$porcentaje) #Esta prueba requiere que el diseño se balanceado (el número de repeticiones debe ser igual para cada tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  residuos by ejercicio4$porcentaje
## Bartlett's K-squared = 0.25398, df = 2, p-value = 0.8807

De acuerdo al valor arrojado por la prueba de bartlett, valor de p ( 0.8807) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, llegando a la misma conclusión anterior (grafica anterior).

library(stats)
leveneTest(residuos ~ ejercicio4$porcentaje)
## Warning in leveneTest.default(y = y, group = group, ...): group coerced to
## factor.
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.2667 0.7718
##        9

De acuerdo al valor arrojado por la prueba de levene, valor de p (0.7718) mayor a 0.05 se acepta la hipótesis nula, por lo que existe homogeneidad de varianzas, confirmando las conclusiones obtenidas en los items anteriores.

Independencia de los residuos

durbinWatsonTest(modelo_anova) 
##  lag Autocorrelation D-W Statistic p-value
##    1      -0.5398551      2.972222   0.202
##  Alternative hypothesis: rho != 0

Al realizar la prueba de independencia de residuos para la variable dureza se determinó que los residuos no están correlacionados, debido a que el DW está próximo a 2 y el valor de p (p-value = 0.202) es superior al nivel de significancia de 5% (α =0.05) por lo que se concluye que existe independencia de los residuos.

EJERCICIO 5

Los datos que se presentan enseguida son rendimientos en toneladas por hectárea de un pasto con tres niveles de fertilización nitrogenada. El diseño fue completamente aleatorizado, con cinco repeticiones por tratamiento.

Mediciones ¿Las diferencias muestrales hacen obvia la presencia de diferencias poblacionales?

si,ya que los datos de cada tratamiento se distribuyen por rangos de valores diferentes lo cual indicaria una media no exacta observando variabilidada en los datos

Obtenga el análisis de varianza e interprételo. Obtenga el diagrama de caja y el gráfico de medias, después interprételos

# install.packages("readxl")#solo una vez
library(readxl)
EJERCICIO<- read_excel("C:/Users/Angie/Desktop/Diseño 2023-2/EJERCICIO.xlsx")
EJERCICIO# para visualizar los datos
## # A tibble: 15 × 2
##    mediciones niveles
##         <dbl>   <dbl>
##  1       14.8       1
##  2       14.7       1
##  3       14.7       1
##  4       14.5       1
##  5       15.1       1
##  6       25.2       2
##  7       25.4       2
##  8       25.1       2
##  9       25.0       2
## 10       25.3       2
## 11       32.6       3
## 12       32.5       3
## 13       32.3       3
## 14       32.7       3
## 15       32.1       3
conteo_valoresniveles <- table(EJERCICIO$niveles)
conteo_valoresniveles
## 
## 1 2 3 
## 5 5 5

Ya que el numero de observaciones por tratamiento es el mismo se concluye que es un diseño balanceado

#install.packages("summarytools")# solo una vez
library(summarytools)
summarytools::descr(EJERCICIO[,1])# todas las filas primera columna datos[,1]
## Descriptive Statistics  
## EJERCICIO$mediciones  
## N: 15  
## 
##                     mediciones
## ----------------- ------------
##              Mean        24.13
##           Std.Dev         7.51
##               Min        14.51
##                Q1        14.82
##            Median        25.15
##                Q3        32.26
##               Max        32.67
##               MAD        10.84
##               IQR        17.24
##                CV         0.31
##          Skewness        -0.20
##       SE.Skewness         0.58
##          Kurtosis        -1.69
##           N.Valid        15.00
##         Pct.Valid       100.00

A partir de los resultados que arroja el programa podemos concluir: el promedio de toneladas por hectarea es de 24.13, con desviación estándar de 7.51, el valor mínimo prome4dio de toneladas de pasto es de 14.51, el valor máximo de toneladas de pasto es de 32.26, el 50% de las observaciones presentaron un porcentaje entre 14.51 y 25.15, mientras que el restante 50% presento un dureza entre 25.15 y 32.67, el coeficiente de asimetría fue de -0.20 presentando una asimetría negativa leve, además el coeficiente de curtosis fue de -1.69.

# Calcular estadísticas descriptivas por categoría
resultados_descriptivos <- aggregate(mediciones ~ niveles, data = EJERCICIO, summary)

# Imprimir los resultados descriptivos
print(resultados_descriptivos)
##   niveles mediciones.Min. mediciones.1st Qu. mediciones.Median mediciones.Mean
## 1       1        14.51410           14.67600          14.72000        14.75962
## 2       2        25.03100           25.13100          25.15100        25.19620
## 3       3        32.11100           32.25600          32.46000        32.42020
##   mediciones.3rd Qu. mediciones.Max.
## 1           14.82300        15.06500
## 2           25.26700        25.40100
## 3           32.60500        32.66900
# Realizar el ANOVA
modelo_anova <- aov(mediciones ~ niveles, data = EJERCICIO)


# Resumen del ANOVA
resumen_anova <- summary(modelo_anova)

# Imprimir el resumen del ANOVA
print(resumen_anova)
##             Df Sum Sq Mean Sq F value  Pr(>F)    
## niveles      1  779.7   779.7    1118 5.4e-14 ***
## Residuals   13    9.1     0.7                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Crear el diagrama de cajas por categorías
boxplot(EJERCICIO$mediciones ~ EJERCICIO$niveles, data = EJERCICIO, col = c("red", "blue", "green","orange"), ylab = "mediciones", xlab = "niveles")