Taller - Diseño de Experimentos

TALLER - PUNTO 1

library(readxl)
Datos1 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
                    sheet = "Punto1")
#View(Datos)

Datos1$Factor = as.factor(Datos1$Factor)
Datos1$Respuesta = as.numeric(Datos1$Respuesta)

FACTORIAL SIMPLE COMPLETAMENTE AL AZAR

#Datos asociando la respuesta a la fractura (tiempo hasta la fractura) de bloques de madera.

library(collapsibleTree)

collapsibleTreeSummary(
  Datos1,
  c('Factor', 'Repeticiones', 'Respuesta'), collapsed = FALSE
)

#El arbol muestra como se asignan los tratamientos a cada bloque de madera, teniendo que el factor (Presión ejercida) posee 4 niveles con sus correspondientes repeticiones, seguido finalmente de la respuesta para cada uno, en donde cada uno representa una posible decisión a tomar.

Análisis Descriptivo

library(ggplot2)

ggplot(Datos1, aes(x = Factor, y = Respuesta, fill = Factor)) + 
  geom_boxplot(position = 'dodge') + 
  xlab("Presión") + 
  ylab("Tiempo de Fractura")

#Se observa la relación que tiene el nivel de presión que se ejerce sobre los bloques con el tiempo de ruptura de estos. #Al ver un nivel de presión de 0.25 comparada con el de 0.05, en la primera tardan mucho más tiempo en romperse los bloques que en la segunda, a pesar de tener un mayor nivel de presión ejercido.

ggplot(Datos1) +
  aes(x = Factor, y = Respuesta, fill = Factor)+
  geom_col(
    position = 'dodge') +
  xlab("Presión") + 
  ylab("Tiempo de Fractura")

Análisis Inferencial

#Hipótesis:

#El nivel de presión que se ejerce a los bloques de madera no influye en el tiempo de fractura:

\[H_0: \mu_{0.05} = \mu_{0.10} = \mu_{0.20} = \mu_{0.25}\]

\[H_a: \mu_{0.05} ≠ \mu_{0.10} ≠ \mu_{0.20} ≠ \mu_{0.25}\]

Modelo de Diseño

\[y_{ij} = \mu + \tau_i + \epsilon_{ij}\]

###Análisis de varianza

#ANOVA
mod1 = aov(Respuesta ~ Factor, Datos1)
summary(mod1)

##             Df   Sum Sq  Mean Sq F value  Pr(>F)    
## Factor       3 0.016567 0.005522   82.83 2.3e-06 ***
## Residuals    8 0.000533 0.000067                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

P-value = 2.3e-06, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los niveles de presión ejercidos sobre los bloques de madera influye en el tiempo de fractura.

#Con el valor de F value se sugiere que los causantes de las diferencias son las presiones y no las repeticiones.

#Oneway Test
mod1b = oneway.test(Respuesta ~ Factor, Datos1)
mod1b

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Respuesta and Factor
## F = 66.242, num df = 3.0000, denom df = 4.3243, p-value = 0.0004653

#P-value = 0.0004653, es < 0.05

#Kruskal-Wallis
mod1c = kruskal.test(Respuesta ~ Factor, Datos1)
mod1c

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Respuesta by Factor
## Kruskal-Wallis chi-squared = 10.274, df = 3, p-value = 0.01637

#P-value = 0.01637, es < 0.05

Revisión De Supuestos

\[H_0: \sigma^2_{0.05} = \sigma^2_{0.10} = \sigma^2_{0.20} = \sigma^2_{0.25}\]

hist(mod1$residuals)

#Pareciera que el histograma no se comportara con normalidad

var_res = tapply(mod1$residuals, Datos1$Factor, var)

# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod1$residuals, Datos1$Factor)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  mod1$residuals and Datos1$Factor
## Bartlett's K-squared = 0.95233, df = 3, p-value = 0.8128

#En la Prueba de Bartlett se tiene un p-value = 0.8128 > 0.05, no se rechaza H0 de que las varianzas se pueden considerar estadisticamente iguales, es decir, que estadísticamente los residuales se pueden considerar iguales.

#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.

#Normalidad de residuos
shapiro.test(mod1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod1$residuals
## W = 0.94102, p-value = 0.5114

#En la Prueba de Shapiro-wilk se tiene un p-value = 0.5114 > 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil.

#Conclusion: Se cumplen los dos supuestos.

Comparaciones De Medias Posterior Al Análisis De Varianzas

#Aquellos tratamientos que causaron la diferencia

# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod1, 'Factor')
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)

tt

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Respuesta ~ Factor, data = Datos1)
## 
## $Factor
##                 diff          lwr        upr     p adj
## 0.10-0.05 0.05000000  0.028650987 0.07134901 0.0003178
## 0.20-0.05 0.06666667  0.045317653 0.08801568 0.0000396
## 0.25-0.05 0.10333333  0.081984320 0.12468235 0.0000014
## 0.20-0.10 0.01666667 -0.004682347 0.03801568 0.1344163
## 0.25-0.10 0.05333333  0.031984320 0.07468235 0.0002012
## 0.25-0.20 0.03666667  0.015317653 0.05801568 0.0025538

#Se comparan todos los niveles de presión con todos los niveles de presión #- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0 me dice que entre los niveles de presión no hay diferencias, lo que es igual a decir que los niveles de presión de 0.20 y 0.10 son los únicos que no presentan diferencias entre si. Los niveles que me causaron diferencias fueron: 0.05 y 0.25 que son los mejores ya que tienen valores por arriba de la media (efectos positivos) #- En la tabla: aquellos valores > 5% = no difieren y < 5% = difieren, por lo tanto, 0.2 y 0.1 no difieren (los dos son igual de malos)

#los únicos valores que no presentan diferencias entre ellos son presión de 0.1 y presión de 0.2, los demas presentan diferencias.

#Prueba de Duncan
library(agricolae)

dt = duncan.test(mod1, 'Factor', F)
plot(dt)

#Realmente existe un nivel de presión que es mejor a los demás, el cual es el 0.25. Además se comprueba que los niveles 0.20 y 0.10 no presentan diferencias entre ellos.

Interpretación Biológica

#Según el análisis realizado es posible decir que los niveles de presión ejercidos a los bloques de madera influyen en el tiempo de fractura, que son diferentes y además, entre los 4 niveles, existen 2 que pueden ser considerados los mejores (0.25 y 0.05), sin embargo entre ellos dos, 0.25 presenta mejores valores.

Revisión Datos Atípicos

library(outliers)
grubbs.test(Datos1$Respuesta)

## 
##  Grubbs test for one outlier
## 
## data:  Datos1$Respuesta
## G = 1.64859, U = 0.73046, p-value = 0.5021
## alternative hypothesis: lowest value 0.87 is an outlier

#p - value = 0.5021 > 0.05 #No se detectaron valores atípicos en los datos.

TALLER - PUNTO 2

FACTORIAL SIMPLE COMPLETAMENTE AL AZAR

#Se investigan cuatro catalizadores que pueden afectar al rendimiento de un proceso químico. Se sigue un diseño completamente aleatorizado fara un solo factor en el que cada proceso que utiliza un catalizador específico se repite 6 veces. Los rendimientos obtenidos se muestran en la Tabla. ¿Tienen los cuatro catalizadores el mismo efecto sobre el rendimiento? Utilice α = 0,05.

library(readxl)
Datos2 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
                    sheet = "Punto2")
print(Datos2)

## # A tibble: 24 × 3
##    Respuesta Factor Repeticiones
##        <dbl> <chr>         <dbl>
##  1        60 A                 1
##  2        63 A                 2
##  3        62 A                 3
##  4        61 A                 4
##  5        63 A                 5
##  6        62 A                 6
##  7        65 B                 1
##  8        67 B                 2
##  9        70 B                 3
## 10        68 B                 4
## # ℹ 14 more rows

Datos2$Factor = as.factor(Datos2$Factor)
Datos2$Respuesta = as.numeric(Datos2$Respuesta)

library(collapsibleTree)

collapsibleTreeSummary(
  Datos2,
  c('Factor', 'Repeticiones', 'Respuesta'), collapsed = FALSE
)

#El arbol muestra como se asignan los tratamientos a cada catalizador, teniendo que el factor (Presión ejercida) posee 4 niveles con sus correspondientes repeticiones (6), seguido finalmente de la respuesta para cada uno, en donde cada uno representa una posible decisión a tomar, es decir las diferentes opciones que se posee para elegir.

Análisis Descriptivo

library(ggplot2)

ggplot(Datos2, aes(x = Factor, y = Respuesta, fill = Factor)) + 
  geom_boxplot(position = 'dodge') + 
  xlab("Catalizador") + 
  ylab("Rendimiento")

#Se observa que posiblemente los catalizadores A y D disminuyen el rendimiento del proceso químico y los catalizadores B y C, aumentan el rendimiento del proceso químico.

ggplot(Datos2) +
  aes(x = Factor, y = Respuesta, fill = Factor)+
  geom_col(
    position = 'dodge') +
  xlab("Catalizador") + 
  ylab("Rendimiento")

#Se observa que posiblemente el catalizador C arroja resultados mayores al rendimeinto del proceso químico.

Análisis Inferencial

#Hipótesis: \[H_0: \mu_{A} = \mu_{B} = \mu_{C} = \mu_{D}\] \[H_a: \mu_{A} ≠ \mu_{B} ≠ \mu_{C} ≠ \mu_{D}\] ### Modelo De Diseño

\[y_{ij} = \mu + \tau_i + \epsilon_{ij}\]

Análisis de varianza

# Tabla ANOVA
mod2 = aov(Respuesta ~ Factor, data = Datos2)
summary(mod2)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## Factor       3  192.5   64.15    14.5 3.01e-05 ***
## Residuals   20   88.5    4.43                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ifelse(mod1$p.value < 0.05, 'Rechazo H0', 'No Rechazo H0')

## logical(0)

#P-value = 3.01e-05, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.

#Con el valor de F value se sugiere que los causantes de las diferencias son los catalizadores y no las repeticiones.

#Oneway Test
mod2b = oneway.test(Respuesta ~ Factor, Datos2)
mod2b

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Respuesta and Factor
## F = 15.098, num df = 3.000, denom df = 10.512, p-value = 0.0003925

#P-value = 0.0003925, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.

#Kruskal-Wallis
mod2c = kruskal.test(Respuesta ~ Factor, Datos2)
mod2c

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Respuesta by Factor
## Kruskal-Wallis chi-squared = 17.333, df = 3, p-value = 0.0006035

#P-value = 0.0006035, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.

Revisión De Supuestos

\[H_0: \sigma^2_{A} = \sigma^2_{B} = \sigma^2_{C} = \sigma^2_{D}\]

hist(mod2$residuals)

#Pareciera que el histograma se comporta con normalidad

var_res = tapply(mod2$residuals, Datos2$Factor, var)

# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod2$residuals, Datos2$Factor)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  mod2$residuals and Datos2$Factor
## Bartlett's K-squared = 2.9844, df = 3, p-value = 0.394

#En la Prueba de Bartlett se tiene un p-value = 0.394 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.

#Normalidad de residuos
shapiro.test(mod2$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod2$residuals
## W = 0.96494, p-value = 0.5454

#En la Prueba de Shapiro-wilk se tiene un p-value = 0.5454 > 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil. #- Se cumple el supuesto de normalidad

#Conclusion: Se cumplen los dos supuestos.

Comparaciones De Medias Posterior Al Análisis De Varianzas

# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod2, 'Factor')
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)

tt

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Respuesta ~ Factor, data = Datos2)
## 
## $Factor
##           diff       lwr       upr     p adj
## B-A  5.0000000  1.600704  8.399296 0.0027711
## C-A  6.3333333  2.934037  9.732629 0.0002282
## D-A  0.1666667 -3.232629  3.565963 0.9990452
## C-B  1.3333333 -2.065963  4.732629 0.6948686
## D-B -4.8333333 -8.232629 -1.434037 0.0037860
## D-C -6.1666667 -9.565963 -2.767371 0.0003110

#Se comparan todos los catalizadores con todos los catalizadores

#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre los catalizadores no hay diferencias, lo que es igual a decir que los catalizadores D-A y C-B son los únicos que no presentan diferencias entre si. Los catalizadores que me presentaron diferencias fueron: C-A y B-A que son los mejores ya que tienen valores por arriba de la media (efectos positivos)

#Prueba de Duncan
library(agricolae)

dt = duncan.test(mod2, 'Factor', F)
plot(dt)

#Los catalizadores C y B se pueden considerar como el mismo catalizador (a). Y los catalizadores D y A se pueden considera el mismo catalizador (b).

#Sin embargo, solo los catalizadores C y B son considerados los mejores.

Interpretación Biológica

#Según el análisis realizado es posible decir que los catalizadores no tienen el mismo efecto sobre el rendimiento de los procesos químicos. Además, dos de los catalizadores que resultan ser el mismo, generan un mayor rendimiento en los procesos y aquel que genera un mayor rendimiento es el catalizador C.

Revisión Datos Atípicos

library(outliers)
grubbs.test(Datos2$Respuesta)

## 
##  Grubbs test for one outlier
## 
## data:  Datos2$Respuesta
## G = 2.37238, U = 0.74466, p-value = 0.1413
## alternative hypothesis: highest value 73 is an outlier

p - value = 0.1413 > 0.05 No se detectaron valores atípicos en los datos.

TALLER - PUNTO 3

FACTORIAL SIMPLE EN BLOQUES AL AZAR

#Se llevó a cabo un experimento para examinar el efecto de la duración de flores en florero obtenidas en un centro de investigación. Se eligió un diseño de bloques aleatorizados con tres bloques de manera tal que el sitio de prueba se eligió como razón de bloqueo. El tiempo de duración se muestra en la Tabla. Analice los datos y extraiga las conclusiones apropiadas. Utilice α = 0,05

Datos3 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
                    sheet = "Punto3")
print(Datos3)

## # A tibble: 9 × 3
##   Respuesta Factor Bloque1
##       <dbl> <chr>    <dbl>
## 1        96 N            1
## 2        90 N            2
## 3        85 N            3
## 4        85 C            1
## 5        88 C            2
## 6        82 C            3
## 7        80 S            1
## 8        76 S            2
## 9        78 S            3

Datos3$Factor = as.factor(Datos3$Factor)
Datos3$Respuesta = as.numeric(Datos3$Respuesta)

library(collapsibleTree)

collapsibleTreeSummary(
  Datos3,
  c('Factor', 'Bloque1', 'Respuesta'), collapsed = FALSE
)

Análisis Descriptivo

library(ggplot2)

ggplot(Datos3, aes(x = Factor, y = Respuesta, fill = Factor)) + 
  geom_boxplot(position = 'dodge') + 
  xlab("Sitio") + 
  ylab("Duración")

#Se observan tres sitios diferentes en donde las flores van a estar por un tiempo, pareciera que las que se colocan en el sitio sur estaran menos tiempo en las macetas, mientras que las que se colocan en el sitio norte estaran mas tiempo en las macetas.

ggplot(Datos3) +
  aes(x = Factor, y = Respuesta, fill = Factor)+
  geom_col(
    position = 'dodge') +
  xlab("Sitio") + 
  ylab("Duración")

Análisis Inferencial

#Hipótesis: \[H_0: \mu_{C} = \mu_{N} = \mu_{S}\] \[H_a: \mu_{C} ≠ \mu_{N} ≠ \mu_{S}\]

MODELO DE DISEÑO

\[y_{ij} = \mu + \tau_i + \beta_j + \epsilon_{ij}\]

Tabla Del ANOVA - Análisis de varianza

#Tabla ANOVA
mod3 = aov(Respuesta ~ Factor + Bloque1, data = Datos3)
summary(mod3)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## Factor       2 229.56  114.78  13.043 0.0104 *
## Bloque1      1  42.67   42.67   4.848 0.0789 .
## Residuals    5  44.00    8.80                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

ifelse(mod1$p.value < 0.05, 'Rechazo H0', 'No Rechazo H0')

## logical(0)

#P-value = 0.0104, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los sitios en donde se colocan las macetas me arrojara diferentes duraciones de las flores para estar en las macetas.

#Con el valor de F value se sugiere que los causantes de las diferencias son los sitios y no el bloqueo.

#Oneway Test
mod3b = oneway.test(Respuesta ~ Factor, Datos3)
mod3b

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Respuesta and Factor
## F = 8.7254, num df = 2.0000, denom df = 3.5819, p-value = 0.04199

#P-value = 0.04199, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los sitios en donde se colocan las macetas me arrojara diferentes duraciones de las flores para estar en las macetas.

#Kruskal-Wallis
mod3c = kruskal.test(Respuesta ~ Factor, Datos3)
mod3c

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Respuesta by Factor
## Kruskal-Wallis chi-squared = 6.2521, df = 2, p-value = 0.04389

#P-value = 0.04389, es < 0.05

Revisión De Supuestos

\[H_0: \sigma^2_{C} = \sigma^2_{N} = \sigma^2_{S}\]

hist(mod3$residuals)

#Pareciera que el histograma no se comportara con normalidad

var_res = tapply(mod3$residuals, Datos3$Factor, var)

# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod3$residuals, Datos3$Factor)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  mod3$residuals and Datos3$Factor
## Bartlett's K-squared = 0.060221, df = 2, p-value = 0.9703

#En la Prueba de Bartlett se tiene un p-value = 0.9703 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.

#Normalidad de residuos
shapiro.test(mod1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod1$residuals
## W = 0.94102, p-value = 0.5114

#Conclusion: Se cumplen los dos supuestos.

Comparaciones De Medias Posterior Al Análisis De Varianzas

# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod3, 'Factor')

## Warning in replications(paste("~", xx), data = mf): non-factors ignored:
## Bloque1

plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)

tt

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Respuesta ~ Factor + Bloque1, data = Datos3)
## 
## $Factor
##           diff        lwr        upr     p adj
## N-C   5.333333  -2.548031 13.2146978 0.1637485
## S-C  -7.000000 -14.881364  0.8813645 0.0744269
## S-N -12.333333 -20.214698 -4.4519689 0.0087436

#Se comparan todos los sitios con todos los sitios

#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre N-C y S-C son los que no presentaron diferencias entre si. Los que presentaron diferencias fueron únicamente S-N y son los mejores (efectos positivos)

#Prueba de Duncan
library(agricolae)

dt = duncan.test(mod3, 'Factor', F)
plot(dt)

#El sitio en donde se presenta un mejor efecto de duración de la flores en las macetas es en el Norte.

Interpretación Biológica

#Se puede ver que el efecto de la duración de las flores en las macetas sera diferentes segun el sitio que es escoja. #El sitio que obtuvo mejores resultados fue el del Norte y valió la pena hacer el bloqueo.

Revisión Datos Atípicos

library(outliers)
grubbs.test(Datos3$Respuesta)

## 
##  Grubbs test for one outlier
## 
## data:  Datos3$Respuesta
## G = 1.83798, U = 0.52495, p-value = 0.18
## alternative hypothesis: highest value 96 is an outlier

#No se presentan datos atípicos

TALLER - PUNTO 4

#Un jefe de ventas de una empresa de fertilizantes estaba interesado en comparar las ventas de tres productos (A,B y C). Para controlar sistemáticamente los efectos de la región y la temporada en las ventas de los productos, se realizó un diseño experimental de cuadrado latino. Los datos sobre ingresos por ventas (en miles de dólares) se dan en la Tabla .Analice los datos y saque las conclusiones apropiadas. Use α = 0.05.

library(readxl)
Datos4 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
                    sheet = "Punto4")
print(Datos4)

## # A tibble: 9 × 4
##   Respuesta Factor Bloque1 Bloque2
##       <dbl> <chr>    <dbl> <chr>  
## 1       265 C            1 I      
## 2       410 B            1 II     
## 3       220 A            1 III    
## 4       280 A            2 I      
## 5       300 C            2 II     
## 6       384 B            2 III    
## 7       360 B            3 I      
## 8       240 A            3 II     
## 9       251 C            3 III

Datos4$Factor = as.factor(Datos4$Factor)
Datos4$Respuesta = as.numeric(Datos4$Respuesta)
Datos4$Bloque1 = as.factor(Datos4$Bloque1)

library(collapsibleTree)

collapsibleTreeSummary(
  Datos4,
  c('Factor', 'Bloque1', 'Bloque2', 'Respuesta'), collapsed = FALSE
)

Análisis Descriptivo

library(ggplot2)

ggplot(Datos4, aes(x = Factor, y = Respuesta, fill = Factor)) + 
  geom_boxplot(position = 'dodge') + 
  xlab("Productos") + 
  ylab("Ingresos por venta")

#Se observa que aparentemente el producto A es el que genera menores ingresos por venta y que el producto B es el que genera mayores ingresos por venta.

library(lattice)
bwplot(Respuesta ~ Bloque1|Bloque2 + Bloque1, Datos4)

#Parece que los ingresos por ventas que tienen valores más altos según la estación (I) y la región (1) #- En la estación III y región 2 los ingresos mas altos los genera el producto B #- En la estación II y region 1 los ingresos mas altos los genera el producto B #- En la estacion I y region 3 los ingresos mas altos los genera el producto B

#Pareciera que el producto B me esta dando los mejores ingresos de venta.

Análisis Inferencial

Hipótesis: \[H_0: \mu_{A} = \mu_{B} = \mu_{C}\] \[H_a: \mu_{A} ≠ \mu_{B} ≠ \mu_{C}\]

Modelo De Diseño

\[y_{ijk} = \mu + \tau_i + \beta_j + \delta_k + \epsilon_{ijk}\]

tbl = matrix(Datos4$Respuesta, 3)
colnames(tbl) = unique(Datos4$Bloque1)
rownames(tbl) = unique(Datos4$Bloque2)
tbl

##       1   2   3
## I   265 280 360
## II  410 300 240
## III 220 384 251

Análisis de varianza

#Tabla ANOVA
mod4 = lm(Respuesta ~ Bloque1 + Factor + Bloque2, Datos4)
anova(mod4)

## Analysis of Variance Table
## 
## Response: Respuesta
##           Df Sum Sq Mean Sq F value  Pr(>F)  
## Bloque1    2   2163  1081.4  2.9920 0.25050  
## Factor     2  32380 16189.8 44.7919 0.02184 *
## Bloque2    2   1506   752.8  2.0827 0.32439  
## Residuals  2    723   361.4                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#P-value = 0.02184, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.

#Con el valor de F value se sugiere que los causantes de las diferencias son los productos y los bloques tienen una causante baja.

#Oneway Test
mod4b = oneway.test(Respuesta ~ Factor, Datos4)
mod4b

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Respuesta and Factor
## F = 19.862, num df = 2.0000, denom df = 3.9709, p-value = 0.008552

#P-value = 0.008552, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.

#Kruskal-Wallis
mod4c = kruskal.test(Respuesta ~ Factor, Datos4)
mod4c

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Respuesta by Factor
## Kruskal-Wallis chi-squared = 5.9556, df = 2, p-value = 0.05091

#P-value = 0.05091, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.

Revisión De Supuestos

\[H_0: \sigma^2_{A} = \sigma^2_{B} = \sigma^2_{C}\]

hist(mod4$residuals)

#Pareciera que el histograma no se comportara con normalidad

var_res = tapply(mod4$residuals, Datos4$Factor, var)

# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod4$residuals, Datos4$Factor)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  mod4$residuals and Datos4$Factor
## Bartlett's K-squared = 0, df = 2, p-value = 1

#En la Prueba de Bartlett se tiene un p-value = 1 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.

#Normalidad de residuos
shapiro.test(mod4$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  mod4$residuals
## W = 0.70608, p-value = 0.001671

#En la Prueba de Shapiro-wilk se tiene un p-value = 0.001671 < 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil. #- No se cumple el supuesto de normalidad

#Conclusion: No se cumplen los dos supuestos.

Comparaciones De Medias Posterior Al Análisis De Varianzas

#Prueba de Duncan
library(agricolae)

dt = duncan.test(mod4, 'Factor', F)
plot(dt)

#El producto en donde se presenta un mayor valor de ingresos por ventas es para el B.

Interpretación Biológica

#Se observa que el producto B es el que genera mayores ingresos por venta. #Y como en anova el valor para los bloques son mayores a 1, vale la pena realizar los bloqueos.

Revisión Datos Atípicos

library(outliers)
grubbs.test(Datos4$Respuesta)

## 
##  Grubbs test for one outlier
## 
## data:  Datos4$Respuesta
## G = 1.60611, U = 0.63724, p-value = 0.3875
## alternative hypothesis: highest value 410 is an outlier

#No se presentan datos atípicos

TALLER - PUNTO 5

 Respuesta = c(9.5, 10.5,8.5,
               12,11.6,10.4,
               9.6,12.2,14.2,
               13.8,14.1,15)
CE = c(9,11,7,12,9,8,11,10,11,7,13,10)
cic= c(74,81,63,77,65,68,87,67,66,61,86,78)
ca= c(52,54,44,57,46,45,50,43,47,37,56,52)

factor= gl(4,3,12,c ( "1","2","3","4"))
factor = as.factor(factor)
#covar = gl(1,4,4,c("cova1","cova2","cova3"))

data5 = data.frame(Respuesta,factor
                   ,CE,cic,ca)
data5

##    Respuesta factor CE cic ca
## 1        9.5      1  9  74 52
## 2       10.5      1 11  81 54
## 3        8.5      1  7  63 44
## 4       12.0      2 12  77 57
## 5       11.6      2  9  65 46
## 6       10.4      2  8  68 45
## 7        9.6      3 11  87 50
## 8       12.2      3 10  67 43
## 9       14.2      3 11  66 47
## 10      13.8      4  7  61 37
## 11      14.1      4 13  86 56
## 12      15.0      4 10  78 52

Analisis Descriptivo

library(ggplot2)
ggplot(data5, aes(x = CE, y = Respuesta, color = factor  )) +
         geom_point(color = factor, pch = 16, size = 4)  +
  labs(title='CE',color ="red")+
  
   geom_smooth(aes(color = factor),
              linewidth = 2,
              method = 'lm', 
              formula = 'y~x', 
              se=F)+  
  geom_smooth(method = 'lm',
              formula = 'y~x',
              se = F,
              col = "purple")

library(ggplot2)
ggplot(data5, aes(x = cic, y = Respuesta, color = factor  )) +
         geom_point(color = factor) +
  labs(title='CIC',color ="red")+
   geom_smooth(aes(color = factor),
              linewidth = 2,
              method = 'lm', 
              formula = 'y~x', 
              se=F)+  
  geom_smooth(method = 'lm',
              formula = 'y~x',
              se = F,
              col = 'black')

library(ggplot2)
ggplot(data5, aes(x = ca, y = Respuesta, color = factor  )) +
         geom_point(color = factor) +
  labs(title='CA',color ="red")+
   geom_smooth(aes(color = factor),
              linewidth = 2,
              method = 'lm', 
              formula = 'y~x', 
              se=F)+  
  geom_smooth(method = 'lm',
              formula = 'y~x',
              se = F,
              col = 'black')

Análisis Inferencial

Hipótesis: \[H_0: \mu_{1} = \mu_{2} = \mu_{3} = \mu_{4}\] \[H_a: \mu_{1} ≠ \mu_{2} ≠ \mu_{3} ≠ \mu_{4}\]

Modelo De Diseño

\[y_{ijk} = \mu + \tau_i + \beta_j + \theta (X_{ij} - \bar{X} )+ \epsilon_{ij}\]

Análisis de Varianza

# Tabla ANOVA
avo51 = aov(Respuesta~factor+cic+CE+ca, data5)
summary(avo51)

##             Df Sum Sq Mean Sq F value  Pr(>F)   
## factor       3  35.39  11.797  16.513 0.00501 **
## cic          1   0.48   0.476   0.666 0.45161   
## CE           1   9.88   9.879  13.829 0.01373 * 
## ca           1   0.88   0.880   1.231 0.31765   
## Residuals    5   3.57   0.714                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#P-value = 0.00501, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos una de las profundidades presenta diferencias en sus covariables.

#Oneway Test
mod5b = oneway.test(Respuesta ~ factor, data5)
mod5b

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  Respuesta and factor
## F = 14.692, num df = 3.0000, denom df = 4.2388, p-value = 0.01069

#P-value = 0.01069, es < 0.05

#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos una de las profundidades presenta diferencias en sus covariables.

#Kruskal-Wallis
mod5c = kruskal.test(Respuesta ~ factor, data5)
mod5c

## 
##  Kruskal-Wallis rank sum test
## 
## data:  Respuesta by factor
## Kruskal-Wallis chi-squared = 7.1026, df = 3, p-value = 0.0687

#P-value = 0.0687, es > 0.05

#Los datos proporcionan evidencia en a favor de H0, es decir que ‘No Rechazo H0’ y por lo tanto, todas las profundidades presentan valores en las covariables iguales.

Revisión De Supuestos

\[H_0: \sigma^2_{1} = \sigma^2_{2} = \sigma^2_{3} = \sigma^2_{4}\]

hist(avo51$residuals)

var_res = tapply(avo51$residuals, data5$factor, var)

# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(avo51$residuals, data5$factor)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  avo51$residuals and data5$factor
## Bartlett's K-squared = 2.4474, df = 3, p-value = 0.4849

#En la Prueba de Bartlett se tiene un p-value = 0.4849 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.

#Normalidad de residuos
shapiro.test(avo51$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  avo51$residuals
## W = 0.99036, p-value = 0.9998

#En la Prueba de Shapiro-wilk se tiene un p-value = 0.9998 > 0.05, en donde se considera que los resduales no siguen una distribución normal, por lo tanto, la tabla del análisis de varianza no es realmente útil. #- No se cumple el supuesto de normalidad

#Conclusion: No se cumplen los dos supuestos.

Comparaciones De Medias Posterior Al Análisis De Varianzas

# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(avo51, 'factor')

## Warning in replications(paste("~", xx), data = mf): non-factors ignored: cic

## Warning in replications(paste("~", xx), data = mf): non-factors ignored: CE

## Warning in replications(paste("~", xx), data = mf): non-factors ignored: ca

plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)

tt

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Respuesta ~ factor + cic + CE + ca, data = data5)
## 
## $factor
##          diff         lwr      upr     p adj
## 2-1 1.8333333 -0.71313926 4.379806 0.1470225
## 3-1 2.5000000 -0.04647259 5.046473 0.0534558
## 4-1 4.8000000  2.25352741 7.346473 0.0035934
## 3-2 0.6666667 -1.87980592 3.213139 0.7737830
## 4-2 2.9666667  0.42019408 5.513139 0.0280120
## 4-3 2.3000000 -0.24647259 4.846473 0.0717015

library(TukeyC)

TT5 = TukeyC(avo51,"factor")
plot(TT5)

#Se comparan todas las profundidades con todas las profundidades

#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre 2-1, 3-1, 3-2 y 4-3 son los que no presentaron diferencias entre si. Los que presentaron diferencias fueron únicamente 4-1 y 4-2 y son los mejores (efectos positivos)

Interpretación Biológica

Revisión Datos Atípicos

library(outliers)
grubbs.test(data5$Respuesta)

## 
##  Grubbs test for one outlier
## 
## data:  data5$Respuesta
## G = 1.53700, U = 0.76572, p-value = 0.665
## alternative hypothesis: lowest value 8.5 is an outlier

No se presentan datos atípicos

Taller - Diseño de Experimentos

Diana Lorena Barajas Pedroza

2023-05-15

TALLER - PUNTO 1

FACTORIAL SIMPLE COMPLETAMENTE AL AZAR

Análisis Descriptivo

Análisis Inferencial

Modelo de Diseño

Revisión De Supuestos

Comparaciones De Medias Posterior Al Análisis De Varianzas

Interpretación Biológica

Revisión Datos Atípicos

TALLER - PUNTO 2

FACTORIAL SIMPLE COMPLETAMENTE AL AZAR

Análisis Descriptivo

Análisis Inferencial

Análisis de varianza

Revisión De Supuestos

Comparaciones De Medias Posterior Al Análisis De Varianzas

Interpretación Biológica

Revisión Datos Atípicos

TALLER - PUNTO 3

FACTORIAL SIMPLE EN BLOQUES AL AZAR

Análisis Descriptivo

Análisis Inferencial

MODELO DE DISEÑO

Tabla Del ANOVA - Análisis de varianza

Revisión De Supuestos

Comparaciones De Medias Posterior Al Análisis De Varianzas

Interpretación Biológica

Revisión Datos Atípicos

TALLER - PUNTO 4

Análisis Descriptivo

Análisis Inferencial

Modelo De Diseño

Análisis de varianza

Revisión De Supuestos

Comparaciones De Medias Posterior Al Análisis De Varianzas

Interpretación Biológica

Revisión Datos Atípicos

TALLER - PUNTO 5

Analisis Descriptivo

Análisis Inferencial

Modelo De Diseño

Análisis de Varianza

Revisión De Supuestos

Comparaciones De Medias Posterior Al Análisis De Varianzas

Interpretación Biológica

Revisión Datos Atípicos