library(readxl)
Datos1 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
sheet = "Punto1")
#View(Datos)
Datos1$Factor = as.factor(Datos1$Factor)
Datos1$Respuesta = as.numeric(Datos1$Respuesta)
#Datos asociando la respuesta a la fractura (tiempo hasta la fractura) de bloques de madera.
library(collapsibleTree)
collapsibleTreeSummary(
Datos1,
c('Factor', 'Repeticiones', 'Respuesta'), collapsed = FALSE
)
#El arbol muestra como se asignan los tratamientos a cada bloque de madera, teniendo que el factor (Presión ejercida) posee 4 niveles con sus correspondientes repeticiones, seguido finalmente de la respuesta para cada uno, en donde cada uno representa una posible decisión a tomar.
library(ggplot2)
ggplot(Datos1, aes(x = Factor, y = Respuesta, fill = Factor)) +
geom_boxplot(position = 'dodge') +
xlab("Presión") +
ylab("Tiempo de Fractura")
#Se observa la relación que tiene el nivel de presión que se ejerce sobre los bloques con el tiempo de ruptura de estos. #Al ver un nivel de presión de 0.25 comparada con el de 0.05, en la primera tardan mucho más tiempo en romperse los bloques que en la segunda, a pesar de tener un mayor nivel de presión ejercido.
ggplot(Datos1) +
aes(x = Factor, y = Respuesta, fill = Factor)+
geom_col(
position = 'dodge') +
xlab("Presión") +
ylab("Tiempo de Fractura")
#Hipótesis:
#El nivel de presión que se ejerce a los bloques de madera no influye en el tiempo de fractura:
\[H_0: \mu_{0.05} = \mu_{0.10} = \mu_{0.20} = \mu_{0.25}\]
\[H_a: \mu_{0.05} ≠ \mu_{0.10} ≠ \mu_{0.20} ≠ \mu_{0.25}\]
\[y_{ij} = \mu + \tau_i + \epsilon_{ij}\]
###Análisis de varianza
#ANOVA
mod1 = aov(Respuesta ~ Factor, Datos1)
summary(mod1)
## Df Sum Sq Mean Sq F value Pr(>F)
## Factor 3 0.016567 0.005522 82.83 2.3e-06 ***
## Residuals 8 0.000533 0.000067
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
P-value = 2.3e-06, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los niveles de presión ejercidos sobre los bloques de madera influye en el tiempo de fractura.
#Con el valor de F value se sugiere que los causantes de las diferencias son las presiones y no las repeticiones.
#Oneway Test
mod1b = oneway.test(Respuesta ~ Factor, Datos1)
mod1b
##
## One-way analysis of means (not assuming equal variances)
##
## data: Respuesta and Factor
## F = 66.242, num df = 3.0000, denom df = 4.3243, p-value = 0.0004653
#P-value = 0.0004653, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los niveles de presión ejercidos sobre los bloques de madera influye en el tiempo de fractura.
#Kruskal-Wallis
mod1c = kruskal.test(Respuesta ~ Factor, Datos1)
mod1c
##
## Kruskal-Wallis rank sum test
##
## data: Respuesta by Factor
## Kruskal-Wallis chi-squared = 10.274, df = 3, p-value = 0.01637
#P-value = 0.01637, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los niveles de presión ejercidos sobre los bloques de madera influye en el tiempo de fractura.
\[H_0: \sigma^2_{0.05} = \sigma^2_{0.10} = \sigma^2_{0.20} = \sigma^2_{0.25}\]
hist(mod1$residuals)
#Pareciera que el histograma no se comportara con normalidad
var_res = tapply(mod1$residuals, Datos1$Factor, var)
# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod1$residuals, Datos1$Factor)
##
## Bartlett test of homogeneity of variances
##
## data: mod1$residuals and Datos1$Factor
## Bartlett's K-squared = 0.95233, df = 3, p-value = 0.8128
#En la Prueba de Bartlett se tiene un p-value = 0.8128 > 0.05, no se rechaza H0 de que las varianzas se pueden considerar estadisticamente iguales, es decir, que estadísticamente los residuales se pueden considerar iguales.
#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.
#Normalidad de residuos
shapiro.test(mod1$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod1$residuals
## W = 0.94102, p-value = 0.5114
#En la Prueba de Shapiro-wilk se tiene un p-value = 0.5114 > 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil.
#Conclusion: Se cumplen los dos supuestos.
#Aquellos tratamientos que causaron la diferencia
# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod1, 'Factor')
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)
tt
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Respuesta ~ Factor, data = Datos1)
##
## $Factor
## diff lwr upr p adj
## 0.10-0.05 0.05000000 0.028650987 0.07134901 0.0003178
## 0.20-0.05 0.06666667 0.045317653 0.08801568 0.0000396
## 0.25-0.05 0.10333333 0.081984320 0.12468235 0.0000014
## 0.20-0.10 0.01666667 -0.004682347 0.03801568 0.1344163
## 0.25-0.10 0.05333333 0.031984320 0.07468235 0.0002012
## 0.25-0.20 0.03666667 0.015317653 0.05801568 0.0025538
#Se comparan todos los niveles de presión con todos los niveles de presión #- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0 me dice que entre los niveles de presión no hay diferencias, lo que es igual a decir que los niveles de presión de 0.20 y 0.10 son los únicos que no presentan diferencias entre si. Los niveles que me causaron diferencias fueron: 0.05 y 0.25 que son los mejores ya que tienen valores por arriba de la media (efectos positivos) #- En la tabla: aquellos valores > 5% = no difieren y < 5% = difieren, por lo tanto, 0.2 y 0.1 no difieren (los dos son igual de malos)
#los únicos valores que no presentan diferencias entre ellos son presión de 0.1 y presión de 0.2, los demas presentan diferencias.
#Prueba de Duncan
library(agricolae)
dt = duncan.test(mod1, 'Factor', F)
plot(dt)
#Realmente existe un nivel de presión que es mejor a los demás, el cual es el 0.25. Además se comprueba que los niveles 0.20 y 0.10 no presentan diferencias entre ellos.
#Según el análisis realizado es posible decir que los niveles de presión ejercidos a los bloques de madera influyen en el tiempo de fractura, que son diferentes y además, entre los 4 niveles, existen 2 que pueden ser considerados los mejores (0.25 y 0.05), sin embargo entre ellos dos, 0.25 presenta mejores valores.
library(outliers)
grubbs.test(Datos1$Respuesta)
##
## Grubbs test for one outlier
##
## data: Datos1$Respuesta
## G = 1.64859, U = 0.73046, p-value = 0.5021
## alternative hypothesis: lowest value 0.87 is an outlier
#p - value = 0.5021 > 0.05 #No se detectaron valores atípicos en los datos.
#Se investigan cuatro catalizadores que pueden afectar al rendimiento de un proceso químico. Se sigue un diseño completamente aleatorizado fara un solo factor en el que cada proceso que utiliza un catalizador específico se repite 6 veces. Los rendimientos obtenidos se muestran en la Tabla. ¿Tienen los cuatro catalizadores el mismo efecto sobre el rendimiento? Utilice α = 0,05.
library(readxl)
Datos2 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
sheet = "Punto2")
print(Datos2)
## # A tibble: 24 × 3
## Respuesta Factor Repeticiones
## <dbl> <chr> <dbl>
## 1 60 A 1
## 2 63 A 2
## 3 62 A 3
## 4 61 A 4
## 5 63 A 5
## 6 62 A 6
## 7 65 B 1
## 8 67 B 2
## 9 70 B 3
## 10 68 B 4
## # ℹ 14 more rows
Datos2$Factor = as.factor(Datos2$Factor)
Datos2$Respuesta = as.numeric(Datos2$Respuesta)
library(collapsibleTree)
collapsibleTreeSummary(
Datos2,
c('Factor', 'Repeticiones', 'Respuesta'), collapsed = FALSE
)
#El arbol muestra como se asignan los tratamientos a cada catalizador, teniendo que el factor (Presión ejercida) posee 4 niveles con sus correspondientes repeticiones (6), seguido finalmente de la respuesta para cada uno, en donde cada uno representa una posible decisión a tomar, es decir las diferentes opciones que se posee para elegir.
library(ggplot2)
ggplot(Datos2, aes(x = Factor, y = Respuesta, fill = Factor)) +
geom_boxplot(position = 'dodge') +
xlab("Catalizador") +
ylab("Rendimiento")
#Se observa que posiblemente los catalizadores A y D disminuyen el rendimiento del proceso químico y los catalizadores B y C, aumentan el rendimiento del proceso químico.
ggplot(Datos2) +
aes(x = Factor, y = Respuesta, fill = Factor)+
geom_col(
position = 'dodge') +
xlab("Catalizador") +
ylab("Rendimiento")
#Se observa que posiblemente el catalizador C arroja resultados mayores al rendimeinto del proceso químico.
#Hipótesis: \[H_0: \mu_{A} = \mu_{B} = \mu_{C} = \mu_{D}\] \[H_a: \mu_{A} ≠ \mu_{B} ≠ \mu_{C} ≠ \mu_{D}\] ### Modelo De Diseño
\[y_{ij} = \mu + \tau_i + \epsilon_{ij}\]
# Tabla ANOVA
mod2 = aov(Respuesta ~ Factor, data = Datos2)
summary(mod2)
## Df Sum Sq Mean Sq F value Pr(>F)
## Factor 3 192.5 64.15 14.5 3.01e-05 ***
## Residuals 20 88.5 4.43
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ifelse(mod1$p.value < 0.05, 'Rechazo H0', 'No Rechazo H0')
## logical(0)
#P-value = 3.01e-05, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.
#Con el valor de F value se sugiere que los causantes de las diferencias son los catalizadores y no las repeticiones.
#Oneway Test
mod2b = oneway.test(Respuesta ~ Factor, Datos2)
mod2b
##
## One-way analysis of means (not assuming equal variances)
##
## data: Respuesta and Factor
## F = 15.098, num df = 3.000, denom df = 10.512, p-value = 0.0003925
#P-value = 0.0003925, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.
#Kruskal-Wallis
mod2c = kruskal.test(Respuesta ~ Factor, Datos2)
mod2c
##
## Kruskal-Wallis rank sum test
##
## data: Respuesta by Factor
## Kruskal-Wallis chi-squared = 17.333, df = 3, p-value = 0.0006035
#P-value = 0.0006035, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los catalizadores tienen un efecto diferente en el rendimiento del proceso químico.
\[H_0: \sigma^2_{A} = \sigma^2_{B} = \sigma^2_{C} = \sigma^2_{D}\]
hist(mod2$residuals)
#Pareciera que el histograma se comporta con normalidad
var_res = tapply(mod2$residuals, Datos2$Factor, var)
# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod2$residuals, Datos2$Factor)
##
## Bartlett test of homogeneity of variances
##
## data: mod2$residuals and Datos2$Factor
## Bartlett's K-squared = 2.9844, df = 3, p-value = 0.394
#En la Prueba de Bartlett se tiene un p-value = 0.394 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.
#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.
#Normalidad de residuos
shapiro.test(mod2$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod2$residuals
## W = 0.96494, p-value = 0.5454
#En la Prueba de Shapiro-wilk se tiene un p-value = 0.5454 > 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil. #- Se cumple el supuesto de normalidad
#Conclusion: Se cumplen los dos supuestos.
# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod2, 'Factor')
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)
tt
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Respuesta ~ Factor, data = Datos2)
##
## $Factor
## diff lwr upr p adj
## B-A 5.0000000 1.600704 8.399296 0.0027711
## C-A 6.3333333 2.934037 9.732629 0.0002282
## D-A 0.1666667 -3.232629 3.565963 0.9990452
## C-B 1.3333333 -2.065963 4.732629 0.6948686
## D-B -4.8333333 -8.232629 -1.434037 0.0037860
## D-C -6.1666667 -9.565963 -2.767371 0.0003110
#Se comparan todos los catalizadores con todos los catalizadores
#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre los catalizadores no hay diferencias, lo que es igual a decir que los catalizadores D-A y C-B son los únicos que no presentan diferencias entre si. Los catalizadores que me presentaron diferencias fueron: C-A y B-A que son los mejores ya que tienen valores por arriba de la media (efectos positivos)
#Prueba de Duncan
library(agricolae)
dt = duncan.test(mod2, 'Factor', F)
plot(dt)
#Los catalizadores C y B se pueden considerar como el mismo catalizador (a). Y los catalizadores D y A se pueden considera el mismo catalizador (b).
#Sin embargo, solo los catalizadores C y B son considerados los mejores.
#Según el análisis realizado es posible decir que los catalizadores no tienen el mismo efecto sobre el rendimiento de los procesos químicos. Además, dos de los catalizadores que resultan ser el mismo, generan un mayor rendimiento en los procesos y aquel que genera un mayor rendimiento es el catalizador C.
library(outliers)
grubbs.test(Datos2$Respuesta)
##
## Grubbs test for one outlier
##
## data: Datos2$Respuesta
## G = 2.37238, U = 0.74466, p-value = 0.1413
## alternative hypothesis: highest value 73 is an outlier
p - value = 0.1413 > 0.05 No se detectaron valores atípicos en los datos.
#Se llevó a cabo un experimento para examinar el efecto de la duración de flores en florero obtenidas en un centro de investigación. Se eligió un diseño de bloques aleatorizados con tres bloques de manera tal que el sitio de prueba se eligió como razón de bloqueo. El tiempo de duración se muestra en la Tabla. Analice los datos y extraiga las conclusiones apropiadas. Utilice α = 0,05
.
Datos3 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
sheet = "Punto3")
print(Datos3)
## # A tibble: 9 × 3
## Respuesta Factor Bloque1
## <dbl> <chr> <dbl>
## 1 96 N 1
## 2 90 N 2
## 3 85 N 3
## 4 85 C 1
## 5 88 C 2
## 6 82 C 3
## 7 80 S 1
## 8 76 S 2
## 9 78 S 3
Datos3$Factor = as.factor(Datos3$Factor)
Datos3$Respuesta = as.numeric(Datos3$Respuesta)
library(collapsibleTree)
collapsibleTreeSummary(
Datos3,
c('Factor', 'Bloque1', 'Respuesta'), collapsed = FALSE
)
library(ggplot2)
ggplot(Datos3, aes(x = Factor, y = Respuesta, fill = Factor)) +
geom_boxplot(position = 'dodge') +
xlab("Sitio") +
ylab("Duración")
#Se observan tres sitios diferentes en donde las flores van a estar por un tiempo, pareciera que las que se colocan en el sitio sur estaran menos tiempo en las macetas, mientras que las que se colocan en el sitio norte estaran mas tiempo en las macetas.
ggplot(Datos3) +
aes(x = Factor, y = Respuesta, fill = Factor)+
geom_col(
position = 'dodge') +
xlab("Sitio") +
ylab("Duración")
#Hipótesis: \[H_0: \mu_{C} = \mu_{N} = \mu_{S}\] \[H_a: \mu_{C} ≠ \mu_{N} ≠ \mu_{S}\]
\[y_{ij} = \mu + \tau_i + \beta_j + \epsilon_{ij}\]
#Tabla ANOVA
mod3 = aov(Respuesta ~ Factor + Bloque1, data = Datos3)
summary(mod3)
## Df Sum Sq Mean Sq F value Pr(>F)
## Factor 2 229.56 114.78 13.043 0.0104 *
## Bloque1 1 42.67 42.67 4.848 0.0789 .
## Residuals 5 44.00 8.80
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
ifelse(mod1$p.value < 0.05, 'Rechazo H0', 'No Rechazo H0')
## logical(0)
#P-value = 0.0104, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los sitios en donde se colocan las macetas me arrojara diferentes duraciones de las flores para estar en las macetas.
#Con el valor de F value se sugiere que los causantes de las diferencias son los sitios y no el bloqueo.
#Oneway Test
mod3b = oneway.test(Respuesta ~ Factor, Datos3)
mod3b
##
## One-way analysis of means (not assuming equal variances)
##
## data: Respuesta and Factor
## F = 8.7254, num df = 2.0000, denom df = 3.5819, p-value = 0.04199
#P-value = 0.04199, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los sitios en donde se colocan las macetas me arrojara diferentes duraciones de las flores para estar en las macetas.
#Kruskal-Wallis
mod3c = kruskal.test(Respuesta ~ Factor, Datos3)
mod3c
##
## Kruskal-Wallis rank sum test
##
## data: Respuesta by Factor
## Kruskal-Wallis chi-squared = 6.2521, df = 2, p-value = 0.04389
#P-value = 0.04389, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los sitios en donde se colocan las macetas me arrojara diferentes duraciones de las flores para estar en las macetas.
\[H_0: \sigma^2_{C} = \sigma^2_{N} = \sigma^2_{S}\]
hist(mod3$residuals)
#Pareciera que el histograma no se comportara con normalidad
var_res = tapply(mod3$residuals, Datos3$Factor, var)
# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod3$residuals, Datos3$Factor)
##
## Bartlett test of homogeneity of variances
##
## data: mod3$residuals and Datos3$Factor
## Bartlett's K-squared = 0.060221, df = 2, p-value = 0.9703
#En la Prueba de Bartlett se tiene un p-value = 0.9703 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.
#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.
#Normalidad de residuos
shapiro.test(mod1$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod1$residuals
## W = 0.94102, p-value = 0.5114
#En la Prueba de Shapiro-wilk se tiene un p-value = 0.5114 > 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil. #- Se cumple el supuesto de normalidad
#Conclusion: Se cumplen los dos supuestos.
# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(mod3, 'Factor')
## Warning in replications(paste("~", xx), data = mf): non-factors ignored:
## Bloque1
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)
tt
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Respuesta ~ Factor + Bloque1, data = Datos3)
##
## $Factor
## diff lwr upr p adj
## N-C 5.333333 -2.548031 13.2146978 0.1637485
## S-C -7.000000 -14.881364 0.8813645 0.0744269
## S-N -12.333333 -20.214698 -4.4519689 0.0087436
#Se comparan todos los sitios con todos los sitios
#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre N-C y S-C son los que no presentaron diferencias entre si. Los que presentaron diferencias fueron únicamente S-N y son los mejores (efectos positivos)
#Prueba de Duncan
library(agricolae)
dt = duncan.test(mod3, 'Factor', F)
plot(dt)
#El sitio en donde se presenta un mejor efecto de duración de la flores en las macetas es en el Norte.
#Se puede ver que el efecto de la duración de las flores en las macetas sera diferentes segun el sitio que es escoja. #El sitio que obtuvo mejores resultados fue el del Norte y valió la pena hacer el bloqueo.
library(outliers)
grubbs.test(Datos3$Respuesta)
##
## Grubbs test for one outlier
##
## data: Datos3$Respuesta
## G = 1.83798, U = 0.52495, p-value = 0.18
## alternative hypothesis: highest value 96 is an outlier
#No se presentan datos atípicos
#Un jefe de ventas de una empresa de fertilizantes estaba interesado en comparar las ventas de tres productos (A,B y C). Para controlar sistemáticamente los efectos de la región y la temporada en las ventas de los productos, se realizó un diseño experimental de cuadrado latino. Los datos sobre ingresos por ventas (en miles de dólares) se dan en la Tabla .Analice los datos y saque las conclusiones apropiadas. Use α = 0.05.
library(readxl)
Datos4 <- read_excel("C:/Users/Lorena/Desktop/Datos.xlsx",
sheet = "Punto4")
print(Datos4)
## # A tibble: 9 × 4
## Respuesta Factor Bloque1 Bloque2
## <dbl> <chr> <dbl> <chr>
## 1 265 C 1 I
## 2 410 B 1 II
## 3 220 A 1 III
## 4 280 A 2 I
## 5 300 C 2 II
## 6 384 B 2 III
## 7 360 B 3 I
## 8 240 A 3 II
## 9 251 C 3 III
Datos4$Factor = as.factor(Datos4$Factor)
Datos4$Respuesta = as.numeric(Datos4$Respuesta)
Datos4$Bloque1 = as.factor(Datos4$Bloque1)
library(collapsibleTree)
collapsibleTreeSummary(
Datos4,
c('Factor', 'Bloque1', 'Bloque2', 'Respuesta'), collapsed = FALSE
)
library(ggplot2)
ggplot(Datos4, aes(x = Factor, y = Respuesta, fill = Factor)) +
geom_boxplot(position = 'dodge') +
xlab("Productos") +
ylab("Ingresos por venta")
#Se observa que aparentemente el producto A es el que genera menores ingresos por venta y que el producto B es el que genera mayores ingresos por venta.
library(lattice)
bwplot(Respuesta ~ Bloque1|Bloque2 + Bloque1, Datos4)
#Parece que los ingresos por ventas que tienen valores más altos según la estación (I) y la región (1) #- En la estación III y región 2 los ingresos mas altos los genera el producto B #- En la estación II y region 1 los ingresos mas altos los genera el producto B #- En la estacion I y region 3 los ingresos mas altos los genera el producto B
#Pareciera que el producto B me esta dando los mejores ingresos de venta.
Hipótesis: \[H_0: \mu_{A} = \mu_{B} = \mu_{C}\] \[H_a: \mu_{A} ≠ \mu_{B} ≠ \mu_{C}\]
\[y_{ijk} = \mu + \tau_i + \beta_j + \delta_k + \epsilon_{ijk}\]
tbl = matrix(Datos4$Respuesta, 3)
colnames(tbl) = unique(Datos4$Bloque1)
rownames(tbl) = unique(Datos4$Bloque2)
tbl
## 1 2 3
## I 265 280 360
## II 410 300 240
## III 220 384 251
#Tabla ANOVA
mod4 = lm(Respuesta ~ Bloque1 + Factor + Bloque2, Datos4)
anova(mod4)
## Analysis of Variance Table
##
## Response: Respuesta
## Df Sum Sq Mean Sq F value Pr(>F)
## Bloque1 2 2163 1081.4 2.9920 0.25050
## Factor 2 32380 16189.8 44.7919 0.02184 *
## Bloque2 2 1506 752.8 2.0827 0.32439
## Residuals 2 723 361.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#P-value = 0.02184, es < 0.05 #Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.
#Con el valor de F value se sugiere que los causantes de las diferencias son los productos y los bloques tienen una causante baja.
#Oneway Test
mod4b = oneway.test(Respuesta ~ Factor, Datos4)
mod4b
##
## One-way analysis of means (not assuming equal variances)
##
## data: Respuesta and Factor
## F = 19.862, num df = 2.0000, denom df = 3.9709, p-value = 0.008552
#P-value = 0.008552, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.
#Kruskal-Wallis
mod4c = kruskal.test(Respuesta ~ Factor, Datos4)
mod4c
##
## Kruskal-Wallis rank sum test
##
## data: Respuesta by Factor
## Kruskal-Wallis chi-squared = 5.9556, df = 2, p-value = 0.05091
#P-value = 0.05091, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos uno de los productos me genera mayores ingresos por venta.
\[H_0: \sigma^2_{A} = \sigma^2_{B} = \sigma^2_{C}\]
hist(mod4$residuals)
#Pareciera que el histograma no se comportara con normalidad
var_res = tapply(mod4$residuals, Datos4$Factor, var)
# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(mod4$residuals, Datos4$Factor)
##
## Bartlett test of homogeneity of variances
##
## data: mod4$residuals and Datos4$Factor
## Bartlett's K-squared = 0, df = 2, p-value = 1
#En la Prueba de Bartlett se tiene un p-value = 1 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.
#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.
#Normalidad de residuos
shapiro.test(mod4$residuals)
##
## Shapiro-Wilk normality test
##
## data: mod4$residuals
## W = 0.70608, p-value = 0.001671
#En la Prueba de Shapiro-wilk se tiene un p-value = 0.001671 < 0.05, en donde se considera que los resduales siguen una distribución normal, por lo tanto, la tabla del análisis de varianza es realmente útil. #- No se cumple el supuesto de normalidad
#Conclusion: No se cumplen los dos supuestos.
#Prueba de Duncan
library(agricolae)
dt = duncan.test(mod4, 'Factor', F)
plot(dt)
#El producto en donde se presenta un mayor valor de ingresos por ventas es para el B.
#Se observa que el producto B es el que genera mayores ingresos por venta. #Y como en anova el valor para los bloques son mayores a 1, vale la pena realizar los bloqueos.
library(outliers)
grubbs.test(Datos4$Respuesta)
##
## Grubbs test for one outlier
##
## data: Datos4$Respuesta
## G = 1.60611, U = 0.63724, p-value = 0.3875
## alternative hypothesis: highest value 410 is an outlier
#No se presentan datos atípicos
Respuesta = c(9.5, 10.5,8.5,
12,11.6,10.4,
9.6,12.2,14.2,
13.8,14.1,15)
CE = c(9,11,7,12,9,8,11,10,11,7,13,10)
cic= c(74,81,63,77,65,68,87,67,66,61,86,78)
ca= c(52,54,44,57,46,45,50,43,47,37,56,52)
factor= gl(4,3,12,c ( "1","2","3","4"))
factor = as.factor(factor)
#covar = gl(1,4,4,c("cova1","cova2","cova3"))
data5 = data.frame(Respuesta,factor
,CE,cic,ca)
data5
## Respuesta factor CE cic ca
## 1 9.5 1 9 74 52
## 2 10.5 1 11 81 54
## 3 8.5 1 7 63 44
## 4 12.0 2 12 77 57
## 5 11.6 2 9 65 46
## 6 10.4 2 8 68 45
## 7 9.6 3 11 87 50
## 8 12.2 3 10 67 43
## 9 14.2 3 11 66 47
## 10 13.8 4 7 61 37
## 11 14.1 4 13 86 56
## 12 15.0 4 10 78 52
library(ggplot2)
ggplot(data5, aes(x = CE, y = Respuesta, color = factor )) +
geom_point(color = factor, pch = 16, size = 4) +
labs(title='CE',color ="red")+
geom_smooth(aes(color = factor),
linewidth = 2,
method = 'lm',
formula = 'y~x',
se=F)+
geom_smooth(method = 'lm',
formula = 'y~x',
se = F,
col = "purple")
library(ggplot2)
ggplot(data5, aes(x = cic, y = Respuesta, color = factor )) +
geom_point(color = factor) +
labs(title='CIC',color ="red")+
geom_smooth(aes(color = factor),
linewidth = 2,
method = 'lm',
formula = 'y~x',
se=F)+
geom_smooth(method = 'lm',
formula = 'y~x',
se = F,
col = 'black')
library(ggplot2)
ggplot(data5, aes(x = ca, y = Respuesta, color = factor )) +
geom_point(color = factor) +
labs(title='CA',color ="red")+
geom_smooth(aes(color = factor),
linewidth = 2,
method = 'lm',
formula = 'y~x',
se=F)+
geom_smooth(method = 'lm',
formula = 'y~x',
se = F,
col = 'black')
Hipótesis: \[H_0: \mu_{1} = \mu_{2} = \mu_{3} = \mu_{4}\] \[H_a: \mu_{1} ≠ \mu_{2} ≠ \mu_{3} ≠ \mu_{4}\]
\[y_{ijk} = \mu + \tau_i + \beta_j + \theta (X_{ij} - \bar{X} )+ \epsilon_{ij}\]
# Tabla ANOVA
avo51 = aov(Respuesta~factor+cic+CE+ca, data5)
summary(avo51)
## Df Sum Sq Mean Sq F value Pr(>F)
## factor 3 35.39 11.797 16.513 0.00501 **
## cic 1 0.48 0.476 0.666 0.45161
## CE 1 9.88 9.879 13.829 0.01373 *
## ca 1 0.88 0.880 1.231 0.31765
## Residuals 5 3.57 0.714
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#P-value = 0.00501, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos una de las profundidades presenta diferencias en sus covariables.
#Oneway Test
mod5b = oneway.test(Respuesta ~ factor, data5)
mod5b
##
## One-way analysis of means (not assuming equal variances)
##
## data: Respuesta and factor
## F = 14.692, num df = 3.0000, denom df = 4.2388, p-value = 0.01069
#P-value = 0.01069, es < 0.05
#Los datos proporcionan evidencia en contra de H0, es decir que ‘Rechazo H0’ y por lo tanto al menos una de las profundidades presenta diferencias en sus covariables.
#Kruskal-Wallis
mod5c = kruskal.test(Respuesta ~ factor, data5)
mod5c
##
## Kruskal-Wallis rank sum test
##
## data: Respuesta by factor
## Kruskal-Wallis chi-squared = 7.1026, df = 3, p-value = 0.0687
#P-value = 0.0687, es > 0.05
#Los datos proporcionan evidencia en a favor de H0, es decir que ‘No Rechazo H0’ y por lo tanto, todas las profundidades presentan valores en las covariables iguales.
\[H_0: \sigma^2_{1} = \sigma^2_{2} = \sigma^2_{3} = \sigma^2_{4}\]
hist(avo51$residuals)
var_res = tapply(avo51$residuals, data5$factor, var)
# Igualdad de varianzas - Prueba de Homocedasticidad
bartlett.test(avo51$residuals, data5$factor)
##
## Bartlett test of homogeneity of variances
##
## data: avo51$residuals and data5$factor
## Bartlett's K-squared = 2.4474, df = 3, p-value = 0.4849
#En la Prueba de Bartlett se tiene un p-value = 0.4849 > 0.05, no se rechaza H0, es decir, que estadísticamente los residuales se pueden considerar iguales.
#- Lo ideal es que como el residual es la diferencia entre lo observado y lo pronosticado por el modelo, estos sean lo más parecido posible. #- Permite que el analisis de varianza pueda ser usado con tranquilidad.
#Normalidad de residuos
shapiro.test(avo51$residuals)
##
## Shapiro-Wilk normality test
##
## data: avo51$residuals
## W = 0.99036, p-value = 0.9998
#En la Prueba de Shapiro-wilk se tiene un p-value = 0.9998 > 0.05, en donde se considera que los resduales no siguen una distribución normal, por lo tanto, la tabla del análisis de varianza no es realmente útil. #- No se cumple el supuesto de normalidad
#Conclusion: No se cumplen los dos supuestos.
# Prueba de Maxima diferencia de Tukey
par(mar=c(4, 6, 3, 1))
tt = TukeyHSD(avo51, 'factor')
## Warning in replications(paste("~", xx), data = mf): non-factors ignored: cic
## Warning in replications(paste("~", xx), data = mf): non-factors ignored: CE
## Warning in replications(paste("~", xx), data = mf): non-factors ignored: ca
plot(tt, las=1)
abline(v=0, lty=2, col='red',lwd=2)
tt
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Respuesta ~ factor + cic + CE + ca, data = data5)
##
## $factor
## diff lwr upr p adj
## 2-1 1.8333333 -0.71313926 4.379806 0.1470225
## 3-1 2.5000000 -0.04647259 5.046473 0.0534558
## 4-1 4.8000000 2.25352741 7.346473 0.0035934
## 3-2 0.6666667 -1.87980592 3.213139 0.7737830
## 4-2 2.9666667 0.42019408 5.513139 0.0280120
## 4-3 2.3000000 -0.24647259 4.846473 0.0717015
library(TukeyC)
TT5 = TukeyC(avo51,"factor")
plot(TT5)
#Se comparan todas las profundidades con todas las profundidades
#- En la gráfica: el intervalo de confianza contiene a la linea vertical 0, en donde el intervalo que contenga la linea de 0, se dice que entre 2-1, 3-1, 3-2 y 4-3 son los que no presentaron diferencias entre si. Los que presentaron diferencias fueron únicamente 4-1 y 4-2 y son los mejores (efectos positivos)
library(outliers)
grubbs.test(data5$Respuesta)
##
## Grubbs test for one outlier
##
## data: data5$Respuesta
## G = 1.53700, U = 0.76572, p-value = 0.665
## alternative hypothesis: lowest value 8.5 is an outlier
No se presentan datos atípicos