INTEGRANTES:
GINNA VALENTINA ROMERO RINCON 1026596100 (gvromeror@unal.edu.co)
LAURA CAMILA ALVAREZ GACHA 1026303112 (laucalvarezgac@unal.edu.co)
cami.
vale
En un estudio conducido en un ambiente controlado se tuvieron 72 macetas, cada una con una planta a a que a cierta edad se le midió el contenido de clorofila (indice de clorofila) con un sensor (SPAD). El total de macetas se correspondio con 9 tratamientos asociados a estrés hídrico. Se sabe que la varianza de las 72 observaciones es 823 y que la suma de cuadrados de los tratamientos (SCtrt) es 6000 Con esta información complete la tabla del ANOVA.
\[¿Qué~ datos ~tenemos~ y ~ podemos ~ deducir?\]
\[n=72\\ tratamientos~~(trt)=9\\ repeticiones ~~(rpp)= \frac{n}{trt}= \frac{72}{9}= 8 \\ Varianza~~ (S^2)=823\\ SC_{trt}=6000\\ Grados~ de ~libertad~ de ~los~ tratamientos~~ (gl_{trt})=trt-1= 9-1=8\\ Grados~de~libertad~del~error~ (gl_{error})= trt*(rpp-1)=9(8-1)=63\\ Grados ~de ~libertad~ totales ~~ (gl_{totales})= n-1=72-1=71\]
n=72
trt=9
rpp=8
S2=823
SCtrt=6000
gl_trt=8
gl_error=63
gl_totales= 71
para poder completar el ANOVA nos hace falta la suma de cuadrado de las repeticiones o suma de cuadrados del error (SCerror), y para obtener este valor partimos de esta fórmula:
\[S^2= \frac {SC_{totales}}{gl}\] Donde \[SC= Suma~de~cuadrados\\ S^2=Varianza~ total\\ gl= Grados~de~libertad~ (n-1)\]
y tambien sabemos que:
\[SC_{totales}= SC_{trt}~ + ~ SC_{error}\] Entonces reemplazamos la formula dos en la formula uno obteniendo este resultado
\[S^2= \frac {SC_{trt}~ + ~ SC_{error}}{gl}\] y despejamos la Suma de Cuadrados del error
\[SC_{error}= (S^2*gl)~ - SC_{trt)}\]
SCerror=(823*71)-6000;SCerror
## [1] 52433
\[SC_{error}=52433\] como ya tenemos las sumas de cuadrados y los grados de libertad podemos obtener las varianzas o Cuadrados Medios (CM) de los tratamientos y del error
CMtrt<- SCtrt/gl_trt;CMtrt
## [1] 750
CMerror<- SCerror/gl_error; CMerror
## [1] 832.2698
\[CM_{trt}=750\\ CM_{error}=832.26\]
ya con los dos cuadrados medios podemos calcular el COCIENTE F (CF) así:
CF <- CMtrt/CMerror; CF
## [1] 0.90115
f_cal<- CF
\[Valor~ F= 0.90115\] Todos los datos obtenidos anteriormente se aprecian mejor en la siguiente tabla.
library(readxl)
punto_1 <- read_excel("punto1.xlsx")
## New names:
## * `` -> ...1
df<- data.frame(punto_1)
df
## ...1 SC df CM F_cal
## 1 Between 6000 8 750.00 o.9011
## 2 Within 52433 63 832.26 <NA>
## 3 total 58433 71 NA <NA>
lo primero que nos damos cuenta es que este valor es menor a 1, lo que indica que la variabilidad entre las repeticiones es mayor que la variabilidad entre tratamientos, NO PODEMOS CONCLUIR NADA CON RESPECTO A LOS TRATAMIENTOS YA QUE NO SON LA PRINCIPAL FUENTE DE VARIABILIDAD.
si el F tabulado es 2.8. ¿qué puede decirse acerca de la hipótesis nula de igualdad de los promedios del índice en todas las condiciones de tratamiento?
f_tab<- 2.8
x <- seq( -4, 4, by = 0.1)
y <- dnorm( x )
plot( function(x) df( x, df1 = 8, df2= 63), 0, 4, ylim = c( 0, 1 ),
col = "red", type = "l", lwd = 2,
main = "Función densida F de Fisher df1=8 y df2=63" )
abline(v=f_tab,col="blue")
text(2.9,0.2,"f_tab")
abline(v=f_cal, col = "green")
text(1.0,0.2,"f_cal")
text(3.5, 0.5, "zona de rechazo")
text(2, 0.5, "zona de no rechazo")
Como se observa en la grafica anterior nuestro F calculado cae en la zona de no rechazo de la hipótesis nula, con lo que pdrímos conclurir que los tratamientos tienenigualdad de promedios estadisticamente hablando, PERO estos datos no pueden ser tomados para desiciones agronómicas porque el valor de F fue menor de 1.
¿Vale la pena comparar las medias de tratamientos a posteriori del ANOVA (prueba de Tukey)?
la prueba de tukey nos permite hacer comparaciones entre los tratamientos para ver cual fue el tratamiento causante de la diferencia, pero como en este caso los causante de la variabilidad son las repeticiones y no los tratamientos, una prueba de Tukey no es util.
Antes de hilar el algodón, éste debe ser procesado para eliminar las materias extrañas y la humedad. El limpiador de pelusas más común es el limpiador de pelusas tipo sierra de batería controlada. Aunque el limpiador de pelusas de motor de sierra (M1) es uno de los más efectivos, también es uno de los limpiadores que causa más daño a las fibras de algodón. Un investigador del algodón diseñó un estudio para comparar cuatro alternativas de limpieza de las fibras de algodón: M2, M3, M4 y M5. Los métodos M2 y M3 son mecánicos, mientras que los métodos M4 y M5 son una combinación mecánica y química. El investigador quiso tener en cuenta el impacto de los diferentes cultivadores en el proceso y, por lo tanto, obtuvo fardos de algodón de seis diferentes granjas algodoneras. Las granjas fueron consideradas como bloques en el estudio. Después de una limpieza preliminar de algodón, los seis fardos fueron mezclados a fondo, y luego fue procesada una igual cantidad de algodón por cada uno de los cinco métodos de limpieza de pelusas. Las pérdidas en peso (en kg) después de la limpieza las fibras de algodón se dan en la siguiente tabla. Durante el procesamiento de las muestras de algodón, las mediciones de la granja 1 procesada por el limpiador M1 se perdieron.
| Método | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| M1 | * | 6.75 | 13.05 | 10.26 | 8.01 | 8.42 |
| M2 | 5.54 | 3.53 | 11.20 | 7.21 | 3.24 | 6.45 |
| M3 | 7.67 | 4.15 | 9.79 | 8.27 | 6.75 | 5.50 |
| M4 | 7.89 | 1.97 | 8.97 | 6.12 | 4.22 | 7.84 |
| M5 | 9.27 | 4.39 | 13.44 | 9.13 | 9.20 | 7.13 |
| Mean | 7.593 | 4.158 | 11.290 | 8.198 | 6.280 | 7.068 |
library(readxl)
#se crea un dataframe y se llama el excel con los datos
dalgodon <- read_excel("tablae2.xlsx")
#View(tablae2)
# Se crean factores para realizar el anova
dalgodon$GRANJERO = as.factor(dalgodon$GRANJERO)
dalgodon$METODO = as.factor(dalgodon$METODO)
library(daewr)
## Warning: package 'daewr' was built under R version 4.0.3
## Registered S3 method overwritten by 'DoE.base':
## method from
## factorize.factor conf.design
MODELO 1
# se utiliza la funcion lm
mod1 <- lm( PESO ~ GRANJERO * METODO, data = dalgodon )
anova( mod1 )
## Warning in anova.lm(mod1): ANOVA F-tests on an essentially perfect fit are
## unreliable
## Analysis of Variance Table
##
## Response: PESO
## Df Sum Sq Mean Sq F value Pr(>F)
## GRANJERO 5 138.30 27.6608
## METODO 4 49.12 12.2799
## GRANJERO:METODO 19 26.23 1.3805
## Residuals 0 0.00
table (dalgodon$GRANJERO, dalgodon$METODO)
##
## M1 M2 M3 M4 M5
## 1 1 1 1 1 1
## 2 1 1 1 1 1
## 3 1 1 1 1 1
## 4 1 1 1 1 1
## 5 1 1 1 1 1
## 6 1 1 1 1 1
No se puede utilizar este modelo por que solo hay una respuesta por bloque y por un factor como se observa en la tabla
MODELO 2
mod2 <- lm( PESO ~ GRANJERO + METODO, data = dalgodon )
anova( mod2 )
## Analysis of Variance Table
##
## Response: PESO
## Df Sum Sq Mean Sq F value Pr(>F)
## GRANJERO 5 138.30 27.6608 20.0365 5.57e-07 ***
## METODO 4 49.12 12.2799 8.8951 0.0003186 ***
## Residuals 19 26.23 1.3805
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Este metodo es el correcto ya que primero se coloca el bloque y luego la razon experimental entonces se bloquea primero el Granjero por que la variable de interes es el metodo
MODELO 3
En este modelo se intercalaron las variables metodo y granero
mod3 <- lm( PESO ~ METODO + GRANJERO, data = dalgodon )
anova( mod3 )
## Analysis of Variance Table
##
## Response: PESO
## Df Sum Sq Mean Sq F value Pr(>F)
## METODO 4 47.763 11.9407 8.6494 0.0003754 ***
## GRANJERO 5 139.661 27.9322 20.2331 5.163e-07 ***
## Residuals 19 26.230 1.3805
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se encontro que el orden de colocación de los efectos del modelo dentro del software R si varian, ya que se puede apreciar que en los modelos 2 y 3 lo cual quiere decir que al tomar granjeros como bloques si se puede bloquear pero al bloquear las parcelas si se presentan dat
# Crea el data frame nuevamente para hacer uso de los datos
dalgodon2 <- dalgodon
Se reemplaza el dato G1 para el metodo 1, en su lugar se coloca el dato del promedio de los cinco granjeros en el metodo 1 que es 9.298
dalgodon2$PESO[1] = 9.298
MODELO 4
mod4<- lm( PESO ~ GRANJERO + METODO, data = dalgodon2 )
anova( mod4 )
## Analysis of Variance Table
##
## Response: PESO
## Df Sum Sq Mean Sq F value Pr(>F)
## GRANJERO 5 139.364 27.8728 21.0147 2.45e-07 ***
## METODO 4 51.150 12.7874 9.6411 0.0001637 ***
## Residuals 20 26.527 1.3263
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Al comparar el modelo 4 con el modelo 2 que se dijo anteriormente era el indicado, se observan que se presentan diferencias significativas y se espera que el modelo 2 sea un valor mas cercano al real que este ya que al calcular el valor del modelo uno para la primera granja con el promedio de las granjas puede arrojar un valor completamente diferente al real, ya que se presentaran entre ellas diferencias significativas.
Use la función de R para generar de la distribución uniforme unos datos de carbono orgánico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior osciló entre 3.0 y 3.U+0.1 y de la capa inferior osciló entre 2 y 2.T+0.2. Use expand.grid para generar una ventana de observación de 0 a 100 m para la longitud y de 0 a 200 m para la latitud. Genere 50 datos en cada capa. Use la función sort.int de R para ordenar los datos de cada capa con la opción partial=25+U dentro de la propia función sort.int. Una vez cree los datos realice algún diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora. Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%.
Se fija la semilla para obtener los mismos datos y en este ejercicio se remplaza la U por 0 y T por 2
Se generan 50 datos uniformes con max y min para una produndidad de 5 y de 10, y se ordenan con la funcion sort.int
set.seed(2016)
co5<-runif(50,min =3.0, max = 3.1)
co5 =sort.int(co5,partial = 25)
co10 <- runif(50, min = 2, max = 2.4)
co10 =sort.int(co10,partial = 25)
se crea la variable ventana y se definen los puntos para generar los 50 datos
ventana <- expand.grid(longitud= seq(0,100,25), latitud = seq(0,200,length.out = 10))
Se crea el dataframe para realizar la grafica 3D
dfco <- data.frame(longitud = rep(ventana$longitud,2),
latitud = rep(ventana$latitud,2),
profundidad = rep(c(5,10),each = 50),
co = c(co5,co10))
library(plotly)
## Warning: package 'plotly' was built under R version 4.0.3
## Loading required package: ggplot2
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
plot_ly (x=dfco$longitud, y=dfco$latitud, z=dfco$profundidad, type="scatter3d", mode="markers", color=dfco$co)
## Warning: `arrange_()` is deprecated as of dplyr 0.7.0.
## Please use `arrange()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.
prueba de shapiro.test para saber la normalidad de los datos
x.testco5 <- shapiro.test(co5)
print(x.testco5)
##
## Shapiro-Wilk normality test
##
## data: co5
## W = 0.94037, p-value = 0.01394
x.testco10 <- shapiro.test(co10)
print(x.testco10)
##
## Shapiro-Wilk normality test
##
## data: co10
## W = 0.91431, p-value = 0.001477
Como se rechaza la hipotesis nula se dice que se debe realizar la prueba de wilcoxon en lugar de la T-student
var.test(co5, co10)
##
## F test to compare two variances
##
## data: co5 and co10
## F = 0.049713, num df = 49, denom df = 49, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.02821105 0.08760401
## sample estimates:
## ratio of variances
## 0.04971319
# no tiene varianzas iguales
wilcox.test(x = co5, y = co10, paired = TRUE, alternative = "t", conf.int = 0.95)
##
## Wilcoxon signed rank test with continuity correction
##
## data: co5 and co10
## V = 1275, p-value = 7.79e-10
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
## 0.8320447 0.9004684
## sample estimates:
## (pseudo)median
## 0.8654967
De acuerdo al p valor de la prueba wilcoxon se rechaza la hipotesis nula por lo que son diferentes en la media de carbono entre capas utilizando un nivel de confianza del 95%
diseño factorial completo (3^2) en arreglo completamente al azar
Se tienen dos factores, cada uno con tres niveles y se hizo dos repeticiones.
set.seed(2020)
D<-expand.grid(F1= c(3.25,3.75,4.25), F2= c(4,5,6))
D<- rbind(D,D)
set.seed(2020)
D<- D[order(sample(1:18)), ]
class(D)
## [1] "data.frame"
D$biomasa= sort.int(rnorm(18,3,0.3), partial=9)
D
## F1 F2 biomasa
## 2 3.75 4 2.708826
## 10 3.25 4 2.772692
## 16 3.25 6 2.143359
## 4 3.25 5 2.560519
## 13 3.25 5 2.708666
## 6 4.25 5 2.773705
## 17 3.75 6 2.770350
## 8 3.75 6 2.832470
## 14 3.75 5 2.898280
## 5 3.75 5 3.359619
## 9 4.25 6 3.054099
## 1 3.25 4 3.157896
## 12 4.25 4 3.487669
## 11 3.75 4 3.451547
## 15 4.25 5 3.016111
## 7 3.25 6 3.042156
## 3 4.25 4 3.200552
## 18 4.25 6 2.989329
D$F1<- as.factor(D$F1)
D$F2<- as.factor(D$F2)
D
## F1 F2 biomasa
## 2 3.75 4 2.708826
## 10 3.25 4 2.772692
## 16 3.25 6 2.143359
## 4 3.25 5 2.560519
## 13 3.25 5 2.708666
## 6 4.25 5 2.773705
## 17 3.75 6 2.770350
## 8 3.75 6 2.832470
## 14 3.75 5 2.898280
## 5 3.75 5 3.359619
## 9 4.25 6 3.054099
## 1 3.25 4 3.157896
## 12 4.25 4 3.487669
## 11 3.75 4 3.451547
## 15 4.25 5 3.016111
## 7 3.25 6 3.042156
## 3 4.25 4 3.200552
## 18 4.25 6 2.989329
library(collapsibleTree)
## Warning: package 'collapsibleTree' was built under R version 4.0.3
collapsibleTree(D, hierarchy = c('F1', 'F2',"biomasa"))
\[modelo\] \[y_{ijm}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+ \epsilon_{ijm}\\ i= primer~factor\\ j= segundo~ factor\\ m= repeticiones\\ \tau\beta= efecto de la interacción\]
lo primero que se hace es correr un anova para mirar si hay interacción entre los factores
anov1<- aov(D$biomasa~(D$F1*D$F2))
summary(anov1)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$F1 2 0.4161 0.20804 1.979 0.194
## D$F2 2 0.3426 0.17128 1.630 0.249
## D$F1:D$F2 4 0.1635 0.04087 0.389 0.812
## Residuals 9 0.9459 0.10510
lo primero que nos damos cuenta es que no presentamos interacción entre los dos factore (el p_Value de la interacción es mayor a 0.5), así que podemos correr el modelo sin interacción.
anov2<- aov(D$biomasa~(D$F1+D$F2))
summary(anov2)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$F1 2 0.4161 0.20804 2.438 0.126
## D$F2 2 0.3426 0.17128 2.007 0.174
## Residuals 13 1.1094 0.08534
No hay interacción de los factores individuales con la respuesta así que no se pueden dar conclusiones de la interacción que tienen estos factores con la variable respuesta de biomasa.
\[supuestos~ anova\] ## normalidad reiduales
shapiro.test(anov1$residuals)
##
## Shapiro-Wilk normality test
##
## data: anov1$residuals
## W = 0.99029, p-value = 0.999
los residuales presentan un distribución normal
bartlett.test(anov1$residuals~D$F1)
##
## Bartlett test of homogeneity of variances
##
## data: anov1$residuals by D$F1
## Bartlett's K-squared = 3.815, df = 2, p-value = 0.1485
bartlett.test(anov1$residuals~D$F2)
##
## Bartlett test of homogeneity of variances
##
## data: anov1$residuals by D$F2
## Bartlett's K-squared = 1.3381, df = 2, p-value = 0.5122
las varianzas son iguales por trtamiento.
plot(anov1$residuals)
no se observa ninguna tendencia.
library(ggplot2)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.0.3
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
D %>%
group_by(F1, F2) %>%
summarise(biomasa_media = mean(biomasa)) -> tips2
## `summarise()` regrouping output by 'F1' (override with `.groups` argument)
tips2 %>%
ggplot() +
aes(x = F1, y = biomasa_media, color = F2) +
geom_line(aes(group = F2))
interaction.plot(D$F1,trace.factor = D$F2,response = D$biomasa, fun = "mean" ,type = c("b"), legend = T)
boxplot(D$biomasa~(D$F1*D$F2))
boxplot(D$biomasa~D$F1)
boxplot(D$biomasa~D$F2)
set.seed(2020)
arc<-sort.int(runif(18, 0.2, 0.4))
D$arcilla<- arc
D
## F1 F2 biomasa arcilla
## 2 3.75 4 2.708826 0.2005165
## 10 3.25 4 2.772692 0.2134769
## 16 3.25 6 2.143359 0.2258305
## 4 3.25 5 2.560519 0.2272194
## 13 3.25 5 2.708666 0.2786236
## 6 4.25 5 2.773705 0.2788452
## 17 3.75 6 2.770350 0.2818575
## 8 3.75 6 2.832470 0.2845458
## 14 3.75 5 2.898280 0.2953782
## 5 3.75 5 3.359619 0.3079385
## 9 4.25 6 3.054099 0.3237004
## 1 3.25 4 3.157896 0.3240412
## 12 4.25 4 3.487669 0.3293806
## 11 3.75 4 3.451547 0.3307115
## 15 4.25 5 3.016111 0.3487672
## 7 3.25 6 3.042156 0.3528828
## 3 4.25 4 3.200552 0.3652331
## 18 4.25 6 2.989329 0.3921445
\[ancova\]
ancova1<-aov(D$biomasa~D$arcilla+(D$F1*D$F2))
summary(ancova1)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$arcilla 1 0.8839 0.8839 21.347 0.00171 **
## D$F1 2 0.1496 0.0748 1.806 0.22526
## D$F2 2 0.4777 0.2388 5.768 0.02812 *
## D$F1:D$F2 4 0.0256 0.0064 0.155 0.95541
## Residuals 8 0.3313 0.0414
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#análisis
como se observo en el aov no hay interacción doble entre los dos factores principales, pero cuando se observa los efectos de los factordes de manera independiente , la arcilla es el único que tiene un efecto relevante en la respuesta (variable dependiente).
lo mejor es hacer un ancova sin interacción entre los factores principales
ancova2<-aov(D$biomasa~D$arcilla+(D$F1+D$F2))
summary(ancova2)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$arcilla 1 0.8839 0.8839 29.721 0.000147 ***
## D$F1 2 0.1496 0.0748 2.515 0.122440
## D$F2 2 0.4777 0.2388 8.030 0.006117 **
## Residuals 12 0.3569 0.0297
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#analisis
el unico resultado que muestra interacción es el cofactor, con un p_value menor al 5%, los otros dos factores sigen mostrando una no interacción con la variable dependiendte igual que en el aov1 y aov2.
ahora solo se va a realizar un anova entre la variable dependiente y el cofactor, que fue el único que mostro significancia, en este caso podemos concluir que las decisiones agrónomicas podemos hacerlas a través de la relación entre cofactor y la variable dependiente
#modelo regresión lineal simple
ancova4<- aov(D$biomasa~D$arcilla)
summary(ancova4)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$arcilla 1 0.8839 0.8839 14.37 0.0016 **
## Residuals 16 0.9841 0.0615
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
con este resultado podemos cocluir que se presenta interacción y que los niveles de biomasa se ven afectados con el contenido de arcilla y no por los otros dos factores.
\[supuestos\]
plot(D$biomasa~D$arcilla, main= "dispersion")
s <-lm(D$biomasa~D$arcilla,data = D)
abline(s, col="red")
observamos que el supuesto se cumple porque los datos no presentan dispersión.
a<- aov(D$biomasa~D$F1*D$F2)
summary(a)
## Df Sum Sq Mean Sq F value Pr(>F)
## D$F1 2 0.4161 0.20804 1.979 0.194
## D$F2 2 0.3426 0.17128 1.630 0.249
## D$F1:D$F2 4 0.1635 0.04087 0.389 0.812
## Residuals 9 0.9459 0.10510
se acepta el supuesto ya que no hay interacción entre el cofactor y los factores..
w<- lm(D$biomasa~D$arcilla)
summary(w)
##
## Call:
## lm(formula = D$biomasa ~ D$arcilla)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.49588 -0.12220 -0.04211 0.15857 0.41530
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.6946 0.3338 5.077 0.000112 ***
## D$arcilla 4.1829 1.1034 3.791 0.001603 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.248 on 16 degrees of freedom
## Multiple R-squared: 0.4732, Adjusted R-squared: 0.4403
## F-statistic: 14.37 on 1 and 16 DF, p-value: 0.001603
shapiro.test(w$residuals)
##
## Shapiro-Wilk normality test
##
## data: w$residuals
## W = 0.94489, p-value = 0.3505
los residuales son normales, se acepta el supuesto,
bartlett.test(list(D$biomasa,D$arcilla))
##
## Bartlett test of homogeneity of variances
##
## data: list(D$biomasa, D$arcilla)
## Bartlett's K-squared = 37.609, df = 1, p-value = 8.645e-10
plot(w$residuals)
se cumple este supuesto
\[Conclusión\] aunque observamos que existe la interacción entre el cofactor y la variable dependiente, no aceptamos todos los supuestos del ancova…
Existe un tipo de diseño anidado (factorial incompleta) conocido como anidado escalonado (staggered nested design) y ocurre tal como se muestra en la imagen, donde se tienen dos fincas sembradas con variedades de papa solo que la finca A permite que se desarrollen las dos variedades mientras que la altitud de la finca B solo permite el desarrollo de una de ellas. Además, se tienen dos parcelas con la variedad 1 en la primera finca y solo una en el resto de las fincas.
Use la librería lme4 tal como aparece en el código abajo. La etiqueta “ue” hace referencia a la unidad experimental (parcela) utilizada, por lo que se necesita crear una columna que identifique la parcela, una que identifique la finca, otra para la variedad y otra para lo que aquí se llama test pero que hace referencia en este caso a los cuadrados de 1.5m*1.5m usados para tomar las muestras de plantas dentro de las parcelas.
Estos diseños son usados para estimar la varianza atribuible a las parcelas, a las parcelas anidadas en las fincas, y a la variedad dentro de la finca. El código presentado puede ayudar a la estimación de estas varianzas.
Use los datos que se muestran para estimar las varianzas antes descritas. Una ayuda para la solución de este problema puede encontrarse en el libro: Design and Analysis of Experiments with R de John Lawson.
library(readxl)
punto5 <- read_excel("punto5.xlsx")
# View(punto5)
punto5$finca = as.factor(punto5$finca)
punto5$variedad = as.factor(punto5$variedad)
punto5$test = as.factor(punto5$test)
punto5$parcela = as.factor(punto5$parcela)
df = data.frame(punto5)
df
## finca variedad test parcela respuesta
## 1 1 1 1 1 9.76
## 2 1 1 1 2 10.65
## 3 1 1 1 3 6.50
## 4 1 1 1 4 8.08
## 5 1 1 1 5 7.84
## 6 1 1 1 6 9.00
## 7 1 1 1 7 12.81
## 8 1 1 1 8 10.62
## 9 1 1 1 9 4.88
## 10 1 1 1 10 9.38
## 11 1 1 1 11 5.91
## 12 1 1 1 12 7.19
## 13 1 1 1 13 7.93
## 14 1 1 1 14 3.70
## 15 1 1 1 15 4.64
## 16 1 1 1 16 5.94
## 17 1 1 1 17 9.50
## 18 1 1 1 18 10.93
## 19 1 1 1 19 11.95
## 20 1 1 1 20 4.34
## 21 1 1 2 1 9.24
## 22 1 1 2 2 7.77
## 23 1 1 2 3 6.26
## 24 1 1 2 4 5.28
## 25 1 1 2 5 5.91
## 26 1 1 2 6 8.38
## 27 1 1 2 7 13.58
## 28 1 1 2 8 11.71
## 29 1 1 2 9 4.96
## 30 1 1 2 10 8.02
## 31 1 1 2 11 5.79
## 32 1 1 2 12 7.22
## 33 1 1 2 13 6.48
## 34 1 1 2 14 2.86
## 35 1 1 2 15 5.70
## 36 1 1 2 16 6.28
## 37 1 1 2 17 8.00
## 38 1 1 2 18 12.15
## 39 1 1 2 19 10.58
## 40 1 1 2 20 5.45
## 41 1 2 1 1 11.91
## 42 1 2 1 2 10.00
## 43 1 2 1 3 8.02
## 44 1 2 1 4 9.15
## 45 1 2 1 5 7.43
## 46 1 2 1 6 7.01
## 47 1 2 1 7 11.13
## 48 1 2 1 8 14.07
## 49 1 2 1 9 4.08
## 50 1 2 1 10 6.73
## 51 1 2 1 11 6.59
## 52 1 2 1 12 5.77
## 53 1 2 1 13 8.12
## 54 1 2 1 14 3.95
## 55 1 2 1 15 5.96
## 56 1 2 1 16 4.18
## 57 1 2 1 17 11.25
## 58 1 2 1 18 9.51
## 59 1 2 1 19 16.79
## 60 1 2 1 20 7.51
## 61 2 1 1 1 9.02
## 62 2 1 1 2 13.69
## 63 2 1 1 3 7.95
## 64 2 1 1 4 7.46
## 65 2 1 1 5 6.11
## 66 2 1 1 6 8.58
## 67 2 1 1 7 10.00
## 68 2 1 1 8 14.56
## 69 2 1 1 9 4.76
## 70 2 1 1 10 6.99
## 71 2 1 1 11 6.55
## 72 2 1 1 12 8.33
## 73 2 1 1 13 7.43
## 74 2 1 1 14 5.92
## 75 2 1 1 15 5.88
## 76 2 1 1 16 5.24
## 77 2 1 1 17 11.14
## 78 2 1 1 18 12.71
## 79 2 1 1 19 13.08
## 80 2 1 1 20 5.21
library(daewr)
mod2<-aov(respuesta ~ parcela + parcela:finca + parcela:finca:variedad, data = df)
summary(mod2)
## Df Sum Sq Mean Sq F value Pr(>F)
## parcela 19 558.1 29.373 33.456 3.52e-11 ***
## parcela:finca 20 37.4 1.871 2.131 0.04928 *
## parcela:finca:variedad 20 61.1 3.054 3.478 0.00377 **
## Residuals 20 17.6 0.878
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como podemos observar en los valores del anova no hay interaccion triple entre los factores independientes, cuando se observa la interaccion doble tampoco se encuentra interaccion y lo mismo sucede cuando se varia la variable independiente (parcela) con respecto a la variable dependiente(respuesta).
library(lme4)
## Warning: package 'lme4' was built under R version 4.0.3
## Loading required package: Matrix
##
## Attaching package: 'lme4'
## The following object is masked from 'package:daewr':
##
## cake
modr3 <- lmer( respuesta ~ 1 + (1|parcela) + (1|parcela:finca)+ (1|parcela:finca:variedad), data = df)
## boundary (singular) fit: see ?isSingular
summary(modr3)
## Linear mixed model fit by REML ['lmerMod']
## Formula:
## respuesta ~ 1 + (1 | parcela) + (1 | parcela:finca) + (1 | parcela:finca:variedad)
## Data: df
##
## REML criterion at convergence: 326
##
## Scaled residuals:
## Min 1Q Median 3Q Max
## -1.92792 -0.39924 0.00919 0.43823 1.65354
##
## Random effects:
## Groups Name Variance Std.Dev.
## parcela:finca:variedad (Intercept) 1.2309 1.1094
## parcela:finca (Intercept) 0.0000 0.0000
## parcela (Intercept) 7.0122 2.6481
## Residual 0.8789 0.9375
## Number of obs: 80, groups:
## parcela:finca:variedad, 60; parcela:finca, 40; parcela, 20
##
## Fixed effects:
## Estimate Std. Error t value
## (Intercept) 8.2368 0.6188 13.31
## convergence code: 0
## boundary (singular) fit: see ?isSingular
Con los datos obtenidos se saca la varianza total, esta es igual a 100 factor de la varianza de parcela, dividido entre la suma de varianza de parcela, varianza de parcela finca variedad y los residuales.
\[ (100*7.0122)/(7.0122+1.2309+0.8789)) = 77 \% \] De estos resultados, vemos que el 77% de la variación total se debe a la variabilidad entre parcelas, mientras que dentro de las parcelas (parcelas:finca) la variabilidad de caja a caja es insignificante.
Se tienen unos datod de potasio de muestras de suelos medidas en 8 diferentes laboratorios, Compare descriptivamente los datos.
library(asbio)
## Warning: package 'asbio' was built under R version 4.0.3
## Loading required package: tcltk
data(K)
soil<- K
soil
## K lab
## 1 296 B
## 2 260 B
## 3 341 B
## 4 359 B
## 5 323 B
## 6 321 B
## 7 287 B
## 8 413 B
## 9 335 B
## 10 315 D
## 11 330 D
## 12 326 D
## 13 354 D
## 14 266 D
## 15 348 D
## 16 343 D
## 17 284 D
## 18 324 D
## 19 351 E
## 20 302 E
## 21 395 E
## 22 357 E
## 23 400 E
## 24 187 E
## 25 376 E
## 26 283 E
## 27 198 E
## 28 327 F
## 29 354 F
## 30 308 F
## 31 274 F
## 32 324 F
## 33 305 F
## 34 347 F
## 35 297 F
## 36 305 F
## 37 326 G
## 38 301 G
## 39 316 G
## 40 312 G
## 41 297 G
## 42 280 G
## 43 300 G
## 44 319 G
## 45 286 G
## 46 218 H
## 47 280 H
## 48 241 H
## 49 226 H
## 50 243 H
## 51 199 H
## 52 205 H
## 53 225 H
## 54 227 H
## 55 338 I
## 56 303 I
## 57 341 I
## 58 311 I
## 59 355 I
## 60 269 I
## 61 284 I
## 62 279 I
## 63 339 I
## 64 359 J
## 65 318 J
## 66 313 J
## 67 352 J
## 68 334 J
## 69 356 J
## 70 342 J
## 71 299 J
## 72 353 J
Partimos suponiendo que las muestras son indepedientes, osea que la manera de recolección fue totalmente aleatoria, pero cuando estemos comprobando los supuestos también verificaremos esta hipótesis. Se sabe que las misma muestra se distribuyó a los 8 laboratorios disponibles, por eso sabemos que son muestras pareadas. Tambien al ser las misma muestras y como se espera que todos los laboratorios manejen los mismos metodos para medir el potasio del suelo, esperamos los resultados no varíen demasiado cuando comparamos un laboratorio con otro.
primero vamos a obtener un analisis descriptivo por cada uno de los lboratorios
library(psych)
##
## Attaching package: 'psych'
## The following object is masked from 'package:asbio':
##
## skew
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
describe(soil, ranges=T)
## vars n mean sd median trimmed mad min max range skew kurtosis
## K 1 72 307.79 48.40 314.0 311.1 43.74 187 413 226 -0.54 0.04
## lab* 2 72 4.50 2.31 4.5 4.5 2.97 1 8 7 0.00 -1.29
## se
## K 5.70
## lab* 0.27
describeBy(soil, soil$lab)
##
## Descriptive statistics by group
## group: B
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 326.11 44.41 323 326.11 40.03 260 413 153 0.41 -0.7 14.8
## lab* 2 9 1.00 0.00 1 1.00 0.00 1 1 0 NaN NaN 0.0
## ------------------------------------------------------------
## group: D
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 321.11 29.26 326 321.11 25.2 266 354 88 -0.68 -1.02 9.75
## lab* 2 9 2.00 0.00 2 2.00 0.0 2 2 0 NaN NaN 0.00
## ------------------------------------------------------------
## group: E
## vars n mean sd median trimmed mad min max range skew kurtosis
## K 1 9 316.56 80.35 351 316.56 72.65 187 400 213 -0.54 -1.44
## lab* 2 9 3.00 0.00 3 3.00 0.00 3 3 0 NaN NaN
## se
## K 26.78
## lab* 0.00
## ------------------------------------------------------------
## group: F
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 315.67 25.05 308 315.67 23.72 274 354 80 0.05 -1.22 8.35
## lab* 2 9 4.00 0.00 4 4.00 0.00 4 4 0 NaN NaN 0.00
## ------------------------------------------------------------
## group: G
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 304.11 15.37 301 304.11 22.24 280 326 46 -0.14 -1.51 5.12
## lab* 2 9 5.00 0.00 5 5.00 0.00 5 5 0 NaN NaN 0.00
## ------------------------------------------------------------
## group: H
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 229.33 23.89 226 229.33 22.24 199 280 81 0.74 -0.32 7.96
## lab* 2 9 6.00 0.00 6 6.00 0.00 6 6 0 NaN NaN 0.00
## ------------------------------------------------------------
## group: I
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 313.22 31.4 311 313.22 41.51 269 355 86 -0.09 -1.81 10.47
## lab* 2 9 7.00 0.0 7 7.00 0.00 7 7 0 NaN NaN 0.00
## ------------------------------------------------------------
## group: J
## vars n mean sd median trimmed mad min max range skew kurtosis se
## K 1 9 336.22 21.61 342 336.22 20.76 299 359 60 -0.46 -1.53 7.2
## lab* 2 9 8.00 0.00 8 8.00 0.00 8 8 0 NaN NaN 0.0
mean<-tapply(soil$K, soil$lab,mean);mean
## B D E F G H I J
## 326.1111 321.1111 316.5556 315.6667 304.1111 229.3333 313.2222 336.2222
sd<-tapply(soil$K, soil$lab,sd);sd
## B D E F G H I J
## 44.40564 29.25510 80.35097 25.04995 15.37404 23.89037 31.39577 21.60890
median<- tapply(soil$K, soil$lab,median);
u_u<-data.frame(mean,sd,median)
library(DT)
## Warning: package 'DT' was built under R version 4.0.3
datatable(u_u, class = 'cell-border stripe',filter = 'top', options = list(
pageLength = 5, autoWidth = TRUE))
ahora, se va a relaizar nuestro primer gráfico que nos va a permitir analizar de manera más sencilla nuestros datos.
library(ggplot2)
ggplot(soil, aes(x = lab, y = K))+
geom_boxplot()
ahora que tenemos una apreciación visual podemos ver que: - los las muestras entre laboratorios no son similares - la distribución de los datos en los boxplot no parecen tener una distribución normal - la varianza de los datos entre laboratorios tambien varían demasiado
ya que observamos que las medias son distintas podemos evaluar a través de la prueba de Kruskal- Wallis si la variable respuesta es la misma en todas las poblaciones valoradas (los ocho laboratorios), osea si las variables pertenen a una misma distribución, esto a través de rangos.
\[H_o= la~variable~respuesta~es ~la~misma~para~todos~los~laboratorios \\ H_a= Al~menos~un~laboratorio~presenta~una~variable~distinta\]
kr<- kruskal.test(soil$K,soil$lab)
kr$statistic
## Kruskal-Wallis chi-squared
## 24.48198
a partir de qué valor podemos recharaz o aprobar la Ho?
qchisq(0.05, 7, lower.tail = F)
## [1] 14.06714
dado que nuestro valor de K mayor a nuestro valor estimado, rechazamos nuestra H_O, y concluimos que todos nuestros datos no pertenecen a un mismo tipo de población, es decir, las medias de los rangos entre laboratorios no son las mismas.
Ahora vamos a comparar las diferencias pareadas para ver dónde están las diferencias así:
PMCMR::posthoc.kruskal.nemenyi.test(soil$K~soil$lab)
## Warning in posthoc.kruskal.nemenyi.test.default(c(296, 260, 341, 359, 323, :
## Ties are present, p-values are not corrected.
##
## Pairwise comparisons using Tukey and Kramer (Nemenyi) test
## with Tukey-Dist approximation for independent samples
##
## data: soil$K by soil$lab
##
## B D E F G H I
## D 1.0000 - - - - - -
## E 1.0000 1.0000 - - - - -
## F 0.9999 0.9999 0.9998 - - - -
## G 0.9324 0.9324 0.9222 0.9943 - - -
## H 0.0098 0.0098 0.0087 0.0397 0.2764 - -
## I 0.9993 0.9993 0.9989 1.0000 0.9984 0.0600 -
## J 0.9893 0.9893 0.9916 0.9051 0.4405 0.0003 0.8461
##
## P value adjustment method: none
El laboratorio que sus media de rangos difiere con las medias de rangos de la mayoría de los otros laboratorios (6 de 7) es el laboratorio H, si comparamos los resultados se los otros laboratior no muestran diferencias significativas estadísticamente hablando.
###Punto 7
\[Diseño~en~franjas~ o~ strip~ plot~ design\]
se va a analizar el crecimiento de las plantas de 4 variedades vegetales de papa dado 4 tipos de fertilización.
en el bloque vertical (parcela principal) se dispondrán las especies vegetales y en el bloque horizontal (subparcela) los tipos de fertilización.
se realizaron 3 replicas.
set.seed(1809)
replicas<-c(rep(1,16),rep(2,16),rep(3,16))
variedad<-gl(4,4,48,labels = c("var1","var2", "var3","var4"))
fertilizante<- gl(4,1,48, labels=c("fer1","fer2","fer3","fer4"))
crecimiento<- sort.int(rnorm(48,115,3))
df<- data.frame(replicas, vari= as.factor(variedad), ferti= as.factor(fertilizante),crecimiento)
df
## replicas vari ferti crecimiento
## 1 1 var1 fer1 108.1741
## 2 1 var1 fer2 108.2446
## 3 1 var1 fer3 109.0521
## 4 1 var1 fer4 110.9616
## 5 1 var2 fer1 111.0422
## 6 1 var2 fer2 111.0680
## 7 1 var2 fer3 111.4546
## 8 1 var2 fer4 111.5199
## 9 1 var3 fer1 112.0886
## 10 1 var3 fer2 112.1199
## 11 1 var3 fer3 112.3920
## 12 1 var3 fer4 112.5555
## 13 1 var4 fer1 112.7347
## 14 1 var4 fer2 112.7531
## 15 1 var4 fer3 112.8615
## 16 1 var4 fer4 113.1182
## 17 2 var1 fer1 113.2589
## 18 2 var1 fer2 113.4294
## 19 2 var1 fer3 113.5409
## 20 2 var1 fer4 113.6282
## 21 2 var2 fer1 113.6389
## 22 2 var2 fer2 113.7484
## 23 2 var2 fer3 113.9097
## 24 2 var2 fer4 114.6285
## 25 2 var3 fer1 114.6523
## 26 2 var3 fer2 114.7688
## 27 2 var3 fer3 114.9292
## 28 2 var3 fer4 114.9423
## 29 2 var4 fer1 115.2343
## 30 2 var4 fer2 115.6642
## 31 2 var4 fer3 115.9135
## 32 2 var4 fer4 117.2181
## 33 3 var1 fer1 117.3449
## 34 3 var1 fer2 117.4273
## 35 3 var1 fer3 117.5136
## 36 3 var1 fer4 117.6478
## 37 3 var2 fer1 117.6537
## 38 3 var2 fer2 117.6694
## 39 3 var2 fer3 117.7751
## 40 3 var2 fer4 118.0257
## 41 3 var3 fer1 118.0370
## 42 3 var3 fer2 119.1388
## 43 3 var3 fer3 119.1573
## 44 3 var3 fer4 119.6652
## 45 3 var4 fer1 119.8377
## 46 3 var4 fer2 119.9944
## 47 3 var4 fer3 120.0928
## 48 3 var4 fer4 120.8163
\[MODELO\] \[\require{cancel}y_{ijkm}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+\alpha_k+ (\tau\alpha)_{ik}+(\beta\alpha)_{jk} +\epsilon_{ijk}\\ i=1,2~ (replicas)\\ j=1,\cdots,4~ (niveles~variedad)\\ k=1,\cdots,4 ~(niveles~fertilizante)\]
library(collapsibleTree)
collapsibleTree(df, hierarchy = c("vari","ferti","crecimiento"))
\[Anova\]
attach(df)
## The following objects are masked _by_ .GlobalEnv:
##
## crecimiento, replicas
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
anova<- strip.plot(BLOCK = replicas,COL= vari, ROW = ferti, Y= crecimiento)
##
## ANALYSIS STRIP PLOT: crecimiento
## Class level information
##
## vari : var1 var2 var3 var4
## ferti : fer1 fer2 fer3 fer4
## replicas : 1 2 3
##
## Number of observations: 48
##
## model Y: crecimiento ~ replicas + vari + Ea + ferti + Eb + ferti:vari + Ec
##
## Analysis of Variance Table
##
## Response: crecimiento
## Df Sum Sq Mean Sq F value Pr(>F)
## replicas 2 419.97 209.987 951.4254 < 2.2e-16 ***
## vari 3 60.36 20.121 21.4230 0.0013174 **
## Ea 6 5.64 0.939 4.2555 0.0076861 **
## ferti 3 5.65 1.882 41.3095 0.0002117 ***
## Eb 6 0.27 0.046 0.2064 0.9702308
## ferti:vari 9 0.63 0.071 0.3195 0.9577129
## Ec 18 3.97 0.221
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## cv(a) = 0.8 %, cv(b) = 0.2 %, cv(c) = 0.4 %, Mean = 114.8551
\[análisis\] lo primero que observamos es la doble interacción, NO HAY INTERACCION DOBLE, así que no hay efecto directo entre la variedad y el tipo de fertilizante despues observamos los efectos de cada uno de los factores y nos damos cuenta que SI HAY INTERACCIÓN entre la vaiable dependiente que en este caso es el crecimiento y los factores que son la variedad y el tipo de fertilización.
para analizar de una manera más sencilla los resultados esta el siguiente grafico:
z3<-aggregate(x=list(media_co=df$crecimiento),
by=list(f=df$ferti,v=df$vari),
FUN=mean, na.rm=TRUE)
z3 %>%
ggplot(aes(f,media_co,color=v))+
geom_line(aes(group = v))
se observa que la variedad 4 tuvo un mejor rendimiento con todos los tipos de fertilizante y que el tipo de fertilizante 4 fue el mejor en todas las variedades.
\[cofacotor\] Se cree que el contenido de Carbono orgánico en el suelo afecta el experimento, se obtuvo estos resultados:
set.seed(1809)
COs<- runif(48,min=80, max=110)
df$CO<- COs
df
## replicas vari ferti crecimiento CO
## 1 1 var1 fer1 108.1741 89.71206
## 2 1 var1 fer2 108.2446 106.97294
## 3 1 var1 fer3 109.0521 104.67576
## 4 1 var1 fer4 110.9616 81.87890
## 5 1 var2 fer1 111.0422 90.74429
## 6 1 var2 fer2 111.0680 85.36790
## 7 1 var2 fer3 111.4546 86.75297
## 8 1 var2 fer4 111.5199 80.70862
## 9 1 var3 fer1 112.0886 82.80613
## 10 1 var3 fer2 112.1199 108.97583
## 11 1 var3 fer3 112.3920 82.84960
## 12 1 var3 fer4 112.5555 83.08345
## 13 1 var4 fer1 112.7347 86.80801
## 14 1 var4 fer2 112.7531 103.09115
## 15 1 var4 fer3 112.8615 103.48357
## 16 1 var4 fer4 113.1182 96.22593
## 17 2 var1 fer1 113.2589 85.05550
## 18 2 var1 fer2 113.4294 105.31040
## 19 2 var1 fer3 113.5409 108.20110
## 20 2 var1 fer4 113.6282 87.81229
## 21 2 var2 fer1 113.6389 108.65630
## 22 2 var2 fer2 113.7484 80.74780
## 23 2 var2 fer3 113.9097 107.51278
## 24 2 var2 fer4 114.6285 92.13058
## 25 2 var3 fer1 114.6523 80.34332
## 26 2 var3 fer2 114.7688 88.81275
## 27 2 var3 fer3 114.9292 95.93361
## 28 2 var3 fer4 114.9423 102.74437
## 29 2 var4 fer1 115.2343 80.36502
## 30 2 var4 fer2 115.6642 91.71888
## 31 2 var4 fer3 115.9135 94.07873
## 32 2 var4 fer4 117.2181 101.01162
## 33 3 var1 fer1 117.3449 109.21204
## 34 3 var1 fer2 117.4273 109.56050
## 35 3 var1 fer3 117.5136 98.58883
## 36 3 var1 fer4 117.6478 103.88627
## 37 3 var2 fer1 117.6537 88.42489
## 38 3 var2 fer2 117.6694 104.96597
## 39 3 var2 fer3 117.7751 87.95717
## 40 3 var2 fer4 118.0257 102.18814
## 41 3 var3 fer1 118.0370 108.56073
## 42 3 var3 fer2 119.1388 106.78425
## 43 3 var3 fer3 119.1573 104.39628
## 44 3 var3 fer4 119.6652 109.34577
## 45 3 var4 fer1 119.8377 89.00905
## 46 3 var4 fer2 119.9944 96.56603
## 47 3 var4 fer3 120.0928 105.32920
## 48 3 var4 fer4 120.8163 92.31213
lo primero que se debe hacer es observar si vale la pena realiar un análisis ANCOVA para este modelo, entonces análizamos muestro cofactor con nuestra variable respuesta, de manera gráfica:
plot(df$CO, df$crecimiento)
no se observa relación entre la covariable y nuestro cofactor, pero para asegurar nuestra respuesta hacemos una relación lineal entre la variable dependiente y el cofactor:
cor.test(df$CO,df$crecimiento)
##
## Pearson's product-moment correlation
##
## data: df$CO and df$crecimiento
## t = 2.0492, df = 46, p-value = 0.04617
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.005541402 0.529816360
## sample estimates:
## cor
## 0.2892207
Rechazamos la hipotesis alterna y demostramos que nuestros datos no tienen una relacion lineal entre sí, este es un supuesto que se debe cumplir para realizar un ancova y como no se cumple no hay necesidad de realizarlo y nuestras respeustas no varian con respecto al anterior análisis de varianzas, seguimos concluyendo que la mejor variedad con todos los tipos de fertilizante fue la cariedad 4 y que el mejor tipo de fertilizante también fue el 4.
Resumen 1 El diseño de parcelas divididas es muy utilizado en la agricultura por que es de gran utilidad cuando uno de los factores que se desean evaluar no se puede aleatorizar de manera sencilla (difícil de cambiar) y/o cuando se posee un recurso económico limitado para el experimento. A nivel general el factor que es difícil de aleatorizar se denominan parcela principal y los factores que son fáciles de aleatorizar se denominan subparcelas, ya que se toma la parcela principal y dentro de esta se realiza la aleatorización de los otros factores, por eso quedan a manera de subparcela. Su uso no depende solo de los factores sino de las necesidades experimentales requeridas por el investigador, a nivel agrícola tiene una amplia implementación por esto mismo, porque se acopla a las necesidades de investigación permitiendo utilizar parcelas grandes de tierra como factor. Este es un diseño que tiene bastantes ventajas, por ejemplo la manipulación estadística, ya que los resultados del tratamiento nos mostrará dos términos de error en el modelo y se presentarán más grados de libertad en la subparcela, lo cual nos permite obtener resultados más precisos con respecto a la subparcela y la interacción entre la parcela y subparcela, otra ventaja que ya se mencionó anteriormente es la económica ya que incluso sin necesidad de más dinero puede obtener más resultados.
Para poder realizar un diseño de experimentos adecuado, cualesquiera escoger, ya sea por parcelas divididas, por bloques, cuadrado latino, etc., es necesario saber cúal va a ser nuestra unidad experimental y cúal va a ser nuestra unidad de muestreo u observación. La unidad experimental es la entidad independiente más pequeña a la que se le puede asignar un tratamiento, esta independencia significa que con cualquier unidad experimental que se escoja, al aplicar un tratamiento los resultados obtenidos serán confiables. ahora es importante definir una unidad de observación, la cual va a definir el tamaño de la unidad experimental, ya que la unidad muestral u observacional es la unidad física sobre la que se mide un resultado. Si bien se pueden tener casos en los que la unidad muestral sea la misma que la unidad experimental, como por ejemplo si se desea medir el nivel de azúcar en la sangre en un paciente hipertenso cuando ingiere x dulce, tenemos que la unidad experimental es la misma que la unidad muestral por que el tratamiento y la medición de resultados ha sido hecha sobre el mismo individuo, tambíen se pueden tener casos donde difieren las unidades muestrales a las experimentales, por ejemplo, un diseño donde se va a determinar el índice de área foliar de un cultivo dado un tipo de suelo específico, como unidad muestral en este caso se designo a una parcela la cual contiene 60 plantas y como unidad muestral se tomaron 5 plantas de estas 60, en este caso en específico nos damos cuenta como varía nuestra unidad experimental de nuestra unidad muestral y si, en caso hipotético quisieramos que la unidad experimental fuera igual a la unidad muestral deberíamos medir el índice de area foliar en todas las 60 plantas o reducir la unidad muestral aplicando nuestro tratamiento a solo 5 plantas.
Para poder diseñar un experimento necesitamos partir del tipo de experimento que queremos evaluar (si vamos a hacer un experimento de observación, uno de medición o uno de comparación) y de una pregunta que queremos responder. Como todo un diseño tiene un proceso, el cual comienza por la formulación de la hipótesis (la pregunta que se quiere responder), continua con el planteamiento del modelo estadístico, le sigue el desarrollo del experimento, seguido por un análisis estadístico a los resultados obtenidos en campo, del cual se podrá extraer resultados que serán analizados con el fín de responder la hipótesis inicial y poder formular nuevas preguntas de investigación que permitan complementar el tema a través de nuevos diseños de experimentos.
A nivel investigativo el diseño experimental más utilizado es el comparativo, porque permite responder preguntas de eficiencia, rendimiento, etc, entre tratamientos con mayor facilidad, y, aunque se pueden manejar niveles de confianza se espera que los resultados obtenidos sean significativos y permitan tomar decisiones en el campo que se requiera. Los diseños comparativos necesitan cumplir con cuatro pilares fundamentales para que sus resultados se puedan considerar exitosos: replicación, aleatorización, bloqueo y el tamaño de las unidades experimentales.
Replicación: la replicación consiste en repetir ya sea, todo el experimento, la unidad experimental, la unidad muestral o hacer medias repetidas en el tiempo. Esto tiene una repercusión en el experimento benéfica, ya que permite estimar el error experimental osea la variación entre tratamientos, también permite aumentar la precisión del experimento y permite tener más unidades muestrales para obtener resultados y también por último, permite disminuir el error y regula la presición del experimento.
Aleatorización La aleatorización depende de dos factores, una definición adecuada de los materiales y las instalaciones, para poder realizar un correcto muestreo; escogiendo una población y además elegir una muestra aleatoria o representativa que pueda representar esa población y el segundo factor es la asignación de tratamientos a unidades experimentales, esto hace referencia a que cada tratamiento es igualmente probable que cada unidad experimental, y esto se calcula siendo r réplicas de t tratamientos a rt unidades experimentales La aleatorización es un proceso matemático estricto en el que se utiliza un generador de números aleatorios, para ordenar los tratamientos se desarrollaron diseños de bloques completos espacialmente equilibrados para evitar sesgo potencial o confusión en los efectos de los tratamientos.
Bloqueo El bloqueo surge dado la necesidad de homogeneización de unidades experimentales, asegurando que la variación no se va a deber a factores externos, y también es utilizado cuando se quieren tener unidades experimentales y la cantidad de factores existentes.
Tamaño de las unidades experimentales
En el tamaño de las unidades experimentales se tiene en cuenta la ley de Smith la cual se deriva de la observación general de una relación asintótica negativa entre la varianza (por unidad o por parcela única) y el tamaño de la parcela, se debe tener claro que el tamaño de la parcela es ambiguo, por lo que depende del estudio que cualquier cambio en el tamaño de la parcela tenga un gran efecto en la varianza media de la unidad. o por el contrario, al utilizar parcelas relativamente grandes, pueden tener poco o ningún impacto en la varianza de la unidad media