PARCIAL DISEÑO DE EXPERIMENTOS

INTEGRANTES:

GINNA VALENTINA ROMERO RINCON 1026596100 (gvromeror@unal.edu.co)
LAURA CAMILA ALVAREZ GACHA 1026303112 (laucalvarezgac@unal.edu.co)

cami.

vale

Punto 1

a.1)

En un estudio conducido en un ambiente controlado se tuvieron 72 macetas, cada una con una planta a a que a cierta edad se le midió el contenido de clorofila (indice de clorofila) con un sensor (SPAD). El total de macetas se correspondio con 9 tratamientos asociados a estrés hídrico. Se sabe que la varianza de las 72 observaciones es 823 y que la suma de cuadrados de los tratamientos (SCtrt) es 6000 Con esta información complete la tabla del ANOVA.

solución

\[¿Qué~ datos ~tenemos~ y ~ podemos ~ deducir?\]

\[n=72\\ tratamientos~~(trt)=9\\ repeticiones ~~(rpp)= \frac{n}{trt}= \frac{72}{9}= 8 \\ Varianza~~ (S^2)=823\\ SC_{trt}=6000\\ Grados~ de ~libertad~ de ~los~ tratamientos~~ (gl_{trt})=trt-1= 9-1=8\\ Grados~de~libertad~del~error~ (gl_{error})= trt*(rpp-1)=9(8-1)=63\\ Grados ~de ~libertad~ totales ~~ (gl_{totales})= n-1=72-1=71\]

n=72
trt=9
rpp=8  
 S2=823
SCtrt=6000
gl_trt=8
gl_error=63
gl_totales= 71

para poder completar el ANOVA nos hace falta la suma de cuadrado de las repeticiones o suma de cuadrados del error (SCerror), y para obtener este valor partimos de esta fórmula:

formula 1

\[S^2= \frac {SC_{totales}}{gl}\] Donde \[SC= Suma~de~cuadrados\\ S^2=Varianza~ total\\ gl= Grados~de~libertad~ (n-1)\]

y tambien sabemos que:

Formula 2

\[SC_{totales}= SC_{trt}~ + ~ SC_{error}\] Entonces reemplazamos la formula dos en la formula uno obteniendo este resultado

formula 3

\[S^2= \frac {SC_{trt}~ + ~ SC_{error}}{gl}\] y despejamos la Suma de Cuadrados del error

\[SC_{error}= (S^2*gl)~ - SC_{trt)}\]

SCerror=(823*71)-6000;SCerror

## [1] 52433

\[SC_{error}=52433\] como ya tenemos las sumas de cuadrados y los grados de libertad podemos obtener las varianzas o Cuadrados Medios (CM) de los tratamientos y del error

CMtrt<- SCtrt/gl_trt;CMtrt

## [1] 750

CMerror<- SCerror/gl_error; CMerror

## [1] 832.2698

\[CM_{trt}=750\\ CM_{error}=832.26\]

ya con los dos cuadrados medios podemos calcular el COCIENTE F (CF) así:

CF <- CMtrt/CMerror; CF

## [1] 0.90115

f_cal<- CF

\[Valor~ F= 0.90115\] Todos los datos obtenidos anteriormente se aprecian mejor en la siguiente tabla.

library(readxl)
punto_1 <- read_excel("punto1.xlsx")

## New names:
## * `` -> ...1

df<- data.frame(punto_1)
df

##      ...1    SC df     CM  F_cal
## 1 Between  6000  8 750.00 o.9011
## 2  Within 52433 63 832.26   <NA>
## 3   total 58433 71     NA   <NA>

¿Qué nos dice este valor de F?

lo primero que nos damos cuenta es que este valor es menor a 1, lo que indica que la variabilidad entre las repeticiones es mayor que la variabilidad entre tratamientos, NO PODEMOS CONCLUIR NADA CON RESPECTO A LOS TRATAMIENTOS YA QUE NO SON LA PRINCIPAL FUENTE DE VARIABILIDAD.

a.2

si el F tabulado es 2.8. ¿qué puede decirse acerca de la hipótesis nula de igualdad de los promedios del índice en todas las condiciones de tratamiento?

f_tab<- 2.8

x <- seq( -4, 4, by = 0.1)
y <- dnorm( x )
plot( function(x) df( x, df1 = 8, df2= 63), 0, 4, ylim = c( 0, 1 ),
      col = "red", type = "l", lwd = 2,
      main = "Función densida F de Fisher df1=8 y df2=63" )
abline(v=f_tab,col="blue")
text(2.9,0.2,"f_tab")
abline(v=f_cal, col = "green")
text(1.0,0.2,"f_cal")
text(3.5, 0.5, "zona de rechazo")
text(2, 0.5, "zona de no rechazo")

Como se observa en la grafica anterior nuestro F calculado cae en la zona de no rechazo de la hipótesis nula, con lo que pdrímos conclurir que los tratamientos tienenigualdad de promedios estadisticamente hablando, PERO estos datos no pueden ser tomados para desiciones agronómicas porque el valor de F fue menor de 1.

a.3

¿Vale la pena comparar las medias de tratamientos a posteriori del ANOVA (prueba de Tukey)?

NO

la prueba de tukey nos permite hacer comparaciones entre los tratamientos para ver cual fue el tratamiento causante de la diferencia, pero como en este caso los causante de la variabilidad son las repeticiones y no los tratamientos, una prueba de Tukey no es util.

Punto 2

Antes de hilar el algodón, éste debe ser procesado para eliminar las materias extrañas y la humedad. El limpiador de pelusas más común es el limpiador de pelusas tipo sierra de batería controlada. Aunque el limpiador de pelusas de motor de sierra (M1) es uno de los más efectivos, también es uno de los limpiadores que causa más daño a las fibras de algodón. Un investigador del algodón diseñó un estudio para comparar cuatro alternativas de limpieza de las fibras de algodón: M2, M3, M4 y M5. Los métodos M2 y M3 son mecánicos, mientras que los métodos M4 y M5 son una combinación mecánica y química. El investigador quiso tener en cuenta el impacto de los diferentes cultivadores en el proceso y, por lo tanto, obtuvo fardos de algodón de seis diferentes granjas algodoneras. Las granjas fueron consideradas como bloques en el estudio. Después de una limpieza preliminar de algodón, los seis fardos fueron mezclados a fondo, y luego fue procesada una igual cantidad de algodón por cada uno de los cinco métodos de limpieza de pelusas. Las pérdidas en peso (en kg) después de la limpieza las fibras de algodón se dan en la siguiente tabla. Durante el procesamiento de las muestras de algodón, las mediciones de la granja 1 procesada por el limpiador M1 se perdieron.

Tabla de granjero vs metodo

Método	1	2	3	4	5	6
M1	*	6.75	13.05	10.26	8.01	8.42
M2	5.54	3.53	11.20	7.21	3.24	6.45
M3	7.67	4.15	9.79	8.27	6.75	5.50
M4	7.89	1.97	8.97	6.12	4.22	7.84
M5	9.27	4.39	13.44	9.13	9.20	7.13
Mean	7.593	4.158	11.290	8.198	6.280	7.068

Realice el ANOVA para este diseño recordando que es un caso desbalanceado. Concluya sobre el resultado de la tabla del ANOVA obtenida. (¿Afecta el orden de colocación de los efectos del modelo dentro del software R? Verifique si la tabla del ANOVA cambia):

library(readxl)
#se crea un dataframe y se llama el excel con los datos

dalgodon <- read_excel("tablae2.xlsx")
#View(tablae2)
# Se crean factores para realizar el anova
dalgodon$GRANJERO = as.factor(dalgodon$GRANJERO)
dalgodon$METODO = as.factor(dalgodon$METODO)
library(daewr)

## Warning: package 'daewr' was built under R version 4.0.3

## Registered S3 method overwritten by 'DoE.base':
##   method           from       
##   factorize.factor conf.design

MODELO 1

# se utiliza la funcion lm

mod1 <- lm( PESO ~ GRANJERO * METODO, data = dalgodon )
anova( mod1 )

## Warning in anova.lm(mod1): ANOVA F-tests on an essentially perfect fit are
## unreliable

## Analysis of Variance Table
## 
## Response: PESO
##                 Df Sum Sq Mean Sq F value Pr(>F)
## GRANJERO         5 138.30 27.6608               
## METODO           4  49.12 12.2799               
## GRANJERO:METODO 19  26.23  1.3805               
## Residuals        0   0.00

table (dalgodon$GRANJERO, dalgodon$METODO)

##    
##     M1 M2 M3 M4 M5
##   1  1  1  1  1  1
##   2  1  1  1  1  1
##   3  1  1  1  1  1
##   4  1  1  1  1  1
##   5  1  1  1  1  1
##   6  1  1  1  1  1

No se puede utilizar este modelo por que solo hay una respuesta por bloque y por un factor como se observa en la tabla

MODELO 2

mod2 <- lm( PESO ~ GRANJERO + METODO, data = dalgodon )
anova( mod2 )

## Analysis of Variance Table
## 
## Response: PESO
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## GRANJERO   5 138.30 27.6608 20.0365  5.57e-07 ***
## METODO     4  49.12 12.2799  8.8951 0.0003186 ***
## Residuals 19  26.23  1.3805                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Este metodo es el correcto ya que primero se coloca el bloque y luego la razon experimental entonces se bloquea primero el Granjero por que la variable de interes es el metodo

MODELO 3

En este modelo se intercalaron las variables metodo y granero

mod3 <- lm( PESO ~ METODO + GRANJERO, data = dalgodon )
anova( mod3 )

## Analysis of Variance Table
## 
## Response: PESO
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## METODO     4  47.763 11.9407  8.6494 0.0003754 ***
## GRANJERO   5 139.661 27.9322 20.2331 5.163e-07 ***
## Residuals 19  26.230  1.3805                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se encontro que el orden de colocación de los efectos del modelo dentro del software R si varian, ya que se puede apreciar que en los modelos 2 y 3 lo cual quiere decir que al tomar granjeros como bloques si se puede bloquear pero al bloquear las parcelas si se presentan dat

Estimar el valor de la observación usando el promedio de los datos para los cinco granjeros del mismo método M1 y luego realice el análisis de varianza para probar las diferencias en las pérdidas medias de peso para los cinco métodos de limpiado de las fibras de algodón. Compare este resultado con el caso desbalanceado (de ser posible).

# Crea el data frame nuevamente para hacer uso de los datos
dalgodon2 <- dalgodon

Se reemplaza el dato G1 para el metodo 1, en su lugar se coloca el dato del promedio de los cinco granjeros en el metodo 1 que es 9.298

dalgodon2$PESO[1] = 9.298

MODELO 4

mod4<- lm( PESO ~ GRANJERO + METODO, data = dalgodon2 )
anova( mod4 )

## Analysis of Variance Table
## 
## Response: PESO
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## GRANJERO   5 139.364 27.8728 21.0147  2.45e-07 ***
## METODO     4  51.150 12.7874  9.6411 0.0001637 ***
## Residuals 20  26.527  1.3263                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Al comparar el modelo 4 con el modelo 2 que se dijo anteriormente era el indicado, se observan que se presentan diferencias significativas y se espera que el modelo 2 sea un valor mas cercano al real que este ya que al calcular el valor del modelo uno para la primera granja con el promedio de las granjas puede arrojar un valor completamente diferente al real, ya que se presentaran entre ellas diferencias significativas.

Probemos nuestro ingenio y capacidad de trabajo en R: Proponga un promedio basado en la medida de M1 con los datos disponibles, pero sumando una cantidad delta de modo que el coeficiente de variación entre las seis mediciones sea menor al 20%. Es decir,

Punto 3

Use la función de R para generar de la distribución uniforme unos datos de carbono orgánico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior osciló entre 3.0 y 3.U+0.1 y de la capa inferior osciló entre 2 y 2.T+0.2. Use expand.grid para generar una ventana de observación de 0 a 100 m para la longitud y de 0 a 200 m para la latitud. Genere 50 datos en cada capa. Use la función sort.int de R para ordenar los datos de cada capa con la opción partial=25+U dentro de la propia función sort.int. Una vez cree los datos realice algún diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora. Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%.

Desarrollo

Se fija la semilla para obtener los mismos datos y en este ejercicio se remplaza la U por 0 y T por 2

Se generan 50 datos uniformes con max y min para una produndidad de 5 y de 10, y se ordenan con la funcion sort.int

set.seed(2016)
co5<-runif(50,min =3.0, max = 3.1)
co5 =sort.int(co5,partial = 25)
co10 <- runif(50, min = 2, max = 2.4)
co10 =sort.int(co10,partial = 25)

se crea la variable ventana y se definen los puntos para generar los 50 datos

ventana <- expand.grid(longitud= seq(0,100,25), latitud = seq(0,200,length.out = 10))

Se crea el dataframe para realizar la grafica 3D

dfco <- data.frame(longitud = rep(ventana$longitud,2),
                   latitud = rep(ventana$latitud,2),
                   profundidad = rep(c(5,10),each = 50),
                   co = c(co5,co10))

Grafica 3D

library(plotly)

## Warning: package 'plotly' was built under R version 4.0.3

## Loading required package: ggplot2

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

plot_ly (x=dfco$longitud, y=dfco$latitud, z=dfco$profundidad, type="scatter3d", mode="markers", color=dfco$co)

## Warning: `arrange_()` is deprecated as of dplyr 0.7.0.
## Please use `arrange()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.

prueba de shapiro.test para saber la normalidad de los datos

x.testco5 <- shapiro.test(co5)
print(x.testco5)

## 
##  Shapiro-Wilk normality test
## 
## data:  co5
## W = 0.94037, p-value = 0.01394

x.testco10 <- shapiro.test(co10)
print(x.testco10)

## 
##  Shapiro-Wilk normality test
## 
## data:  co10
## W = 0.91431, p-value = 0.001477

Como se rechaza la hipotesis nula se dice que se debe realizar la prueba de wilcoxon en lugar de la T-student

var.test(co5, co10)

## 
##  F test to compare two variances
## 
## data:  co5 and co10
## F = 0.049713, num df = 49, denom df = 49, p-value < 2.2e-16
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.02821105 0.08760401
## sample estimates:
## ratio of variances 
##         0.04971319

# no tiene varianzas iguales 

wilcox.test(x = co5, y = co10, paired = TRUE, alternative = "t", conf.int = 0.95)

## 
##  Wilcoxon signed rank test with continuity correction
## 
## data:  co5 and co10
## V = 1275, p-value = 7.79e-10
## alternative hypothesis: true location shift is not equal to 0
## 95 percent confidence interval:
##  0.8320447 0.9004684
## sample estimates:
## (pseudo)median 
##      0.8654967

De acuerdo al p valor de la prueba wilcoxon se rechaza la hipotesis nula por lo que son diferentes en la media de carbono entre capas utilizando un nivel de confianza del 95%

Punto 4

diseño factorial completo (3^2) en arreglo completamente al azar

Se tienen dos factores, cada uno con tres niveles y se hizo dos repeticiones.

set.seed(2020)
D<-expand.grid(F1= c(3.25,3.75,4.25), F2= c(4,5,6))
D<- rbind(D,D)
set.seed(2020)
D<- D[order(sample(1:18)), ]
class(D)

## [1] "data.frame"

D$biomasa= sort.int(rnorm(18,3,0.3), partial=9)
D

##      F1 F2  biomasa
## 2  3.75  4 2.708826
## 10 3.25  4 2.772692
## 16 3.25  6 2.143359
## 4  3.25  5 2.560519
## 13 3.25  5 2.708666
## 6  4.25  5 2.773705
## 17 3.75  6 2.770350
## 8  3.75  6 2.832470
## 14 3.75  5 2.898280
## 5  3.75  5 3.359619
## 9  4.25  6 3.054099
## 1  3.25  4 3.157896
## 12 4.25  4 3.487669
## 11 3.75  4 3.451547
## 15 4.25  5 3.016111
## 7  3.25  6 3.042156
## 3  4.25  4 3.200552
## 18 4.25  6 2.989329

D$F1<- as.factor(D$F1)
D$F2<- as.factor(D$F2)
D

##      F1 F2  biomasa
## 2  3.75  4 2.708826
## 10 3.25  4 2.772692
## 16 3.25  6 2.143359
## 4  3.25  5 2.560519
## 13 3.25  5 2.708666
## 6  4.25  5 2.773705
## 17 3.75  6 2.770350
## 8  3.75  6 2.832470
## 14 3.75  5 2.898280
## 5  3.75  5 3.359619
## 9  4.25  6 3.054099
## 1  3.25  4 3.157896
## 12 4.25  4 3.487669
## 11 3.75  4 3.451547
## 15 4.25  5 3.016111
## 7  3.25  6 3.042156
## 3  4.25  4 3.200552
## 18 4.25  6 2.989329

library(collapsibleTree)

## Warning: package 'collapsibleTree' was built under R version 4.0.3

collapsibleTree(D, hierarchy = c('F1', 'F2',"biomasa"))

\[modelo\] \[y_{ijm}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+ \epsilon_{ijm}\\ i= primer~factor\\ j= segundo~ factor\\ m= repeticiones\\ \tau\beta= efecto de la interacción\]

anova=

lo primero que se hace es correr un anova para mirar si hay interacción entre los factores

anov1<- aov(D$biomasa~(D$F1*D$F2))
summary(anov1)

##             Df Sum Sq Mean Sq F value Pr(>F)
## D$F1         2 0.4161 0.20804   1.979  0.194
## D$F2         2 0.3426 0.17128   1.630  0.249
## D$F1:D$F2    4 0.1635 0.04087   0.389  0.812
## Residuals    9 0.9459 0.10510

análisis

lo primero que nos damos cuenta es que no presentamos interacción entre los dos factore (el p_Value de la interacción es mayor a 0.5), así que podemos correr el modelo sin interacción.

anov2<- aov(D$biomasa~(D$F1+D$F2))
summary(anov2)

##             Df Sum Sq Mean Sq F value Pr(>F)
## D$F1         2 0.4161 0.20804   2.438  0.126
## D$F2         2 0.3426 0.17128   2.007  0.174
## Residuals   13 1.1094 0.08534

análisis

No hay interacción de los factores individuales con la respuesta así que no se pueden dar conclusiones de la interacción que tienen estos factores con la variable respuesta de biomasa.

\[supuestos~ anova\] ## normalidad reiduales

shapiro.test(anov1$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anov1$residuals
## W = 0.99029, p-value = 0.999

los residuales presentan un distribución normal

igualdad de varianzas

bartlett.test(anov1$residuals~D$F1)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  anov1$residuals by D$F1
## Bartlett's K-squared = 3.815, df = 2, p-value = 0.1485

bartlett.test(anov1$residuals~D$F2)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  anov1$residuals by D$F2
## Bartlett's K-squared = 1.3381, df = 2, p-value = 0.5122

las varianzas son iguales por trtamiento.

independencia de los residuales

plot(anov1$residuals)

no se observa ninguna tendencia.

library(ggplot2)
library(dplyr)

## Warning: package 'dplyr' was built under R version 4.0.3

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

 D %>% 
 group_by(F1, F2) %>% 
  summarise(biomasa_media = mean(biomasa)) -> tips2

## `summarise()` regrouping output by 'F1' (override with `.groups` argument)

  tips2 %>% 
  ggplot() +
  aes(x = F1, y = biomasa_media, color = F2) +
  geom_line(aes(group = F2))

interaction.plot(D$F1,trace.factor = D$F2,response = D$biomasa, fun = "mean" ,type = c("b"), legend = T)

boxplot(D$biomasa~(D$F1*D$F2))

boxplot(D$biomasa~D$F1)

boxplot(D$biomasa~D$F2)

covariable:\[contenido de arcillas expansibles\]

set.seed(2020)
arc<-sort.int(runif(18, 0.2, 0.4))
D$arcilla<- arc
D

##      F1 F2  biomasa   arcilla
## 2  3.75  4 2.708826 0.2005165
## 10 3.25  4 2.772692 0.2134769
## 16 3.25  6 2.143359 0.2258305
## 4  3.25  5 2.560519 0.2272194
## 13 3.25  5 2.708666 0.2786236
## 6  4.25  5 2.773705 0.2788452
## 17 3.75  6 2.770350 0.2818575
## 8  3.75  6 2.832470 0.2845458
## 14 3.75  5 2.898280 0.2953782
## 5  3.75  5 3.359619 0.3079385
## 9  4.25  6 3.054099 0.3237004
## 1  3.25  4 3.157896 0.3240412
## 12 4.25  4 3.487669 0.3293806
## 11 3.75  4 3.451547 0.3307115
## 15 4.25  5 3.016111 0.3487672
## 7  3.25  6 3.042156 0.3528828
## 3  4.25  4 3.200552 0.3652331
## 18 4.25  6 2.989329 0.3921445

\[ancova\]

ancova1<-aov(D$biomasa~D$arcilla+(D$F1*D$F2))
summary(ancova1)

##             Df Sum Sq Mean Sq F value  Pr(>F)   
## D$arcilla    1 0.8839  0.8839  21.347 0.00171 **
## D$F1         2 0.1496  0.0748   1.806 0.22526   
## D$F2         2 0.4777  0.2388   5.768 0.02812 * 
## D$F1:D$F2    4 0.0256  0.0064   0.155 0.95541   
## Residuals    8 0.3313  0.0414                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#análisis

como se observo en el aov no hay interacción doble entre los dos factores principales, pero cuando se observa los efectos de los factordes de manera independiente , la arcilla es el único que tiene un efecto relevante en la respuesta (variable dependiente).

lo mejor es hacer un ancova sin interacción entre los factores principales

ancova2<-aov(D$biomasa~D$arcilla+(D$F1+D$F2))
summary(ancova2)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## D$arcilla    1 0.8839  0.8839  29.721 0.000147 ***
## D$F1         2 0.1496  0.0748   2.515 0.122440    
## D$F2         2 0.4777  0.2388   8.030 0.006117 ** 
## Residuals   12 0.3569  0.0297                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#analisis

el unico resultado que muestra interacción es el cofactor, con un p_value menor al 5%, los otros dos factores sigen mostrando una no interacción con la variable dependiendte igual que en el aov1 y aov2.

ahora solo se va a realizar un anova entre la variable dependiente y el cofactor, que fue el único que mostro significancia, en este caso podemos concluir que las decisiones agrónomicas podemos hacerlas a través de la relación entre cofactor y la variable dependiente

#modelo regresión lineal simple 
ancova4<- aov(D$biomasa~D$arcilla)
summary(ancova4)

##             Df Sum Sq Mean Sq F value Pr(>F)   
## D$arcilla    1 0.8839  0.8839   14.37 0.0016 **
## Residuals   16 0.9841  0.0615                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

con este resultado podemos cocluir que se presenta interacción y que los niveles de biomasa se ven afectados con el contenido de arcilla y no por los otros dos factores.

\[supuestos\]

linealidad entre la variable dependiente y el cofactor:

plot(D$biomasa~D$arcilla, main= "dispersion")
s <-lm(D$biomasa~D$arcilla,data = D)
abline(s, col="red")

observamos que el supuesto se cumple porque los datos no presentan dispersión.

interacción nula entre el cofactor y las variables dependientes

a<- aov(D$biomasa~D$F1*D$F2)
summary(a)

##             Df Sum Sq Mean Sq F value Pr(>F)
## D$F1         2 0.4161 0.20804   1.979  0.194
## D$F2         2 0.3426 0.17128   1.630  0.249
## D$F1:D$F2    4 0.1635 0.04087   0.389  0.812
## Residuals    9 0.9459 0.10510

se acepta el supuesto ya que no hay interacción entre el cofactor y los factores..

normalidad de los residuos

w<- lm(D$biomasa~D$arcilla)
summary(w)

## 
## Call:
## lm(formula = D$biomasa ~ D$arcilla)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.49588 -0.12220 -0.04211  0.15857  0.41530 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   1.6946     0.3338   5.077 0.000112 ***
## D$arcilla     4.1829     1.1034   3.791 0.001603 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.248 on 16 degrees of freedom
## Multiple R-squared:  0.4732, Adjusted R-squared:  0.4403 
## F-statistic: 14.37 on 1 and 16 DF,  p-value: 0.001603

shapiro.test(w$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  w$residuals
## W = 0.94489, p-value = 0.3505

los residuales son normales, se acepta el supuesto,

homogeneidad de las varianzas

bartlett.test(list(D$biomasa,D$arcilla))

## 
##  Bartlett test of homogeneity of variances
## 
## data:  list(D$biomasa, D$arcilla)
## Bartlett's K-squared = 37.609, df = 1, p-value = 8.645e-10

NO SE CUMPLE EL SUPUESTO DE HOMOGENEIDAD DE VARIANZAS

independencia de los residuales

plot(w$residuals)

se cumple este supuesto

\[Conclusión\] aunque observamos que existe la interacción entre el cofactor y la variable dependiente, no aceptamos todos los supuestos del ancova…

Punto 5

Existe un tipo de diseño anidado (factorial incompleta) conocido como anidado escalonado (staggered nested design) y ocurre tal como se muestra en la imagen, donde se tienen dos fincas sembradas con variedades de papa solo que la finca A permite que se desarrollen las dos variedades mientras que la altitud de la finca B solo permite el desarrollo de una de ellas. Además, se tienen dos parcelas con la variedad 1 en la primera finca y solo una en el resto de las fincas.

Use la librería lme4 tal como aparece en el código abajo. La etiqueta “ue” hace referencia a la unidad experimental (parcela) utilizada, por lo que se necesita crear una columna que identifique la parcela, una que identifique la finca, otra para la variedad y otra para lo que aquí se llama test pero que hace referencia en este caso a los cuadrados de 1.5m*1.5m usados para tomar las muestras de plantas dentro de las parcelas.

Estos diseños son usados para estimar la varianza atribuible a las parcelas, a las parcelas anidadas en las fincas, y a la variedad dentro de la finca. El código presentado puede ayudar a la estimación de estas varianzas.

Use los datos que se muestran para estimar las varianzas antes descritas. Una ayuda para la solución de este problema puede encontrarse en el libro: Design and Analysis of Experiments with R de John Lawson.

library(readxl)
punto5 <- read_excel("punto5.xlsx")

# View(punto5)
punto5$finca = as.factor(punto5$finca)
punto5$variedad = as.factor(punto5$variedad)
punto5$test = as.factor(punto5$test)
punto5$parcela  = as.factor(punto5$parcela)
df = data.frame(punto5)
df

##    finca variedad test parcela respuesta
## 1      1        1    1       1      9.76
## 2      1        1    1       2     10.65
## 3      1        1    1       3      6.50
## 4      1        1    1       4      8.08
## 5      1        1    1       5      7.84
## 6      1        1    1       6      9.00
## 7      1        1    1       7     12.81
## 8      1        1    1       8     10.62
## 9      1        1    1       9      4.88
## 10     1        1    1      10      9.38
## 11     1        1    1      11      5.91
## 12     1        1    1      12      7.19
## 13     1        1    1      13      7.93
## 14     1        1    1      14      3.70
## 15     1        1    1      15      4.64
## 16     1        1    1      16      5.94
## 17     1        1    1      17      9.50
## 18     1        1    1      18     10.93
## 19     1        1    1      19     11.95
## 20     1        1    1      20      4.34
## 21     1        1    2       1      9.24
## 22     1        1    2       2      7.77
## 23     1        1    2       3      6.26
## 24     1        1    2       4      5.28
## 25     1        1    2       5      5.91
## 26     1        1    2       6      8.38
## 27     1        1    2       7     13.58
## 28     1        1    2       8     11.71
## 29     1        1    2       9      4.96
## 30     1        1    2      10      8.02
## 31     1        1    2      11      5.79
## 32     1        1    2      12      7.22
## 33     1        1    2      13      6.48
## 34     1        1    2      14      2.86
## 35     1        1    2      15      5.70
## 36     1        1    2      16      6.28
## 37     1        1    2      17      8.00
## 38     1        1    2      18     12.15
## 39     1        1    2      19     10.58
## 40     1        1    2      20      5.45
## 41     1        2    1       1     11.91
## 42     1        2    1       2     10.00
## 43     1        2    1       3      8.02
## 44     1        2    1       4      9.15
## 45     1        2    1       5      7.43
## 46     1        2    1       6      7.01
## 47     1        2    1       7     11.13
## 48     1        2    1       8     14.07
## 49     1        2    1       9      4.08
## 50     1        2    1      10      6.73
## 51     1        2    1      11      6.59
## 52     1        2    1      12      5.77
## 53     1        2    1      13      8.12
## 54     1        2    1      14      3.95
## 55     1        2    1      15      5.96
## 56     1        2    1      16      4.18
## 57     1        2    1      17     11.25
## 58     1        2    1      18      9.51
## 59     1        2    1      19     16.79
## 60     1        2    1      20      7.51
## 61     2        1    1       1      9.02
## 62     2        1    1       2     13.69
## 63     2        1    1       3      7.95
## 64     2        1    1       4      7.46
## 65     2        1    1       5      6.11
## 66     2        1    1       6      8.58
## 67     2        1    1       7     10.00
## 68     2        1    1       8     14.56
## 69     2        1    1       9      4.76
## 70     2        1    1      10      6.99
## 71     2        1    1      11      6.55
## 72     2        1    1      12      8.33
## 73     2        1    1      13      7.43
## 74     2        1    1      14      5.92
## 75     2        1    1      15      5.88
## 76     2        1    1      16      5.24
## 77     2        1    1      17     11.14
## 78     2        1    1      18     12.71
## 79     2        1    1      19     13.08
## 80     2        1    1      20      5.21

library(daewr)
 mod2<-aov(respuesta ~ parcela + parcela:finca + parcela:finca:variedad, data = df)
summary(mod2)

##                        Df Sum Sq Mean Sq F value   Pr(>F)    
## parcela                19  558.1  29.373  33.456 3.52e-11 ***
## parcela:finca          20   37.4   1.871   2.131  0.04928 *  
## parcela:finca:variedad 20   61.1   3.054   3.478  0.00377 ** 
## Residuals              20   17.6   0.878                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como podemos observar en los valores del anova no hay interaccion triple entre los factores independientes, cuando se observa la interaccion doble tampoco se encuentra interaccion y lo mismo sucede cuando se varia la variable independiente (parcela) con respecto a la variable dependiente(respuesta).

library(lme4)

## Warning: package 'lme4' was built under R version 4.0.3

## Loading required package: Matrix

## 
## Attaching package: 'lme4'

## The following object is masked from 'package:daewr':
## 
##     cake

modr3 <- lmer( respuesta ~ 1 + (1|parcela) + (1|parcela:finca)+ (1|parcela:finca:variedad), data = df)

## boundary (singular) fit: see ?isSingular

summary(modr3)

## Linear mixed model fit by REML ['lmerMod']
## Formula: 
## respuesta ~ 1 + (1 | parcela) + (1 | parcela:finca) + (1 | parcela:finca:variedad)
##    Data: df
## 
## REML criterion at convergence: 326
## 
## Scaled residuals: 
##      Min       1Q   Median       3Q      Max 
## -1.92792 -0.39924  0.00919  0.43823  1.65354 
## 
## Random effects:
##  Groups                 Name        Variance Std.Dev.
##  parcela:finca:variedad (Intercept) 1.2309   1.1094  
##  parcela:finca          (Intercept) 0.0000   0.0000  
##  parcela                (Intercept) 7.0122   2.6481  
##  Residual                           0.8789   0.9375  
## Number of obs: 80, groups:  
## parcela:finca:variedad, 60; parcela:finca, 40; parcela, 20
## 
## Fixed effects:
##             Estimate Std. Error t value
## (Intercept)   8.2368     0.6188   13.31
## convergence code: 0
## boundary (singular) fit: see ?isSingular

Con los datos obtenidos se saca la varianza total, esta es igual a 100 factor de la varianza de parcela, dividido entre la suma de varianza de parcela, varianza de parcela finca variedad y los residuales.

\[ (100*7.0122)/(7.0122+1.2309+0.8789)) = 77 \% \] De estos resultados, vemos que el 77% de la variación total se debe a la variabilidad entre parcelas, mientras que dentro de las parcelas (parcelas:finca) la variabilidad de caja a caja es insignificante.

Punto 6

Se tienen unos datod de potasio de muestras de suelos medidas en 8 diferentes laboratorios, Compare descriptivamente los datos.

los datos son los siguientes:

library(asbio)

## Warning: package 'asbio' was built under R version 4.0.3

## Loading required package: tcltk

data(K)
soil<- K
soil

##      K lab
## 1  296   B
## 2  260   B
## 3  341   B
## 4  359   B
## 5  323   B
## 6  321   B
## 7  287   B
## 8  413   B
## 9  335   B
## 10 315   D
## 11 330   D
## 12 326   D
## 13 354   D
## 14 266   D
## 15 348   D
## 16 343   D
## 17 284   D
## 18 324   D
## 19 351   E
## 20 302   E
## 21 395   E
## 22 357   E
## 23 400   E
## 24 187   E
## 25 376   E
## 26 283   E
## 27 198   E
## 28 327   F
## 29 354   F
## 30 308   F
## 31 274   F
## 32 324   F
## 33 305   F
## 34 347   F
## 35 297   F
## 36 305   F
## 37 326   G
## 38 301   G
## 39 316   G
## 40 312   G
## 41 297   G
## 42 280   G
## 43 300   G
## 44 319   G
## 45 286   G
## 46 218   H
## 47 280   H
## 48 241   H
## 49 226   H
## 50 243   H
## 51 199   H
## 52 205   H
## 53 225   H
## 54 227   H
## 55 338   I
## 56 303   I
## 57 341   I
## 58 311   I
## 59 355   I
## 60 269   I
## 61 284   I
## 62 279   I
## 63 339   I
## 64 359   J
## 65 318   J
## 66 313   J
## 67 352   J
## 68 334   J
## 69 356   J
## 70 342   J
## 71 299   J
## 72 353   J

¿qué sabemos?

Partimos suponiendo que las muestras son indepedientes, osea que la manera de recolección fue totalmente aleatoria, pero cuando estemos comprobando los supuestos también verificaremos esta hipótesis. Se sabe que las misma muestra se distribuyó a los 8 laboratorios disponibles, por eso sabemos que son muestras pareadas. Tambien al ser las misma muestras y como se espera que todos los laboratorios manejen los mismos metodos para medir el potasio del suelo, esperamos los resultados no varíen demasiado cuando comparamos un laboratorio con otro.

primero vamos a obtener un analisis descriptivo por cada uno de los lboratorios

library(psych)

## 
## Attaching package: 'psych'

## The following object is masked from 'package:asbio':
## 
##     skew

## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha

describe(soil, ranges=T)

##      vars  n   mean    sd median trimmed   mad min max range  skew kurtosis
## K       1 72 307.79 48.40  314.0   311.1 43.74 187 413   226 -0.54     0.04
## lab*    2 72   4.50  2.31    4.5     4.5  2.97   1   8     7  0.00    -1.29
##        se
## K    5.70
## lab* 0.27

describeBy(soil, soil$lab)

## 
##  Descriptive statistics by group 
## group: B
##      vars n   mean    sd median trimmed   mad min max range skew kurtosis   se
## K       1 9 326.11 44.41    323  326.11 40.03 260 413   153 0.41     -0.7 14.8
## lab*    2 9   1.00  0.00      1    1.00  0.00   1   1     0  NaN      NaN  0.0
## ------------------------------------------------------------ 
## group: D
##      vars n   mean    sd median trimmed  mad min max range  skew kurtosis   se
## K       1 9 321.11 29.26    326  321.11 25.2 266 354    88 -0.68    -1.02 9.75
## lab*    2 9   2.00  0.00      2    2.00  0.0   2   2     0   NaN      NaN 0.00
## ------------------------------------------------------------ 
## group: E
##      vars n   mean    sd median trimmed   mad min max range  skew kurtosis
## K       1 9 316.56 80.35    351  316.56 72.65 187 400   213 -0.54    -1.44
## lab*    2 9   3.00  0.00      3    3.00  0.00   3   3     0   NaN      NaN
##         se
## K    26.78
## lab*  0.00
## ------------------------------------------------------------ 
## group: F
##      vars n   mean    sd median trimmed   mad min max range skew kurtosis   se
## K       1 9 315.67 25.05    308  315.67 23.72 274 354    80 0.05    -1.22 8.35
## lab*    2 9   4.00  0.00      4    4.00  0.00   4   4     0  NaN      NaN 0.00
## ------------------------------------------------------------ 
## group: G
##      vars n   mean    sd median trimmed   mad min max range  skew kurtosis   se
## K       1 9 304.11 15.37    301  304.11 22.24 280 326    46 -0.14    -1.51 5.12
## lab*    2 9   5.00  0.00      5    5.00  0.00   5   5     0   NaN      NaN 0.00
## ------------------------------------------------------------ 
## group: H
##      vars n   mean    sd median trimmed   mad min max range skew kurtosis   se
## K       1 9 229.33 23.89    226  229.33 22.24 199 280    81 0.74    -0.32 7.96
## lab*    2 9   6.00  0.00      6    6.00  0.00   6   6     0  NaN      NaN 0.00
## ------------------------------------------------------------ 
## group: I
##      vars n   mean   sd median trimmed   mad min max range  skew kurtosis    se
## K       1 9 313.22 31.4    311  313.22 41.51 269 355    86 -0.09    -1.81 10.47
## lab*    2 9   7.00  0.0      7    7.00  0.00   7   7     0   NaN      NaN  0.00
## ------------------------------------------------------------ 
## group: J
##      vars n   mean    sd median trimmed   mad min max range  skew kurtosis  se
## K       1 9 336.22 21.61    342  336.22 20.76 299 359    60 -0.46    -1.53 7.2
## lab*    2 9   8.00  0.00      8    8.00  0.00   8   8     0   NaN      NaN 0.0

para una mejor interpretación se observarán solo los valores de media, mediana y desviación estándar.

mean<-tapply(soil$K, soil$lab,mean);mean

##        B        D        E        F        G        H        I        J 
## 326.1111 321.1111 316.5556 315.6667 304.1111 229.3333 313.2222 336.2222

sd<-tapply(soil$K, soil$lab,sd);sd

##        B        D        E        F        G        H        I        J 
## 44.40564 29.25510 80.35097 25.04995 15.37404 23.89037 31.39577 21.60890

median<- tapply(soil$K, soil$lab,median);
u_u<-data.frame(mean,sd,median)
 library(DT)

## Warning: package 'DT' was built under R version 4.0.3

datatable(u_u, class = 'cell-border stripe',filter = 'top', options = list(
  pageLength = 5, autoWidth = TRUE))

ahora, se va a relaizar nuestro primer gráfico que nos va a permitir analizar de manera más sencilla nuestros datos.

library(ggplot2)
ggplot(soil, aes(x = lab, y = K))+
  geom_boxplot()

ahora que tenemos una apreciación visual podemos ver que: - los las muestras entre laboratorios no son similares - la distribución de los datos en los boxplot no parecen tener una distribución normal - la varianza de los datos entre laboratorios tambien varían demasiado

¿Qué prueba usar para evaluar si las medias son iguales o no?

ya que observamos que las medias son distintas podemos evaluar a través de la prueba de Kruskal- Wallis si la variable respuesta es la misma en todas las poblaciones valoradas (los ocho laboratorios), osea si las variables pertenen a una misma distribución, esto a través de rangos.

\[H_o= la~variable~respuesta~es ~la~misma~para~todos~los~laboratorios \\ H_a= Al~menos~un~laboratorio~presenta~una~variable~distinta\]

kr<- kruskal.test(soil$K,soil$lab)
kr$statistic

## Kruskal-Wallis chi-squared 
##                   24.48198

a partir de qué valor podemos recharaz o aprobar la Ho?

qchisq(0.05, 7, lower.tail = F)

## [1] 14.06714

dado que nuestro valor de K mayor a nuestro valor estimado, rechazamos nuestra H_O, y concluimos que todos nuestros datos no pertenecen a un mismo tipo de población, es decir, las medias de los rangos entre laboratorios no son las mismas.

Ahora vamos a comparar las diferencias pareadas para ver dónde están las diferencias así:

PMCMR::posthoc.kruskal.nemenyi.test(soil$K~soil$lab)

## Warning in posthoc.kruskal.nemenyi.test.default(c(296, 260, 341, 359, 323, :
## Ties are present, p-values are not corrected.

## 
##  Pairwise comparisons using Tukey and Kramer (Nemenyi) test  
##                    with Tukey-Dist approximation for independent samples 
## 
## data:  soil$K by soil$lab 
## 
##   B      D      E      F      G      H      I     
## D 1.0000 -      -      -      -      -      -     
## E 1.0000 1.0000 -      -      -      -      -     
## F 0.9999 0.9999 0.9998 -      -      -      -     
## G 0.9324 0.9324 0.9222 0.9943 -      -      -     
## H 0.0098 0.0098 0.0087 0.0397 0.2764 -      -     
## I 0.9993 0.9993 0.9989 1.0000 0.9984 0.0600 -     
## J 0.9893 0.9893 0.9916 0.9051 0.4405 0.0003 0.8461
## 
## P value adjustment method: none

¿qué podemos concluir?

El laboratorio que sus media de rangos difiere con las medias de rangos de la mayoría de los otros laboratorios (6 de 7) es el laboratorio H, si comparamos los resultados se los otros laboratior no muestran diferencias significativas estadísticamente hablando.

###Punto 7

\[Diseño~en~franjas~ o~ strip~ plot~ design\]

se va a analizar el crecimiento de las plantas de 4 variedades vegetales de papa dado 4 tipos de fertilización.

en el bloque vertical (parcela principal) se dispondrán las especies vegetales y en el bloque horizontal (subparcela) los tipos de fertilización.

se realizaron 3 replicas.

set.seed(1809)
replicas<-c(rep(1,16),rep(2,16),rep(3,16))
variedad<-gl(4,4,48,labels = c("var1","var2", "var3","var4"))
fertilizante<- gl(4,1,48, labels=c("fer1","fer2","fer3","fer4"))
crecimiento<- sort.int(rnorm(48,115,3))
df<- data.frame(replicas, vari= as.factor(variedad), ferti= as.factor(fertilizante),crecimiento)
df

##    replicas vari ferti crecimiento
## 1         1 var1  fer1    108.1741
## 2         1 var1  fer2    108.2446
## 3         1 var1  fer3    109.0521
## 4         1 var1  fer4    110.9616
## 5         1 var2  fer1    111.0422
## 6         1 var2  fer2    111.0680
## 7         1 var2  fer3    111.4546
## 8         1 var2  fer4    111.5199
## 9         1 var3  fer1    112.0886
## 10        1 var3  fer2    112.1199
## 11        1 var3  fer3    112.3920
## 12        1 var3  fer4    112.5555
## 13        1 var4  fer1    112.7347
## 14        1 var4  fer2    112.7531
## 15        1 var4  fer3    112.8615
## 16        1 var4  fer4    113.1182
## 17        2 var1  fer1    113.2589
## 18        2 var1  fer2    113.4294
## 19        2 var1  fer3    113.5409
## 20        2 var1  fer4    113.6282
## 21        2 var2  fer1    113.6389
## 22        2 var2  fer2    113.7484
## 23        2 var2  fer3    113.9097
## 24        2 var2  fer4    114.6285
## 25        2 var3  fer1    114.6523
## 26        2 var3  fer2    114.7688
## 27        2 var3  fer3    114.9292
## 28        2 var3  fer4    114.9423
## 29        2 var4  fer1    115.2343
## 30        2 var4  fer2    115.6642
## 31        2 var4  fer3    115.9135
## 32        2 var4  fer4    117.2181
## 33        3 var1  fer1    117.3449
## 34        3 var1  fer2    117.4273
## 35        3 var1  fer3    117.5136
## 36        3 var1  fer4    117.6478
## 37        3 var2  fer1    117.6537
## 38        3 var2  fer2    117.6694
## 39        3 var2  fer3    117.7751
## 40        3 var2  fer4    118.0257
## 41        3 var3  fer1    118.0370
## 42        3 var3  fer2    119.1388
## 43        3 var3  fer3    119.1573
## 44        3 var3  fer4    119.6652
## 45        3 var4  fer1    119.8377
## 46        3 var4  fer2    119.9944
## 47        3 var4  fer3    120.0928
## 48        3 var4  fer4    120.8163

\[MODELO\] \[\require{cancel}y_{ijkm}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+\alpha_k+ (\tau\alpha)_{ik}+(\beta\alpha)_{jk} +\epsilon_{ijk}\\ i=1,2~ (replicas)\\ j=1,\cdots,4~ (niveles~variedad)\\ k=1,\cdots,4 ~(niveles~fertilizante)\]

library(collapsibleTree)
collapsibleTree(df, hierarchy =  c("vari","ferti","crecimiento"))

\[Anova\]

attach(df)

## The following objects are masked _by_ .GlobalEnv:
## 
##     crecimiento, replicas

library(agricolae)

## Warning: package 'agricolae' was built under R version 4.0.3

anova<- strip.plot(BLOCK = replicas,COL= vari, ROW = ferti, Y= crecimiento)

## 
## ANALYSIS STRIP PLOT:  crecimiento 
## Class level information
## 
## vari     :  var1 var2 var3 var4 
## ferti    :  fer1 fer2 fer3 fer4 
## replicas     :  1 2 3 
## 
## Number of observations:  48 
## 
## model Y: crecimiento ~ replicas + vari + Ea + ferti + Eb + ferti:vari + Ec 
## 
## Analysis of Variance Table
## 
## Response: crecimiento
##            Df Sum Sq Mean Sq  F value    Pr(>F)    
## replicas    2 419.97 209.987 951.4254 < 2.2e-16 ***
## vari        3  60.36  20.121  21.4230 0.0013174 ** 
## Ea          6   5.64   0.939   4.2555 0.0076861 ** 
## ferti       3   5.65   1.882  41.3095 0.0002117 ***
## Eb          6   0.27   0.046   0.2064 0.9702308    
## ferti:vari  9   0.63   0.071   0.3195 0.9577129    
## Ec         18   3.97   0.221                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## cv(a) = 0.8 %, cv(b) = 0.2 %, cv(c) = 0.4 %, Mean = 114.8551

\[análisis\] lo primero que observamos es la doble interacción, NO HAY INTERACCION DOBLE, así que no hay efecto directo entre la variedad y el tipo de fertilizante despues observamos los efectos de cada uno de los factores y nos damos cuenta que SI HAY INTERACCIÓN entre la vaiable dependiente que en este caso es el crecimiento y los factores que son la variedad y el tipo de fertilización.

para analizar de una manera más sencilla los resultados esta el siguiente grafico:

z3<-aggregate(x=list(media_co=df$crecimiento), 
              by=list(f=df$ferti,v=df$vari),
  FUN=mean, na.rm=TRUE)
z3 %>% 
  ggplot(aes(f,media_co,color=v))+
  geom_line(aes(group = v))

se observa que la variedad 4 tuvo un mejor rendimiento con todos los tipos de fertilizante y que el tipo de fertilizante 4 fue el mejor en todas las variedades.

\[cofacotor\] Se cree que el contenido de Carbono orgánico en el suelo afecta el experimento, se obtuvo estos resultados:

set.seed(1809)
COs<- runif(48,min=80, max=110)
df$CO<- COs
df

##    replicas vari ferti crecimiento        CO
## 1         1 var1  fer1    108.1741  89.71206
## 2         1 var1  fer2    108.2446 106.97294
## 3         1 var1  fer3    109.0521 104.67576
## 4         1 var1  fer4    110.9616  81.87890
## 5         1 var2  fer1    111.0422  90.74429
## 6         1 var2  fer2    111.0680  85.36790
## 7         1 var2  fer3    111.4546  86.75297
## 8         1 var2  fer4    111.5199  80.70862
## 9         1 var3  fer1    112.0886  82.80613
## 10        1 var3  fer2    112.1199 108.97583
## 11        1 var3  fer3    112.3920  82.84960
## 12        1 var3  fer4    112.5555  83.08345
## 13        1 var4  fer1    112.7347  86.80801
## 14        1 var4  fer2    112.7531 103.09115
## 15        1 var4  fer3    112.8615 103.48357
## 16        1 var4  fer4    113.1182  96.22593
## 17        2 var1  fer1    113.2589  85.05550
## 18        2 var1  fer2    113.4294 105.31040
## 19        2 var1  fer3    113.5409 108.20110
## 20        2 var1  fer4    113.6282  87.81229
## 21        2 var2  fer1    113.6389 108.65630
## 22        2 var2  fer2    113.7484  80.74780
## 23        2 var2  fer3    113.9097 107.51278
## 24        2 var2  fer4    114.6285  92.13058
## 25        2 var3  fer1    114.6523  80.34332
## 26        2 var3  fer2    114.7688  88.81275
## 27        2 var3  fer3    114.9292  95.93361
## 28        2 var3  fer4    114.9423 102.74437
## 29        2 var4  fer1    115.2343  80.36502
## 30        2 var4  fer2    115.6642  91.71888
## 31        2 var4  fer3    115.9135  94.07873
## 32        2 var4  fer4    117.2181 101.01162
## 33        3 var1  fer1    117.3449 109.21204
## 34        3 var1  fer2    117.4273 109.56050
## 35        3 var1  fer3    117.5136  98.58883
## 36        3 var1  fer4    117.6478 103.88627
## 37        3 var2  fer1    117.6537  88.42489
## 38        3 var2  fer2    117.6694 104.96597
## 39        3 var2  fer3    117.7751  87.95717
## 40        3 var2  fer4    118.0257 102.18814
## 41        3 var3  fer1    118.0370 108.56073
## 42        3 var3  fer2    119.1388 106.78425
## 43        3 var3  fer3    119.1573 104.39628
## 44        3 var3  fer4    119.6652 109.34577
## 45        3 var4  fer1    119.8377  89.00905
## 46        3 var4  fer2    119.9944  96.56603
## 47        3 var4  fer3    120.0928 105.32920
## 48        3 var4  fer4    120.8163  92.31213

lo primero que se debe hacer es observar si vale la pena realiar un análisis ANCOVA para este modelo, entonces análizamos muestro cofactor con nuestra variable respuesta, de manera gráfica:

plot(df$CO, df$crecimiento)

no se observa relación entre la covariable y nuestro cofactor, pero para asegurar nuestra respuesta hacemos una relación lineal entre la variable dependiente y el cofactor:

cor.test(df$CO,df$crecimiento)

## 
##  Pearson's product-moment correlation
## 
## data:  df$CO and df$crecimiento
## t = 2.0492, df = 46, p-value = 0.04617
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.005541402 0.529816360
## sample estimates:
##       cor 
## 0.2892207

Rechazamos la hipotesis alterna y demostramos que nuestros datos no tienen una relacion lineal entre sí, este es un supuesto que se debe cumplir para realizar un ancova y como no se cumple no hay necesidad de realizarlo y nuestras respeustas no varian con respecto al anterior análisis de varianzas, seguimos concluyendo que la mejor variedad con todos los tipos de fertilizante fue la cariedad 4 y que el mejor tipo de fertilizante también fue el 4.

Punto 8

Resumen 1 El diseño de parcelas divididas es muy utilizado en la agricultura por que es de gran utilidad cuando uno de los factores que se desean evaluar no se puede aleatorizar de manera sencilla (difícil de cambiar) y/o cuando se posee un recurso económico limitado para el experimento. A nivel general el factor que es difícil de aleatorizar se denominan parcela principal y los factores que son fáciles de aleatorizar se denominan subparcelas, ya que se toma la parcela principal y dentro de esta se realiza la aleatorización de los otros factores, por eso quedan a manera de subparcela. Su uso no depende solo de los factores sino de las necesidades experimentales requeridas por el investigador, a nivel agrícola tiene una amplia implementación por esto mismo, porque se acopla a las necesidades de investigación permitiendo utilizar parcelas grandes de tierra como factor. Este es un diseño que tiene bastantes ventajas, por ejemplo la manipulación estadística, ya que los resultados del tratamiento nos mostrará dos términos de error en el modelo y se presentarán más grados de libertad en la subparcela, lo cual nos permite obtener resultados más precisos con respecto a la subparcela y la interacción entre la parcela y subparcela, otra ventaja que ya se mencionó anteriormente es la económica ya que incluso sin necesidad de más dinero puede obtener más resultados.

Resumen 2

Para poder realizar un diseño de experimentos adecuado, cualesquiera escoger, ya sea por parcelas divididas, por bloques, cuadrado latino, etc., es necesario saber cúal va a ser nuestra unidad experimental y cúal va a ser nuestra unidad de muestreo u observación. La unidad experimental es la entidad independiente más pequeña a la que se le puede asignar un tratamiento, esta independencia significa que con cualquier unidad experimental que se escoja, al aplicar un tratamiento los resultados obtenidos serán confiables. ahora es importante definir una unidad de observación, la cual va a definir el tamaño de la unidad experimental, ya que la unidad muestral u observacional es la unidad física sobre la que se mide un resultado. Si bien se pueden tener casos en los que la unidad muestral sea la misma que la unidad experimental, como por ejemplo si se desea medir el nivel de azúcar en la sangre en un paciente hipertenso cuando ingiere x dulce, tenemos que la unidad experimental es la misma que la unidad muestral por que el tratamiento y la medición de resultados ha sido hecha sobre el mismo individuo, tambíen se pueden tener casos donde difieren las unidades muestrales a las experimentales, por ejemplo, un diseño donde se va a determinar el índice de área foliar de un cultivo dado un tipo de suelo específico, como unidad muestral en este caso se designo a una parcela la cual contiene 60 plantas y como unidad muestral se tomaron 5 plantas de estas 60, en este caso en específico nos damos cuenta como varía nuestra unidad experimental de nuestra unidad muestral y si, en caso hipotético quisieramos que la unidad experimental fuera igual a la unidad muestral deberíamos medir el índice de area foliar en todas las 60 plantas o reducir la unidad muestral aplicando nuestro tratamiento a solo 5 plantas.

Resumen 3

Para poder diseñar un experimento necesitamos partir del tipo de experimento que queremos evaluar (si vamos a hacer un experimento de observación, uno de medición o uno de comparación) y de una pregunta que queremos responder. Como todo un diseño tiene un proceso, el cual comienza por la formulación de la hipótesis (la pregunta que se quiere responder), continua con el planteamiento del modelo estadístico, le sigue el desarrollo del experimento, seguido por un análisis estadístico a los resultados obtenidos en campo, del cual se podrá extraer resultados que serán analizados con el fín de responder la hipótesis inicial y poder formular nuevas preguntas de investigación que permitan complementar el tema a través de nuevos diseños de experimentos.

A nivel investigativo el diseño experimental más utilizado es el comparativo, porque permite responder preguntas de eficiencia, rendimiento, etc, entre tratamientos con mayor facilidad, y, aunque se pueden manejar niveles de confianza se espera que los resultados obtenidos sean significativos y permitan tomar decisiones en el campo que se requiera. Los diseños comparativos necesitan cumplir con cuatro pilares fundamentales para que sus resultados se puedan considerar exitosos: replicación, aleatorización, bloqueo y el tamaño de las unidades experimentales.

Replicación: la replicación consiste en repetir ya sea, todo el experimento, la unidad experimental, la unidad muestral o hacer medias repetidas en el tiempo. Esto tiene una repercusión en el experimento benéfica, ya que permite estimar el error experimental osea la variación entre tratamientos, también permite aumentar la precisión del experimento y permite tener más unidades muestrales para obtener resultados y también por último, permite disminuir el error y regula la presición del experimento.

Aleatorización La aleatorización depende de dos factores, una definición adecuada de los materiales y las instalaciones, para poder realizar un correcto muestreo; escogiendo una población y además elegir una muestra aleatoria o representativa que pueda representar esa población y el segundo factor es la asignación de tratamientos a unidades experimentales, esto hace referencia a que cada tratamiento es igualmente probable que cada unidad experimental, y esto se calcula siendo r réplicas de t tratamientos a rt unidades experimentales La aleatorización es un proceso matemático estricto en el que se utiliza un generador de números aleatorios, para ordenar los tratamientos se desarrollaron diseños de bloques completos espacialmente equilibrados para evitar sesgo potencial o confusión en los efectos de los tratamientos.

Bloqueo El bloqueo surge dado la necesidad de homogeneización de unidades experimentales, asegurando que la variación no se va a deber a factores externos, y también es utilizado cuando se quieren tener unidades experimentales y la cantidad de factores existentes.

Tamaño de las unidades experimentales

En el tamaño de las unidades experimentales se tiene en cuenta la ley de Smith la cual se deriva de la observación general de una relación asintótica negativa entre la varianza (por unidad o por parcela única) y el tamaño de la parcela, se debe tener claro que el tamaño de la parcela es ambiguo, por lo que depende del estudio que cualquier cambio en el tamaño de la parcela tenga un gran efecto en la varianza media de la unidad. o por el contrario, al utilizar parcelas relativamente grandes, pueden tener poco o ningún impacto en la varianza de la unidad media

PARCIAL DISEÑO

Ginna Romero y Laura Alvarez

4/11/2020

PARCIAL DISEÑO DE EXPERIMENTOS

Punto 1

a.1)

solución

formula 1

Formula 2

formula 3

¿Qué nos dice este valor de F?

a.2

a.3

NO

Punto 2

Tabla de granjero vs metodo

Punto 3

Desarrollo

Grafica 3D

Punto 4

anova=

análisis

análisis

igualdad de varianzas

independencia de los residuales

covariable:\[contenido de arcillas expansibles\]

linealidad entre la variable dependiente y el cofactor:

interacción nula entre el cofactor y las variables dependientes

normalidad de los residuos

homogeneidad de las varianzas

NO SE CUMPLE EL SUPUESTO DE HOMOGENEIDAD DE VARIANZAS

independencia de los residuales

Punto 5

Punto 6

¿qué sabemos?

para una mejor interpretación se observarán solo los valores de media, mediana y desviación estándar.

¿Qué prueba usar para evaluar si las medias son iguales o no?

¿qué podemos concluir?

Punto 8

Resumen 2

Resumen 3