Parcial

Ejercicio 1

En un estudio conducido en ambiente controlado se tuvieron 72 macetas, cada una con una planta a la que a cierta edad se le midió el contenido de clorofila (índice de clorofila) con un sensor (SPAD). El total de macetas se correspondió con 9 tratamientos asociados al estrés hídrico. Se sabe que la varianza de las 72 observaciones es 8U3. Con esta información complete la tabla del ANOVA que se muestra a continuación.

Tabla ANOVA

Se uso C.C. 1019134382 y se adjuntan los calculos en un documento Excel.

Planteamiento de Hipótesis

\[H_0 :\mu_1 =\mu_2 =\mu_3 \cdots =\mu_9\\H_a: H_0\ es\ falsa\]

P-valor

Fcal=pf(q=0.90,df1=8,df2 = 63, lower.tail = F)
Fcal

## [1] 0.5221326

El valor de F calculado dio 0.901, como es menor que 1 se puede decir que la variabilidad de los errores es mayor que la variabilidad de los tratamientos, por lo que se podría pensar que hay errores en el diseño. El p-valor dio 0.52, en medidas porcentuales 52%, como es mayor que el 5%, no rechazo la hipótesis nula.

Gráficos

Ftab=2.8
d<-df(seq(0,6,0.1),8,63)
plot(seq(0,6,0.1),d,type="l",main="Curva F")
abline(v=Ftab)
text(1,0.2, "No rechazo Ho")
text(4,0.2, "Rechazo Ho")
text(2.5,0.02, "5%")
arrows(x0 =0.90 ,y0 =0.4 ,x1 =0.90 ,y1 =0,col="orange" )
text(0.5,0.45, "Fc=0.90")
segments(x0 =0.90 ,y0 =0.4 ,x1 =6 ,y1 =0.4 ,col="red")
text(4,0.42, "pvalor=0.52")
text(Ftab,0.5,"Ftab")

¿Vale la pena comparar las medias de tratamientos a posteriori del ANOVA (prueba de Tukey)?

Datos de respuesta de contenido de clorofila.

set.seed(123)
cont_cl <- c (t1 = rnorm(8, 405, sqrt(853)),
             t2 = rnorm(8, 415, sqrt(853)),
             t3 = rnorm(8, 425, sqrt(853)),
             t4 = rnorm(8, 435, sqrt(853)),
             t5 = rnorm(8, 445, sqrt(853)),
             t6 = rnorm(8, 455, sqrt(853)),
             t7 = rnorm(8, 465, sqrt(853)),
             t8 = rnorm(8, 475, sqrt(853)),
             t9 = rnorm(8, 485, sqrt(853)))
cont_cl

##      t11      t12      t13      t14      t15      t16      t17      t18 
## 388.6307 398.2774 450.5239 407.0593 408.7760 455.0905 418.4616 368.0524 
##      t21      t22      t23      t24      t25      t26      t27      t28 
## 394.9397 401.9839 450.7507 425.5088 426.7050 418.2326 398.7660 467.1889 
##      t31      t32      t33      t34      t35      t36      t37      t38 
## 439.5403 367.5627 445.4839 411.1916 393.8130 418.6338 395.0343 403.7119 
##      t41      t42      t43      t44      t45      t46      t47      t48 
## 416.7450 385.7382 459.4685 439.4794 401.7594 471.6191 447.4554 426.3821 
##      t51      t52      t53      t54      t55      t56      t57      t58 
## 471.1432 470.6469 468.9952 465.1125 461.1778 443.1918 436.0640 433.8879 
##      t61      t62      t63      t64      t65      t66      t67      t68 
## 434.7103 448.9275 418.0426 518.3469 490.2799 422.1983 443.2333 441.3708 
##      t71      t72      t73      t74      t75      t76      t77      t78 
## 487.7798 462.5651 472.3985 464.1663 463.7479 504.9716 458.4061 509.2903 
##      t81      t82      t83      t84      t85      t86      t87      t88 
## 429.7669 492.0743 478.6173 481.3068 486.0878 460.3291 465.2683 445.2513 
##      t91      t92      t93      t94      t95      t96      t97      t98 
## 453.6971 493.8649 498.0905 486.5481 511.9359 544.8751 470.6589 417.5580

Variale de estrés hídrico

EH<-gl(9, 8, 72)
EH

##  [1] 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 5 5 5 5 5 5
## [39] 5 5 6 6 6 6 6 6 6 6 7 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9
## Levels: 1 2 3 4 5 6 7 8 9

Análisis de varianza

datos2 = aov(cont_cl ~ EH)
summary(datos2)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## EH           8  50958    6370   8.414 1.07e-07 ***
## Residuals   63  47691     757                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Prueba de Tukey

TukeyHSD(datos2, 'EH')

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = cont_cl ~ EH)
## 
## $EH
##           diff         lwr       upr     p adj
## 2-1  11.150488 -33.0365978  55.33757 0.9961542
## 3-1  -2.487533 -46.6746191  41.69955 1.0000000
## 4-1  19.221929 -24.9651569  63.40902 0.8947124
## 5-1  44.418460   0.2313740  88.60555 0.0478378
## 6-1  40.279741  -3.9073451  84.46683 0.1014437
## 7-1  66.056730  21.8696444 110.24382 0.0003288
## 8-1  55.478764  11.2916779  99.66585 0.0044946
## 9-1  72.794592  28.6075062 116.98168 0.0000549
## 3-2 -13.638021 -57.8251072  30.54906 0.9853825
## 4-2   8.071441 -36.1156450  52.25853 0.9996190
## 5-2  33.267972 -10.9191141  77.45506 0.2924981
## 6-2  29.129253 -15.0578333  73.31634 0.4712125
## 7-2  54.906242  10.7191563  99.09333 0.0051340
## 8-2  44.328276   0.1411898  88.51536 0.0486707
## 9-2  61.644104  17.4570180 105.83119 0.0010119
## 4-3  21.709462 -22.4776238  65.89655 0.8128139
## 5-3  46.905993   2.7189071  91.09308 0.0292964
## 6-3  42.767274  -1.4198120  86.95436 0.0652221
## 7-3  68.544263  24.3571775 112.73135 0.0001714
## 8-3  57.966297  13.7792110 102.15338 0.0024935
## 9-3  75.282125  31.0950393 119.46921 0.0000279
## 5-4  25.196531 -18.9905551  69.38362 0.6614820
## 6-4  21.057812 -23.1292742  65.24490 0.8367504
## 7-4  46.834801   2.6477154  91.02189 0.0297215
## 8-4  36.256835  -7.9302512  80.44392 0.1930783
## 9-4  53.572663   9.3855771  97.75975 0.0069709
## 6-5  -4.138719 -48.3258051  40.04837 0.9999977
## 7-5  21.638270 -22.5488155  65.82536 0.8155090
## 8-5  11.060304 -33.1267821  55.24739 0.9963631
## 9-5  28.376132 -15.8109538  72.56322 0.5072740
## 7-6  25.776990 -18.4100964  69.96408 0.6337141
## 8-6  15.199023 -28.9880629  59.38611 0.9714028
## 9-6  32.514851 -11.6722347  76.70194 0.3218215
## 8-7 -10.577967 -54.7650525  33.60912 0.9973302
## 9-7   6.737862 -37.4492242  50.92495 0.9999014
## 9-8  17.315828 -26.8712577  61.50291 0.9393266

Acorde con el valor del p-ajustado, el tratamiento 3 es el que presenta mayor contenido de clorofila.

Revisión de supuestos

Prueba de normalidad del vector de residuales del modelo

resid = datos2$residuals
var(resid) # Estimador de la varianza residual

## [1] 671.7011

Histograma

hist(resid)

Prueba shapiro para mirar si los datos son normales.

shapiro.test(resid)

## 
##  Shapiro-Wilk normality test
## 
## data:  resid
## W = 0.99118, p-value = 0.8997

Los datos presentan normalidad debido a que el p-valor es 0,899, mayor que 0.05. #### Prueba de igualdad de varianza \[H_0: \sigma^2_{var1}=\sigma^2_{var2}...=\sigma^2_{var9}\\H_a: Almenos\ una\ diferente\]

bartlett.test(resid~EH)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  resid by EH
## Bartlett's K-squared = 7.534, df = 8, p-value = 0.4803

Los residuales parecen tener la misma varianza debido a que el p-valor da 0.480, que es mayor que 0.05.

Independencia de los residuales

plot(resid, pch=18)

Los datos son independientes. Se cumplen los tres supuestos que permiten usar el p-valor.

Ejercicio 2

Inicialmente se ingresó la variable de métodos y el bloqueo por granja.

granja <- c("g2", "g3", "g4", "g5", "g6", "g1", "g2", "g3", "g4", "g5", "g6", "g1", "g2", "g3", "g4", "g5", "g6",  "g1", "g2", "g3", "g4", "g5", "g6",  "g1", "g2", "g3", "g4", "g5", "g6");granja

##  [1] "g2" "g3" "g4" "g5" "g6" "g1" "g2" "g3" "g4" "g5" "g6" "g1" "g2" "g3" "g4"
## [16] "g5" "g6" "g1" "g2" "g3" "g4" "g5" "g6" "g1" "g2" "g3" "g4" "g5" "g6"

metodo <- c("M1", "M1", "M1", "M1", "M1", "M2", "M2", "M2", "M2", "M2", "M2","M3", "M3", "M3", "M3", "M3", "M3", "M4", "M4", "M4", "M4", "M4", "M4", "M5", "M5", "M5", "M5", "M5", "M5");metodo

##  [1] "M1" "M1" "M1" "M1" "M1" "M2" "M2" "M2" "M2" "M2" "M2" "M3" "M3" "M3" "M3"
## [16] "M3" "M3" "M4" "M4" "M4" "M4" "M4" "M4" "M5" "M5" "M5" "M5" "M5" "M5"

perdida<- c(6.75, 13.05, 10.26, 8.01, 8.42, 5.54, 3.53, 11.20, 7.21, 3.24, 6.45, 7.67, 4.15, 9.79, 8.27, 6.75, 5.50, 7.89, 1.97, 8.97, 6.12, 4.22, 7.84, 9.27, 4.39, 13.44, 9.13, 9.20, 7.13);perdida

##  [1]  6.75 13.05 10.26  8.01  8.42  5.54  3.53 11.20  7.21  3.24  6.45  7.67
## [13]  4.15  9.79  8.27  6.75  5.50  7.89  1.97  8.97  6.12  4.22  7.84  9.27
## [25]  4.39 13.44  9.13  9.20  7.13

Se creó un data frame con los resultados por método utilizado y bloqueo por granja.

datos<-data.frame(granja, metodo, perdida);datos

##    granja metodo perdida
## 1      g2     M1    6.75
## 2      g3     M1   13.05
## 3      g4     M1   10.26
## 4      g5     M1    8.01
## 5      g6     M1    8.42
## 6      g1     M2    5.54
## 7      g2     M2    3.53
## 8      g3     M2   11.20
## 9      g4     M2    7.21
## 10     g5     M2    3.24
## 11     g6     M2    6.45
## 12     g1     M3    7.67
## 13     g2     M3    4.15
## 14     g3     M3    9.79
## 15     g4     M3    8.27
## 16     g5     M3    6.75
## 17     g6     M3    5.50
## 18     g1     M4    7.89
## 19     g2     M4    1.97
## 20     g3     M4    8.97
## 21     g4     M4    6.12
## 22     g5     M4    4.22
## 23     g6     M4    7.84
## 24     g1     M5    9.27
## 25     g2     M5    4.39
## 26     g3     M5   13.44
## 27     g4     M5    9.13
## 28     g5     M5    9.20
## 29     g6     M5    7.13

Modelo del diseño, Factorial simple en bloques al azar y condiciones laterales

\[y_{ijk}=\mu+\tau_i+\beta_j+\epsilon_{ij}\\i=1\cdots5\\j=1\cdots6\\ \sum_{i=1}^5 \tau_i=0 \\ \sum_{i=1}^6 \beta_j=0\] La respuesta a la perdida es función de la media global mas el efecto de los tratamiento, que corresponde a los metodos y el efecto de los bloques que corresponde a las granjas más los residuales.

Análisis de varianza para diseño desbalanceado

Se usó la función lm para el análisis de varianza por tratarse de un diseño desbalanceado.

Analisis_d1<-lm (datos$perdida~datos$granja+datos$metodo)
anova(Analisis_d1)

## Analysis of Variance Table
## 
## Response: datos$perdida
##              Df Sum Sq Mean Sq F value    Pr(>F)    
## datos$granja  5 138.30 27.6608 20.0365  5.57e-07 ***
## datos$metodo  4  49.12 12.2799  8.8951 0.0003186 ***
## Residuals    19  26.23  1.3805                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

library(ggplot2)
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

 datos %>% 
 group_by(granja, metodo) %>% 
  summarise(perdida_media = mean(perdida)) -> tips2

## `summarise()` regrouping output by 'granja' (override with `.groups` argument)

  tips2 %>% 
  ggplot() +
  aes(x = granja, y = perdida_media, color = metodo) +
  geom_line(aes(group = metodo))

Existe interacción entre los métodos y por tanto los efectos de granja y metodo no se pueden interpretar.

library(lattice)
bwplot(perdida~granja|metodo) # Gráfico granja por método

library(collapsibleTree)

## Warning: package 'collapsibleTree' was built under R version 4.0.3

collapsibleTree(datos,hierarchy=c("granja","metodo"))

Analisis_d1<- lm (datos$perdida~datos$metodo+datos$granja)
anova(Analisis_d1)

## Analysis of Variance Table
## 
## Response: datos$perdida
##              Df  Sum Sq Mean Sq F value    Pr(>F)    
## datos$metodo  4  47.763 11.9407  8.6494 0.0003754 ***
## datos$granja  5 139.661 27.9322 20.2331 5.163e-07 ***
## Residuals    19  26.230  1.3805                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

library(lattice)
bwplot(perdida~metodo|granja ) # Gráfico granja por método

Al compara el grafico granja por metodo y metodo por granja, se observó que el segundo es mas adecuado por se realiza por comparación por la variable de bloqueo y como se observa en el arbol las variables deben tener un orden jerarquico.

Diseño balanceado

Se calculó la media del método 1 para completar el dato faltante en la granja 1.

dato_fal<- mean(6.75, 13.05, 10.26, 8.01, 8.42);dato_fal

## [1] 6.75

granja_b <- c("g1","g2", "g3", "g4", "g5", "g6", "g1", "g2", "g3", "g4", "g5", "g6", "g1", "g2", "g3", "g4", "g5", "g6",  "g1", "g2", "g3", "g4", "g5", "g6",  "g1", "g2", "g3", "g4", "g5", "g6")
metodo_b <- c("M1", "M1", "M1", "M1", "M1", "M1", "M2", "M2", "M2", "M2", "M2", "M2","M3", "M3", "M3", "M3", "M3", "M3", "M4", "M4", "M4", "M4", "M4", "M4", "M5", "M5", "M5", "M5", "M5", "M5")
perdida_b<- c(6.75, 6.75, 13.05, 10.26, 8.01, 8.42, 5.54, 3.53, 11.20, 7.21, 3.24, 6.45, 7.67, 4.15, 9.79, 8.27, 6.75, 5.50, 7.89, 1.97, 8.97, 6.12, 4.22, 7.84, 9.27, 4.39, 13.44, 9.13, 9.20, 7.13)
datos_b<-data.frame(granja_b, metodo_b, perdida_b);datos_b

##    granja_b metodo_b perdida_b
## 1        g1       M1      6.75
## 2        g2       M1      6.75
## 3        g3       M1     13.05
## 4        g4       M1     10.26
## 5        g5       M1      8.01
## 6        g6       M1      8.42
## 7        g1       M2      5.54
## 8        g2       M2      3.53
## 9        g3       M2     11.20
## 10       g4       M2      7.21
## 11       g5       M2      3.24
## 12       g6       M2      6.45
## 13       g1       M3      7.67
## 14       g2       M3      4.15
## 15       g3       M3      9.79
## 16       g4       M3      8.27
## 17       g5       M3      6.75
## 18       g6       M3      5.50
## 19       g1       M4      7.89
## 20       g2       M4      1.97
## 21       g3       M4      8.97
## 22       g4       M4      6.12
## 23       g5       M4      4.22
## 24       g6       M4      7.84
## 25       g1       M5      9.27
## 26       g2       M5      4.39
## 27       g3       M5     13.44
## 28       g4       M5      9.13
## 29       g5       M5      9.20
## 30       g6       M5      7.13

Análisis de varianza balanceado

Analisis_b<-aov(datos_b$perdida_b~datos_b$metodo_b+datos_b$granja_b)
summary(Analisis_b)

##                  Df Sum Sq Mean Sq F value   Pr(>F)    
## datos_b$metodo_b  4  42.79  10.699    6.46  0.00166 ** 
## datos_b$granja_b  5 138.18  27.636   16.69 1.55e-06 ***
## Residuals        20  33.12   1.656                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\[H_0: \mu_{M1}= \mu_{M2}= \mu_{M3}= \mu_{M4}= \mu_{M5}\\H_a: H_0\ es\ falsa\] A partir del analisis de varianza con un p-valor de 0.00166 se rechaza la hipotesis nula y se concluye que la perdida de algodón por metodo difiere.

t<-tapply(datos_b$perdida_b,list(datos_b$granja_b,datos_b$metodo_b),mean)
addmargins(t,FUN=mean)

## Margins computed over dimensions
## in the following order:
## 1: 
## 2:

##             M1     M2       M3       M4    M5      mean
## g1    6.750000  5.540 7.670000 7.890000  9.27  7.424000
## g2    6.750000  3.530 4.150000 1.970000  4.39  4.158000
## g3   13.050000 11.200 9.790000 8.970000 13.44 11.290000
## g4   10.260000  7.210 8.270000 6.120000  9.13  8.198000
## g5    8.010000  3.240 6.750000 4.220000  9.20  6.284000
## g6    8.420000  6.450 5.500000 7.840000  7.13  7.068000
## mean  8.873333  6.195 7.021667 6.168333  8.76  7.403667

Al mirar el margen de la tabla la granja 2 persentó la menor perdida y el método que genero menores perdidas fue el método 4, lo cual concuerda con el cuerpo de la tabla, el mejor método fue el 4 en la granja 2.

library(lattice)
bwplot(perdida_b~metodo_b|granja_b )

boxplot(datos_b$perdida_b~datos_b$metodo_b)

Al observar este grafico de caja y el de los bloques, se puede interpertar que el mejor metodo es el 4 con los resultados de perdida de algodon mas bajos sin tener en cuenta la granja. Sin embargo, al presentar el estudio interacción se concluye que las perdidas por los diferentes metodos son diferentes y dependen de la granja.

Ejercicio 3

Use la función de R para generar de la distribución uniforme unos datos de carbono orgánico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior osciló entre 3.0 y 3.U+0.1 y de la capa inferior osciló entre 2 y 2.T+0.2. Genere 50 datos en cada capa. Use la función sort.int de R para ordenar los datos de cada capa con la opción partial=25+U dentro de la propia función sort.int. C.C. 1019134382

set.seed(1234)
Cantidad =expand.grid(longitud=seq(0,100,25),latitud=seq(0,200,length.out = 10)) 
c5 <- runif(50, 3.0, 3.3)
c5 <-sort.int(c5, partial = 27)

c10<-  runif(50, 2.0, 2.3)
c10 <-sort.int (c10, partial = 27)

Use expand.grid para generar una ventana de observación de 0 a 100 m para la longitud y de 0 a 200 m para la latitud.

observacion<-expand.grid(longitud=seq(0,100,25),latitud=seq(0,200,length.out = 10)); observacion

##    longitud   latitud
## 1         0   0.00000
## 2        25   0.00000
## 3        50   0.00000
## 4        75   0.00000
## 5       100   0.00000
## 6         0  22.22222
## 7        25  22.22222
## 8        50  22.22222
## 9        75  22.22222
## 10      100  22.22222
## 11        0  44.44444
## 12       25  44.44444
## 13       50  44.44444
## 14       75  44.44444
## 15      100  44.44444
## 16        0  66.66667
## 17       25  66.66667
## 18       50  66.66667
## 19       75  66.66667
## 20      100  66.66667
## 21        0  88.88889
## 22       25  88.88889
## 23       50  88.88889
## 24       75  88.88889
## 25      100  88.88889
## 26        0 111.11111
## 27       25 111.11111
## 28       50 111.11111
## 29       75 111.11111
## 30      100 111.11111
## 31        0 133.33333
## 32       25 133.33333
## 33       50 133.33333
## 34       75 133.33333
## 35      100 133.33333
## 36        0 155.55556
## 37       25 155.55556
## 38       50 155.55556
## 39       75 155.55556
## 40      100 155.55556
## 41        0 177.77778
## 42       25 177.77778
## 43       50 177.77778
## 44       75 177.77778
## 45      100 177.77778
## 46        0 200.00000
## 47       25 200.00000
## 48       50 200.00000
## 49       75 200.00000
## 50      100 200.00000

Una vez cree los datos realice algún diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora.

todo<-data.frame(Longitud=rep(observacion$longitud, 2), Latitud=rep(observacion$latitud, 2), Profundidad = rep(c(-5,-10), each = 50), co =c(c5,c10))
head(todo)

##   Longitud  Latitud Profundidad       co
## 1        0  0.00000          -5 3.034111
## 2       25  0.00000          -5 3.073179
## 3       50  0.00000          -5 3.013731
## 4       75  0.00000          -5 3.136827
## 5      100  0.00000          -5 3.098931
## 6        0 22.22222          -5 3.093547

library(plotly)

## Warning: package 'plotly' was built under R version 4.0.3

## 
## Attaching package: 'plotly'

## The following object is masked from 'package:ggplot2':
## 
##     last_plot

## The following object is masked from 'package:stats':
## 
##     filter

## The following object is masked from 'package:graphics':
## 
##     layout

library(plot3D)

## Warning: package 'plot3D' was built under R version 4.0.3

plot_ly (x=todo$Longitud, y=todo$Latitud, z=todo$Profundidad, type="scatter3d", mode="markers", color = todo$co)

## Warning: `arrange_()` is deprecated as of dplyr 0.7.0.
## Please use `arrange()` instead.
## See vignette('programming') for more help
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_warnings()` to see where this warning was generated.

Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%.

prueba=t.test(c5,c10,alternative = 't',paired = TRUE,conf.level = 0,95);prueba

## 
##  Paired t-test
## 
## data:  c5 and c10
## t = -11274, df = 49, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 95
## 0 percent confidence interval:
##  1.01919 1.01919
## sample estimates:
## mean of the differences 
##                 1.01919

\[H_0: \mu_{c5}=\mu_{c10}\\H_a: \mu_{c5}\neq\mu_{c10}\]

ifelse(prueba$p.value<0.05,'Rechazo Ho','No rechazo Ho')

## [1] "Rechazo Ho"

A partir del resultado de la prueba t-studen, se rechaza la hipótesis nula y se acepta la alterna. Por tanto, se concluye que el promedio de la medida de carbono orgánico a 5 cm de profundidad, es diferente a la medida de carbono organico presente a 10 cm de profundida.

Ejercicio 4.

El siguiente diseño se corresponde con un factorial completo (3^2) en arreglo completamente al azar. Los factores y la respuesta fueron creados con el código:

D <- expand.grid( F1 = c(3.25, 3.75, 4.25 ), F2 = c(4, 5, 6)) #crea diseño 3^2
D <- rbind(D, D) #crea la estructura para dos repeticiones por tratamiento 
set.seed(2020)
D<-D [order(sample(1:18)),] #aleatoriza la estructura 
class(D)

## [1] "data.frame"

D$biomasa=sort.int(rnorm(18, 3, 0.3), partial = 9) #crea la respuesta

Escriba (completamente especificado) el modelo del diseño

\[y_{ijk}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+\epsilon_{ijk}\\i=1\cdots2\\j=1\cdots3\\k=1\cdots{n}\\\] \(y_{ij}\): variable respuesta.

\(\mu\): es la media general

\(\tau_i\): efecto del fator \(\tau\)

\(\beta_j\): efecto del fator \(\beta\)

\((\tau\beta)_ij\): interacción entre los dos factores

\(\epsilon_{ijk}\): Error por factores y repeticiones

\(k\): repeticiones por tratamiento

Realice el Anova para este diseño y de ser necesario realice la prueba de comparaciones de medias para los efectos principales de F1: dosis de un insecticida que se sospecha tiene un efecto de disminución del crecimiento (biomasa) y F2: número de aplicaciones durante el desarrollo del cultivo.

DD<-data.frame(D)#data frame
DD

##      F1 F2  biomasa
## 2  3.75  4 2.708826
## 10 3.25  4 2.772692
## 16 3.25  6 2.143359
## 4  3.25  5 2.560519
## 13 3.25  5 2.708666
## 6  4.25  5 2.773705
## 17 3.75  6 2.770350
## 8  3.75  6 2.832470
## 14 3.75  5 2.898280
## 5  3.75  5 3.359619
## 9  4.25  6 3.054099
## 1  3.25  4 3.157896
## 12 4.25  4 3.487669
## 11 3.75  4 3.451547
## 15 4.25  5 3.016111
## 7  3.25  6 3.042156
## 3  4.25  4 3.200552
## 18 4.25  6 2.989329

ANOVA <- aov(DD$biomasa~DD$F1*DD$F2)
summary(ANOVA)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## DD$F1        1 0.3803  0.3803   4.548 0.0511 .
## DD$F2        1 0.3160  0.3160   3.780 0.0722 .
## DD$F1:DD$F2  1 0.0013  0.0013   0.015 0.9042  
## Residuals   14 1.1705  0.0836                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En analisis de varianza (anova) indica que no hay interacción entre las dosis y el número de aplicaciones.

*Use los resultados del ANOVA y el gráfico de interacción (ggplot2) para visualizar si existe o no interacción entre los factores.

library(dplyr)
library(ggplot2)

DD %>% group_by(F1,F2)%>%
  summarize(mediabiomasa=mean(biomasa)) %>%
  ggplot(aes(x=F1, y=mediabiomasa, color=F2) )+
  geom_point()+
  geom_line(aes(group=F2))

## `summarise()` regrouping output by 'F1' (override with `.groups` argument)

Sin embargo, en la figura se observa que hay interacciones entre las tratamientos. Por esta razón se realiza la prueba de comparación de medias.

Prueba de comparación de medias.

Factor por columnas = F2 - Número de aplicaciones del insecticida. Factor por filas = F1 - Dósis del insecticida.

t<-tapply(DD$biomasa,list(DD$F1,DD$F2),mean)
addmargins(t,FUN=mean)

## Margins computed over dimensions
## in the following order:
## 1: 
## 2:

##             4        5        6     mean
## 3.25 2.965294 2.634592 2.592757 2.730881
## 3.75 3.080186 3.128949 2.801410 3.003515
## 4.25 3.344110 2.894908 3.021714 3.086911
## mean 3.129864 2.886150 2.805294 2.940436

Mirando los marginales: La mayor pérdida de biomasa se presenta por la dosis 4.25 y vista por aplicaciones la mayor pérdida se presenta cuando estas son iguales a 4.

Cuerpo de la tabla: Mayor pérdida de biomasa corresponde a 4 aplicaciones con dosis de 4.25. Lo que significa que por comparación de medias las variables no presentan interacción aun cuando el grafico indica que si puede haber interacciones estas no son significativas.

*El investigador quiso colocar como covariable el contenido de arcilla(expansible) en el suelo utilizado en cada unidad experimental. Genere unos datos con la distribución uniforme cuya medida oscile entre 0.20 y 0.40 , ordene estas medidas en forma decreciente y meta dentro del análisis esta variable.

set.seed(2121)
D$arcilla=sort(runif(18,0.20,0.40),decreasing = TRUE)
D

##      F1 F2  biomasa   arcilla
## 2  3.75  4 2.708826 0.3864042
## 10 3.25  4 2.772692 0.3823932
## 16 3.25  6 2.143359 0.3593965
## 4  3.25  5 2.560519 0.3530374
## 13 3.25  5 2.708666 0.3484911
## 6  4.25  5 2.773705 0.3213372
## 17 3.75  6 2.770350 0.3114510
## 8  3.75  6 2.832470 0.3051172
## 14 3.75  5 2.898280 0.2942816
## 5  3.75  5 3.359619 0.2867216
## 9  4.25  6 3.054099 0.2854514
## 1  3.25  4 3.157896 0.2783309
## 12 4.25  4 3.487669 0.2768213
## 11 3.75  4 3.451547 0.2603778
## 15 4.25  5 3.016111 0.2427023
## 7  3.25  6 3.042156 0.2411425
## 3  4.25  4 3.200552 0.2113175
## 18 4.25  6 2.989329 0.2075281

*Especifique nuevamente el modelo y realice el análisis de covarianza respectivo

\[y_{ijk}=\mu+\tau_i+\beta_j+\alpha_({x_{ijk}- x¯})+(\tau\beta)_{ij}+\epsilon_{ijk}\\i=1\cdots2\\j=1\cdots3\\k=1\cdots{n}\\\]

¿Se justifica el uso de la covariable? Construya nuevamente el gráfico de interacción y compare con el caso sin covariable (discuta el resultado). Revise en internet los supuestos que deben tener las covariables para ser utilizadas en el modelo. ¿Se está incumpliendo en nuestros datos alguno de los supuestos necesarios? Revise los supuestos sobre los residuales tanto del ANOVA como del ANCOVA ¿qué puede percibir? ¿recomendaría el uso de arcillas para minimizar el efecto sobre el contenido de biomasa que puede ocasionar el uso del insecticida?

Supuestos ANOVA

Prueba de normalidad del vector de residuales del modelo

resid = ANOVA$residuals
var(resid) # Estimador de la varianza residual

## [1] 0.06885355

Histograma

hist(resid)

Los datos parecen ser de distribución normal.

Prueba shapiro para mirar si los datos son normales.

shapiro.test(resid)

## 
##  Shapiro-Wilk normality test
## 
## data:  resid
## W = 0.96739, p-value = 0.7473

Los datos presentan normalidad debido a que el p-valor es 0,74, mayor que 0.05.

Independencia de los residuales

Para el primer factor, el análisis de varianza arrojó los siguientes resultados:

a_F1 = aov(D$arcilla~D$F1) 
summary(a_F1)

##             Df  Sum Sq  Mean Sq F value Pr(>F)  
## D$F1         1 0.01453 0.014535   6.633 0.0203 *
## Residuals   16 0.03506 0.002191                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

resid4 = (ANOVA$residuals)
resid4

##            1            2            3            4            5            6 
## -0.393894995 -0.164549232 -0.444242311 -0.201902295 -0.053754739 -0.344745179 
##            7            8            9           10           11           12 
## -0.007801073  0.054319504 -0.042156116  0.419182826  0.085398327  0.220655402 
##           13           14           15           16           17           18 
##  0.219468335  0.348826332 -0.102339797  0.454554935 -0.067648193  0.020628268

plot(resid4, pch=16)

Acorde con el gráfico, los residuales parecen ser independientes.

Para el segundo factor, el análisis de varianza arrojó los siguientes resultados:

a_F2 = aov(D$arcilla~D$F2) 
summary(a_F2)

##             Df  Sum Sq  Mean Sq F value Pr(>F)
## D$F2         1 0.00061 0.000610   0.199  0.661
## Residuals   16 0.04898 0.003061

Igualdad de varianzas

D$trt=interaction(D$F1,D$F2)
varianzas=bartlett.test(ANOVA$residuals,D$trt);varianzas

## 
##  Bartlett test of homogeneity of variances
## 
## data:  ANOVA$residuals and D$trt
## Bartlett's K-squared = 7.5942, df = 8, p-value = 0.4741

ifelse(varianzas$p.value<0.05,'Rechazo Ho','No rechazo Ho')

## [1] "No rechazo Ho"

Mediante la prueba de Barlett, las varianzas son estadísticamente iguales.

Supuestos ANCOVA

Linealidad

lin=cor.test(D$biomasa, D$arcilla);lin

## 
##  Pearson's product-moment correlation
## 
## data:  D$biomasa and D$arcilla
## t = -3.5226, df = 16, p-value = 0.002825
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.8618449 -0.2806174
## sample estimates:
##        cor 
## -0.6609015

La Arcilla presenta linealidad con la respuesta de biomasa.

library(ggpubr)

## Warning: package 'ggpubr' was built under R version 4.0.3

ggscatter(D, x = "arcilla", y = "biomasa", add = "reg.line",xlab = "Arcilla",ylab = "Biomasa",cor.coef = TRUE,color = "green")

## `geom_smooth()` using formula 'y ~ x'

Homogeneidad pendientes de regresión

anovaF1 = aov(D$biomasa~D$arcilla*D$F1)
summary(anovaF1)

##                Df Sum Sq Mean Sq F value  Pr(>F)   
## D$arcilla       1 0.8160  0.8160  12.561 0.00324 **
## D$F1            1 0.0230  0.0230   0.355 0.56092   
## D$arcilla:D$F1  1 0.1197  0.1197   1.842 0.19617   
## Residuals      14 0.9094  0.0650                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

anovaF2 = aov(D$biomasa~D$arcilla*D$F2)
summary(anovaF2)

##                Df Sum Sq Mean Sq F value   Pr(>F)    
## D$arcilla       1 0.8160  0.8160  19.331 0.000609 ***
## D$F2            1 0.4442  0.4442  10.523 0.005884 ** 
## D$arcilla:D$F2  1 0.0170  0.0170   0.403 0.535936    
## Residuals      14 0.5909  0.0422                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Las pendientes presentan homogeneidad.

Distribución normal

anovaF1 = lm(D$biomasa~D$arcilla+D$F1*D$F2)
anova(anovaF1)

## Analysis of Variance Table
## 
## Response: D$biomasa
##           Df  Sum Sq Mean Sq F value    Pr(>F)    
## D$arcilla  1 0.81596 0.81596 18.2858 0.0009022 ***
## D$F1       1 0.02305 0.02305  0.5165 0.4850677    
## D$F2       1 0.43199 0.43199  9.6809 0.0082631 ** 
## D$F1:D$F2  1 0.01699 0.01699  0.3808 0.5478154    
## Residuals 13 0.58009 0.04462                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

residdis = anovaF1$residuals
hist(residdis)

La distribución de los residuales parece ser normal.

pruebashap = shapiro.test(anovaF1$residuals)
pruebashap

## 
##  Shapiro-Wilk normality test
## 
## data:  anovaF1$residuals
## W = 0.97086, p-value = 0.8138

ifelse(pruebashap$p.value<0.05,'Rechazo Ho','No rechazo Ho')

## [1] "No rechazo Ho"

La prueba de shapiro indica que los residuales son normales.

Independencia

anovadosis = aov(D$arcilla~D$F1)
summary(anovadosis)

##             Df  Sum Sq  Mean Sq F value Pr(>F)  
## D$F1         1 0.01453 0.014535   6.633 0.0203 *
## Residuals   16 0.03506 0.002191                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Sí hay interacción entre la covariable arcillas y el factor cantidad de dosis.

anovaaplicaciones = aov(D$arcilla~D$F2)
summary(anovaaplicaciones)

##             Df  Sum Sq  Mean Sq F value Pr(>F)
## D$F2         1 0.00061 0.000610   0.199  0.661
## Residuals   16 0.04898 0.003061

No existe interacción entre la covariable de arcilla el factor de número de aplicaciones.

Análisis de covarianza

ANCOVA1 = aov(biomasa~arcilla+F1+F2+F1*F2, data=D) #efecto de los factores, covariable e interaccion de los factores
summary(ANCOVA1)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## arcilla      1 0.8160  0.8160  18.286 0.000902 ***
## F1           1 0.0230  0.0230   0.516 0.485068    
## F2           1 0.4320  0.4320   9.681 0.008263 ** 
## F1:F2        1 0.0170  0.0170   0.381 0.547815    
## Residuals   13 0.5801  0.0446                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Acorde con la tabla anterior, no hay interacción entre el primer factor (dosis) y el segundo factor (número de aplicaciones) debido a que el p-valor de la interacción es de 54%.

ANCOVA2 = aov(biomasa~arcilla+F1+F2, data=D) #efecto de los factores y la covariable
summary(ANCOVA2)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## arcilla      1 0.8160  0.8160   19.13 0.000636 ***
## F1           1 0.0230  0.0230    0.54 0.474414    
## F2           1 0.4320  0.4320   10.13 0.006647 ** 
## Residuals   14 0.5971  0.0426                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Partiendo de que no existe itneracción entre los factores, se puede concluir que la covariable afecta el contenido de biomasa, al igual que los factores.

Ejercicio 8

Realice un resumen con la nota que aparece en las siguientes direcciones sobre:

El uso de diseños en parcelas divididas

Link al artículo: http://207.67.83.164/quality-progress/2007/10/laboratory/when-should-you-consider-a-split-plot-design.html

Los experimentos con parcelas divididas tuvieron su origen en ambientes agrícolas donde usualmente se habla de parcelas de tierra, por lo que la literatura hace referencia a este término y se asocia con experimentos agrícolas. Sin embargo, este diseño se puede aplicar en diversos entornos y en algunos casos produce mejores estimaciones de parámetros comparados con experimentos de igual tamaño completamente aleatorizados. Aunque un diseño se debe elegir estratégicamente y de acuerdo con los objetivos de experimento y el análisis debe ser acorde con el modelo de diseño seleccionado (Anderson, 2017).

Las parcelas divididas se deben tener en cuenta como diseño para aplicar en experimentos con factores que presentan diferentes grados de dificultad para aleatorizar o cambiar, generalmente por aspectos de presupuesto o tiempo. En muchos casos, los costos constituyen un factor difícil de cambiar, si bien es cierto que la evaluación costo calidad del diseño es poco apropiado, en muchas situaciones es determinante a la hora de tomar decisiones. El diseño consta de parcelas principales o completas y subparcelas, en las primeras se ubican los factores difíciles de cambiar, los cuales tendrán de manera intencionada una menor frecuencia y en las segundas se ubican los factores con un menor grado de dificultad para cambiar, los cuales tendrán mayor frecuencia (Anderson, 2007).

Sobre lo que significa unidad experimental y unidad de observación

Artículos: https://www.sciencedirect.com/science/article/pii/S002203021630621X

https://online.stat.psu.edu/stat502/lesson/6/6.1-0

Una unidad experimental se define “como la entidad más pequeña que se asigna independientemente de todas las demás unidades a un tratamiento particular” (Bello, et al. 2016) o como “aquella que recibe el tratamiento de manera independiente a las otras unidades experimentales” (Universidad Estatal de Pensilvania. 2020) y una unidad de observación o de muestreo es “la entidad física sobre la que se mide un resultado de interés en un experimento” (Bello, et al. 2016).

Un primer experimento que busca evaluar la calidad del agua de un lugar específico usando acuarios con peces, los cuales se someten al tratamiento del agua y se tiene un blanco (Universidad Estatal de Pensilvania. 2020). El segundo experimento busca evaluar un tratamiento para la mastitis de las vacas, el cual es aplicado a cada vaca. En un tercer experimento se busca evaluar el resultado de la dieta en las vacas, el cual se puede aplicar por corral o individualmente a cada vaca mediante métodos tecnológicos (Bello, et al. 2016).

La unidad experimental en el primer experimento es el acuario, en el segundo son las vacas, en el tercero puede ser el corral o las vacas, dependiendo de cómo se aplique el tratamiento si al corral o a cada vaca, de manera correspondiente. Por su parte, la unidad de observación en el primer experimento son los peces, en el segundo y en tercero son las vacas. Es decir, que en algunos experimentos la unidad experimental y la unidad de observación pueden ser el mismo ente, lo cual quiere decir que aquello a lo que se le aplicó el tratamiento permitió a la vez medir el resultado del mismo.

Al momento de definir una unidad experimental se debe tener en cuenta la organización, la recopilación de datos del experimento y el alcance del estudio a nivel de inferencia. La variabilidad en la unidad experimental permite determinar el error experimental y a partir de la variabilidad en la unidad de observación se calcula el error de muestreo. Por tal razón es fundamental determinar correctamente la unidad experimental y no confundirla con la unidad de observación puesto que el análisis de los resultados podría generar un error tipo 1 al rechazar una hipótesis que es verdadera (Universidad Estatal de Pensilvania, 2020).

Cuando los diseños presentan anidamiento la unidad experimental y la unidad de observación son diferentes y las unidades de observación se denominan submuestras, pseudoreplicas o réplicas técnicas. Por otra parte, una réplica es la repetición de un tratamiento, esta que cuenta con resultados reproducibles que no basan en condiciones imprevistas y el cálculo del error experimental por variabilidad de unidades experimentales es adecuado (Universidad Estatal de Pensilvania, 2020).

Guía para diseñar diseños exitosos

Link del artículo: https://acsess.onlinelibrary.wiley.com/doi/full/10.2134/agronj2013.0114

Acorde con el texto de Casler (2015), existen tres tipos de experimentos donde es posible relacionar la biología y herramientas matemáticas, existen tres tipos: Los observacionales, de medición y comparativos, estos últimos tienen como fin comparar dos prácticas para mirar el comportamiento de una variable. En primer lugar se plantean las hipótesis y se escriben en forma de de un modelo estadístico que contiene el diseño del tratamiento, el experimental y reglas y procesos que permiten realizar el experimento, y todo este proceso va acompañado de la toma de decisiones.

Es importante comprender los diseños de experimentos, no simplemente realizar cálculos mecánicamente. Entender también que el planteamiento de nuevas hipótesis y modificaciones en el diseño, proporciona retroalimentación y surge al completar el experimento, se denomina bucle de retroalimentación. Este se compone de respuestas biológicas y estadísticas que servirán para realizar diseños futuros más eficientes.

Se puede incurrir en errores donde la respuesta a la hipótesis puede ser errónea, por ejemplo diseñar mal el experimento (con poder insuficiente para poder detectar diferencia entre dos medios), tratamientos mal diseñados por no haber formulado la hipótesis adecuada, experimento sin guía y supervisión de toma de datos y procedimientos, y falta de diferencias entre los tratamientos. Por lo tanto, los resultados negativos generalmente no son aceptados ya que son errores estadísticos dentro del diseño (por ejemplo un p-valor muy alto) y que rara vez se pueden resolver, además que para muchos experimentadores, el fracaso no es opción por el tiempo y capital invertidos. Para evitar los resultados negativos en un diseño comparativo se deben contemplar cuatro procedimientos: replicación, aleatorización, bloqueo y unidades experimentales; cada uno de ellos influirá en los análisis de datos y las conclusiones del diseño experimental.

*Replicación: Debe tener en cuenta la forma y escala de replicación ya que permite estimar el error y proponer pruebas de hipótesis válidas, y hay que tener en cuenta que pueden tener varios niveles o escalas. Si no hay replicación, no se puede estimar la variación de los efectos del tratamiento. También es importante para la precisión del experimento (fórmula de error estándar), en la inferencia del experimento ya que se tienen más observaciones con más condiciones, y permite al experimentador controlar la magnitud del error experimental.

Es importante que el tratamiento se replique a la escala adecuada por la variabilidad de los sistemas biológicos, de no ser así, puede ocasionar un experimento confuso por la falta de replicación del tratamiento. Lo primero que se debe hacer para la replicación es definir explícitamente la unidad experimental, la unidad que forma el primer nivel de replicación y la escala en la que se deben replicar los tratamientos. La escala de replicación depende de las inferencias deseadas y de cómo se replicarán los datos, la replicación a escala es indispensable para estimar un término de error adecuado. Si se requiere la replicación en condiciones ambientales, lo ideal sería que las replicaciones se realicen a una escala mayor que la unidad experimental. En las variables que no se pueden medir en una unidad experimental, la replicación será por debajo del nivel de unidad experimental.

El número de réplicas y la distribución de ésta en diversas formas de replicación es importante para poder realizar el experimento adecuadamente, existen cuatro niveles básicos dentro del experimento: La unidad experimental, replicación de todo el experimento, muestreo a uno o más niveles dentro de unidades experimentales y medidas repetidas. Es adecuado tener medidas precisas de varianzas de experimentos anteriores.

Para estimar la potencia de un experimento hipotético se deben tener en cuenta varios pasos. El primero es obtener una estimación de la variabilidad experimental de errores de experimentos anteriores (de campo, laboratorio o de literatura), reconocer la distribución (normal, Poisson, binomial, etc) de la variable de estudio, determinar el p-valor y la diferencia entre los tratamientos, y finalmente crear un conjunto de datos adecuado.

Puede haber también experimentos sin réplicas, situaciones especiales, donde los recursos son dirigidos a los tratamientos pero no a la replicación ni observación, frecuente en fincas, teniendo tres opciones: realizar el experimento en varias fincas utilizándolas como bloques, utilizar diseños de trazado de control, donde un tratamiento se intercala con otro acorde a la organización eficiente en la parcela, y combinar ambos enfoques.

Los diseños aumentados son una forma específica de diseño que puede manejar tratamientos difíciles de replicar, por ejemplo porque las unidades experimentales son de alto costo. Son organizados en bloques pequeños, por ejemplo de cinco unidades experimentales. Se han propuesto diseños sin réplicas con análisis estadísticos basados en regresión de tratamientos repetidos como una opción a la de los diseños replicados clásicamente.

*Aleatorización: Es un proceso matemático en el que se generan números que ordenan los tratamientos. Es importante establecer que los materiales e instalaciones muestrean adecuadamente, esto quiere decir que la población debe definirse y se debe elegir una muestra aleatoria o representativa, la cual representará a la población. La definición de la muestra aleatoria es determinante para definir y aplicar tratamientos. Los tratamientos asignados a las unidades experimentales es la aleatorización, donde es probable que cada tratamiento se aplique a cada unidad experimental, sin tener en cuenta la prioridad, la estructura o el orden.

Este proceso genera estimación imparcial de los medios de tratamiento y los errores experimentales y tener en cuenta que puede ocurrir una perturbación. La aleatorización es importante entendiendo que en la biología muchas cosas son variables, nada es fijo. El término interespersión el investigador busca evitar el aglutinamiento de tratamientos o réplicas de tratamientos que surgen en la aleatorización que pueden generar confusión y diferencias en el nivel de precisión. Los diseños de bloques completos fueron una alternativa para este inconveniente.

*Bloqueo: Son útiles para la precisión y para comodidad que permite diferente tamaño de las unidades experimentales. El diseño de Bloques completos aleatorios es el diseño de bloqueo más sencillo, aquí el tamaño del bloque es igual al número de tratamientos. Los diseños compuestos y los factoriales fraccionarios son dos diseños de tratamiento cuyo objetivo es reducir el número de tratamientos, esto da como resultado la reducción de costos del experimento y mejora la precisión de la prueba de hipótesis. Si los diseños de experimentos son grandes, se puede trabajar con diseños de bloques incompletos que permitan generar bloques pequeños.

*Tamaño de las unidades experimentales: Se basa en la ley de Smith que es la observación general de una relación asintomática negativa entre la varianza y el tamaño de la parcela. La distinción entre parcelas pequeñas y grandes es relativa, donde influye el tipo de suelo, especies, entre otros.

9. Seleccionar un artículo científico de una revista de agronomía donde se haya utilizado un diseño en parcelas divididas. Hacer las críticas constructivas sobre:

Artículo: https://revistas.unal.edu.co/index.php/acta_agronomica/article/view/43935#textoCompleto

La mención de la estructura factorial - modelo?

El artículo no menciona la estructura factorial a la que corresponde el diseño. Nosotras consideramos que corresponde a un diseño factorial completo, debido a que los factores son cruzados.

La razón de colocar cada factor en la parcela principal o en la subparcela

Riego en la parcela principal, cultivar en la subparcela. La razón no se encuentra en el artículo, sin embargo las posibles razones por las que los investigadores decidieron acomodar los factores de esta manera se debe a facilidad de implementación y costos. Debido a que el sistema de riego utilizado es por aspersión, sería mejor acomodar las variedades en los sistemas de riego ya establecidos ya que se requiere distancia determinada entre aspersores, además se debe tener una red de tuberías establecida, por ende es más difícil y costoso aleatorizar el riego en la variedad que la variedad en el riego.

La revisión de supuestos para el análisis de varianza No mencionan la revisión de supuestos. (normalidad, homogeneidad de varianza).
La tabla del análisis de varianza No se encuentra la tabla de análisis de varianza.
El uso de muchos análisis de varianzas en lugar de uno solo multivariante En el artículo no se presenta el procedimiento estadístico de los datos.
El método de comparaciones de medias después del Anova Prueba de Tukey
La interacción de factores Teniendo en cuenta que los factores son riego y variedad, estos presentan interacción ya que al medir el rendimiento, el contenido de almidón, la materia seca y la altura de las plantas por variedad, los valores difieren dependiendo del tipo de riego al que fueron sometidas.
La presencia de bloques? Sí, hay presencia de bloques, bloques con tres repeticiones, donde fueron dispuestos los tratamientos de riego. No especifican cómo se distribuyen los lotes.
El balanceo o desbalanceo - Balanceo En el artículo no se menciona si el experimento es balanceado o desbalanceado.
La definición clara de la unidad experimental Área de 30 m2 con 10.000 plantas/ha. considera el riego como fuente de variación. El riego fue por aspersión.
Software utilizado y librería específica (en caso de ser R) SAS 9.1, abreviatura del inglés Statical Analysis System (sistema de análisis estadístico).
Otros aspectos que considere de interés En el artículo se muestra el resultado del p-valor para concluir que el riego suplementario tiene influencia en la producción del cultivar y que el contenido de almidón es mayor en los cultivares con riego suplementario (p-valor <0.05) y se menciona el uso de la prueba de Tukey.

Referencias

Anderson Cook, C. 2007. ¿Cuándo debería considerar un diseño de parcela dividida?. Quality progress. Recuperado de:http://207.67.83.164/quality-progress/2007/10/laboratory/when-should-you-consider-a-split-plot-design.html
Bello, N. et al. 2016. Comunicación breve: sobre el reconocimiento de la unidad experimental adecuada en los estudios con animales en las ciencias lácteas. Revista de ciencia láctea. Vol. 99 - No.11, Págs. 8871-8879. Recuperado de:https://www.sciencedirect.com/science/article/pii/S002203021630621X
Casler, M. 2015. Fundamentals of Experimental Design: Guidelines for Designing Successful Experiments. Recuperado de: https://acsess.onlinelibrary.wiley.com/doi/full/10.2134/agronj2013.0114
Universidad Estatal de Pensilvania. 2020. STAT 502. Recuperado de:https://online.stat.psu.edu/stat502/lesson/6/6.1-0

Parcial

Esmeralda Lagos Moreno - C.C. 1.032.456.594 y Sandra Rodríguez Hurtado - C.C. 1019134382

11/11/2020

Ejercicio 1

Planteamiento de Hipótesis

P-valor

Gráficos

¿Vale la pena comparar las medias de tratamientos a posteriori del ANOVA (prueba de Tukey)?

Revisión de supuestos

Prueba de normalidad del vector de residuales del modelo

Histograma

Prueba shapiro para mirar si los datos son normales.

Independencia de los residuales

Ejercicio 2

Análisis de varianza para diseño desbalanceado

Diseño balanceado

Ejercicio 3

Ejercicio 4.

Prueba de comparación de medias.

Supuestos ANOVA

Prueba de normalidad del vector de residuales del modelo

Histograma

Prueba shapiro para mirar si los datos son normales.

Independencia de los residuales

Igualdad de varianzas

Supuestos ANCOVA

Linealidad

Homogeneidad pendientes de regresión

Distribución normal

Independencia

Análisis de covarianza

Ejercicio 8

El uso de diseños en parcelas divididas

Sobre lo que significa unidad experimental y unidad de observación

Guía para diseñar diseños exitosos

9. Seleccionar un artículo científico de una revista de agronomía donde se haya utilizado un diseño en parcelas divididas. Hacer las críticas constructivas sobre:

La mención de la estructura factorial - modelo?

La razón de colocar cada factor en la parcela principal o en la subparcela

Referencias