1.

a)

En un estudio conducido en ambiente controlado se tuvieron 72 macetas, cada una con una planta a la que a cierta edad se le midió el contenido de clorofila (índice de clorofila) con un sensor (SPAD). El total de macetas se correspondió con 9 tratamientos asociados a estrés hídrico. Se sabe que la varianza de las 72 observaciones es 8U3. Con esta información complete la tabla del ANOVA que se muestra a continuación.

    |   SC  |df  |MS  |F

Between |6000 |8 |750 0,901

Within |52433|63 |832,2

Total 58433 |71

-n (Numero de macetas) = 72 -t(tratamientos) =9

-r (Numero de repeticiones por tratamiento) =8

-Varianza= 8U3, U=2 Por lo tanto tomamos varianza = 823

Si el F tabulado es 2.8. ¿qué puede decirse acerca de la Hipótesis nula de igualdad de los promedios del índice en todas las condiciones de tratamiento (use el p valor sí como el cociente F calculado de la tabla para concluir)? Tomaremos el valor U=2 para el cálculo de varianza.

Tenemos un resultado de F calculado de 0.901 este contrasta con el valor de F tabulado que nos brinda el ejercicio de 2.8: Debido a la naturaleza del valor F podemos deducir que la variación está dada por los resultados dentro de los tratamientos de la muestra y no se da por cambios entre los tratamientos. Y al ser el F calculado menor que el F tabulado podemos decir que no hay diferencia significativa entre los tratamientos y por tanto no tendremos que rechazar la hipótesis nula que contempla que las medias de los tratamientos no presentan diferencia significativa. O también existe la posibilidad de que existan errores en el experimento que nos generen estos valores.

\[ Ho: \mu_{1} = \mu_{2} =\mu_{3} ~ (\text{No hay diferencias significativas entre las medias del tratamiento})\\ Hi: H_o sea falsa ~ (\text{Hay diferencias significativas para al menos una de las medias}) \] ¿Vale la pena comparar las medidas de tratamientos a posteriori del ANOVA (prueba de Tukey)? No, La prueba Tukey en este caso mediría la confianza existente entre los tratamientos, con el concepto de que el valor calculado de F sabemos que la diferencia reside en las muestras de cada tratamiento como tal y no las muestras comparadas con las de otros tratamientos.

b)

De ser afirmativa su respuesta aplique este procedimiento y concluya (seleccione el o los tratamientos con mayores contenidos de clorofila). Para esto genere unos datos para cada tratamiento que tengan una varianza como la dada en el ejercicio y una media que desde el primer al último tratamiento cambie a razón de 10 unidades del índice, empezando con 40U. Aunque no sea necesario, se probará igualmente el procedimiento para analizar el comportamiento.

#Generación de datos de distribución normal con media aumentando cada conjunto de datos hasta alcanzar los 9 conjuntos de datos para simular los 9 tratamientos y por consiguiente cada conjunto contara con 8 repeticiones
set.seed(2019) #Mean_1 = 40U, U=2 
data1= rnorm(8, 402, sqrt(823)) 
data2= rnorm(8, 412, sqrt(823))
data3= rnorm(8, 422, sqrt(823))
data4= rnorm(8, 432, sqrt(823))
data5= rnorm(8, 442, sqrt(823))
data6= rnorm(8, 452, sqrt(823))
data7= rnorm(8, 462, sqrt(823))
data8= rnorm(8, 472, sqrt(823))
data9= rnorm(8, 482, sqrt(823))
Clorofila = c(data1,data2,data3,data4,data5,data6,data7,data8,data9) #Agrupar cada uno de los 9 conjuntos de datos previamente hechos
Tratamientos= gl(9,8) #Desarrollar los niveles para otorgarle un tratamiento a cada conjunto de datos
Exp<- data.frame(Clorofila, Tratamientos); Exp
##    Clorofila Tratamientos
## 1   423.1867            1
## 2   387.2326            1
## 3   354.9465            1
## 4   428.2792            1
## 5   365.6385            1
## 6   423.1788            1
## 7   379.5481            1
## 8   416.6107            1
## 9   369.2567            2
## 10  402.8434            2
## 11  405.1748            2
## 12  458.4350            2
## 13  379.9383            2
## 14  418.7131            2
## 15  421.0697            2
## 16  422.6366            2
## 17  447.1762            3
## 18  371.2704            3
## 19  412.6154            3
## 20  357.0726            3
## 21  430.1922            3
## 22  449.7823            3
## 23  446.8813            3
## 24  461.5359            3
## 25  408.8127            4
## 26  417.3074            4
## 27  380.2477            4
## 28  433.1656            4
## 29  507.6220            4
## 30  385.6403            4
## 31  405.1894            4
## 32  450.0845            4
## 33  463.8247            5
## 34  427.3226            5
## 35  470.7427            5
## 36  431.0013            5
## 37  428.3119            5
## 38  449.2927            5
## 39  408.6218            5
## 40  429.4364            5
## 41  402.5380            6
## 42  501.4910            6
## 43  454.6437            6
## 44  454.0975            6
## 45  470.3645            6
## 46  457.9134            6
## 47  476.7636            6
## 48  456.0099            6
## 49  455.4564            7
## 50  452.8248            7
## 51  460.4810            7
## 52  455.2182            7
## 53  452.3045            7
## 54  440.3267            7
## 55  437.2826            7
## 56  446.8623            7
## 57  449.3374            8
## 58  499.2397            8
## 59  472.8207            8
## 60  495.5180            8
## 61  443.2965            8
## 62  450.1869            8
## 63  484.7444            8
## 64  521.8794            8
## 65  459.7610            9
## 66  448.0746            9
## 67  472.9912            9
## 68  470.7137            9
## 69  498.0625            9
## 70  474.8354            9
## 71  500.4790            9
## 72  498.9352            9
boxplot(Clorofila~Tratamientos) #Representación gráfica de la relación entre clorofila y tratamientos con la media y la distribución de datos

mod_t= aov(Clorofila~Tratamientos) #Análisis de varianza de la clorofila en función de los tratamientos
summary(mod_t)
##              Df Sum Sq Mean Sq F value   Pr(>F)    
## Tratamientos  8  52974    6622   8.223 1.51e-07 ***
## Residuals    63  50734     805                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
TukeyHSD(mod_t, 'Tratamientos') #Prueba de Tuckey para comparación de medias en grupos de dos tratamientos 
##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = Clorofila ~ Tratamientos)
## 
## $Tratamientos
##          diff        lwr       upr     p adj
## 2-1 12.430799 -33.144336  58.00593 0.9934823
## 3-1 24.738133 -20.837002  70.31327 0.7176774
## 4-1 26.181030 -19.394106  71.75617 0.6525775
## 5-1 41.241599  -4.333537  86.81673 0.1066581
## 6-1 61.900070  16.324934 107.47521 0.0015153
## 7-1 52.766928   7.191792  98.34206 0.0119430
## 8-1 79.800235  34.225100 125.37537 0.0000157
## 9-1 80.653924  35.078789 126.22906 0.0000124
## 3-2 12.307334 -33.267802  57.88247 0.9939043
## 4-2 13.750230 -31.824905  59.32537 0.9873608
## 5-2 28.810799 -16.764336  74.38593 0.5287307
## 6-2 49.469271   3.894135  95.04441 0.0235989
## 7-2 40.336128  -5.239007  85.91126 0.1235221
## 8-2 67.369436  21.794300 112.94457 0.0003980
## 9-2 68.223125  22.647989 113.79826 0.0003213
## 4-3  1.442896 -44.132239  47.01803 1.0000000
## 5-3 16.503466 -29.071670  62.07860 0.9612292
## 6-3 37.161937  -8.413199  82.73707 0.1996492
## 7-3 28.028795 -17.546341  73.60393 0.5657055
## 8-3 55.062102   9.486966 100.63724 0.0072739
## 9-3 55.915791  10.340655 101.49093 0.0060233
## 5-4 15.060569 -30.514566  60.63570 0.9775890
## 6-4 35.719040  -9.856095  81.29418 0.2437263
## 7-4 26.585898 -18.989237  72.16103 0.6337526
## 8-4 53.619206   8.044070  99.19434 0.0099543
## 9-4 54.472895   8.897759 100.04803 0.0082746
## 6-5 20.658471 -24.916664  66.23361 0.8710076
## 7-5 11.525329 -34.049807  57.10046 0.9960974
## 8-5 38.558636  -7.016499  84.13377 0.1627289
## 9-5 39.412325  -6.162810  84.98746 0.1428503
## 7-6 -9.133142 -54.708278  36.44199 0.9992486
## 8-6 17.900165 -27.674970  63.47530 0.9385674
## 9-6 18.753854 -26.821281  64.32899 0.9209983
## 8-7 27.033307 -18.541828  72.60844 0.6127682
## 9-7 27.886996 -17.688139  73.46213 0.5724222
## 9-8  0.853689 -44.721447  46.42882 1.0000000

Tenemos que la fuente de la variación se deriva según este diseño y estos datos en los tratamientos aplicados, gráficamente podemos ver como hay grupos bastante variados y se ve que con la prueba posterior de Tuckey los que más relación tienen en cuanto a sus medias de clorofila son el grupo 9 y 8, estos a su vez demostraron ser el tratamiento con mayores valores de clorofila.


2.

Antes de hilar el algodón, éste debe ser procesado para eliminar las materias extrañas y la humedad. El limpiador de pelusas más común es el limpiador de pelusas tipo sierra de batería controlada. Aunque el limpiador de pelusas de motor de sierra (M1) es uno de los más efectivos, también es uno de los limpiadores que causa más daño a las fibras de algodón. Un investigador del algodón diseñó un estudio para comparar cuatro alternativas de limpieza de las fibras de algodón: M2, M3, M4 y M5. Los métodos M2 y M3 son mecánicos, mientras que los métodos M4 y M5 son una combinación mecánica y química. El investigador quiso tener en cuenta el impacto de los diferentes cultivadores en el proceso y, por lo tanto, obtuvo fardos de algodón de seis diferentes granjas algodoneras. Las granjas fueron consideradas como bloques en el estudio. Después de una limpieza preliminar del algodón, los seis fardos fueron mezclados a fondo, y luego fue procesada una igual cantidad de algodón por cada uno de los cinco métodos de limpieza de pelusas. Las pérdidas en peso (en kg) después de la limpieza las fibras de algodón se dan en la siguiente tabla. Durante el procesamiento de las muestras de algodón, las mediciones de la granja 1 procesada por el limpiador M1 se perdieron.

#Se importan los datos desde excel con la libreria "readxl"
library(readxl)
Ruta_datos_2<- "C:\\Users\\user\\Documents\\Parcial R\\datos2.xlsx"
Datos_2<- read_excel(Ruta_datos_2); Datos_2
## # A tibble: 30 x 3
##    Granjero Metodo `Perdida de peso`
##       <dbl>  <dbl> <chr>            
##  1        1      1 <NA>             
##  2        2      1 6.75             
##  3        3      1 13.05            
##  4        4      1 10.26            
##  5        5      1 8.01             
##  6        6      1 8.42             
##  7        1      2 5.54             
##  8        2      2 3.53             
##  9        3      2 11.20            
## 10        4      2 7.21             
## # ... with 20 more rows
#Se determinan como factores los valores de la tabla
Perdida<- as.factor(Datos_2$`Perdida de peso`)
Granjero<- as.factor(Datos_2$Granjero)
Metodo<- as.factor(Datos_2$Metodo)
View(Datos_2)

a)

Realice el ANOVA para este diseño recordando que es un caso desbalanceado. Concluya sobre el resultado de la tabla del ANOVA obtenida. (¿Afecta el orden de colocación de los efectos del modelo dentro del software R? Verifique si la tabla del ANOVA cambia): en R: lm().

lm1<- lm(Datos_2$`Perdida de peso`~Datos_2$Granjero+Datos_2$Metodo)
anova(lm1) #Análisis de varianza para muestras desiguales de la pérdida de peso en función de los granjeros y el método
## Analysis of Variance Table
## 
## Response: Datos_2$`Perdida de peso`
##                  Df  Sum Sq Mean Sq F value Pr(>F)
## Datos_2$Granjero  1   0.053  0.0531  0.0065 0.9365
## Datos_2$Metodo    1   0.135  0.1352  0.0165 0.8989
## Residuals        26 213.465  8.2102
lm2<- lm(Datos_2$`Perdida de peso`~Datos_2$Metodo+Datos_2$Granjero)
anova(lm2) #Análisis de varianza para muestras desiguales de la pérdida de peso en función de el método y los granjeros
## Analysis of Variance Table
## 
## Response: Datos_2$`Perdida de peso`
##                  Df  Sum Sq Mean Sq F value Pr(>F)
## Datos_2$Metodo    1   0.148  0.1477  0.0180 0.8943
## Datos_2$Granjero  1   0.041  0.0406  0.0049 0.9445
## Residuals        26 213.465  8.2102

Si se ve afectado, el comando lm se usa para ajustar modelos lineales en variables no simétricas donde realiza la lectura de la variable dependiente en función de una variable independiente junto a la otra variable independiente. del marco de lectura como se distribuyan las variables independientes se leerá y se computara el cálculo del análisis de varianzas.

b)

Estimar el valor de la observación usando el promedio de los datos para los cinco granjeros del mismo método M1 y luego realice el análisis de varianza para probar las diferencias en las pérdidas medias de peso para los cinco métodos de limpiado de las fibras de algodón. Compare este resultado con el caso desbalanceado (de ser posible).

#Se importan los datos corregidos al valor que antes era nulo generando un conjunto de datos completos
Ruta_datos_2arreglados<-"C:\\Users\\user\\Documents\\Parcial R\\Datos2-arreglado.xlsx"
Datos_2ar<-read_excel(Ruta_datos_2arreglados); Datos_2ar
## # A tibble: 30 x 3
##    Granjero Metodo `Perdida de peso`
##       <dbl>  <dbl> <chr>            
##  1        1      1 9.30             
##  2        2      1 6.75             
##  3        3      1 13.05            
##  4        4      1 10.26            
##  5        5      1 8.01             
##  6        6      1 8.42             
##  7        1      2 5.54             
##  8        2      2 3.53             
##  9        3      2 11.20            
## 10        4      2 7.21             
## # ... with 20 more rows
A_var<-aov(Datos_2ar$`Perdida de peso`~ Datos_2ar$Granjero+Datos_2ar$Metodo) #Análisis de varianza en este caso con datos completos de la pérdida de peso en función de el granjero y el método utilizado
anova(A_var)
## Analysis of Variance Table
## 
## Response: Datos_2ar$`Perdida de peso`
##                    Df  Sum Sq Mean Sq F value Pr(>F)
## Datos_2ar$Granjero  1   0.078  0.0779  0.0097 0.9222
## Datos_2ar$Metodo    1   0.730  0.7304  0.0912 0.7650
## Residuals          27 216.239  8.0089

3.

Use la función de R para generar de la distribución uniforme unos datos de carbono orgánico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior osciló entre 3.0 y 3.U+0.1 y de la capa inferior osciló entre 2 y 2.T+0.2. Use expand.grid para generar una ventana de observación de 0 a 100 m para la longitud y de 0 a 200 m para la latitud. Genere 50 datos en cada capa. Use la función sort.int de R para ordenar los datos de cada capa con la opción partial =25+U dentro de la propia función sort.int. Una vez cree los datos realice algún diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora. Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%. Se tomarán valores u=7, como el último número de cedula y T=3, para el tercer digito de la cedula.

set.seed(2019) #Se produce una semilla para que los datos tengan un valor fijo y puedan ser repetibles 
#Se usara U=7 T=3
co_superior<- sort.int(runif (50, 3.0, 3.8), partial =32) #Datos de carbono orgánico pertenecientes a la capa a 5 cms de profundidad
co_inferior<- sort.int(runif (50, 2.0, 2.5), partial =32) #Datos de carbono orgánico pertenecientes a la capa a 10 cms de profundidad
CO <- sort.int( c(co_superior,co_inferior), partial = 32 ); CO  #Crea la respuesta que engloba ambas capas
##   [1] 2.021171 2.290827 2.165358 2.257869 2.061158 2.204893 2.277791 2.077458
##   [9] 2.158316 2.066979 2.175357 2.125828 2.268356 2.042329 2.152229 2.187275
##  [17] 2.078720 2.154182 2.264571 2.108077 2.087504 2.024852 2.026524 2.159982
##  [25] 2.100397 2.186632 2.258102 2.173219 2.017809 2.043670 2.152136 2.297818
##  [33] 2.491711 2.462487 2.496969 2.459484 2.478875 2.458970 2.458095 2.420903
##  [41] 2.409878 2.402994 2.380054 2.388300 2.369481 2.367889 2.363578 2.301702
##  [49] 2.300166 2.497903 3.494589 3.486858 3.489914 3.474007 3.395896 3.465199
##  [57] 3.364496 3.375275 3.299836 3.297429 3.324780 3.357008 3.167576 3.136815
##  [65] 3.159437 3.105495 3.242688 3.156014 3.173539 3.205803 3.081993 3.136241
##  [73] 3.009449 3.007692 3.054496 3.034575 3.040387 3.008826 3.068762 3.030803
##  [81] 3.007403 3.656141 3.757789 3.744410 3.732735 3.758647 3.645690 3.615921
##  [89] 3.666868 3.647933 3.626111 3.570272 3.615854 3.555782 3.560252 3.536923
##  [97] 3.515676 3.528434 3.508362 3.499245
L1 <- expand.grid( longitud = c(0,100), latitud = c(0,200)) # Se generan unos datos de latitud y longitud para el sistema
L1<-rbind(L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1,L1) #Se aleatorizan los datos

Longitud<- factor(L1$longitud, labels = c("0","100")) #Vuelve factor el tratamiento longitud
Latitud<-factor(L1$latitud, labels = c("0","200")) #vuelve factor el tratamiento de latitud
modelCO<-aov(CO ~ L1$longitud * L1$latitud) #Análisis de varianza para ver como se comporta el carbono organico en función de las coordenadas generadas
summary(modelCO)
##                        Df Sum Sq Mean Sq F value Pr(>F)
## L1$longitud             1   0.00  0.0029   0.008  0.930
## L1$latitud              1   0.08  0.0849   0.229  0.633
## L1$longitud:L1$latitud  1   0.02  0.0182   0.049  0.825
## Residuals              96  35.56  0.3704
CO_Tabla<- data.frame(Carbono_Orgánico= CO, Longitud, Latitud); CO_Tabla #Se hace un data frame para juntar los datos y asignarle a cada coordenada un valor preciso
##     Carbono_Orgánico Longitud Latitud
## 1           2.021171        0       0
## 2           2.290827      100       0
## 3           2.165358        0     200
## 4           2.257869      100     200
## 5           2.061158        0       0
## 6           2.204893      100       0
## 7           2.277791        0     200
## 8           2.077458      100     200
## 9           2.158316        0       0
## 10          2.066979      100       0
## 11          2.175357        0     200
## 12          2.125828      100     200
## 13          2.268356        0       0
## 14          2.042329      100       0
## 15          2.152229        0     200
## 16          2.187275      100     200
## 17          2.078720        0       0
## 18          2.154182      100       0
## 19          2.264571        0     200
## 20          2.108077      100     200
## 21          2.087504        0       0
## 22          2.024852      100       0
## 23          2.026524        0     200
## 24          2.159982      100     200
## 25          2.100397        0       0
## 26          2.186632      100       0
## 27          2.258102        0     200
## 28          2.173219      100     200
## 29          2.017809        0       0
## 30          2.043670      100       0
## 31          2.152136        0     200
## 32          2.297818      100     200
## 33          2.491711        0       0
## 34          2.462487      100       0
## 35          2.496969        0     200
## 36          2.459484      100     200
## 37          2.478875        0       0
## 38          2.458970      100       0
## 39          2.458095        0     200
## 40          2.420903      100     200
## 41          2.409878        0       0
## 42          2.402994      100       0
## 43          2.380054        0     200
## 44          2.388300      100     200
## 45          2.369481        0       0
## 46          2.367889      100       0
## 47          2.363578        0     200
## 48          2.301702      100     200
## 49          2.300166        0       0
## 50          2.497903      100       0
## 51          3.494589        0     200
## 52          3.486858      100     200
## 53          3.489914        0       0
## 54          3.474007      100       0
## 55          3.395896        0     200
## 56          3.465199      100     200
## 57          3.364496        0       0
## 58          3.375275      100       0
## 59          3.299836        0     200
## 60          3.297429      100     200
## 61          3.324780        0       0
## 62          3.357008      100       0
## 63          3.167576        0     200
## 64          3.136815      100     200
## 65          3.159437        0       0
## 66          3.105495      100       0
## 67          3.242688        0     200
## 68          3.156014      100     200
## 69          3.173539        0       0
## 70          3.205803      100       0
## 71          3.081993        0     200
## 72          3.136241      100     200
## 73          3.009449        0       0
## 74          3.007692      100       0
## 75          3.054496        0     200
## 76          3.034575      100     200
## 77          3.040387        0       0
## 78          3.008826      100       0
## 79          3.068762        0     200
## 80          3.030803      100     200
## 81          3.007403        0       0
## 82          3.656141      100       0
## 83          3.757789        0     200
## 84          3.744410      100     200
## 85          3.732735        0       0
## 86          3.758647      100       0
## 87          3.645690        0     200
## 88          3.615921      100     200
## 89          3.666868        0       0
## 90          3.647933      100       0
## 91          3.626111        0     200
## 92          3.570272      100     200
## 93          3.615854        0       0
## 94          3.555782      100       0
## 95          3.560252        0     200
## 96          3.536923      100     200
## 97          3.515676        0       0
## 98          3.528434      100       0
## 99          3.508362        0     200
## 100         3.499245      100     200
library(graphics)
library(rsm)
## Warning: package 'rsm' was built under R version 4.0.3
lon=seq(0,100,length.out=100)
lat=seq(0,200,length.out=100)
modelolm=lm(CO_Tabla$Carbono_Orgánico~Longitud*Latitud); modelolm
## 
## Call:
## lm(formula = CO_Tabla$Carbono_Orgánico ~ Longitud * Latitud)
## 
## Coefficients:
##            (Intercept)             Longitud100              Latitud200  
##                2.75776                 0.03766                 0.08523  
## Longitud100:Latitud200  
##               -0.05391
d1=function(lon,lat){(modelolm$coe[1]+modelolm$coe[2]*lon+modelolm$coe[3]*lat)}
s1= outer(lon,lat,d1)
persp(lon,lat,s1, col = rainbow(50),theta=20,phi=30,ticktype='detailed', xlab = "Longitud", ylab="Latitud", zlab = "Medida carbono") #Modelo para el grafico 3D

library(plotly)
## Loading required package: ggplot2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(reshape2)
p<-ggplot(CO_Tabla, aes(x = lon , y = lat))+ geom_raster(aes(fill = Carbono_Orgánico))+ labs(x="Longitud", y="Latitud",title = "Carbono organico") 
ggplotly(p)

\[H_O:~No~hay~diferencia~entre~las~medias.~\mu_d=0~ó~\delta \\ H_A:~ Si~~hay~diferencia~entre~las~medias~de~las~variables.~\mu \neq 0~ó~\mu \neq \delta\]

t.test(co_superior,co_inferior, paired = TRUE) #Prueba t para muestras pareadas para comparar medias
## 
##  Paired t-test
## 
## data:  co_superior and co_inferior
## t = 51.999, df = 49, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.080937 1.167844
## sample estimates:
## mean of the differences 
##                 1.12439

El valor p es menor que 0.05 (5%) por lo cual hay evidencias significativas para rechazar la hipótesis nula mostrando un cambio de las medias entre la capa superior y la capa inferior.


4.

El siguiente diseño se corresponde con un factorial completo (32) en arreglo completamente al azar. Los factores y la respuesta fueron creados con el código:

D<- expand.grid( F1 = c(3.25,3.75,4.25), F2 = c(4, 5, 6)) #Crea el diseño factorial 
D<- rbind(D,D) #Se crea la estructura para dos repeticiones por tratamiento
set.seed(2020) #Se establece la semilla para fijar los datos
D<- D[order(sample(1:18)),] #Aleatoriza la estructura
class(D)
## [1] "data.frame"
D$biomasa=sort.int (rnorm(18, 3,0.3), partial = 9);D$biomasa #Crea la respuesta "biomasa"
##  [1] 2.708826 2.772692 2.143359 2.560519 2.708666 2.773705 2.770350 2.832470
##  [9] 2.898280 3.359619 3.054099 3.157896 3.487669 3.451547 3.016111 3.042156
## [17] 3.200552 2.989329

-Escriba (completamente especificado) el modelo del diseño. \[y_{ijk}=\mu+F1_i+F2_i+(\tau\delta)_{ij}+\epsilon_{ijk}\\F1:~"Dosis~de~insecticida". ~i:1\cdots3\\F2:~"Numero~de~aplicaciones~.~j:1\cdots3\\k:1\dots2\\ \mu: "Media~general~en~todo~el~experimento\] Realice el Anova para este diseño y de ser necesario realice la prueba de comparaciones de medias para los efectos principales de F1: dosis de un insecticida que se sospecha tiene un efecto de disminución del crecimiento (biomasa) y F2: número de aplicaciones durante el desarrollo del cultivo.

Insecticida<- factor(D$F1, labels = c("3.25", "3.75", "4.25")) #Se establece la variable F1 correspondiente a los datos del diseño como "Dosis de insecticida"
Aplicaciones<- factor(D$F2, labels = c(4, 5, 6)) #Se establece la variable F2 correspondiente a los datos del diseño como "Numero de aplicaciones"
Anova_4<- aov(D$biomasa~Insecticida*Aplicaciones) #Análisis de varianza para ver la biomasa en función de la dosis de insecticida y las aplicaciones
summary(Anova_4)
##                          Df Sum Sq Mean Sq F value Pr(>F)
## Insecticida               2 0.4161 0.20804   1.979  0.194
## Aplicaciones              2 0.3426 0.17128   1.630  0.249
## Insecticida:Aplicaciones  4 0.1635 0.04087   0.389  0.812
## Residuals                 9 0.9459 0.10510
DF4<-data.frame (D$biomasa, Insecticida, Aplicaciones) #Data frame para consolidar los factores junto a la variable respuesta
Z4<-aggregate(x=list(Media_Biomasa=DF4$D.biomasa), by=list(Insecticida=Insecticida,Aplicación=Aplicaciones),
  FUN=mean, na.rm=TRUE); Z4 #Tabla que muestra la variable respuesta expresada según la media 
##   Insecticida Aplicación Media_Biomasa
## 1        3.25          4      2.965294
## 2        3.75          4      3.080186
## 3        4.25          4      3.344110
## 4        3.25          5      2.634592
## 5        3.75          5      3.128949
## 6        4.25          5      2.894908
## 7        3.25          6      2.592757
## 8        3.75          6      2.801410
## 9        4.25          6      3.021714

Use los resultados del ANOVA y el gráfico de interacción (ggplot2) para visualizar si existe o no interacción entre los factores.

library(ggplot2)
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
Z4 %>% 
  ggplot(aes(Insecticida,Media_Biomasa,color=Aplicación))+
  geom_line(aes(group = Aplicación)) #Diagrama de ggplot para dos variables en forma continua para ver la interacción

Las intersecciones entre las aplicaciones nos muestran que hay relaciones entre las 3 aplicaciones, la gráfica nos permite observar que hay segmentos donde las pendientes son opuestas contradiciendo el parámetro de que para que no exista relación deben ser paralelas o sus pendientes iguales en todo el grafico.

El investigador quiso colocar como covariable el contenido de arcilla(expansible) en el suelo utilizado en cada unidad experimental. Genere unos datos con la distribución uniforme cuya medida oscile entre 0.20 y 0.40, ordene estas medidas en forma decreciente y meta dentro del análisis esta variable. Especifique nuevamente el modelo y realice el análisis de covarianza respectivo ¿se justifica el uso de la covariable? Construya nuevamente el gráfico de interacción y compare con el caso sin covariable (discuta el resultado). Revise en internet los supuestos que deben tener las covariables para ser utilizadas en el modelo. ¿Se está incumpliendo en nuestros datos alguno de los supuestos necesarios? Revise los supuestos sobre los residuales tanto del ANOVA como del ANCOVA ¿qué puede percibir? ¿recomendaría el uso de arcillas para minimizar el efecto sobre el contenido de biomasa que puede ocasionar el uso del insecticida?

\[y_{ijk}=\mu+F1_i+F2_i+(F1F2)_{ij}+\omega(X_{ijk} - \overline{X_{...}})\epsilon_{ijk}\\i:1\cdots3\\j:1\cdots3\\k:1\dots2\\ \omega: la~covariable~"Arcillas". Esta~no~tiene~relación~con~F1~y~F2 \]

set.seed(2019)#Se produce una semilla para que los datos tengan un valor fijo y puedan ser repetibles 
Ar<- runif(18, 0.20, 0.40) #Se crea la covariable correspondiente a los valores de distribución uniforme de las arcillas
Arcillas<- sort(Ar, decreasing = TRUE) #Se ordenan los resultados de las arcillas para que se despliegen en orden decreciente
DF4_1<- cbind(DF4, Arcillas); DF4_1 #Se crea un nuevo data frame para incorporar los valores de las arcillas
##    D.biomasa Insecticida Aplicaciones  Arcillas
## 1   2.708826        3.75            4 0.3640352
## 2   2.772692        3.25            4 0.3539803
## 3   2.143359        3.25            6 0.3539636
## 4   2.560519        3.25            5 0.3425679
## 5   2.708666        3.25            5 0.3400630
## 6   2.773705        4.25            5 0.3389455
## 7   2.770350        3.75            6 0.3321085
## 8   2.832470        3.75            6 0.3270906
## 9   2.898280        3.75            5 0.3236473
## 10  3.359619        3.75            5 0.3217144
## 11  3.054099        4.25            6 0.2606720
## 12  3.157896        3.25            4 0.2433849
## 13  3.487669        4.25            4 0.2390035
## 14  3.451547        3.75            4 0.2204983
## 15  3.016111        4.25            5 0.2136240
## 16  3.042156        3.25            6 0.2100967
## 17  3.200552        4.25            4 0.2086438
## 18  2.989329        4.25            6 0.2019229
#Análisis de varianza para ver la biomasa en función de la dosis de insecticida y las aplicaciones para compararla con el análisis de varianza de la biomasa en función de la dosis de insecticida y las aplicaciones sumado con la interacción de la arcilla 
summary(Anova_4) 
##                          Df Sum Sq Mean Sq F value Pr(>F)
## Insecticida               2 0.4161 0.20804   1.979  0.194
## Aplicaciones              2 0.3426 0.17128   1.630  0.249
## Insecticida:Aplicaciones  4 0.1635 0.04087   0.389  0.812
## Residuals                 9 0.9459 0.10510
Anova_4ar<-aov(D$biomasa~Insecticida*Aplicaciones+Arcillas); summary(Anova_4ar)
##                          Df Sum Sq Mean Sq F value  Pr(>F)   
## Insecticida               2 0.4161  0.2080   4.849 0.04175 * 
## Aplicaciones              2 0.3426  0.1713   3.992 0.06275 . 
## Arcillas                  1 0.6462  0.6462  15.062 0.00467 **
## Insecticida:Aplicaciones  4 0.1200  0.0300   0.699 0.61386   
## Residuals                 8 0.3432  0.0429                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary(Anova_4) #Esta es nuestra prueba
##                          Df Sum Sq Mean Sq F value Pr(>F)
## Insecticida               2 0.4161 0.20804   1.979  0.194
## Aplicaciones              2 0.3426 0.17128   1.630  0.249
## Insecticida:Aplicaciones  4 0.1635 0.04087   0.389  0.812
## Residuals                 9 0.9459 0.10510
Anova_4p<-aov(D$biomasa~Insecticida*Arcillas); summary(Anova_4p)
##                      Df Sum Sq Mean Sq F value  Pr(>F)   
## Insecticida           2 0.4161  0.2080   3.734 0.05486 . 
## Arcillas              1 0.7235  0.7235  12.985 0.00362 **
## Insecticida:Arcillas  2 0.0598  0.0299   0.537 0.59813   
## Residuals            12 0.6687  0.0557                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Al contrastar el modelo de varianza sin arcilla al que tiene arcilla podemos ver la disminución general de valores P sin embargo ninguno de los valores modificados (los presentes en ambas tablas de varianza) llegan a ser menores a 0.05 (5%) que se le otorga como punto de rechazo a la Ho por lo que no hay diferencias y se podría asumir que los coeficientes de variación son altos. Por otra parte, el p-valor del modelo 2 nos arroja un valor significativo para la covariable que corresponde al contenido de arcillas ya que es menor al 5%, por lo que se incumple respectivamente el supuesto de independencia y por lo tanto se concluye que el contenido de biomasa se ve alterado por los valores que toma el suelo arcilloso.

¿Se justifica el uso de la covariable? Agregar covariables a un estudio puede disminuir el error en el diseño experimental siempre que estas demuestren ser factores de interés. En este caso, dada la información otorgada por el anova de este factor continuo no controlado en la toma de muestras, se evidencio una relación entre la textura y la biomasa, por lo que agregándole el componente de arcillas se puede analizar su influencia en el desarrollo de las plantas complementando más el estudio.

Covarianza<-anova(Anova_4,Anova_4ar); Covarianza #Análisis realizado para obtener la covarianza
## Analysis of Variance Table
## 
## Model 1: D$biomasa ~ Insecticida * Aplicaciones
## Model 2: D$biomasa ~ Insecticida * Aplicaciones + Arcillas
##   Res.Df     RSS Df Sum of Sq      F  Pr(>F)   
## 1      9 0.94594                               
## 2      8 0.34324  1    0.6027 14.047 0.00564 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
plot(Anova_4p) #Visualización del comportamiento de los residuales

Sobre los supuestos de los residuales percibimos que tienen una distribución conjunta normal, que las perturbaciones entre los dos modelos presentaron distintas varianzas, es decir esta medida no es constante, además los residuales de la interacción entre insecticida y aplicaciones registraron menores grados de libertad que en aquella entre el insecticida y la covariable arcillas, por lo tanto, es más preciso analizar el segundo modelo; que los errores presentan una leve correlación analizando su patrón de comportamiento en el plot y por último, que los errores dependen de las variables explicativas.

Revisión de supuestos

Anova; Supuesto de independencia: La textura del suelo es independiente a los demás, sin embargo los factores insecticida y aplicaciones no son independientes ya que del número de aplicaciones el insecticida surtirá más o menos efecto, en consecuencia como ya ha sido mencionado anteriormente este supuesto se incumple. Supuesto de normalidad: \[H_O: La~población~tiene~una~distribución~normal \\ H_A:~Se~rechaza~la~ hipótessis~nula\\ \alpha:0.05\]

shapiro.test(DF4_1$D.biomasa) #Test de shapiro para la distribución normal de los datos de biomasa
## 
##  Shapiro-Wilk normality test
## 
## data:  DF4_1$D.biomasa
## W = 0.96229, p-value = 0.6463
shapiro.test(DF4_1$Arcillas) #Test de shapiro para la distribución normal de los datos de arcilla
## 
##  Shapiro-Wilk normality test
## 
## data:  DF4_1$Arcillas
## W = 0.83864, p-value = 0.005635

El test de shapiro muestra que un conjunto de datos tenga la distribución normal bajo el supuesto de la hipótesis nula sea que el conjunto de datos sea gaussiano, la prueba de shapiro por defecto trabaja con un nivel de confianza igual a 95% (0.95) por lo tanto los datos de biomasa son datos normales y el conjunto de datos de arcillas no tienen distribución normal. No se cumple el supuesto de normalidad. \[H_O: S_a = S_b\\ H_A:S_a \neq S_b\\ S_a = S_b ~ si~y~solo~si~~\frac{S_a}{S_b}=1\]

Supuesto de homocedasticidad:

var.test(DF4_1$D.biomasa,DF4_1$Arcillas) #Var-test para comparar la varianza entre las dos variables biomasa y arcilla
## 
##  F test to compare two variances
## 
## data:  DF4_1$D.biomasa and DF4_1$Arcillas
## F = 29.352, num df = 17, denom df = 17, p-value = 5.034e-09
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  10.97957 78.46589
## sample estimates:
## ratio of variances 
##           29.35169

El test muestra que la varianza de ambos conjuntos de datos es bastante alejada a 1, por lo tanto, se rechaza el supuesto de homocedasticidad.

Ancova:

#Supuesto de relación lineal mediante un grafico de dispersión
plot(DF4_1$D.biomasa~DF4_1$Arcillas, main= "Dispersión")
s<-lm(DF4_1$D.biomasa~DF4_1$Arcillas, data = DF4_1);s
## 
## Call:
## lm(formula = DF4_1$D.biomasa ~ DF4_1$Arcillas, data = DF4_1)
## 
## Coefficients:
##    (Intercept)  DF4_1$Arcillas  
##          4.003          -3.679
abline(s, col="red")

Como se observa claramente los datos son alejados a una tendencia lineal por lo cual no se cumple el supuesto principal de relación lineal. ¿Recomendaría el uso de arcillas para minimizar el efecto sobre el contenido de biomasa que puede ocasionar el uso del insecticida? Las arcillas son constituyentes naturales del suelo, por lo que es coherente tomarlas en cuenta como covariable para analizar los efectos de la aplicación de un insecticida en un cultivo, ya que tienen mayor capacidad de retención de residuos del mismo, lo que posiblemente influya en el comportamiento catiónico en el suelo y como respuesta se altere la capacidad de las raíces de las plantas para absorber los nutrientes indispensables para la generación de su biomasa, por lo tanto, Sí recomendaríamos su uso.


5.

Existe un tipo de diseño anidado (factorial incompleta) conocido como anidado escalonado (staggered nested design) y ocurre tal como se muestra en la imagen, donde se tienen dos fincas sembradas con variedades de papa solo que la finca A permite que se desarrollen las dos variedades mientras que la altitud de la finca B solo permite el desarrollo de una de ellas. Además, se tienen dos parcelas con la variedad 1 en la primera finca y solo una en el resto de las fincas.

library(readxl) #Lectura de los datos proporcionados para el cultivo de papa
ruta_datos5<-"C:\\Users\\user\\Documents\\Parcial R\\Aleja\\datos5.xlsx"
Datos_5<-read_excel(ruta_datos5);Datos_5
## # A tibble: 80 x 5
##    Finca Variedad  Test Parcelas Respuesta
##    <chr>    <dbl> <dbl>    <dbl>     <dbl>
##  1 A            1     1        1      9.76
##  2 A            1     1        2     10.6 
##  3 A            1     1        3      6.5 
##  4 A            1     1        4      8.08
##  5 A            1     1        5      7.84
##  6 A            1     1        6      9   
##  7 A            1     1        7     12.8 
##  8 A            1     1        8     10.6 
##  9 A            1     1        9      4.88
## 10 A            1     1       10      9.38
## # ... with 70 more rows
#Denominar los datos de la tabla como una variable
Finca<-Datos_5$Finca
Variedad<- Datos_5$Variedad
Test<- Datos_5$Test
Parcela<- Datos_5$Parcelas
Respuesta<- Datos_5$Respuesta
modD5<- aov(Respuesta~ Parcela+ Parcela:Finca + Parcela:Finca:Variedad, data = Datos_5); summary(modD5)
##                        Df Sum Sq Mean Sq F value Pr(>F)
## Parcela                 1    5.3   5.282   0.608  0.438
## Parcela:Finca           1    3.1   3.077   0.354  0.554
## Parcela:Finca:Variedad  1    5.2   5.179   0.596  0.443
## Residuals              76  660.7   8.693

Gracias a este análisis de varianza concluimos que no existe interacción entre los tres factores. Su valor de F es menor que 1 por lo tanto, en ninguno hay un efecto significativo, por otra parte, el P valor es mayor al 5% por lo que no hay suficiente evidencia para afirmar que sus medias son diferentes. Cabe recalcar que en este diseño la distribución de los grados de libertad es más equilibrada que en un diseño totalmente anidado, como vemos es de 1 para todos los factores.

library(collapsibleTree) #Diagrama de árbol para observar el diseño anidado escalonado
  collapsibleTreeSummary(Datos_5,c("Finca", "Variedad",
                           "Test","Respuesta"),nodeSize = "leafCount",
                         maxPercent = 50,attribute = "Respuesta",linkLength=150,
                         fillFun = colorspace::terrain_hcl,tooltip = T)

Use la librería lme4 tal como aparece en el código abajo. La etiqueta “ue” hace referencia a la unidad experimental (parcela) utilizada, por lo que se necesita crear una columna que identifique la parcela, una que identifique la finca, otra para la variedad y otra para lo que aquí se llama test pero que hace referencia en este caso a los cuadrados de 1.5m*1.5m usados para tomar las muestras de plantas dentro de las parcelas. Estos diseños son usados para estimar la varianza atribuible a las parcelas, a las parcelas anidadas en las fincas, y a la variedad dentro de la finca. El código presentado puede ayudar a la estimación de estas varianzas.

library (lme4) #Generación de datos para análisis de varianza
## Loading required package: Matrix
modeloD5 <- lmer (Respuesta~1 + (1|Parcela) + (1|Parcela:Finca) + (1|Parcela:Finca:Variedad), data = Datos_5) #Ajuste del modelo mixto
## boundary (singular) fit: see ?isSingular
summary(modeloD5)
## Linear mixed model fit by REML ['lmerMod']
## Formula: 
## Respuesta ~ 1 + (1 | Parcela) + (1 | Parcela:Finca) + (1 | Parcela:Finca:Variedad)
##    Data: Datos_5
## 
## REML criterion at convergence: 326
## 
## Scaled residuals: 
##      Min       1Q   Median       3Q      Max 
## -1.92753 -0.39932  0.00922  0.43797  1.65397 
## 
## Random effects:
##  Groups                 Name        Variance Std.Dev.
##  Parcela:Finca:Variedad (Intercept) 1.2305   1.1093  
##  Parcela:Finca          (Intercept) 0.0000   0.0000  
##  Parcela                (Intercept) 7.0127   2.6481  
##  Residual                           0.8795   0.9378  
## Number of obs: 80, groups:  
## Parcela:Finca:Variedad, 60; Parcela:Finca, 40; Parcela, 20
## 
## Fixed effects:
##             Estimate Std. Error t value
## (Intercept)   8.2369     0.6188   13.31
## convergence code: 0
## boundary (singular) fit: see ?isSingular

En conclusión el factor que corresponde a la variedad de papa aporta la mayor variabilidad en las dos fincas y consecuentemente en las 20 parcelas, en concordancia como se muestra en el gráfico de violín a continuación las respuestas a los muestreos fueron más dispersas en la finca A en donde se sembraron dos tipos de diferentes del tubérculo (uno y dos) con respecto a la finca B en donde solo se instaura la uno, además es en la primera de ellas en donde se registran más test, como lo aprendimos en clase la varianza esta en función de las repeticiones.

library(ggplot2)
df5 = data.frame(Respuesta, Finca)
ggplot(df5, aes(y = Respuesta, x= Finca, fill = Parcela ))+geom_violin() #Diagrama para una variable compuesta (x) y una continua (y)

Use los datos que se muestran para estimar las varianzas antes descritas. Una ayuda para la solución de este problema puede encontrarse en el libro: Design and Analysis of Experiments with R de John Lawson.

Bibliografía de apoyo http://staff.utar.edu.my/limsk/Consultancy/Nested%20Factorial%20Design.pdf

https://www.youtube.com/watch?v=Tc9I04e3w7Q

https://www.stat.purdue.edu/~bacraig/notes1/topic19.pdf

http://www.ru.ac.bd/stat/wp-content/uploads/sites/25/2019/03/502_07_00_Lawson_Design-and-Analysis-of-Experiments-with-R-2017.pdf

https://fhernanb.github.io/libro_modelos_mixtos/pac-nlme.html.


6.

En el enlace https://cran.r-project.org/web/packages/asbio/asbio.pdf se tienen unos datos de potasio de muestras de suelos medidas en 8 diferentes laboratorios. Compare descriptivamente (medidas, tablas y gráficos) para representar los datos. ¿Qué prueba me recomendaría para comparar la medida que usted seleccione? Proponga una solución. Sabiendo que son muestras mezcladas de una misma finca, ¿Se perciben diferencias en las medidas como consecuencia probable de los laboratorios? Sugerencia: Use el enfoque no paramétrico considerado en clase y su respectiva prueba de comparación por pares (Nemenyi).

#Generación de datos los cuales son los resultados obtenidos de potasio para cada laboratorio
B <- c(296,260,341,359,323,321,287,413,335); mean(B); median(B); sd(B)
## [1] 326.1111
## [1] 323
## [1] 44.40564
D <- c(315,330,326,354,266,348,343,284,324); mean(D); median(D); sd(D)
## [1] 321.1111
## [1] 326
## [1] 29.2551
E <- c(351,302,395,357,400,187,376,283,198); mean(E); median(E); sd(E)
## [1] 316.5556
## [1] 351
## [1] 80.35097
F1 <-c(327,354,308,274,324,305,347,297,305); mean(F1); median(F1); sd(F1)
## [1] 315.6667
## [1] 308
## [1] 25.04995
G <- c(326,301,316,312,297,280,300,319,286); mean(G); median(G); sd(G)
## [1] 304.1111
## [1] 301
## [1] 15.37404
H <- c(218,280,241,226,243,199,205,225,227); mean(H); median(H); sd(H)
## [1] 229.3333
## [1] 226
## [1] 23.89037
I <- c(338,303,341,311,355,269,284,279,339); mean(I); median(I); sd(I)
## [1] 313.2222
## [1] 311
## [1] 31.39577
J <- c(359,318,313,352,334,356,342,299,353); mean(J); median(J); sd(J)
## [1] 336.2222
## [1] 342
## [1] 21.6089
Medianas<- data.frame(median(B),median(D),median(E),median(F1),median(G),median(H),median(I),median(J)); Medianas #Tabla donde se juntan las medianas de todos los laboratorios
##   median.B. median.D. median.E. median.F1. median.G. median.H. median.I.
## 1       323       326       351        308       301       226       311
##   median.J.
## 1       342
Potasio = c(B,D,E,F1,G,H,I,J) #Consolidar todos los resultados como la variable "Potasio"
Laboratorios = gl(8, 9, labels = c("B","D","E","F","G","H","I","J")) #Desarrollo de los niveles para definir las series que categorizaran los resultados de potasio obtenidos
library(ggplot2)
df = data.frame(Potasio = c(B,D,E,F1,G,H,I,J), Laboratorios = gl(8, 9, labels = c("B","D","E","F","G","H","I","J"))) #Data frame donde se consolidan los datos de potasio junto a el respectivo laboratorio que los obtuvo
ggplot(df, aes(y = Potasio, x= Laboratorios, fill = Laboratorios ))+geom_violin() #Diagrama de la concentración de los datos obtenidos en forma de violin

library(lattice)
bwplot(Potasio~Laboratorios, col = "brown", xlab = "laboratory" , ylab = "K in mg/kg") #Diagrama de concentración que muestra la posición de las medias con respecto al rango intercuartilico y la presencia de datos "extremos"

Para analizar el comportamiento se podría realizar una prueba que estudie la mediana, ya que consideramos que en algunos casos la existencia de datos extremos afectaran la media Por lo cual realizaremos la prueba de Wilcox para pruebas pareadas.

\[H_O: Mediana_{\beta} ≈ Mediana_{\alpha} \\H_A: Mediana_{\beta} \neq Mediana_{\alpha}\\ \alpha:~Cualquier~laboratorio\\ \beta:~Cualquier~laboratorio~diferente~a~\alpha~ (\alpha \neq \beta)\]

wt<-wilcox.test(B,H,mu = 0, paired = TRUE, alternative = 'g', conf.level = 0.95);wt #Prueba de wilcoxon para pruebas no parametricas
## 
##  Wilcoxon signed rank exact test
## 
## data:  B and H
## V = 44, p-value = 0.003906
## alternative hypothesis: true location shift is greater than 0
ifelse(wt$p.value<0.05, 'Rechazo HO', 'No rechazo HO')
## [1] "Rechazo HO"

Considerando la distribución del suelo en la misma finca los valores deben ser similares o estar cercanos, al ser recolectado para analizar su contenido de potasio los valores deben tener alguna relación. Sin embargo, por la heterogeneidad de los suelos las propiedades físicas pueden variar con sus sectores cercanos, su variación puede deberse en la misma finca a procesos del suelo, procesos agronómicos, disturbaciones físicas. El resumen experimental del articulo habla de cómo las muestras fueron enviadas en el transcurso de 3 años por lo cual la variable tiempo ya es un factor considerable, adicionalmente a esto los laboratorios demostraron presentar diferencias en sus mediciones puesto que en casos como el laboratorio “H” los valores son totalmente diferentes y al ser contrastada su media con cualquier otra prueba por el método de Wilcoxon no presenta similitud.

library(PMCMR)
## Warning: package 'PMCMR' was built under R version 4.0.3
## PMCMR is superseded by PMCMRplus and will be no longer maintained. You may wish to install PMCMRplus instead.
posthoc.kruskal.nemenyi.test(Potasio~Laboratorios)
## Warning in posthoc.kruskal.nemenyi.test.default(c(296, 260, 341, 359, 323, :
## Ties are present, p-values are not corrected.
## 
##  Pairwise comparisons using Tukey and Kramer (Nemenyi) test  
##                    with Tukey-Dist approximation for independent samples 
## 
## data:  Potasio by Laboratorios 
## 
##   B      D      E      F      G      H      I     
## D 1.0000 -      -      -      -      -      -     
## E 1.0000 1.0000 -      -      -      -      -     
## F 0.9999 0.9999 0.9998 -      -      -      -     
## G 0.9324 0.9324 0.9222 0.9943 -      -      -     
## H 0.0098 0.0098 0.0087 0.0397 0.2764 -      -     
## I 0.9993 0.9993 0.9989 1.0000 0.9984 0.0600 -     
## J 0.9893 0.9893 0.9916 0.9051 0.4405 0.0003 0.8461
## 
## P value adjustment method: none

Analizando los resultados nos damos cuenta que pese a que las muestras sean independientes y entre ellas tengan un componente de variación temporal existe bastante relación a excepción de los resultados mostrados por la finca H ya que sus valores son muy inferiores a los demás y salvo por un dato “atípico” este no tiene una gran variación.


7.

Diseñe un experimento en parcelas divididas en bloques completos (diseño en franjas o strip plot design). Genere los datos usted mismo y esquematice el diseño. Expliqué las razones de colocar el primer factor en la parcela principal [tipos de abono] y el segundo en la subparcela[variedad]. Genere unos datos asociados a una covariable [peso]y corra el análisis de covarianza respectivo. ¿se justifica el uso de la covariable en el modelo? ¿se justifica el bloque [8 réplicas???]en el modelo? ¿se tiene interacción de factores? De no presentarse interacción, reduzca el modelo a la presencia de solo términos cuyos p_ valores sean menores al 6%. Escriba el modelo final e interprete el resultado desde un punto de vista agronómico seleccionando el “mejor tratamiento” en la mejor condición de bloqueo y con la presencia de la covariable. No olvide ordenar datos de la covariable. Revise los supuestos necesarios para el análisis estadístico que está proponiendo.

En una empresa de producción de hortalizas se desean implementar cultivos más responsables con el medio ambiente, para ello se adicionaron dos tipos de abono 1. orgánico y 2. químico además de un 0. control con ocho repeticiones en tres variedades de acelga diferentes (1. Penca blanca 2. Amarilla de lyon 3. Fordhook Giant) con el objetivo de contrastar la generación de su biomasa con la covariable peso y así obtener más información para tomar la decisión corporativa más viable.

library(readxl) 
ruta_datos7<-"C:\\Users\\user\\Documents\\Parcial R\\Aleja\\datos7.xlsx"
Datos_7<-read_excel(ruta_datos7);Datos_7 #Datos importados de un excel
## # A tibble: 72 x 3
##    Replica Abono Variedad
##      <dbl> <dbl>    <dbl>
##  1       1     0        1
##  2       2     0        1
##  3       3     0        1
##  4       4     0        1
##  5       5     0        1
##  6       6     0        1
##  7       7     0        1
##  8       8     0        1
##  9       1     0        2
## 10       2     0        2
## # ... with 62 more rows
Replica<-Datos_7$Replica
Abono<- Datos_7$Abono
Var<- Datos_7$Variedad

Generación de la variable respuesta: biomasa

set.seed(2019) #Se establece una semilla para que los datos puedan ser fijados y replicados posteriormente
biomasa<-c(rnorm(24,10,0.8),rnorm(24,14,0.2),rnorm(24,13,0.5));biomasa
##  [1] 10.590818  9.588192  8.687855 10.732829  8.986014 10.590598  9.373902
##  [8] 10.407437  8.808049  9.744657  9.809671 11.294898  9.105919 10.187202
## [15] 10.252921 10.296615 10.702071  8.585341  9.738299  8.189420 10.228448
## [22] 10.774743 10.693845 11.102508 13.838348 13.897569 13.639206 14.008126
## [29] 14.527203 13.676800 13.813088 14.126077 14.152152 13.897675 14.200381
## [36] 13.923322 13.904573 14.050842 13.767302 13.912412 13.655173 14.345029
## [43] 14.018431 14.014623 14.128030 14.041225 14.172641 14.027956 12.885953
## [50] 12.840086 12.973526 12.881801 12.831018 12.622258 12.569203 12.736167
## [57] 12.605016 13.474758 13.014304 13.409894 12.499730 12.619821 13.222121
## [64] 13.869343 12.612399 12.408718 12.842986 12.803292 13.279952 12.875129
## [71] 13.322068 13.295163
#Datos generados para las mediciones de biomasa
Biomasa<-cbind(Datos_7,biomasa);Biomasa #Uso del comando "cbind" para unir los datos de biomasa a las columnas de los datos del diseño experimental
##    Replica Abono Variedad   biomasa
## 1        1     0        1 10.590818
## 2        2     0        1  9.588192
## 3        3     0        1  8.687855
## 4        4     0        1 10.732829
## 5        5     0        1  8.986014
## 6        6     0        1 10.590598
## 7        7     0        1  9.373902
## 8        8     0        1 10.407437
## 9        1     0        2  8.808049
## 10       2     0        2  9.744657
## 11       3     0        2  9.809671
## 12       4     0        2 11.294898
## 13       5     0        2  9.105919
## 14       6     0        2 10.187202
## 15       7     0        2 10.252921
## 16       8     0        2 10.296615
## 17       1     0        3 10.702071
## 18       2     0        3  8.585341
## 19       3     0        3  9.738299
## 20       4     0        3  8.189420
## 21       5     0        3 10.228448
## 22       6     0        3 10.774743
## 23       7     0        3 10.693845
## 24       8     0        3 11.102508
## 25       1     1        1 13.838348
## 26       2     1        1 13.897569
## 27       3     1        1 13.639206
## 28       4     1        1 14.008126
## 29       5     1        1 14.527203
## 30       6     1        1 13.676800
## 31       7     1        1 13.813088
## 32       8     1        1 14.126077
## 33       1     1        2 14.152152
## 34       2     1        2 13.897675
## 35       3     1        2 14.200381
## 36       4     1        2 13.923322
## 37       5     1        2 13.904573
## 38       6     1        2 14.050842
## 39       7     1        2 13.767302
## 40       8     1        2 13.912412
## 41       1     1        3 13.655173
## 42       2     1        3 14.345029
## 43       3     1        3 14.018431
## 44       4     1        3 14.014623
## 45       5     1        3 14.128030
## 46       6     1        3 14.041225
## 47       7     1        3 14.172641
## 48       8     1        3 14.027956
## 49       1     2        1 12.885953
## 50       2     2        1 12.840086
## 51       3     2        1 12.973526
## 52       4     2        1 12.881801
## 53       5     2        1 12.831018
## 54       6     2        1 12.622258
## 55       7     2        1 12.569203
## 56       8     2        1 12.736167
## 57       1     2        2 12.605016
## 58       2     2        2 13.474758
## 59       3     2        2 13.014304
## 60       4     2        2 13.409894
## 61       5     2        2 12.499730
## 62       6     2        2 12.619821
## 63       7     2        2 13.222121
## 64       8     2        2 13.869343
## 65       1     2        3 12.612399
## 66       2     2        3 12.408718
## 67       3     2        3 12.842986
## 68       4     2        3 12.803292
## 69       5     2        3 13.279952
## 70       6     2        3 12.875129
## 71       7     2        3 13.322068
## 72       8     2        3 13.295163
library(collapsibleTree) #Diagrama de árbol para observar el diseño de parcelas divididas 
  collapsibleTreeSummary(Biomasa,c("Abono","Variedad","Replica"),nodeSize = "leafCount",
                         maxPercent = 50,attribute = "biomasa",linkLength=150,
                         fillFun = colorspace::terrain_hcl,tooltip = T)
library(lattice)
boxplot(Biomasa$biomasa~Abono,ylim = c(8,15)) #Boxplot para representar la concentración de los datos de biomasa según el abono utilizado

library(lattice)
library(car)
## Loading required package: carData
## Registered S3 methods overwritten by 'car':
##   method                          from
##   influence.merMod                lme4
##   cooks.distance.influence.merMod lme4
##   dfbeta.influence.merMod         lme4
##   dfbetas.influence.merMod        lme4
## 
## Attaching package: 'car'
## The following object is masked from 'package:dplyr':
## 
##     recode
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.0.3
## 
## Attaching package: 'agricolae'
## The following object is masked from 'package:PMCMR':
## 
##     durbin.test
with(Biomasa, xyplot(biomasa~Variedad|Abono))

Con el abono orgánico se presentan los mayores valores de biomasa en todas las variedades de acelga, así mismo los datos son menos dispersos, cada punto representa cada una de las ocho replicas. #### Covariable = peso

set.seed(2019) #Se establece una semilla para así poder fijar los datos y permitir que sean replicables
peso<-c(runif(24,0.60,0.80),runif(24,1.05,1.10),runif(24,0.90,1.0));peso #Se generan datos de distribución uniforme para asignarlos a el peso de las muestras de biomasa
##  [1] 0.7539803 0.7425679 0.6606720 0.7236473 0.6100967 0.6086438 0.7640352
##  [8] 0.6019229 0.6204983 0.7217144 0.7539636 0.7321085 0.6433849 0.6390035
## [15] 0.7389455 0.7270906 0.6136240 0.7400630 0.6749591 0.6938189 0.6811950
## [22] 0.7162996 0.7894472 0.6342038 1.0565934 1.0505516 1.0796254 1.0974154
## [29] 1.0812028 1.0727810 1.0822298 1.0504627 1.0904958 1.0585151 1.0519252
## [36] 1.0542976 1.0685893 1.0723130 1.0505905 1.0891320 1.0806196 1.0628627
## [43] 1.0916792 1.0835577 1.0903556 1.0747435 1.0957960 1.0965256 0.9209471
## [50] 0.9199297 0.9304272 0.9087340 0.9035618 0.9346439 0.9516205 0.9373264
## [57] 0.9995806 0.9916189 0.9053047 0.9049703 0.9175008 0.9216153 0.9735779
## [64] 0.9308364 0.9776600 0.9983422 0.9304458 0.9084659 0.9841806 0.9595636
## [71] 0.9350715 0.9133958
Peso<-cbind(Biomasa,peso);Peso #El comando Cbind permite unir la nueva columna de los datos de peso con sus respectivas biomasas
##    Replica Abono Variedad   biomasa      peso
## 1        1     0        1 10.590818 0.7539803
## 2        2     0        1  9.588192 0.7425679
## 3        3     0        1  8.687855 0.6606720
## 4        4     0        1 10.732829 0.7236473
## 5        5     0        1  8.986014 0.6100967
## 6        6     0        1 10.590598 0.6086438
## 7        7     0        1  9.373902 0.7640352
## 8        8     0        1 10.407437 0.6019229
## 9        1     0        2  8.808049 0.6204983
## 10       2     0        2  9.744657 0.7217144
## 11       3     0        2  9.809671 0.7539636
## 12       4     0        2 11.294898 0.7321085
## 13       5     0        2  9.105919 0.6433849
## 14       6     0        2 10.187202 0.6390035
## 15       7     0        2 10.252921 0.7389455
## 16       8     0        2 10.296615 0.7270906
## 17       1     0        3 10.702071 0.6136240
## 18       2     0        3  8.585341 0.7400630
## 19       3     0        3  9.738299 0.6749591
## 20       4     0        3  8.189420 0.6938189
## 21       5     0        3 10.228448 0.6811950
## 22       6     0        3 10.774743 0.7162996
## 23       7     0        3 10.693845 0.7894472
## 24       8     0        3 11.102508 0.6342038
## 25       1     1        1 13.838348 1.0565934
## 26       2     1        1 13.897569 1.0505516
## 27       3     1        1 13.639206 1.0796254
## 28       4     1        1 14.008126 1.0974154
## 29       5     1        1 14.527203 1.0812028
## 30       6     1        1 13.676800 1.0727810
## 31       7     1        1 13.813088 1.0822298
## 32       8     1        1 14.126077 1.0504627
## 33       1     1        2 14.152152 1.0904958
## 34       2     1        2 13.897675 1.0585151
## 35       3     1        2 14.200381 1.0519252
## 36       4     1        2 13.923322 1.0542976
## 37       5     1        2 13.904573 1.0685893
## 38       6     1        2 14.050842 1.0723130
## 39       7     1        2 13.767302 1.0505905
## 40       8     1        2 13.912412 1.0891320
## 41       1     1        3 13.655173 1.0806196
## 42       2     1        3 14.345029 1.0628627
## 43       3     1        3 14.018431 1.0916792
## 44       4     1        3 14.014623 1.0835577
## 45       5     1        3 14.128030 1.0903556
## 46       6     1        3 14.041225 1.0747435
## 47       7     1        3 14.172641 1.0957960
## 48       8     1        3 14.027956 1.0965256
## 49       1     2        1 12.885953 0.9209471
## 50       2     2        1 12.840086 0.9199297
## 51       3     2        1 12.973526 0.9304272
## 52       4     2        1 12.881801 0.9087340
## 53       5     2        1 12.831018 0.9035618
## 54       6     2        1 12.622258 0.9346439
## 55       7     2        1 12.569203 0.9516205
## 56       8     2        1 12.736167 0.9373264
## 57       1     2        2 12.605016 0.9995806
## 58       2     2        2 13.474758 0.9916189
## 59       3     2        2 13.014304 0.9053047
## 60       4     2        2 13.409894 0.9049703
## 61       5     2        2 12.499730 0.9175008
## 62       6     2        2 12.619821 0.9216153
## 63       7     2        2 13.222121 0.9735779
## 64       8     2        2 13.869343 0.9308364
## 65       1     2        3 12.612399 0.9776600
## 66       2     2        3 12.408718 0.9983422
## 67       3     2        3 12.842986 0.9304458
## 68       4     2        3 12.803292 0.9084659
## 69       5     2        3 13.279952 0.9841806
## 70       6     2        3 12.875129 0.9595636
## 71       7     2        3 13.322068 0.9350715
## 72       8     2        3 13.295163 0.9133958
Anova_7<-aov(Biomasa$biomasa~Biomasa$Abono*Biomasa$Variedad+Error(Replica:Abono)) #Anova sin la covariable
summary(Anova_7)
## 
## Error: Replica:Abono
##               Df Sum Sq Mean Sq
## Biomasa$Abono  1  70.76   70.76
## 
## Error: Within
##                                Df Sum Sq Mean Sq F value   Pr(>F)    
## Biomasa$Abono                   1  37.56   37.56  20.165 2.87e-05 ***
## Biomasa$Variedad                1   0.19    0.19   0.103    0.749    
## Biomasa$Abono:Biomasa$Variedad  1   0.00    0.00   0.000    0.996    
## Residuals                      67 124.79    1.86                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La segunda fase presenta mayores grados de libertad en sus residuales lo que quiere decir que hay más repeticiones causadas por esta interaccion entre el tipo de abono y la variedad que por el tipo de abono solamente, en consecuencia su análisis de varianza es más preciso.

Anova_7F<-aov(Biomasa$biomasa~Biomasa$Abono*Biomasa$Variedad+Replica:Abono) #Anova sin la covariable
summary(Anova_7F)
##                                Df Sum Sq Mean Sq F value   Pr(>F)    
## Biomasa$Abono                   1 108.07  108.07  58.020 1.18e-10 ***
## Biomasa$Variedad                1   0.19    0.19   0.103    0.749    
## Biomasa$Abono:Biomasa$Variedad  1   0.00    0.00   0.000    0.996    
## Replica:Abono                   1   0.25    0.25   0.135    0.715    
## Residuals                      67 124.79    1.86                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

\[H_o:\mu_0=\mu_1=\mu_2\]

El valor de F es mayor a 1 para nuestro factor fijo lo que nos indica que los tipos de abono son diferentes, además el valor de Pr(>F) es menor que el 5% por lo que los resultados son significativos y se rechaza la Ho, pues hay evidencia estadística para considerar que al menos dos medias de los tratamientos son distintas, finalmente es mayor la variabilidad de este factor que el de las repeticiones.

Anova_7P<-aov(Biomasa$biomasa~Biomasa$Abono*Biomasa$Variedad+Peso$peso+Replica:Abono) #Anova con la covariable
summary(Anova_7P)
##                                Df Sum Sq Mean Sq F value Pr(>F)    
## Biomasa$Abono                   1 108.07  108.07 252.246 <2e-16 ***
## Biomasa$Variedad                1   0.19    0.19   0.447  0.506    
## Peso$peso                       1  96.19   96.19 224.512 <2e-16 ***
## Biomasa$Abono:Biomasa$Variedad  1   0.04    0.04   0.082  0.775    
## Replica:Abono                   1   0.55    0.55   1.282  0.262    
## Residuals                      66  28.28    0.43                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Covarianza<-anova(Anova_7F,Anova_7P);Covarianza #Tabla de covarianza
## Analysis of Variance Table
## 
## Model 1: Biomasa$biomasa ~ Biomasa$Abono * Biomasa$Variedad + Replica:Abono
## Model 2: Biomasa$biomasa ~ Biomasa$Abono * Biomasa$Variedad + Peso$peso + 
##     Replica:Abono
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     67 124.794                                  
## 2     66  28.276  1    96.518 225.29 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hay interacción pues el Pr(>F) es menor al 5% por lo cual es significativo.

Variedad<-factor(Biomasa$Variedad,labels =c("Penca blanca","Amarilla de lyon","Fordhook Giant"))
Abono<-factor(Biomasa$Abono,labels =c("Control","Organico","Quimico"))
Z7<-aggregate(x=list(Biom=Biomasa$biomasa), by=list(Abono=Abono,Variedad=Variedad),
  FUN=mean, na.rm=TRUE); Z7
##      Abono         Variedad      Biom
## 1  Control     Penca blanca  9.869706
## 2 Organico     Penca blanca 13.940802
## 3  Quimico     Penca blanca 12.792502
## 4  Control Amarilla de lyon  9.937492
## 5 Organico Amarilla de lyon 13.976082
## 6  Quimico Amarilla de lyon 13.089373
## 7  Control   Fordhook Giant 10.001834
## 8 Organico   Fordhook Giant 14.050388
## 9  Quimico   Fordhook Giant 12.929963
library(ggplot2)
library(dplyr)
Z7 %>% 
  ggplot(aes(Abono,Biom,color=Variedad))+
  geom_line(aes(group = Variedad))+geom_point()+ylab('Biomasa')+xlab('Abono')

Según el grafico es la variedad Fordhook Giant la que presenta una mayor biomasa con el abono organico, le sigue la Amarilla de lyon y luego Penca blanca por lo que los empresarios podrian plantearse sembrar la variedad Fordhook Giant si quieren obtener mayores ganancias ya que la acelga como planta de porte bajo se comercializa por hoja.

library(ggplot2)
library(dplyr)
Peso %>% 
  ggplot(aes(Abono,biomasa,color=peso))+
  geom_line(aes(group = Variedad))+geom_point()+ylab('Biomasa')+xlab('Abono')

Como era de esperarse los mayores registros para peso se generan para el abono organico y se relacionan con la mayor biomasa.

Para este ejercicio escogimos al tipo de abono como factor fijo(parcela) y a la variedad de acelga como factor aleatorio(subparcela) debido a que en la práctica la empresa tiene como proceso fertilizar el suelo antes de sembrar la plántula,la covariable asociada es el peso ya que es una variable continua de la biomasa, la cual presenta una relación directa en beneficios, a mayor peso mayor biomasa; por el valor del P valor menor a 0.05 podemos afirmar que sí se justifica el uso de la covariable , sin embargo el del bloque no pues 26.2%>5%, para este ejemplo serían las 8 repeticiones ya que afectan la variabilidad y no son un factor como tal.Consideramos que el mejor tratamiento en pro de sumarse a la responsabilidad ambiental por parte de la empresa, es en el cual se aplica abono organico pues sus efectos son los mas beneficiosos, debido a que al realizar las mediciones respectivas tanto de biomasa como de peso (covariable) para todas las variedades los resultados fueron mayores comparados con el cultivo desprovisto de abono y tratado con abono quimico.Con la condicion de bloqueo en donde mas se presenta variabilidad, es decir en la “parcela” o sea los tipos de abono.


8.

Realice un resumen con la nota que aparece en las siguientes direcciones sobre:

El uso de los diseños en parcelas divididas: Anderson-Cook,M.2007¿Cuándo debería considerar un diseño de parcela dividida?.Recuperado de: http://207.67.83.164/quality-progress/2007/10/laboratory/when-should-you-consider-a-split-plot-design.html

Este tipo de diseño se originó en base a las divisiones del terreno agrícola. Se compone de dos tipos de factores: los que son fáciles de cambiar y los que no, los primeros corresponden a las subparcelas y los segundos a las parcelas completas,ya que estas tienden a volver a su estado inicial en menor número de ocasiones por unidad de tiempo.Cuando es al azar esta diferencia no ocurre, pues todos los factores se restablecen el mismo número de veces. Básicamente incluye dos aleatorizaciones separadas en los dos factores, se efectúa en dos unidades experimentales y presenta dos tipos de errores. A diferencia de uno completamente aleatorizado, las respuestas entre la parcela y la subparcela están correlacionadas, por lo que el análisis del efecto de un tratamiento debe realizarse integralmente y siempre evaluando las interacciones, ya que si se hace de forma independiente se pueden declarar significancias en donde no las hay o al contrario, no significancias en donde sí.Por otra parte, es considerado más preciso, aplicándolo pueden optimizarse los costos de los experimentos en función de la flexibilidad de los factores y la cantidad de información extraída por lo general es mayor.

Sobre lo que significa unidad experimental y unidad de observación: Bello,N.,et al.2016.Comunicación breve: sobre el reconocimiento de la unidad experimental adecuada en los estudios con animales en las ciencias lácteas.Recuperado de: https://www.sciencedirect.com/science/article/pii/S002203021630621X Escoger un buen diseño experimental es importante para la obtención de resultados que puedan tanto replicarse como reproducirse.

La unidad experimental o de replicación es el ente más pequeño al que se le atribuye un tratamiento específico independiente, por ejemplo, una vaca a la que se le suministran diferentes medicamentos o alimentos; esta a su vez puede convertirse en una población para obtener una aplicación representativa (corrales vacunos).La unidad de observación o de muestreo por su parte es esa porción de la unidad experimental sobre la cual se mide el efecto del tratamiento que se suministró (un individuo específico de un corral o veinte corrales de cien,etc.);un diseño anidado involucra a observaciones codependientes, por lo que si esto sucede entre las dos unidades, la última se denomina submuestra (en el control de la nutrición de un corral se debe tener en cuenta tanto las dietas como el comportamiento del corral ya que el acceso al alimento de cada individuo puede variar), esta interacción puede determinar el número de réplicas del experimento, esto se relaciona con el entendimiento de la estructura jerárquica de los datos. Si es un diseño en medidas repetidas la misma muestra recibe los mismos tratamientos (vaca). El ejercicio WWFD permite distinguir entre los dos tipos de unidades asumiendo los datos como normales, así mismo, la unidad experimental define el nivel de replicación independiente de cada tratamiento, por consiguiente es clave tener en cuenta la interacción entre los factores empleados (período x tratamiento ó período x vaca) y su distinción (filas y columnas) para explicar los errores de diseño en cuadrados latinos, ya que se utiliza más de un bloque para reducirlos; su uso es justificado cuando se quiere abordar más de dos fuentes de variabilidad.

Los modelos estadísticos para analizar los datos son pieza clave en los experimentos y este dará como resultado la manera en la que se presentan los datos y su posterior análisis, sin embargo un mismo modelo puede generar variaciones según los métodos que usen los investigadores a lo largo del componente experimental generando diferentes interpretaciones y conclusiones. Los diseños experimentales deben especificar la influencia de la variable independiente sobre la variable dependiente y los efectos de restricciones o de variables que puedan afectar las observaciones en pro del control de los datos y así definir un modelo apropiado que cubra el comportamiento de los datos, existen modelos mixtos que permiten una adaptación única para el tipo de trabajo desarrollado, la estructura jerárquica se adapta para no tener que destruir o descartar datos del análisis experimental contando con la capacidad de reconocer las fuentes de variación con los que cuentan los datos.

El error estándar en las diferencias de tratamientos se determina con la varianza estimada entre las unidades experimentales, el error estándar es usado para la formulación, comprobación y cálculo de los p valores para el diseño, este error estándar no es el mismo que el error estándar entre medias (usado para probar las diferencias generadas por los tratamientos).

Universidad Estatal de Pensilvania.2020.Unidad experimental y replicación.Recuperado de: https://online.stat.psu.edu/stat502/lesson/6/6.1-0 Una unidad experimental es aquella (objeto,segmento o individuo(s)) que recibe el tratamiento (acuario) y una de muestreo puede ser un individuo o conjunto de ellos sobre los cuales se hacen las observaciones del resultado de aplicar ese tratamiento (peces). Una réplica experimental es cada vez que se aplica en totalidad ese tratamiento con todos sus niveles, en concordancia, los estudios sin réplica son aquellos en donde el experimento se ejecuta solo en una oportunidad. Para llevar a cabo un buen análisis de varianza es primordial identificar que los valores medios de cada unidad muestral sean calculados para cada unidad experimental con el fin de evitar estimaciones incorrectas del valor F, al acrecentarlo, sugiriendo mayores significancias o presencia de diferencias inexistentes.

Guía para diseñar experimentos exitosos:

Casler,M.2015.Fundamentos del diseño experimental: pautas para diseñar experimentos exitosos.Recuperado de: https://acsess.onlinelibrary.wiley.com/doi/full/10.2134/agronj2013.0114 Los diseños experimentales no son perfectos y existen cada vez más variables o métodos diferentes para realizar los experimentos como parte de un constante proceso de innovación, cada uno de ellos es replicable y expresa los resultados según las decisiones creativas que se postulan para resolver las dificultades para obtener valores que confirmen las hipótesis o planteamientos realizados, sin embargo existen 4 bases para un correcto diseño experimental las cuales son;

Replicación: es la capacidad de un experimento de ser reproducido por otro investigador. Esto se hace para estimar el error experimental y a la vez determinar el posible “ruido” en las repeticiones de un experimento, también aumenta la precisión de un experimento donde al aumentar las repeticiones disminuye el error estándar y generar un margen de interpretación mayor y más acertado. La replicación debe aplicarse primordialmente a nivel de la unidad experimental y existe como parte de la variabilidad natural que se someten los experimentos. La pseudoreplicación es el caso donde las replicaciones no son suficientes para una interpretación científica adecuada, para poder realizar una correcta replicación se debe definir la unidad experimental, establecer cómo se van a replicar los tratamientos en la escala correcta aumentando progresivamente el nivel de replicación en la medida que se aumente la escala, esta dependerá del grado de inferencia deseado, de la exactitud de los datos recolectados y del número de replicaciones.

Aleatorización: Es la manera de equilibrar el efecto de condiciones externas o no controlables que pueden influir en los resultados de un experimento, le permite al investigador realizar una evaluación imparcial para las medias y errores experimentales y prevenir que factores espontáneos alteren el experimento. La condición para que sea correcta es que cualquier tratamiento sea igualmente posible de ser aplicado a cualquier unidad experimental.

Bloqueo: Es una variable categórica que explica la variación en la variable de respuesta que no es causada por los factores. Se utiliza para crear grupos experimentales más homogéneos o comparar un factor con otros cuando los tamaños de las unidades experimentales o de las parcelas son necesariamente mayores. Permite controlar los estudios a apariciones de factores espontáneos, los diseños completamente aleatorizados en bloques requieren que el tamaño de los bloques sea igual al número de tratamientos. El diseño de bloqueos de manera lineal omite la variación espacial de una zona y aumenta la probabilidad de errores experimentales, una solución que se presenta a esto es los bloqueos bidireccionales, un caso de esa “familia de bloqueos” es el cuadrado latino (es una matriz de n×n elementos en la que cada casilla está ocupada por uno de los n símbolos de tal modo que cada uno de ellos aparece exactamente una vez en cada columna y en cada fila) los cuales presentan una alta eficiencia pero a la vez restricciones para ser ampliamente usadas por lo cual se deja para diseños experimentales “pequeños”, su variante (el cuadrado latino incompleto) es una variable para diseños de mayor tamaño debido a la flexibilidad de sus requerimientos. Los estudios muestran que en cuestión de bloqueos, su eficiencia se puede aumentar con un diseño más complejo.

Tamaño de las unidades experimentales (el parámetro menos estudiado hasta la fecha del estudio en 2014) se da como la relación que tiene la varianza de los datos con relación a el tamaño de la parcela, la relación dicta el tamaño óptimo de las muestras por lo cual se cuestionan si realizar un aumento de la parcela con el fin de reducir la varianza es algo “rentable” o en contraparte se disminuye el tamaño de la parcela para una menor área experimental; las muestras son afectadas por factores externos como los del ecosistema, por lo cual el tamaño de la muestra será el componente que condicione la variación de los resultados. Los investigadores cuentan con métodos de análisis computacional para determinar si la muestra fue realizada correctamente, esto como conocimiento para futuras prácticas, también establecen unos parámetros mínimos y máximos como umbrales límite en los cuales se puede llevar a cabo el experimento donde una parcela pequeña es lo mínimo que se puede realizar y medir con elementos estándar y el tamaño máximo debe ser en el cual una plantación satisfaga a cabalidad las parcelas sin generar ni espacios vacíos ni se rompa la distancia se siembra. “Fallar no debe ser considerado un error, fallar siempre es una opción”.


9.

Seleccionar un artículo científico de una revista de agronomía donde se haya utilizado un diseño en parcelas divididas: Barrios,M y Basso,C.2018. EFECTO DE LA FERTILIZACIÓN NITROGENADA SOBRE COMPONENTES DEL RENDIMIENTO Y CALIDAD NUTRICIONAL DEL GRANO DE SEIS HÍBRIDOS DE MAÍZ.Recuperado de: https://dialnet.unirioja.es/servlet/articulo?codigo=7135242

Hacer las críticas constructivas sobre:

a)La mención de la estructura factorial “Bloques al azar con arreglo en parcelas divididas y tres repeticiones”. Se presenta de forma clara y concisa para que el lector desde el inicio esté enterado del planteamiento experimental.

b) La razón de colocar cada factor en la parcela principal o en la subparcela Parcela principal: 6 híbridos de maíz (2/2/2). Subparcela: 4 tratamientos de fertilización con N (0-100-150-200 kg/ha). El factor fijo es la unidad experimental de mayor tamaño (parcelas del cultivo de maíz) y en el que se aplican las repeticiones, el variable por su parte presenta la aleatorización y es más pequeño (fertilizante).

c) La revisión de supuestos para el análisis de varianza No se presenta explícitamente la interpretación de estas condiciones en el estudio.

-Independencia: Las observaciones son aleatorias, ya que se escogieron diez mazorcas al azar en cada parcela para evaluar sus componentes de rendimiento, así mismo, realizando un cálculo* del total poblacional con la información proporcionada de la unidad experimental obtuvimos que el tamaño total de esa muestra es menor al 10% (80 plantas por parcela por lo que el 10% serían 8 plantas) debido a que una planta de maíz dependiendo de su variedad puede generar entre 2 y 7 mazorcas, por su parte los niveles de cada factor son distintos ya que los tratamientos de fertilización presentaron diferencias estadísticamente significativas respecto al testigo, por lo que se podría afirmar que sí se cumple, basados en deducción. *Cada parcela cuenta con 4 hileras de 4 metros de largo. Según la distancia de siembra se tiene que en cada hilera se colocan 20 plantas de maíz por lo cual cada parcela tiene 80 plantas. Lo cual con el total de parcelas da una cantidad de 480 plantas de maíz sembradas.

-Homocedasticidad: Para presentar las diferencias significativas hacen uso de la condición del P valor, por lo que como bien sabemos si este es mayor al 5% no se puede considerar que las medias de los tratamientos sean distintas por lo que se asumiría que al ser las observaciones de la misma población, si las medias son iguales las varianzas también. Lo anterior aplica para la humedad del grano, los aminoácidos, la mitad de los contenidos de grasas, fibra, cenizas y carbohidratos totales.

-Normalidad: En el transcurso de la sección de resultados y discusión no se hace mención de que los datos presentan esta distribución ni de que se haya hecho alguna prueba al respecto, sin embargo, con la mención de el P valor con su nivel de significancia del 5% nos permite concluir que los datos no siguen una distribución normal y hay evidencia estadística para rechazar Ho para la interacción híbrido x fertilización y la medición de algunos parámetros con y sin tratamiento de nitrógeno.

d)La tabla del análisis de varianza Esta no es colocada en el artículo, el único componente que expresan es el P valor de forma cualitativa ya que no presentan un carácter cuantitativo específico para cada comparación entre los parámetros de producción y calidad del maíz.

e) El uso de muchos análisis de varianzas en lugar de uno solo multivariante Se reseñan tres análisis de varianza, uno por cada cuadro de resultados que señala los diferentes valores obtenidos para 1. El efecto de los tratamientos de fertilización sobre las variables de rendimiento, 2. sobre los contenidos de humedad y la calidad nutricional y 3. respecto al contenido de aminoácidos en el grano; indicándose en cuáles niveles hay diferencias significativas y en cuáles no, y si existen excepciones.

f)El método de comparaciones de medias después del Anova Se menciona el uso de la prueba de Tukey en el corto párrafo de análisis estadístico, si bien se realizan un número elevado de comparaciones contrastando tratamientos de a pares usando las medias de sus resultados para determinar si se acepta la Ho de que los tratamientos son iguales o si por lo contrario se cumple la Ha de que por lo menos uno de los tratamientos es diferente apoyadas en el P valor, no se cita el valor de *w (comparador) o HSD (Diferencia Honestamente Significativa) por lo que no es tan claro si la diferencia entre esos dos valores medios sobrepasa o no el comparador para concluir que los promedios son desiguales o no.

*Mucho menos se designa el MSE (cuadrado medio del error) para calcularlo al no anexarse el ANOVA.

g) La interacción de factores La interacción híbrido x fertilización fue significativa. El segundo factor por su parte tuvo un efecto directo en el rendimiento y en las demás variables medidas, el mayor beneficio agrícola se evidenció con la aplicación de la dosis de 150 kilogramos por hectárea, denotándose que con una mayor (200 kilogramos por hectárea) o menor (0 y 100 kilogramos por hectárea) se desencadenaron reducciones en los parámetros agronómicos de interés.

h)La presencia de bloques El bloqueo es la dosis de fertilizante aplicada ya que condiciona los resultados y es la mayor fuente de variabilidad.

i)El balanceo o desbalanceo Es un diseño balanceado, ya que el número de observaciones es igual para todas las combinaciones posibles de los niveles de los factores, por cada híbrido de maíz muestreado hay un resultado por parámetro medido en cada una de las cuatro dosis de fertilizante incluyendo el blanco o control.Además no hace falta ningún valor en las tablas de datos.

j) La definición clara de la unidad experimental Las parcelas de 4 metros de largo por 3.6 metros de ancho, con una distancia de 0.20 de siembra entre mazorcas a la cuales se les midió una serie de variables o características que determinan la calidad del producto (catalogadas como rendimiento,sus componentes y la calidad nutricional) y caracteres de tipo fenológico (días hasta la floración y la posterior maduración) para cada híbrido.

k) Software utilizado y librería específica (en caso de ser R) Programa Statistix versión 8.0, paquete de análisis estadístico por y para investigadores. Cuenta con la posibilidad de manipular datos, manejar bases de datos Excel, modelos lineales (capaz de correr regresiones lineales y análisis de varianza “ANOVA”), regresiones no lineales, pruebas no paramétricas, series temporales, test de asociación, control de calidad y más funciones.Actualmente se encuentra en la versión 10.0.

l) Otros aspectos que considere de interés El estudio toma en cuenta las variables edafoclimáticas propias del ambiente y analiza todos los posibles efectos de la aplicación del fertilizante en más de dos parámetros de calidad agronómicos para cada híbrido de maíz y describe las relaciones entre ellos. Se atribuye un tamaño de muestra considerable al experimento permitiendo una mejor interpretación aunque debido a su magnitud no sería fácilmente replicable por el tema de costos, el bloque es claro pues condiciona el desarrollo fenológico del maíz, además en nuestra humilde opinión se presenta una estructura ordenada ya que las tablas de resultados son entendibles para el lector.

A nuestro juicio al no mencionar los residuales (errores) se incurre en una gran falencia ya que este diseño es en parcelas divididas, tenerlos en cuenta no solo es útil para evaluar la confiabilidad de las respuestas al insumo sino también permite descomponer el análisis de la normalidad con más fiabilidad, puesto que ante la presencia de residuos extremos la interpretación del análisis de varianza puede diferir, además según lo aprendido en la clase resultaría más adecuado realizar el contraste de hipótesis empleando el estadístico F y no el P valor en razón de que se tiene en cuenta la variabilidad tanto entre tratamientos como intra(repeticiones) y no solo la probabilidad.Respecto a la escogencia del software, según lo consultado es un paquete de análisis de datos estadísticos intuitivo, rápido y fácil de usar.

Por último, encontramos una falla de escritura cuando se describe la falta de significancia en los contenidos de leucina, isoleucina, treonina, tirosina, valina, ácido aspártico, ácido glutámico y metionina entre los tratamientos nitrogenados, puesto que se explica por valores de P menores o iguales a 0.05 cuando debería ser al contrario P>0.05.

REFERENCIAS [1] Statistix.com. n.d. Statistix 10- Data Analysis Software For Researchers. Recuperado en Noviembre de 2020: https://www.statistix.com/.

[2]Amat, J.2016.ANOVA análisis de varianza para comparar múltiples medias.Recuperado de:https://www.cienciadedatos.net/documentos/19_anova#Idea_intuitiva_del_ANOVA