Punto 1
Punto 3
- Hipotesis
- Prueba-t
Punto 4
Punto 5
Punto 6
Punto 7.
Punto 8. Realice un resumen con la nota que aparece en las siguientes direcciones sobre:

**EL parcial se resolvio con los numeros U =7 y T = 2.

Punto 1

En un estudio conducido en ambiente controlado se tuvieron 72 macetas, cada una con una planta a la que a cierta edad se le midio el contenido de clorofila (indice de clorofila) con un sensor (SPAD). El total de macetas se correspondio con 9 tratamientos asociados a estres hidrico. Se sabe que la varianza de las 72 observaciones es 873. Con esta informacion complete la tabla del ANOVA que se muestra a continuacion:

	SS	df	MS
Tratamientos	6000	8	750
Residuales
TOTAL

Ecuaciones:

Numero de repeticiones = Numero de observaciones / Numero de tratameintos

Numero de repeticiones = 8

Grados de libertad para los tratamientos = Numero de tratamientos - 1

df(tramientos) = 8

MS = SS/df

MS(tratamientos) = 750

df(residuales) = Numero de tratamientos(Numero de repeticiones - 1)

df(residuales) = 63

SS = F-value * df

SS(residuales) = 54999

F-value = MS(trattamientos) / MS(residuales)

F-value = 0.86

	SS	df	MS	F-value
Tratamientos	6000	8	750	0.86
Residuales	54999	63	873
TOTAL	60999	71

Si el F tabulado es 2.8. que puede decirse acerca de la Hipotesis nula de igualdad de los promedios del indice en todas las condiciones de tratamiento (use el p valor si como el cociente F calculado de la tabla para concluir)

Hipotesis Nula:

\[H_0 : \mu_1 = \mu_2 \cdots =\mu_9\]

Hipotesis Alterna:

\[H_a : La \ Hipotesis \ Nula \ es \ falsa\]

Determinacion del Valor P:

pf(q=0.86,df1=8,df=63,lower.tail=F)

## [1] 0.5546508

EL valor P es mayor al 5% y el valor F es menor al F tabulado, eso quiere decir que no hay diferencias entre los tratamientos por lo que no se rechazaria la hipotesis nula. Sin embargo, al no tener los datos disponibles y no realizarse las puebas de los supuestos de normalidad de los residuales, igualdad de varianza e independencia de los residuales, no se puede concluir que no se rechaze la hipotesis nula pues se podria incurrir en un error tipo II. En ese orden de ideas no es recomendable.

Al ser el valor F menor al F tabulado se puede decir que los datos de los tratamientos varian 0.86 veces mas que los datos intra-tratamientos y, ademas, al ser un resultado menor a 1, la relacion indica que el causante de la variabilidad se da por el error experimetal, lo cual es fatal para el experiemento realizado pues se esperan que sean repeticiones con medias homogeneas.

Nivel de confianza por medio del cuantil F o F tabulado:

qf(p=0.01,df1=8,df=63,lower.tail=F)

## [1] 2.807614

Por medio de esta funcion se busco llegar a un F tabulado de 2.8 y para ello se necesito de un nivel de confianza aproximado del 1%.

vale la pena comparar las medias de tratamientos a posteriori del ANOVA (prueba de Tukey)

Es necesario primero realizar las pruebas de los supuestos, pero en el caso de que los supuestos se cumplan se podria usar el valor P y, por consiguiente, no seria necesario realizar la prueba de comparacion de medias porque al no existir diferencias entre las medias de los tratamientos la prueba de Tukey no develaria quien es el causante de la diferencia.

De ser afirmativa su respuesta aplique este procedimiento y concluya (seleccione el o los tratamientos con mayores contenidos de clorofila). Para esto genere unos datos para cada tratamiento que tengan una varianza como la dada en el ejercicio y una media que desde el primer al ultimo tratamiento cambie a razon de 10 unidades del indice, empezando con 407.

set.seed(2020) 
data = c(rnorm(8,407,sqrt(873)),rnorm(8,417,sqrt(873)),
          rnorm(8,427,sqrt(873)),rnorm(8,437,sqrt(873)),
          rnorm(8,447,sqrt(873)),rnorm(8,457,sqrt(873)),
          rnorm(8,467,sqrt(873)),rnorm(8,477,sqrt(873)),rnorm(8,487,sqrt(873)))
trt<- rep(c("trt1","trt2","trt3","trt4","trt5","trt6","trt7","trt8","trt9"),
             c(8,8,8,8,8,8,8,8,8))

dtf=data.frame(data,trt)#;View(dt)

Revise los tres supuestos del ANOVA discutidos en clase y con este valide el uso del ANOVA en este estudio (con los datos generados). De no cumplirse el supuesto de homocedasticidad utilice el ANOVA de Welch discutido en clase y vuelva a concluir.

anova = aov(data~trt);summary(anova)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## trt          8  68521    8565   8.049 2.06e-07 ***
## Residuals   63  67038    1064                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

1. Normalidad del vector de residuales del modelo

shapiro.test(anova$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  anova$residuals
## W = 0.98276, p-value = 0.4291

2. Prueba de igualadad de varianza entre tratamientos

bartlett.test(anova$residuals~trt)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  anova$residuals by trt
## Bartlett's K-squared = 22.007, df = 8, p-value = 0.004903

oneway.test(anova$residuals~trt)

## 
##  One-way analysis of means (not assuming equal variances)
## 
## data:  anova$residuals and trt
## F = 3.3483e-30, num df = 8.000, denom df = 25.981, p-value = 1

Al realizar la prueba de igualdad de varianza entre los tratamientos se obtuvo un valor P menor al 5% y debido a que se incumple este supuesto se realizo la prueba Welch para reajustar los residuales dentro de los valores de los grados de libertad y de esta forma obtener un valor F mas bajo.

A partir de los resultados de la prueba Welch se evidencia que el valor P es del 100%. Esto sugiere que no hay evidencia que permita pensar que la varianza entre los diferentes tratamientos sean estadisticamente diferentes, y por lo tanto se asume la homocedasticidad de varianzas entre tratamientos de estres hidrico.

plot(anova, 1)

En la grafica Residuals vs Fitted se evidencia la igualdad de varianzas con los valores de las medias ajustados con solo 3 valores atipicos.

3. Independencia de los residuales

resid = anova$residuals
plot(resid, pch=16)

Aunque aproximadamente entre la observacion 40 y la 60 se percibe cierto patron, en general el grafico permite observar la independencia de los residuales.

TukeyHSD(anova)

##   Tukey multiple comparisons of means
##     95% family-wise confidence level
## 
## Fit: aov(formula = data ~ trt)
## 
## $trt
##                 diff         lwr       upr     p adj
## trt2-trt1  37.147143 -15.2416699  89.53596 0.3710577
## trt3-trt1  30.593579 -21.7952335  82.98239 0.6324123
## trt4-trt1  46.954183  -5.4346298  99.34300 0.1137565
## trt5-trt1  65.125288  12.7364753 117.51410 0.0051064
## trt6-trt1  53.756085   1.3672721 106.14490 0.0400157
## trt7-trt1  76.693087  24.3042746 129.08190 0.0004682
## trt8-trt1  89.119699  36.7308863 141.50851 0.0000288
## trt9-trt1 108.292607  55.9037949 160.68142 0.0000003
## trt3-trt2  -6.553564 -58.9423761  45.83525 0.9999783
## trt4-trt2   9.807040 -42.5817724  62.19585 0.9995436
## trt5-trt2  27.978145 -24.4106672  80.36696 0.7349339
## trt6-trt2  16.608942 -35.7798704  68.99775 0.9826814
## trt7-trt2  39.545945 -12.8428680  91.93476 0.2892226
## trt8-trt2  51.972556  -0.4162563 104.36137 0.0534437
## trt9-trt2  71.145465  18.7566524 123.53428 0.0015181
## trt4-trt3  16.360604 -36.0282088  68.74942 0.9842506
## trt5-trt3  34.531709 -17.8571036  86.92052 0.4713858
## trt6-trt3  23.162506 -29.2263069  75.55132 0.8858221
## trt7-trt3  46.099508  -6.2893044  98.48832 0.1281756
## trt8-trt3  58.526120   6.1373073 110.91493 0.0175941
## trt9-trt3  77.699028  25.3102160 130.08784 0.0003763
## trt5-trt4  18.171105 -34.2177073  70.55992 0.9699357
## trt6-trt4   6.801902 -45.5869106  59.19071 0.9999711
## trt7-trt4  29.738904 -22.6499081  82.12772 0.6668534
## trt8-trt4  42.165516 -10.2232964  94.55433 0.2136497
## trt9-trt4  61.338425   8.9496123 113.72724 0.0105222
## trt6-trt5 -11.369203 -63.7580157  41.01961 0.9986653
## trt7-trt5  11.567799 -40.8210132  63.95661 0.9984898
## trt8-trt5  23.994411 -28.3944015  76.38322 0.8644190
## trt9-trt5  43.167320  -9.2214929  95.55613 0.1887493
## trt7-trt6  22.937002 -29.4518100  75.32581 0.8912529
## trt8-trt6  35.363614 -17.0251983  87.75243 0.4384758
## trt9-trt6  54.536523   2.1477103 106.92534 0.0351445
## trt8-trt7  12.426612 -39.9622008  64.81542 0.9974962
## trt9-trt7  31.599520 -20.7892921  83.98833 0.5912299
## trt9-trt8  19.172909 -33.2159038  71.56172 0.9587692

#Medias de los tratamientos
mean_trt=tapply(data,trt,mean);mean_trt

##     trt1     trt2     trt3     trt4     trt5     trt6     trt7     trt8 
## 396.2298 433.3770 426.8234 443.1840 461.3551 449.9859 472.9229 485.3495 
##     trt9 
## 504.5224

#Media global
mean_global_trt = mean(mean_trt);mean_global_trt

## [1] 452.6389

#Grafico de Medias
boxplot(data~trt)
abline(h=mean_global_trt)

Despues de realizar la prueba de Tuckey se observa que los pares de medias con mas diferencias se encuentran en los cuales se comparo con el tratamiento 1 de estres hidrico, siendo la comparacion los tratamientos 1 y 9 los mas significativos. Mediante el grafico de cajas se comprueba que el peor tratamiento y por ende los niveles de clorofila mas bajos se ncuetran en el tratamiento 1, al contario del tratamiento 9 siendo este el mejor de todos. Se observa que la comparacion 4 y 9 es significativa, la 5 y 9 no lo es, en 6 y 9 es significativa de nuevo y a partir de ahi las comparaciones se mantienen por encima del valor p y graficamente tambien se mantienen por encima de la media global. Por lo tanto, los tratamientos que lograron mayor contenido de clorofila fueron los tratameintos 5, 7, 8 y 9.

Punto 3

Use la funcion de R para generar de la distribucin uniforme unos datos de carbono orgnico del suelo medida a 5 cm y 10 cm de profundidad. Suponga que la medida de la capa superior oscila entre 3.0 y 3.7+0.1 y de la capa inferior oscil entre 2 y 2.4+0.2. Use expand.grid para generar una ventana de observacin de 0 a 100 m para la longitud y de 0 a 200 m para la latitud. Genere 50 datos en cada capa. Use la funcin sort.int de R para ordenar los datos de cada capa con la opcion partial=25+U dentro de la propia funcin sort.int. Una vez cree los datos realice algun diagrama de color (preferiblemente 3D) que permita visualizar las medidas de carbono en cada capa generadas por computadora. Compare si se encuentran diferencias en la media de carbono entre capas utilizando un nivel de confianza del 95%.

#Datos de Capa Superior
#set.seed(123)
Capa_sup_5 = round(runif(50, min =3.0, max = 3.8),1)

#Datos de Capa Inferior
set.seed(123)
Capa_inf_10 = round(runif(50, 2.0, 2.4),1); 

#Sort.int
Capa_sup_5 = sort.int(Capa_sup_5,partial = 32);Capa_sup_5

##  [1] 3.0 3.0 3.1 3.1 3.1 3.0 3.1 3.1 3.0 3.1 3.1 3.2 3.2 3.2 3.2 3.2 3.2 3.3 3.4
## [20] 3.4 3.4 3.5 3.5 3.4 3.5 3.3 3.4 3.3 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.5 3.6 3.6
## [39] 3.7 3.6 3.7 3.7 3.8 3.7 3.7 3.8 3.7 3.8 3.8 3.7

Capa_inf_10 = sort.int(Capa_inf_10,partial = 32);Capa_inf_10

##  [1] 2.1 2.1 2.1 2.0 2.1 2.0 2.1 2.1 2.1 2.1 2.1 2.0 2.1 2.1 2.0 2.1 2.1 2.1 2.2
## [20] 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.2 2.3 2.2 2.3 2.3 2.3 2.3 2.3 2.3 2.3
## [39] 2.3 2.3 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4 2.4

#wwe=expand.grid(height = seq(60, 80, 5), weight = seq(100, 300, 50),
 #          sex = c("Male","Female"));View(wwe)


#Ventana de Observacion
S = expand.grid( longitud = c(0,100), latitud = c(0,200));View(S)

ventana1 = rbind(S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S,S)
                 
              
ventana1=ventana1 [order (sample (1:100)), ]
View(ventana1)


#Creacion del data frame
#carbono_1= data.frame(carbon_sup=Capa_sup_5 , longitud, latitud);carbono_1
#View(carbono_1)
#carbono_2= data.frame(carbon_inf=Capa_inf_10 , longitud, #latitud);carbono_2
#View(carbono_2)

#library(scatterplot3d)
#scatterplot3d( carbono_1$carbon_sup, carbono_2$carbon_inf, xlab = "l", ylab = "f", zlab = "Profundidad")

Hipotesis

La hipotesis nula plantea que las medias para las dos capas tienen igual cantidad de carbono organico, mientras que la hipotesis alterna plantea que las dos cantidades de carbono organico en las dos capas son desiguales.

\[H_o: \mu_{CapaSup} = \mu_{CapaInf}\\ H_a: \mu_{CapaSup} \neq \mu_{CapaInf}\]

Prueba-t

prueba_t = t.test(Capa_sup_5, Capa_inf_10, alternative='t', paired = T, conf.level = 0.95)

prueba_t

## 
##  Paired t-test
## 
## data:  Capa_sup_5 and Capa_inf_10
## t = 60.242, df = 49, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  1.14837 1.22763
## sample estimates:
## mean of the differences 
##                   1.188

ifelse(prueba_t$p.value<0.05, 'Rechazo Ho', 'No Rechazo Ho')

## [1] "Rechazo Ho"

Se rechaza la hipotesis nula por lo que las dos cantidades de carbono organico en las dos capas son desiguales.

Punto 4

El siguiente diseno se corresponde con un factorial completo (3^2 ) en arreglo completamente al azar. Los factores y la respuesta fueron creados con el codigo:

D = expand.grid(F1 = c(3.25, 3.75, 4.25), F2 = c(4, 5, 6));#View(D)
D = rbind(D, D);View(D)
set.seed(2020)
D = D[order(sample(1:18)), ];#View(D)
class(D)

## [1] "data.frame"

D$biomasa=sort.int(rnorm(18,3,0.3),partial = 9);#View(D)
View(D)
View(D$biomasa)

Escriba (completamente especificado) el modelo del diseño

Modelo de diseno

\[y_{ijk}=\mu+\tau_i+\beta_j+(\tau\beta)_{ij}+\epsilon_{ijk}\\i:1\cdots 3\\ j:1\cdots 3\\ k:1,2\\Condiciones~Laterales~Respectivas\]

Realice el Anova para este diseño y de ser necesario realice la prueba de comparaciones de medias para los efectos principales de F1: dosis de un insecticida que se sospecha tiene un efecto de disminución del crecimiento (biomasa) y F2: número de aplicaciones durante el desarrollo del cultivo.

Analisis de Varianzas

modelo=aov(D$biomasa~D$F1*D$F2)
summary(modelo)

##             Df Sum Sq Mean Sq F value Pr(>F)  
## D$F1         1 0.3803  0.3803   4.548 0.0511 .
## D$F2         1 0.3160  0.3160   3.780 0.0722 .
## D$F1:D$F2    1 0.0013  0.0013   0.015 0.9042  
## Residuals   14 1.1705  0.0836                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Tras realizar la prueba ANOVA se observa que no hay interaccion y por lo que se puede analizar los resultados de los factores. Los valores p de lso factores son mayores al 5% por lo que no es necesaria la prueba de comparaciones de medias.

Mediacion de los efectos de del factor F1 (Dosis de insecticida)

#Medias del Factor F1 
mean_F1=tapply(D$biomasa,D$F1,mean)
mean_F1

##     3.25     3.75     4.25 
## 2.730881 3.003515 3.086911

#Media Global del Factor F1
global_mean_F1=mean(mean_F1);global_mean_F1

## [1] 2.940436

#Efectos (Cambio de la media global respecto cada tratamiento) 
efectos_F1=mean_F1-global_mean_F1
efectos_F1

##        3.25        3.75        4.25 
## -0.20955449  0.06307941  0.14647508

Se evidencia un efecto negativo de -0.21 en la biomasa de las plantas en la dosis 3.25, mientras que el mejor fue la dosis 4.25.

Mediacion de los efectos de F2 (numero de aplicaciones)

#Medias del Factor F2 
mean_F2=tapply(D$biomasa,D$F2,mean)
mean_F2

##        4        5        6 
## 3.129864 2.886150 2.805294

#Media Global del Factor F2
global_mean_F2=mean(mean_F2);global_mean_F2

## [1] 2.940436

#Efectos (Cambio de la media global respecto cada tratamiento) 
efectos_F2=mean_F2-global_mean_F2
efectos_F2

##           4           5           6 
##  0.18942777 -0.05428588 -0.13514189

Se evidencia un efecto negativo en la biomasa de las plantas de -0.05 en la aplicacion 5 y de -0.14 en la aplicacion 6. Mientras que la mejor aplicacion fue la 4.

Use los resultados del ANOVA y el grafico de interaccion (ggplot2) para visualizar si existe o no interacción entre los factores.

#library(lattice)
coefficients(modelo)

## (Intercept)        D$F1        D$F2   D$F1:D$F2 
##  2.88681292  0.23067920 -0.25629761  0.02507008

interaction.plot(D$F1,D$F2,D$biomasa, xlab ="Dosis del insecticida", ylab= "Medias de la biomasa", main = "Grafica de interacciones", ylim = c(2.5,3.5), trace.label = "Aplicaciones", type="b", col=c("red","green"),pch = c(19,17), fixed = TRUE)

#bwplot(D$biomasa~D$F1|D$F2)

table_means = tapply(D$biomasa,list(D$F1,D$F2), mean);table_means

##             4        5        6
## 3.25 2.965294 2.634592 2.592757
## 3.75 3.080186 3.128949 2.801410
## 4.25 3.344110 2.894908 3.021714

mean_F2=tapply(D$biomasa,D$F2,mean);mean_F2

##        4        5        6 
## 3.129864 2.886150 2.805294

mean_F1=tapply(D$biomasa,D$F1,mean);mean_F1

##     3.25     3.75     4.25 
## 2.730881 3.003515 3.086911

A pesar de que segun el grafico se pueden apreciar unas presuntas interacciones al calcular las medias de las dosis se observa que la dosis 4.25 y la aplicacion 4 es el mejor tratamiento como tambien se demostro por tener los mejores efectos en biomasa lo cual indica que no hubo interaccion ya que los margenes rinden el mismo resultado del cuerpo de la tabla quire decir que no hay interaccion como se establecio en el analisis de varianza. El grafico confirma tambien que el mejor fue el de la dosis 4.25 y aplicacion 4.

library(tidyverse)

## Warning: package 'tidyverse' was built under R version 4.0.3

## -- Attaching packages ------------------------------------------------------------------------------- tidyverse 1.3.0 --

## v ggplot2 3.3.2     v purrr   0.3.4
## v tibble  3.0.3     v dplyr   1.0.2
## v tidyr   1.1.2     v stringr 1.4.0
## v readr   1.3.1     v forcats 0.5.0

## Warning: package 'tidyr' was built under R version 4.0.3

## Warning: package 'dplyr' was built under R version 4.0.3

## -- Conflicts ---------------------------------------------------------------------------------- tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(ggpubr)

## Warning: package 'ggpubr' was built under R version 4.0.3

library(rstatix)

## Warning: package 'rstatix' was built under R version 4.0.3

## 
## Attaching package: 'rstatix'

## The following object is masked from 'package:stats':
## 
##     filter

library(broom)

## Warning: package 'broom' was built under R version 4.0.3

El investigador quiso colocar como covariable el contenido de arcilla (expansible) en el suelo utilizado en cada unidad experimental. Genere unos datos con la distribucion uniforme cuya medida oscile entre 0.20 y 0.40 , ordene estas medidas en forma decreciente y meta dentro del analisis esta variable. Especifique nuevamente el modelo y realice el analisis de covarianza respectivo .se justifica el uso de la covariable. Construya nuevamente el grafico de interaccion y compare con el caso sin covariable (discuta el resultado).

Generacion datos se arcilla

set.seed(123)
dt_arcilla = sort.int(runif(n=18, min=0.2, max=0.4))
dt_arcilla

##  [1] 0.2084119 0.2091113 0.2205849 0.2492175 0.2575155 0.2817954 0.2906668
##  [8] 0.2913229 0.3056211 0.3102870 0.3145267 0.3355141 0.3576610 0.3766035
## [15] 0.3784838 0.3799650 0.3880935 0.3913667

tabla_arcilla = data.frame (D, dt_arcilla); 
View(tabla_arcilla)

Modelo de diseno

\[y_{ijk}=\mu+\tau_i+\alpha_j+\beta(x_{ijk}-\bar{x_{...}})+(\tau\alpha)_{ijk}+\epsilon_{ijk}\\i:1\cdots 3\\ j:1\cdots 3\\ k:1,2\\Condiciones~Laterales~Respectivas\]

Donde \(\mu\) es la media general, \(\tau_i\) es el efecto del i -ésimo nivel del factor dosis de insecticida, \(\alpha_j\) se asocia al efecto del j -ésimo nivel del factor de número de aplicaciones, \((\tau\beta)_{ij}\) es la interacción entre los dos factores, en \(\beta(x_{ijk}-\bar{x_{...}})\), \(\beta\) es la pendiente y \(\bar{x}\) es la media global de la covariable \(X\), y \(\varepsilon_{ijk}\) es el error asociado a las repeticiones en la j-ésima observación en el i-ésimo grupo.

Analisis de covarianza Ancova

library(tidyverse)
library(ggpubr)
library(rstatix)
library(broom)

res.aov0 <- anova_test(tabla_arcilla,biomasa ~ dt_arcilla + F1*F2)

## Coefficient covariances computed by hccm()

get_anova_table(res.aov0)

## ANOVA Table (type II tests)
## 
##       Effect DFn DFd      F       p p<.05   ges
## 1 dt_arcilla   1  13 19.090 0.00076     * 0.595
## 2         F1   1  13  0.302 0.59200       0.023
## 3         F2   1  13  9.099 0.01000     * 0.412
## 4      F1:F2   1  13  0.732 0.40800       0.053

Revise en internet los supuestos que deben tener las covariables para ser utilizadas en el modelo. ¿Se está incumpliendo en nuestros datos alguno de los supuestos necesarios? Revise los supuestos sobre los residuales tanto del ANOVA como del ANCOVA ¿qué puede percibir?

Punto 5

#library(lme4)
#modelo <- lmer( respuesta ~ 1 + (1|ue) + (1|ue:finca)+
 #                + (1|ue:finca:variedad), data = data.frame)
#summary(modelo)

Punto 6

En el enlace https://cran.r-project.org/web/packages/asbio/asbio.pdf se tienen unos datos de potasio de muestras de suelos medidas en 8 diferentes laboratorios. Compare descriptivamente (medidas, tablas y graficos) para representar los datos. que prueba me recomendaria para comparar la medida que usted seleccione. Proponga una solucion. Sabiendo que son muestras mezcladas de una misma finca, Se perciben diferencias en las medidas como consecuencia probable de los laboratorios Sugerencia: Use el enfoque no parametrico considerado en clase y su respectiva prueba de comparacion por pares (Nemenyi)

Analisis Descriptivo

library(asbio)

## Warning: package 'asbio' was built under R version 4.0.3

## Loading required package: tcltk

## 
## Attaching package: 'asbio'

## The following object is masked from 'package:broom':
## 
##     bootstrap

data(K)
View(K)

#Medias
mediaslab=tapply(K$K, K$lab, mean) 
mediaslab

##        B        D        E        F        G        H        I        J 
## 326.1111 321.1111 316.5556 315.6667 304.1111 229.3333 313.2222 336.2222

#Media Global
global_m=mean(mediaslab)
boxplot(K$K~K$lab, main="Cantidad de potasio en el suelo", xlab = "Laboratorios", ylab = "Cantidad de Potasio")
abline(h=global_m)

Hipotesis:

Para la hipotesis nula los analisis de laboratorio de cantidad de potasio en el suelo en cada laboratorio no evidencian diferencias en su media para al menos uno de ellos. La hipotesis nula dicta que almenos un laboratorio presenta diferencias significativas en sus anilisis de potasio en el suelo.

\[H_0 : \mu_1 = \mu_2 \cdots =\mu_8\\ H_a : La \ Hipotesis \ Nula \ es \ falsa\]

Analisis de Varianza

modelo<-aov(K$K~K$lab)
summary(modelo)

##             Df Sum Sq Mean Sq F value   Pr(>F)    
## K$lab        7  68930    9847   6.472 8.92e-06 ***
## Residuals   64  97370    1521                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Segun el analisis de varianza existe evidencia para rechazar la hipotesis nula al presentarse un p valor menor del 5%.

Verificacion de supuestos:

1. Normalidad del vector de residuales del modelo

resid = modelo$residuals
shapiro.test(resid)

## 
##  Shapiro-Wilk normality test
## 
## data:  resid
## W = 0.94688, p-value = 0.004268

2. Prueba de igualadad de varianza entre tratamientos

bartlett.test(modelo$residuals~K$lab)

## 
##  Bartlett test of homogeneity of variances
## 
## data:  modelo$residuals by K$lab
## Bartlett's K-squared = 32.201, df = 7, p-value = 3.727e-05

plot(modelo, 1)

3. Independencia de los residuales

resid = modelo$residuals
plot(resid, pch=16)

Tras realizar las pruebas de los supuestos se evidencia que los residuales no tienen una distribucion normal y tampoco se cumple la igualdad de varianzasy se decide realizar un analisis de varianza no parametrico.

Prueba de Kruskal-Wallis:

kruskal.test(K$K~K$lab)

## 
##  Kruskal-Wallis rank sum test
## 
## data:  K$K by K$lab
## Kruskal-Wallis chi-squared = 24.482, df = 7, p-value = 0.000937

Segun la prueba no parametrica de analisis de varianza Kruskal-Wallis existen diferencias entre algunos de los laboratorios por lo que a un nivel de significancia del 5% se puede rechazar la hipotesis nula de que las medias de los resultados de los laboratorios sean todas iguales a pesar de que las muestras provengan de una sola mezcla.

Prueba Nemenyi:

library(PMCMR)

## Warning: package 'PMCMR' was built under R version 4.0.3

## PMCMR is superseded by PMCMRplus and will be no longer maintained. You may wish to install PMCMRplus instead.

PMCMR::posthoc.kruskal.nemenyi.test(K$K~K$lab)

## Warning in posthoc.kruskal.nemenyi.test.default(c(296, 260, 341, 359, 323, :
## Ties are present, p-values are not corrected.

## 
##  Pairwise comparisons using Tukey and Kramer (Nemenyi) test  
##                    with Tukey-Dist approximation for independent samples 
## 
## data:  K$K by K$lab 
## 
##   B      D      E      F      G      H      I     
## D 1.0000 -      -      -      -      -      -     
## E 1.0000 1.0000 -      -      -      -      -     
## F 0.9999 0.9999 0.9998 -      -      -      -     
## G 0.9324 0.9324 0.9222 0.9943 -      -      -     
## H 0.0098 0.0098 0.0087 0.0397 0.2764 -      -     
## I 0.9993 0.9993 0.9989 1.0000 0.9984 0.0600 -     
## J 0.9893 0.9893 0.9916 0.9051 0.4405 0.0003 0.8461
## 
## P value adjustment method: none

La comparacion por pares de la prueba Nemenyi arroja resultados significativos para el laboratorio H, es decir sus valores p ajustados se encuetran por debajo del 5% por lo que se corrobora el rechazo de la hipotesis nula pues el laboratorio H en su analisis de las muestras de suelo esta provocando diferencias debido a un mal metodo experimental.

Punto 7.

Diseñe un experimento en parcelas divididas en bloques completos (diseño en franjas o strip plot design). Genere los datos usted mismo y esquematice el diseño. Expliqué las razones de colocar el primer factor en la parcela principal y el segundo en la subparcela. Genere unos datos asociados a una covariable y corra el análisis de covarianza respectivo.

Generación de datos y analisis de covarianza

#library(readxl)
#striplot <- read_excel("C:/Users/Public/parcial/ggg.xlsx")
#View(striplot)

library(readr)
striplot <- read_delim("C:/Users/Public/parcial/datospapa.csv", 
    ";", escape_double = FALSE, trim_ws = TRUE)

## Parsed with column specification:
## cols(
##   bloque = col_double(),
##   Riego = col_character(),
##   Variedades = col_character(),
##   biomasa = col_double()
## )

View(striplot)

str(striplot)

## tibble [48 x 4] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
##  $ bloque    : num [1:48] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Riego     : chr [1:48] "sin_riego" "sin_riego" "sin_riego" "sin_riego" ...
##  $ Variedades: chr [1:48] "V1" "V2" "V3" "V4" ...
##  $ biomasa   : num [1:48] 3.16 2.64 3 3.21 4.47 4.3 3.21 4.02 4.82 4.45 ...
##  - attr(*, "spec")=
##   .. cols(
##   ..   bloque = col_double(),
##   ..   Riego = col_character(),
##   ..   Variedades = col_character(),
##   ..   biomasa = col_double()
##   .. )

striplot$Riego = as.factor(striplot$Riego)
striplot$Variedades = as.factor(striplot$Variedades)

attach(striplot)
library(agricolae)

## Warning: package 'agricolae' was built under R version 4.0.3

## 
## Attaching package: 'agricolae'

## The following object is masked from 'package:PMCMR':
## 
##     durbin.test

strip_model = strip.plot(BLOCK = bloque,
                   COL = Riego,
                   ROW = Variedades,
                   Y = biomasa)

## 
## ANALYSIS STRIP PLOT:  biomasa 
## Class level information
## 
## Riego    :  sin_riego parcial completo 
## Variedades   :  V1 V2 V3 V4 
## bloque   :  1 2 3 4 
## 
## Number of observations:  48 
## 
## model Y: biomasa ~ bloque + Riego + Ea + Variedades + Eb + Variedades:Riego + Ec 
## 
## Analysis of Variance Table
## 
## Response: biomasa
##                  Df Sum Sq Mean Sq F value   Pr(>F)   
## bloque            3 1.2492  0.4164  1.9872 0.152025   
## Riego             2 6.5929  3.2964 11.8308 0.008277 **
## Ea                6 1.6718  0.2786  1.3298 0.294767   
## Variedades        3 2.8222  0.9407  3.2481 0.074111 . 
## Eb                9 2.6067  0.2896  1.3823 0.266451   
## Variedades:Riego  6 1.6142  0.2690  1.2840 0.313475   
## Ec               18 3.7716  0.2095                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## cv(a) = 13.6 %, cv(b) = 13.8 %, cv(c) = 11.8 %, Mean = 3.891458

modelo11.2 <-aov(biomasa~Riego*Variedades+bloque,data=striplot)
summary(modelo11.2)

##                  Df Sum Sq Mean Sq F value   Pr(>F)    
## Riego             2  6.593   3.296  12.521 7.91e-05 ***
## Variedades        3  2.822   0.941   3.573   0.0235 *  
## bloque            1  0.085   0.085   0.322   0.5741    
## Riego:Variedades  6  1.614   0.269   1.022   0.4274    
## Residuals        35  9.215   0.263                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

summary(lm(modelo11.2))

## 
## Call:
## lm(formula = modelo11.2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.14887 -0.10883  0.01879  0.16200  1.24621 
## 
## Coefficients:
##                             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                  4.37104    0.30536  14.315 3.38e-16 ***
## Riegoparcial                 0.00500    0.36282   0.014   0.9891    
## Riegosin_riego              -0.88250    0.36282  -2.432   0.0203 *  
## VariedadesV2                -0.10250    0.36282  -0.283   0.7792    
## VariedadesV3                -0.46750    0.36282  -1.289   0.2060    
## VariedadesV4                -0.16500    0.36282  -0.455   0.6521    
## bloque                       0.03758    0.06624   0.567   0.5741    
## Riegoparcial:VariedadesV2   -0.06750    0.51310  -0.132   0.8961    
## Riegosin_riego:VariedadesV2 -0.10750    0.51310  -0.210   0.8353    
## Riegoparcial:VariedadesV3   -0.79250    0.51310  -1.545   0.1315    
## Riegosin_riego:VariedadesV3  0.22500    0.51310   0.439   0.6637    
## Riegoparcial:VariedadesV4   -0.28500    0.51310  -0.555   0.5821    
## Riegosin_riego:VariedadesV4 -0.14000    0.51310  -0.273   0.7866    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5131 on 35 degrees of freedom
## Multiple R-squared:  0.5467, Adjusted R-squared:  0.3913 
## F-statistic: 3.518 on 12 and 35 DF,  p-value: 0.001788

set.seed(12345)
clay = sort.int(runif(48, 0.25, 0.80)); clay

##  [1] 0.2506251 0.2532932 0.2689945 0.2739010 0.2831073 0.3237174 0.3338054
##  [8] 0.3415045 0.3484300 0.3532418 0.3745569 0.3928247 0.4266736 0.4288025
## [15] 0.4297138 0.4488941 0.4535573 0.4634792 0.4644057 0.4651618 0.4713668
## [22] 0.4860594 0.4995504 0.5010645 0.5043721 0.5165068 0.5300734 0.5492318
## [29] 0.5895835 0.6044985 0.6250085 0.6341990 0.6391150 0.6464971 0.6502379
## [36] 0.6546267 0.6685403 0.6752838 0.6802063 0.6861539 0.7278372 0.7316753
## [43] 0.7373685 0.7472851 0.7600007 0.7734123 0.7809784 0.7943553

strip_cova = data.frame(striplot, clay)
View(strip_cova)

library(tidyverse)
library(ggpubr)
library(rstatix)
library(broom)

data("striplot", package = "datarium")

## Warning in data("striplot", package = "datarium"): data set 'striplot' not found

striplot %>% sample_n_by(Riego, Variedades)

## # A tibble: 12 x 4
##    bloque Riego     Variedades biomasa
##     <dbl> <fct>     <fct>        <dbl>
##  1      1 completo  V1            4.82
##  2      4 completo  V2            3.27
##  3      4 completo  V3            4.45
##  4      3 completo  V4            4.38
##  5      2 parcial   V1            4.47
##  6      1 parcial   V2            4.3 
##  7      1 parcial   V3            3.21
##  8      3 parcial   V4            4.02
##  9      3 sin_riego V1            4.27
## 10      1 sin_riego V2            2.64
## 11      3 sin_riego V3            3.65
## 12      1 sin_riego V4            3.21

res.aov <- anova_test(strip_cova,biomasa ~ clay + Riego*Variedades)

## Coefficient covariances computed by hccm()

get_anova_table(res.aov)

## ANOVA Table (type II tests)
## 
##             Effect DFn DFd      F        p p<.05   ges
## 1             clay   1  35  0.428 0.517000       0.012
## 2            Riego   2  35 11.037 0.000192     * 0.387
## 3       Variedades   3  35  3.644 0.022000     * 0.238
## 4 Riego:Variedades   6  35  1.028 0.424000       0.150

Se realizo un experimento donde se tienen como factores el tipo de riego y la variedad de papa, y la variable respuesta medida fue la biomasa los tubérculos medida en kilogramos. Se realizo un diseño de parcelas divididas en bloques completos, para ello se estableció al tipo de riego en la parcela principal en tres niveles: sin riego, parcial y completo. En la subparcela se establecieron las cuatro variedades de papa, y se colocaron tres bloques. Se decidió colocar al riego en la parcela principal debido a su dificultad de aleatorizar en campo y el costo que representa comparado con las variedades, pues en una parcela se puede cambiar el orden de las variedades sin ningún problema mientras reciben un tipo de riego.
Se corrió el análisis de varianza para este diseño de parcelas por franjas y se detectaron diferencias significativas en el tipo de riego con un intervalo de confianza del 95%. Mientras que en las variedades no se detectaron diferencias significativas, aunque su p valor fue del 7% (cercano al 5%).
Se generaron unos datos de porcentaje de arcilla que se cree puede afectar el rendimiento de los cultivares pues el tipo de riego puede estar correlacionado con esta covariable ya que a bajo porcentaje de arcillas del suelo y un pobre riego puede afectar la absorción de nutrientes por parte de las plantas.
Se realizo el análisis de covarianza respectivo timando en cuenta el porcentaje de arcilla como covariable. Se detectaron diferencias significativas en ambos factores.

Analisis de la covariable en el modelo

¿se justifica el uso de la covariable en el modelo? ¿se justifica el bloque en el modelo? ¿ se tiene interacción de factores? De no presentarse interacción , reduzca el modelo a la presencia de solo términos cuyos p_ valores sean menores al 6%. Escriba el modelo final e interprete el resultado desde un punto de vista agronómico seleccionando el “mejor tratamiento” en la mejor condición de bloqueo y con la presencia de la covariable. No olvide ordenar datos de la covariable. Revise los supuestos necesarios para el análisis estadístico que está proponiendo.

cor.test(clay,biomasa)

## 
##  Pearson's product-moment correlation
## 
## data:  clay and biomasa
## t = 1.3338, df = 46, p-value = 0.1888
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  -0.0964622  0.4522978
## sample estimates:
##       cor 
## 0.1929612

cor(strip_cova$clay, strip_cova$biomasa)

## [1] 0.1929612

plot(x = strip_cova$clay, y = strip_cova$biomasa, 
     main = "Regresión lineal entre biomasa y porcentaje de arcilla", 
     xlab = "Porcentaje de arcilla", ylab = "Biomasa")

abline(lm(strip_cova$biomasa~strip_cova$clay), col = "red")
text(x=0.5, y=5.0, label="r=0.19")

media_riego=tapply(striplot$biomasa,striplot$Riego,mean)
media_riego

##  completo   parcial sin_riego 
##  4.281250  4.000000  3.393125

var_riego=tapply(striplot$biomasa,striplot$Riego,var)
var_riego

##  completo   parcial sin_riego 
## 0.5138517 0.2494400 0.1524229

media_Variedades=tapply(striplot$biomasa,striplot$Variedades,mean)
media_Variedades

##       V1       V2       V3       V4 
## 4.172500 4.011667 3.515833 3.865833

tabla_medias = tapply(striplot$biomasa,list(striplot$Riego,striplot$Variedades), mean);tabla_medias

##               V1     V2     V3     V4
## completo  4.4650 4.3625 3.9975 4.3000
## parcial   4.4700 4.3000 3.2100 4.0200
## sin_riego 3.5825 3.3725 3.3400 3.2775

stripchart(biomasa ~ Variedades, vertical = TRUE, pch = 1, xlab = "Variedades", data = striplot)

boxplot(biomasa~Variedades)

Al realizarce la revision del supuesto de relacion lineal entre la variable respuesta y la covariable se obtiene un coeficiente de correlacion del 19%, lo cual indica que no existe correlacion y por lo tanto introducir la covariable al modelo no es necesario y tampoco se deben tomar los resultados de la prueba ANCOVA a pesar de no existir interacciones entre los factores, por lo que las unicas diferencias existentes serian para las encontradas en los tipos de riego y no en las variedades. Otra razon para no considerar la covariable en este modelo es debido a que las variedades fueron asigndas a las subparcelas por lo que el error experimental es pequeño y su precisión para estimar los efectos es mayor que la de las parcelas principales (riego),sin embargo, no fueron encontradas diferencias signifcativas para las subparcelas.

De igual modo, se hallaron las medias para los dos factores y se creo un boxplot para las medias de las cuatro variedades de estudio. Descriptivamente se observa que el tratamiento sin riego obtuvo resultados por debajo en comparación con los demas tipos de riego. Por el otro lado, las variedades muetran medias y varianzas mas similares entre si.

Modelo para el diseño Strip-plot:

\[y_{ijk}=\mu+\alpha_i+\beta_j+(\alpha\beta)_{ij}+\delta_k+\eta_{ik}+\varepsilon_{ijk}\\i:1,2,3\\ j:1\cdots 4\\ k:1,2,3\\Condiciones~Laterales~Respectivas\]

Donde \(\mu\) es la media general, \(\alpha_i\) es el efecto del i -ésimo nivel del factor riego, \(\beta_j\) se asocia al efecto del j -ésimo nivel del factor variedades, \((\alpha\beta)_{ij}\) es la interacción entre los dos factores, \(\delta_k\) es el efecto del k -ésimo bloque, \(\eta_{ik}\) es el error aleatorio de la parcela principal, y \(\varepsilon_{ijk}\) es el error aleatorio de la subparcela.

El mejor tratamiento segun el cuerpo de la tabla es para el riego parcial, ademas la varianza encontrada en este tipo de riego es de 24% mientras que en el riego completo es de 51%

Punto 8. Realice un resumen con la nota que aparece en las siguientes direcciones sobre:

El uso de los diseños en parcelas divididas:

http://207.67.83.164/quality-progress/2007/10/laboratory/when-should-you-consider-a-split-plot-design.html

EL uso correcto del diseño de parcelas divididas puede generar beneficios al maximizar la información obtenida bajo presupuestos apretados y en tiempos más cortos de experimentación, esto debido a que muchas veces cuando el experimentador se enfrenta a un factor difícil de aleatorizar o cambiar es preferible realizar el menor numero de cambios para este factor y en cambio realizar mas cambios en el factor que tiene facilidades en su aleatorización. EL factor difícil de aleatorizar se le llama whole plot o parcela principal, mientras que al factor fácil de aleatorizar se le denomina subplot o subparcela; esto debido a su origen en la agricultura cuando se hace referencia a plot con parcelas de tierra. Ya que las métricas de cuantificación de un diseño se basan en el presupuesto y el tiempo se hace relevante el correcto entendimiento de los diseños por parcelas divididas pues su estudio en cursos de estadística y de diseño de experimentos es muy superficial. Partiendo del correcto entendimiento de estos diseños hay que dejar claro que el número de parcelas principales debe ser igual al numero de veces que este sea aleatorizado, y el número de experimentos será igual al número de subparcelas. Un tipo de diseño por parcelas divididas es el inadvertent split-plot design o diseño por parcelas divididas equivocado, y se llama de esta manera porque su análisis es fácilmente confundido por el de un diseño completamente al azar, pues cada experimento es corrido de manera independiente cuando no es lo correcto y puede llevar a conclusión falsas. Es por esta razón, que un diseño por parcelas divididas es consecuencia de la conveniencia que el experimentador observe sea necesaria al encontrar factores que sean complicados de modificar en experimentos independientes, por lo que un enfoque de parcelas divididas este inconveniente es reducido y es posible correr el mismo número de experimentos, pero en un orden distinto donde sean las subparcelas las que se aleatoricen dentro de las parcelas principales.
Dentro del diseño por parcelas divididas existen dos tipos separados de aleatorización: la que se les realiza a las parcelas principales y la que se realiza en las subparcelas. Debido que hay dos aleatorizaciones esto conlleva a que se generen dos errores. Investigadores han determinado un nivel de eficiencia del 50% para el inadvertent split-plot comparado con el diseño de parcelas divididas correcto, basándose en el tamaño del error de estos diseños. Se deben tener en cuenta las diferentes prioridades que se derivan de cada tipo de diseño, por lo que se debe dar foco a los criterios relevantes para cada uno de ellos, para ello se toman diferentes criterios tanto cualitativos como cuantitativos. Cualitativos como el balanceo del numero de observaciones por parcela principal y el número de niveles por factor, o cuantitativamente en cuanto a las estimaciones de los parámetros hallados, de los errores en las parcelas principales y en las subparcelas y el rendimiento relativo (r). El rendimiento relativo mide el costo que tiene la modificación de las subparcelas en relación con la parcela principal, dividiendo el número de niveles de la subparcela por el número de niveles de la parcela principal; de esta forma se puede cuantificar el costo de realizar la aleatorización en la subparcela, buscando que esta relación sea entonces lo más cercano a cero y de esta forma sea considerablemente mas barato realizar los cambios en la subparcela.

Sobre lo que significa unidad experimental y unidad de observación

https://www.sciencedirect.com/science/article/pii/S002203021630621X

En la literatura la unidad experimental también se le puede llamar unidad de replicación, y la define como: la entidad más pequeña que se asigna independientemente de las demás unidades de un tratamiento en particular. Se entiende que las unidades experimentales son intercambiables, no difieren de ninguna forma al recibir el mismo tratamiento. Se puede ejemplificar con vacas, cada una como unidades experimentales o en el caso de un corral con varias vacas, donde el corral actúa como una unidad experimental a la cual se le puede comparar con otro corral con un tratamiento distinto. Las diferencias en los efectos resultantes pudieron haber sido causados por los efectos ocasionados por las dietas suministradas, por efecto confundido del corral o por una combinación de ambos efectos. Para separar le efecto causado por los corrales y el causado por las dietas es necesario mayor cantidad de corrales, por lo cual se generan dos variabilidades: una causada entre los corrales y otra causada dentro de cada corral en cada vaca. La unidad experimental se define como la entidad física a la cual una respuesta de interés es medida en un experimento. Siguiendo con el ejemplo de los corrales y las vacas, los corrales son las unidades experimentales las cuales reciben el tratamiento, mientras que las vacas son las unidades observacionales pues de estas es que se les mide la respuesta. Es importante señalar que en este caso el diseño es anidado pues cada vaca en cada corral tiene una correlación con el corral en el que se encuentre, por lo que cada vaca depende de su corral, y en este caso la separación del efecto debido por la dieta y el efecto debido por el corral no es posible con solo dos corrales. En diseños anidados las unidades observacionales reciben el nombre de submuestras, pseudoreplicantes y replicantes técnicas. Es necesario, para obtener un experimento confiable realizar repeticiones lo cual conlleva a que los resultados sean reproducibles y no se obtengan resultados no previstos. Estas medidas de repetición generan una variabilidad que resulta útil a la hora de estimar el error experimental o para calibrar pruebas de hipótesis. Según los casos presentados por Robinson se dan dos tipos de escenarios, en dónde los tratamientos son aplicados a todo el corral, el cual se denominó A, y un escenario B donde se realizo los tratamientos para cada vaca de cada corral de forma independientemente. Para el escenario A cada corral es una unidad experimental produciendo un error experimental entre cada unidad experimental. Para el escenario B la vaca actúa tanto como unidad experimental como unidad observacional, y el corral funciona como una estructura de bloqueo. Luego se considera el uso de diseños latinos cuadrado de 3x3 sin repeticiones en el cual se considera al periodo como elemento de diseño experimental o como estructura del tratamiento. Al considerar el periodo como elemento de la estructura del tratamiento del diseño de latinos cuadrados se evidencia que los efectos de la dieta dependen de la etapa de lactación con lo cual se enfoca en diferencias de los tratamientos dentro de los periodos. Cualquier unidad experimental usado en un estudio se le considera una muestra representativa de una población, cualquier entidad física puede funcionar como una unidad experimental o una unidad observacional dentro de un mismo experimento. Sin embargo, la apropiada identificación de la unidad de experimentación en un estudio debe ser contextualizado de forma que su identificación se vea reducida a ser siempre la misma en todos los casos, esto con el fin de asegurar experimentos científicos con resultados que sean reproducibles y replicados en la vida real.

https://online.stat.psu.edu/stat502/lesson/6/6.1-0

Para el ejemplo de dos acuarios cada uno con 50 peces y dos niveles del tratamiento de agua, las unidades experimentales son los acuarios pues estos son los que reciben los tratamientos. Una replicación se le denomina a cada aplicación completa de los tratamientos, en este caso de los dos niveles de agua, por lo que a este experimento solo tiene una réplica. Cada pez atrapado se le considera como una unidad muestral; para la realización de la ANOVA se requiere calcular las medias de este conjunto de unidades muestrales antes de calcular suma de cuadrados de los tratamientos. Uno de los problemas que pueden originarse al no reconocer las unidades muestrales es la pseudoreplicacion, donde erróneamente a cada unidad muestral se le considera una unidad experimental lo cual conlleva a que el error de los grados de libertad se infle provocando que el error de la media cuadrado se reduzca y el estadístico F sea mayor.

Guía para diseñar experimentos exitosos

https://acsess.onlinelibrary.wiley.com/doi/full/10.2134/agronj2013.0114

De los tres tipos de experimentos los comparativos o manipulativos son en los que los científicos basan sus estudios biológicos agregando matemáticas y estadística. En este tipo de experimentos el científico postula una hipótesis o pregunta; luego, estos son llevados a un modelo estadístico para poder ser desarrollado hasta convertirse en un diseño estadístico, el cual incluye el diseño de tratamientos y el diseño de experimentos. Es de esta forma que por medio de el diseño experimental se puede obtener un conjunto de procedimientos para llevar a cabo el experimento. Luego de que el experimento ha sido realizado se debe ejecutar un análisis estadístico concluir alguna interpretación de estos resultados los cuales muchas veces se generan aun mas preguntas que las originales. Además, un importante paso posterior a la finalización del análisis son los procedimientos de retroalimentación en donde surge nueva información que podrá usada en futuros experimentos y de esta forma ser más eficiente. Debido al alto costo que representa la ejecución de experimentos en el área biológica, el fracaso no es una opción por lo que un resultado negativo en donde no se detecten diferencias se le considera un fracaso y es muy probable que no sea admitido en revistas científicas. La revisión propone revisar la literatura disponible y proveer información concerniente para evitar el fracaso en la experimentación comparativa. Para este propósito, se presentaron cuatro conceptos considerados como los pilares de un buen diseño experimental: replicación, aleatorización, bloqueo y unidades experimentales. Para el caso de la replicación se dan cuatro funciones que desempeñan en la experimentación comparativa. La primera función de la replicación es servir como base para la estimación del error experimental para luego mediante análisis estadístico se validar o no una hipótesis. La segunda función es incrementar la precisión del experimento pues al incrementar el numero de observaciones se hace más fácil encontrar diferencias. La tercera función indica que al realizar mas replicas el espectro o rango de los valores encontrados se incrementa. Por último, la cuarta función es brindar al experimentador del control del error y de esta forma también logra regular la precisión del experimento. La selección de muestras aleatorias asegura que la inferencia coincida con la hipótesis, esto mediante la definición y aplicación de los tratamientos. Otro aspecto en la aleatorización es la aplicación de r replicantes en t tratamientos y al multiplicarlos se obtiene rt unidades experimentales que tendrán una estructura totalmente aleatoria. Las principales funciones de la aleatorización es la estimación no sesgada de la media de un tratamiento y los errores experimentales y previene la intrusión o ruido entre los datos observados por variables que hayan podido afectar la media global, de forma que permite el control del experimento al no permitir que fuentes de variación externas afecten los resultados. Al existir patrones de variación espacial correlacionados al plan de aleatorización muchas veces los resultados pueden parecer amontonados por lo que es recomendable la interspersion, donde el experimentador trata de generar un balanceo y evitar estos agrupamientos. Cuando el experimento presenta ambos métodos aleatorización e interspersion, los diseños tienden a ser espacialmente más balceados.

En una forma parecida a la aleatorización esta previenen la interferencia de fuentes de variación no deseados en el experimento. Se genera mayor precisión pues se agrupan en bloques que permite la homogeneización de las unidades experimentales. también puede ser usado a conveniencia del experimentador cuando son necesarias áreas de experimentación de mayor tamaño. Puede representar una reducción de costos cuando hay un menor número de tratamientos e incrementando la precisión en las pruebas de hipótesis. No se debe realizar un ordenamiento en bloques de manera lineal sin conocimiento de la variación espacial de las unidades experimentales pues esto pude ocasionar que el experimento no sea exitoso. El bloqueo bidireccional realizado en grandes campos uniformes resultan excelentes ante equivocaciones en la formulación errónea del método de bloqueo. Los diseños de bloqueos en repeticiones y repeticiones en bloqueos son diseñados útiles en programas de mejoramiento animal y de plantas.

Es importante señalar que la correlación entre complejidad y eficiencia, siendo los diseños más complejos los que mejores resultados obtendrán, esto sucede cuando el efecto de la variabilidad espacial es muy grande y para nada previsible para el experimentador. Punto que difiere con los diseños en bloques pues cuando hay un numero de tratamientos mayores a 20, los bloque incrementan radicalmente la eficiencia del diseño, siendo este un método de control ante variación espacial no previsible.

En cuanto al tamaño de la unidad experimental hay poco conocimiento teórico, pero se conoce que cambios en una unidad muestral pequeña tiene grandes repercusiones en la mediad de a varianza y al contrario un cabio en una unidad experimental grande genera poco o ningún impacto en la media de la varianza. El método de estimación de Smith permite comparar diseños experimentales besándose en el tamaño de la parcela, numero de tratamientos, numero de replicas y el tamaño total del experimento; para ello es necesario el coeficiente de suelo heterogéneo de Smith. Se recomienda ser hábil en diseño de experimentos y manejo de data y su análisis y acompañarse de amigos que tengan estas habilidades. Comenzar por experimentos con grandes unidades experimentales tanto como este dentro de las capacidades. Siempre comenzar haciendo un análisis de poder antes de cada experimento. Si se encuentra con diseños de gran tamaño se recomienda usar diseño por bloque debido a su fácil manejo y su flexibilidad. Salir de la zona de confort e ir mas allá de los límites de la creatividad.

Parcial 1 Diseno de Experimentos

Cristian David Munoz Mayorga

6 de noviembre de 2020

Punto 1

Hipotesis Nula:

Hipotesis Alterna:

Determinacion del Valor P:

Nivel de confianza por medio del cuantil F o F tabulado:

1. Normalidad del vector de residuales del modelo

2. Prueba de igualadad de varianza entre tratamientos

3. Independencia de los residuales

Punto 3

Hipotesis

Prueba-t

Punto 4

Modelo de diseno

Analisis de Varianzas

Mediacion de los efectos de del factor F1 (Dosis de insecticida)

Mediacion de los efectos de F2 (numero de aplicaciones)

Generacion datos se arcilla

Modelo de diseno

Analisis de covarianza Ancova

Punto 5

Punto 6

Analisis Descriptivo

Hipotesis:

Analisis de Varianza

Verificacion de supuestos:

1. Normalidad del vector de residuales del modelo

2. Prueba de igualadad de varianza entre tratamientos

3. Independencia de los residuales

Prueba de Kruskal-Wallis:

Prueba Nemenyi:

Punto 7.

Generación de datos y analisis de covarianza

Analisis de la covariable en el modelo

Modelo para el diseño Strip-plot:

Punto 8. Realice un resumen con la nota que aparece en las siguientes direcciones sobre:

El uso de los diseños en parcelas divididas:

Sobre lo que significa unidad experimental y unidad de observación

Guía para diseñar experimentos exitosos