| title: “Parcial p 1-2-3” |
| author: “David Stiven Ocampo Alfonso y Sofia Valentina Mendoza Acosta” |
| date: “7/11/2020” |
| output: |
| html_document: default |
\(PUNTO~~1\)
Tenemos que:
\[s^{2}=\frac{SC_T}{gl_T}~Form~1\\Donde:s^{2}=Varianza\\SC_T=Suma~de~cuadtados~totales\\gl=Grados~de~livertad~totales\] Altener la varianza de las 72 observaciones y la formula descrita arriba;podemos obtener (SC_T) y a su vez sacar SC_w ya que : \[SC_T=SC_B+SC_W~Form~2\\Donde:SC_B=Suma~de~cuadrados~between\\SC_W=Suma~de~cuadrados~whitin\] Despejamos (SC_T) en la Form 1 y la remplazamos en Form 2 y tenemos que: \[s^{2}*gl_T=SC_B+SC_W\\SC_W=(s^{2}*gl_T)-SC_B~~Form~3\] Para calcular los grados de libertad totales debemos recordar que: \[gl_B=t-1\\gl_W=t(r-1)\\gl_T=n-1\\Donde:t=Num.~tratamiento\\r=Num.~repeticiones\\n=Num.~observaciones\] Los datos que tenemos son la varianza de los datos, la suma de cuadrados de between y los gl totales, al poner estos datos en la Form 3 tenemos que:
\[SC_W=(873*71)-6000\\SC_W=55983\] Con este dato podemos llenar la tabla ANOVA y hayamos el F calculado:
\[F_c=\frac{CM_B}{CM_W}~y~al~remplasar~tenemos~\frac{750}{888.6}=0.84\]
#El F calculado para este ejercicio es de 0.84 y el tabulado es 2.8, lo que nos indica que la variacion esta dad por los resultados dentro de los tratamientos, indicandonos que algo esta afectando el experimento.
###Creamos los datos y la hipotesis
\[H_0=Todas~las~\mu~son~iguales\\H_a=Al~menos~una~\mu~es~diferente \]
set.seed(1)
Clr = (c(rnorm(8,407,sqrt(873)),rnorm(8,417,sqrt(873)),rnorm(8,427,sqrt(873)),rnorm(8,437,sqrt(873)),rnorm(8,447,sqrt(873)),rnorm(8,457,sqrt(873)),rnorm(8,467,sqrt(873)),Mt7 = rnorm(8,477,sqrt(873)),rnorm(8,487,sqrt(873)))) # Creamos los datos de clorofila
MET = gl(9,8,72,labels = c('M1t','M2t','M3t','M4t','M5t','M6t','M7t','M8t','M9t'))# Creamos los factores (metodos)
dt = data.frame(Clr,MET) #Lo copilamos dentro de un data.frame
Anova_Cl =aov(Clr~MET) #Corremos el ANOVA para mirar su comportamiento
summary(Anova_Cl)
## Df Sum Sq Mean Sq F value Pr(>F)
## MET 8 53856 6732 8.264 1.4e-07 ***
## Residuals 63 51323 815
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Se obseva que la probabilidad de F es muy pequeña, lo cual nos indica que se rechace la Ho, pero vemos que el F-valor es 8.2 indicando variabilidad en los metodos, para tener un acercamiento mas presiso de las relaciones entre las medias de los tratamientos utilizamos la prueba de Tukey.
TukeyHSD(Anova_Cl,'MET')# Se realiza la prueba de Tukey para comparar los metodos
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = Clr ~ MET)
##
## $MET
## diff lwr upr p adj
## M2t-M1t 7.652670 -38.186341 53.49168 0.9998049
## M3t-M1t 23.979408 -21.859603 69.81842 0.7559170
## M4t-M1t 26.606567 -19.232444 72.44558 0.6399328
## M5t-M1t 35.936517 -9.902495 81.77553 0.2433801
## M6t-M1t 48.230790 2.391778 94.06980 0.0318424
## M7t-M1t 67.860815 22.021804 113.69983 0.0003881
## M8t-M1t 73.884611 28.045600 119.72362 0.0000840
## M9t-M1t 80.538887 34.699876 126.37790 0.0000145
## M3t-M2t 16.326738 -29.512273 62.16575 0.9648085
## M4t-M2t 18.953897 -26.885114 64.79291 0.9189527
## M5t-M2t 28.283846 -17.555165 74.12286 0.5613370
## M6t-M2t 40.578120 -5.260892 86.41713 0.1233564
## M7t-M2t 60.208145 14.369134 106.04716 0.0024507
## M8t-M2t 66.231941 20.392930 112.07095 0.0005806
## M9t-M2t 72.886217 27.047206 118.72523 0.0001087
## M4t-M3t 2.627159 -43.211853 48.46617 1.0000000
## M5t-M3t 11.957108 -33.881904 57.79612 0.9951767
## M6t-M3t 24.251381 -21.587630 70.09039 0.7446037
## M7t-M3t 43.881407 -1.957605 89.72042 0.0710329
## M8t-M3t 49.905203 4.066191 95.74421 0.0229049
## M9t-M3t 56.559479 10.720467 102.39849 0.0056113
## M5t-M4t 9.329949 -36.509062 55.16896 0.9991588
## M6t-M4t 21.624223 -24.214789 67.46323 0.8442030
## M7t-M4t 41.254248 -4.584763 87.09326 0.1106606
## M8t-M4t 47.278044 1.439032 93.11706 0.0382199
## M9t-M4t 53.932320 8.093309 99.77133 0.0099486
## M6t-M5t 12.294273 -33.544738 58.13328 0.9941782
## M7t-M5t 31.924299 -13.914713 77.76331 0.3954847
## M8t-M5t 37.948095 -7.890917 83.78711 0.1839700
## M9t-M5t 44.602371 -1.236641 90.44138 0.0625406
## M7t-M6t 19.630026 -26.208986 65.46904 0.9027716
## M8t-M6t 25.653821 -20.185190 71.49283 0.6834785
## M9t-M6t 32.308097 -13.530914 78.14711 0.3792002
## M8t-M7t 6.023796 -39.815216 51.86281 0.9999683
## M9t-M7t 12.678072 -33.160940 58.51708 0.9928473
## M9t-M8t 6.654276 -39.184735 52.49329 0.9999321
Vemos que algunos p-valor (ajustado) se acercan a 1 lo que nos indica que hay tratamientos similares pero a su vez hay p-valores que estan por debajo del porcentaje asignado, indicando que la (H_o) se rechaza, debido a que no todas las medias de los tratamientos son iguales.
\(PUNTO 2\)
\[H_0=\mu_1=\mu_2=\mu_3=\mu_4=\mu_5\\H_a=Al~menos~una~\mu~es~diferente\] #Se creo una tabla en exel para introducir los datos
library(readxl)
data <- read_excel("E:/Ingenieria Agronomica/Semestre 8/Diseno de Experimentos/Parcial/Ejercicio 2.xlsx")
Per =c(data$Perdida)#Creamos un vector para la perdida
met= c(data$Metodo)#Creamos un vector para los metodos
gran=c(data$Granjero)#Creamos un vector para los granjeros
met_f=factor(met)#Creamos los factores
gran_f =factor(gran)
model = data.frame(Per,met_f,gran_f)# Generamos el data.frame
modelo_1 = lm(Per~met_f+gran_f) # Se crea el modelo_1 lineal usando lm()
modelo_2 = lm(Per~gran_f+met_f) # Se crea el modelo_2 lineal usando lm()
anova_1=aov(modelo_1)# Corremos el ANOVA para el modelo_1
anova_2=aov(modelo_2)# Corremos el ANOVA para el modelo_2
summary(anova_1)
## Df Sum Sq Mean Sq F value Pr(>F)
## met_f 4 47.79 11.947 8.634 0.000379 ***
## gran_f 5 139.43 27.887 20.153 5.32e-07 ***
## Residuals 19 26.29 1.384
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
summary(anova_2)
## Df Sum Sq Mean Sq F value Pr(>F)
## gran_f 5 138.07 27.614 19.96 5.75e-07 ***
## met_f 4 49.15 12.287 8.88 0.000322 ***
## Residuals 19 26.29 1.384
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 1 observation deleted due to missingness
Vemos que para los dos modelos implementados no existe una diferencia significativa al corre los dos casos
library(readxl)
data_bal <- read_excel("E:/Ingenieria Agronomica/Semestre 8/Diseno de Experimentos/Parcial/Ejercicio 2 balansedo.xlsx")
media = tapply(data_bal$Perdida,data_bal$Metodo,mean) # se encontro la media para el valor faltante M1-G1
media
## M1 M2 M3 M4 M5
## 9.298000 6.195000 7.016667 6.168333 8.760000
#Se incluye este resultado 9.298 que equibale a la media de M1 y corremos ANOVA
## Df Sum Sq Mean Sq F value Pr(>F)
## data_bal$Metodo 4 51.18 12.794 1.854 0.151
## data_bal$Granjero 1 0.08 0.077 0.011 0.917
## Residuals 24 165.65 6.902
Al correr el ANOVA balanceado observamos que no es igual a los ANOVAS corridos anteriormente, y ademas por el valor F vemos que hay poca variavilidad dentro de los metodos
\[PUNTO~~3\]
set.seed(321)
library(rgl)
## Warning: package 'rgl' was built under R version 4.0.3
Co10 = runif(50,2,2.9)# Se generan los datos para el C.O en la capa inferior
Co10 = sort.int(Co10,partial = 32)
Co5 = runif(50,3,3.8)# Se generan los datos para el C.O en la capa superior
Co5 = sort.int(Co5,partial = 32)
tabla = expand.grid(long = seq(0,100,25),lat = seq(0,200,length.out = 10))
data_Co = data.frame(long = rep(tabla$long,2), lat = rep(tabla$lat,2),prof = rep(c(5,10), each = 50), co = c(Co5,Co10))# Realizamos el data.frame
Graf = plot3d(x = data_Co$long,y = data_Co$lat,z = data_Co$prof,type = 'p',xlab = 'Longitud',ylab = 'Latitud',zlab = 'Profundidad',col = data_Co$co,size = 8,lwd = 6,)#Generamos el grafico para observar mejor el grafico
Graf
t.test(Co5,Co10,paired = T)
##
## Paired t-test
##
## data: Co5 and Co10
## t = 59.532, df = 49, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.8846154 0.9464243
## sample estimates:
## mean of the differences
## 0.9155198
\[Punto~8\] ##Primera lectura #El uso de los diseños en parcelas divididas:
Si se realizan experimentos, se debe tener una buena comprensión del diseño de experimentos. Un experimento de parcelas divididas es una opción a considerar, si se tiene una situación en la que algunos factores tienen niveles más difíciles de cambiar que otros.
Dado que las parcelas divididas se originaron en entornos agrícolas, gran parte de la nomenclatura se refiere a parcelas de tierra. Al imaginar un experimento de campo agrícola, donde una serie de parcelas adyacentes de tierra reciben el mismo fertilizante y luego el tipo de semilla particular se aleatoriza y se aplica a las parcelas dentro de esta agrupación más grande. En un entorno industrial, los factores de parcelas difíciles de cambiar podrían estar cambiando la temperatura de un horno. La métrica para cuantificar los factores difíciles de cambiar podrían basarse en el presupuesto o el tiempo.
Al considerar un experimento 23 para ver el efecto de 3 factores, vemos que este diseño implica ocho corridas. Para correr un experimento completamente aleatorio, aleatoriza el orden de las 8 ejecuciones. Es posible que en la práctica el experimentador a veces no restablezca todos los factores entre las ejecuciones. Esto se conoce como un trazo dividido involuntario. Este análisis trataria todas la corridas como independientes, lo cual no es apropiado y podría llevar a conclusiones engañosas sobre los efectos de los factores.
Al analizar los datos como un experimento de parcelas divididas, conducirá a conclusiones válidas que proporcionan información precisa sobre los efectos. El análisis correcto reconoce que las observaciones obtenidas están correlacionadas entre sí, ya que se esperaría que fueran más similares que las observaciones. Al determinar el orden de ejecución del experimento de parcela dividida, hay dos aleatorizaciones independientes: determinar el orden en el que se ejecutan todas las gráficas; y recoger observaciones dentro de cada parcela.
Hay una amplia gama de aspectos para la elección de un diseño, desde características cualitativas hasta medidas cuantitativas. Dado que los diferentes experimentos tienen diferentes propiedades, es importante considerar lo que significa ´´óptimo´´ y centrarse en los criterios más relevantes para los objetivos del proyecto. Los diseños de parcela dividida son una clase de diseños importante y práctica. Cuando se eligen estratégicamente, los diseños de parcela dividida pueden aumentar la cantidad de información que un profesional puede extraer de un experimento diseñado.
##Segunda y tercera lectura
#Sobre lo que significa unidad experimental y unidad de observación:
Es esencial tener un correcto entendimiento sobre el concepto de Unidad Experimental, en términos simples podríamos decir que es aquello que recibe el tratamiento en un diseño experimental, es decir ese algo donde se va a realizar un cambio para analizar la respuesta a dicha alteración. En ese orden de ideas una Réplica vendría a ser una aplicación completa de niveles de tratamiento, que debe ser exactamente igual cada vez que se realice. Es muy importante recalcar que hay que tener cuidado a la hora de definir las Unidades de Muestreo, ya que estas vienen dentro de la unidad experimental y a veces se tiende a etiquetar como Unidad Experimental, pero para que esto sea así cada unidad de muestreo debería tener un tratamiento individual, lo cual en términos logísticos sería muy tedioso y difícil de realizar, a no ser que el estudio lo demande así expresamente. Los riesgos de confundir una Unidad de Muestreo con una Unidad Experimental es que al momento de realizar el ANOVA, y tratar cada unidad de muestreo como una unidad experimental, esto ocasionaria una pseudo-replicación e inflaría el Error df, lo cual terminaría en un F estadístico más grande e incorrecto.
#Comunicación breve: sobre el reconocimiento de la unidad experimental adecuada en los estudios con animales en las ciencias lácteas:
“El diseño sólido de los experimentos y la implementación adecuada de métodos estadísticos apropiados para el análisis de datos son fundamentales para producir resultados científicos significativos que sean tanto replicables como reproducibles”. La importancia de darle claridad al concepto de Unidad Estadística se hace visible. Como ya mencionamos anteriormente está mucho más claro el concepto formal de Unidad Experimental que es el siguiente: “la entidad más pequeña que se asigna independientemente de todas las demás unidades a un tratamiento particular” y en cuanto al de Unidad de Observación o Unidad de Muestreo su definición formal es: “la entidad física sobre la que se mide un resultado de interés en un experimento”. Hay muchos diseños simples donde la Unidad Experimental termina siendo la misma Unidad de Muestreo, por eso estos conceptos son susceptibles a confundirse.
Las estructuras de diseño anidadas se refieren a: “la configuración de los datos donde las observaciones no son independientes entre sí, sino que tienen una estructura de correlación impuesta por el diseño experimental”. Por lo general estas relaciones de dependencia (llamada también correlación) están totalmente sujetas al contexto en el que se realiza el experimento. Estos tipos de diseños nos llevan a un tema mencionado anteriormente que son las pseudo-réplicas, solo que en este caso se deja implícito que hay una correlación entre las observaciones, es decir, no son una réplica como tal.
“Las unidades experimentales se definen en términos de asignaciones de tratamiento independientes, mientras que las unidades de observación se definen en términos de medidas de resultado”
Teniendo todo la anterior en cuenta, hay una posible excepción a la regla, la cual sería los Diseños de Medidas Repetidas donde el tiempo viene a ser un factor determinante. Reconocer de manera efectiva cuáles son las estructuras jerárquicas de las observaciones y qué mediciones tienen correlación con otras o cuáles son independientes son determinantes al momento de establecer el modelo estadístico del análisis de datos de cada diseño. Otro concepto a revisar es el de error de muestreo el cual, “representa la variación entre las unidades de observación, distinta del error experimental o la variación entre las unidades experimentales”. Es por esto que las especificaciones del modelo estadístico deben manejarse de una manera rigurosa teniendo en cuenta como se ha hecho la recopilación de los datos y considerando las jerarquías presentes generadas por las correlaciones o independencias presentes en el experimento.
“Sin duda, los cambios sutiles en la forma en que se ejecuta un experimento pueden tener efectos profundos sobre cómo se especifica el modelo estadístico para el análisis de datos”
Una correcta y muy especificada descripción de la metodología empleada para la recolección de datos y de la construcción del diseño es fundamental para establecer el modelo estadístico. Todo modelo estadístico debe dar lugar a observaciones que muestran qué variables independientes pueden afectar la variable respuesta y que también se tenga en cuenta cualquier restricción en la aleatorización así como inducciones a correlaciones entre los datos. Los modelos mixtos pueden ayudar a la hora de comprender el análisis estadístico ya que estos modelos resaltan de manera muy clara las correlaciones y jerarquizaciones presentadas en estas estructuras anidadas, sumado a que en en el análisis de datos se evalúa simultáneamente las múltiples fuentes de variabilidad aleatoria. Este reconocimiento nos puede llevar a generar pruebas de hipótesis adecuadas. Un diseño experimental equilibrado debe plantearse muy bien la siguiente pregunta: “¿cuál es la población a la que se pretende que sean aplicables las conclusiones derivadas de un estudio dado?” . Aquí se debe tener claro que lo ideal es que cada unidad experimental de un estudio debe ser capaz de ser considerada como una muestra representativa de la población de unidades.
“Un desprecio por la estructura de datos jerárquica puede inflar los grados de libertad y F-relaciones, lo que conduce a una tasa excesivamente alta de falsos positivos que, como era de esperar, no se replican.”
Importante y esencial es exponer de manera clara el contexto en el cual se está realizando el estudio de modo que haya una inferencia bien encaminada y así mismo se pueda garantizar una reproducibilidad de los resultados del estudio. Dependiendo del contexto en el que se realizó el experimento, así mismo se puede ver si es posible aplicar estos resultados a un contexto diferente. Esto es de importancia para poder crear confiabilidad en los resultados de alguna investigación en específico, ante la comunidad académica y el público en general.
##Cuarta lectura #Guía para diseñar experimentos exitosos: El diseñar experimentos implica un matrimonio de ciencias biológicas y matemáticas. En las ciencias matemáticas, o estadística, utiliza fundamentos y principios científicos que se han desarrollado durante el siglo pasado para llevar a cabo 3 tipos de experimentos: observacionales, de medición y comparativos.
Los observacionales son aquellos diseñados para medir a verificar una constante supuesta, (velocidad de la luz o la masa del átomo). Los de medición son aquellas diseñadas para medir las propiedades de una población, cuyos miembros son variables. Por último los comparativos, se sigue la teoría general de la investigación científica. Comenzando con preguntas e hipótesis que deben traducirse a modelos basados en la materia específica. El modelo de la materia se traduce a un modelo estadístico, que es desarrollado junto con el diseño estadístico.
Una vez realizado el experimento y recogido los datos, el análisis estadístico continua según lo determinado por el investigador. El análisis conduce a interpretaciones específicas de los resultados, creando conclusiones que devuelven la investigación a la pregunta o hipótesis.
El acto de la replicación cumple 4 funciones valiosas en la experimentación comparativa.
Proporciona un mecanismo para estimar el error experimental, que es esencial para generar pruebas de hipótesis válidas e intervalos de confianza de los estimadores.
Proporciona un mecanismo para aumentar la precisión de un experimento.El aumento del número de réplicas tiene un impacto directo, positivo y monotónico en la precisión experimental.
La replicación aumenta el alcance de la inferencia para el experimento. El acto de replicación dibuja una gama más amplia de observaciones en el experimento.
El control de errores de los efectos de replicación. Pone al investigador en el asiento del conductor con respecto a controlar la magnitud del error experimental y regula el nivel deseado de precisión o potencia del experimento.
Las replicaciones a la escala adecuada es esencial debido a la variabilidad inherente que existe dentro de los sistemas biológicos y para evitar confundir las diferencias de tratamiento con otros factores. Los tratamientos confusos con unidades experimentales crean dos problemas en el análisis ANOVA : el primero es el efecto fijo de los tratamientos contiene un componente aleatorio desconocido asociado con el error experimental no determinado, el segundo es el único término de error estimables el error observacional, que se espera que sea menor que el error experimental.
El primer paso de ‘replicación’ en el diseño de la mayoría de los experimentos es definir explícitamente la unidad experimental, la unidad que forma el primer nivel de replicación.
Cuando se haya establecido la unidad experimental y una decisión de cómo replicar los tratamientos a la escala adecuada, se pueden diseñar niveles adicionales de replicación en el experimento, subiendo o bajando la escala a unidades más grandes o más pequeñas. Se presentan dos cuestiones con respecto al número de réplicas necesarias para llevar a cabo un experimento adecuado:
La replicación experimental puede ocurrir en 4 niveles básicos dentro del experimento:
Existen numerosas situaciones especiales para las que existe una fuerte tentación o necesidad de dedicar todos los recursos a múltiples tratamientos y ninguno a la replicación. Los agricultores y el personal de divulgación ven valor en probar diferentes tratamientos a gran escala, pero ven poco valor en la replicación de estos tratamientos. Aquellos investigadores que organizan este tipo de experimentos de campo tienen 3 opciones:
Los diseños de las parcelas de control se desarrollaron a principios del siglo XX y su popularidad duró hasta la década de 1970. Sin embargo, siguen siendo una opción muy viable para pequeños experimentos en la granja.
Los diseños aumentados representan una forma específica de diseño que puede manejar cientos o miles de tratamientos, la mayoría de los cuales no son replicados. Los tratamientos son generalmente cultivares o líneas de cría que deben evaluarse en múltiples lugares
El principio de la aleatorización es garantizar un muestreo adecuado y que el experimento se represente correctamente. Con la intención de generar una inferencia que represente de manera adecuada una población y no solamente la muestra hay que tener claridad en definir cuál es la población y cuál es su unidad experimental con el fin de aleatorizar.
El siguiente aspecto a aleatorizar es el de los tratamientos que serán aplicados a las unidades experimentales, a través de réplicas donde se busca uniformidad entre tratamientos. La aleatorización nos ayuda a evitar sesgamientos en las medias y a disminuir el error experimental que puede ser ocasionado por factores externos no contemplados.
Uno de los objetivos del bloqueo es, proveer más precisión al diseño, buscando la homogeneidad de las mediciones o también por conveniencia ya sea por practicidad o porque se relaciona con los objetivos del experimento a realizar. Realizar variaciones en los bloques trae como consecuencia cambios al momento de comparar las interacciones entre los factores, un ejemplo es cuando se reducen los tratamientos lo que también disminuye el tamaño del bloque, esto como consecuencia mejora la precisión de las pruebas de hipótesis.
El tamaño de la parcela es poco y no considerado en la actualidad aún cuando este concepto es mucho más antiguo de lo que parece. Se espera que un cambio así pequeño en el tamaño de la parcela repercute de manera siempre importante en la varianza de media de la unidad experimental. Definir exactamente qué se considera como parcela grande o qué como parcela pequeña no está muy bien establecido pero se sugieren algunos valores guía como 0.9 por 1.2 m para una parcela pequeña y grandes aquellas con un ancho igual a cualquier múltiplo de 0.9 pero que a la larga deber ser evaluados por (preferiblemente) alguien con bastante experiencia en el campo de estudio y dejarlos a su criterio.