Análisis 1. Diseño cuadrado Latino

Ejercicio

Una compañia de mensajería está interesada en determinar cuál marca de llantas tiene mayor duración en términos del desgaste. Para ello se planea un experimento en cuadro latino, en el que se comparan las cuatro marcas de llantas sometiéndolas a una prueba de 32000 kilómetros de recorrido, utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de las llantas en el auto. Así, el factor de intrés es el tipo de llanta o marca, y se controlan dos factores de bloques ; el tipo de automóvil y la posición de la llanta en el automóvil. Estos factores de bloques se controlan ya que, por experiencia, se sabe que tienen efecto en el desgaste de la misma.

La elección del cuadro latino a utilizar se hace antes de obtener los datos. Para ello, a partir de un cuadro latino inicial se aleatorizan las columnas y los renglones ; después, las diferentes marcas de llanta se asignan de manera aleatoria a las letras latinas que denotan los niveles del factor de interés.

Las pruebas se hacen al mismo tiempo con choferes, a quienes se les instruye para que manejen, de manera similar, sobre el mismo terreno para los cuatro automóviles. Al hacer las pruebas de los cuatro autos al mismo tiempo se evita el efecto del ambiente en el desgaste ; asímismo, el conductor y el tipo de terreno podrian influir, pero se considera suficiente mantenerlos lo más homogéneos posible durante el experimento. El diseño y los datos observados se muestran en la tabla 1. Se mide la diferencia máxima entre el grosor de la llanta nueva y el grosor de la llanta después de haber recorrido los 32000 kilómetros. Obviamente, a mayor diferencia en grosor mayor desgaste. Las unidades de medición son milésimas de pulgada.

Automóvil
Posición 1 2 3 4
1 C=12 D = 11 A=13 B=8
2 B = 14 C=12 D=11 A=13
3 A= 17 B=14 C=10 D=9
4 D=13 A=14 B=13 C=9
Tabla 1. DCL en la comparación de cuatro marcas ( A,B,C,D) de llantas

Se procede a la creación del respectivo cuadro latino. Siguiendo los siguientes pasos :

library(agricolae)

Tratamientos <- c("A","B","C","D", "E") # Generando cuadrado Latino 


Tabla <- design.lsd(trt=Tratamientos,seed = 2)
Tabla
## $parameters
## $parameters$design
## [1] "lsd"
## 
## $parameters$trt
## [1] "A" "B" "C" "D" "E"
## 
## $parameters$r
## [1] 5
## 
## $parameters$serie
## [1] 2
## 
## $parameters$seed
## [1] 2
## 
## $parameters$kinds
## [1] "Super-Duper"
## 
## $parameters[[7]]
## [1] TRUE
## 
## 
## $sketch
##      [,1] [,2] [,3] [,4] [,5]
## [1,] "A"  "C"  "B"  "D"  "E" 
## [2,] "B"  "D"  "C"  "E"  "A" 
## [3,] "D"  "A"  "E"  "B"  "C" 
## [4,] "C"  "E"  "D"  "A"  "B" 
## [5,] "E"  "B"  "A"  "C"  "D" 
## 
## $book
##    plots row col Tratamientos
## 1    101   1   1            A
## 2    102   1   2            C
## 3    103   1   3            B
## 4    104   1   4            D
## 5    105   1   5            E
## 6    201   2   1            B
## 7    202   2   2            D
## 8    203   2   3            C
## 9    204   2   4            E
## 10   205   2   5            A
## 11   301   3   1            D
## 12   302   3   2            A
## 13   303   3   3            E
## 14   304   3   4            B
## 15   305   3   5            C
## 16   401   4   1            C
## 17   402   4   2            E
## 18   403   4   3            D
## 19   404   4   4            A
## 20   405   4   5            B
## 21   501   5   1            E
## 22   502   5   2            B
## 23   503   5   3            A
## 24   504   5   4            C
## 25   505   5   5            D
matrix(data = Tabla$book[,4],c(5,5)) #Conversión a tabla
##      [,1] [,2] [,3] [,4] [,5]
## [1,] "A"  "B"  "D"  "C"  "E" 
## [2,] "C"  "D"  "A"  "E"  "B" 
## [3,] "B"  "C"  "E"  "D"  "A" 
## [4,] "D"  "E"  "B"  "A"  "C" 
## [5,] "E"  "A"  "C"  "B"  "D"
Tratamient<- c("C","B","A","D","D","C","B","A","A","D","C","B","B","A","D","C")
Marca_Auto <- c(1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4)
Posicion <- c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4)
Desgaste <- c(12,14,17,13,11,12,14,14,13,11,10,13,8,13,9,9)
Tratamient<-factor(Tratamient) #Conversion de variables a factor
Marca_Auto<-factor(Marca_Auto)
Posicion<-factor(Posicion)

Se cargan los datos que permitiran comprobar los supuestos del análisis de varianza al final de problema:

library(readxl)
Bartlettest_1 <- read_excel("C:/Users/COMPAQ PC/Desktop/Diseno de Experimentos/Diseno de Experimentos/Parcial 1/Bartlettest_ejercicio1.xlsx")
Bartest=data.frame(Bartlettest_1)
Bartest
##    Desgaste Posicion Automovil Marca.de.llanta
## 1        12        1         1               C
## 2        14        2         1               B
## 3        17        3         1               A
## 4        13        4         1               D
## 5        11        1         2               D
## 6        12        2         2               C
## 7        14        3         2               B
## 8        14        4         2               A
## 9        13        1         3               A
## 10       11        2         3               D
## 11       10        3         3               C
## 12        3        4         3               B
## 13        8        1         4               B
## 14       13        2         4               A
## 15        9        3         4               D
## 16        9        4         4               C
Bartest$Desgaste=factor(Bartest
                $Desgaste)
Bartest$Desgaste
##  [1] 12 14 17 13 11 12 14 14 13 11 10 3  8  13 9  9 
## Levels: 3 8 9 10 11 12 13 14 17
Bartest$Posicion=factor(Bartest$Posicion)
Bartest$Posicion
##  [1] 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
## Levels: 1 2 3 4
Bartest$Automovil=factor(Bartest$Automovil)
Bartest$Automovil
##  [1] 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4
## Levels: 1 2 3 4
Bartest$Marca.de.llanta=factor(Bartest$Marca.de.llanta)
Bartest$Marca.de.llanta
##  [1] C B A D D C B A A D C B B A D C
## Levels: A B C D
Análisis de varianza

La tabla obtenida al realizar el ANOVA se puede observar a continuación :

Fuente de Variabilidad Suma de cuadrados Grados de libertad Cuadrado medio F Valor-p
Marca 30,6875 3 10,2292 11,42 0,0068
Posicion 6,1875 3 2,0625 2,3 0,1769
Automovil 38,6875 3 12,8958 14,4 0,0038
Error 5,375 6 0,895833
Total 80,9375 15

En esta tabla se lográ observar que existen diferencias significativas entre los tipos de automóviles empleados y las marcas de llantas, teniendo en cuenta un nivel de significancia de α= 0.05. Por otro lado se puede identificar que no hay diferencias significativas en el desgaste de las llantas al asociarles la posición en la cual se pongan .

La anterior tabla fue obtenida realizando el siguiente código :

Modelo <- lm(Desgaste~Tratamient+ Posicion+ Marca_Auto)
ANOVA <- aov(Modelo)
summary(ANOVA)
##             Df Sum Sq Mean Sq F value  Pr(>F)   
## Tratamient   3  30.69  10.229  11.419 0.00683 **
## Posicion     3   6.19   2.062   2.302 0.17695   
## Marca_Auto   3  38.69  12.896  14.395 0.00378 **
## Residuals    6   5.37   0.896                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se procede a analizar las marcas de las llantas y las marcas de los automóviles, ya que son los que presentaron diferencias significativas :

LSD_Marca <- LSD.test(y=ANOVA , trt="Tratamient", group = T , console =T)# Se analizan las diferencias por medio de LSD
## 
## Study: ANOVA ~ "Tratamient"
## 
## LSD t Test for Desgaste 
## 
## Mean Square Error:  0.8958333 
## 
## Tratamient,  means and individual ( 95 %) CI
## 
##   Desgaste      std r       LCL      UCL Min Max
## A    14.25 1.892969 4 13.092018 15.40798  13  17
## B    12.25 2.872281 4 11.092018 13.40798   8  14
## C    10.75 1.500000 4  9.592018 11.90798   9  12
## D    11.00 1.632993 4  9.842018 12.15798   9  13
## 
## Alpha: 0.05 ; DF Error: 6
## Critical Value of t: 2.446912 
## 
## least Significant Difference: 1.637634 
## 
## Treatments with the same letter are not significantly different.
## 
##   Desgaste groups
## A    14.25      a
## B    12.25      b
## D    11.00      b
## C    10.75      b
# Marca del neumático

A partir de estos resultados, se puede observar que los neumaticos A marcan una diferencia , pues son los que mayor desgaste presentan. Respecto a los neumáticos de las marcas BCD, se encuentran en un mismo grupo, presentando un nivel de desgaste similar, por lo tanto , al momento de seleccionar una de estas tres marcas de neumáticos (BCD) puede optarse por comprar la más barata .

A continuación se puede observar gráficamente esta diferencia :

bar.group(x=LSD_Marca$groups,horiz=T ,col= "blue", # Análisis de forma gráfica
          xlab= "Desgaste",
          ylab = "Marca de neumático",
          xlim =  c(0,18),
          main = "Comparaciones de las marcas de neumáticos\n por medio del procedimiento LSD")

Se realiza nuevamente el análisis LSD pero esta vez teniendo en cuenta la marca de los autos, obteniendo asi :

LSD_Marca <- LSD.test(y=ANOVA,trt="Marca_Auto", group = T,console = T) #Se analizan nuevamente las diferencias por medio del procedimiento LSD, teniendo en cuenta ahora la marca del automóvil
## 
## Study: ANOVA ~ "Marca_Auto"
## 
## LSD t Test for Desgaste 
## 
## Mean Square Error:  0.8958333 
## 
## Marca_Auto,  means and individual ( 95 %) CI
## 
##   Desgaste      std r       LCL      UCL Min Max
## 1    14.00 2.160247 4 12.842018 15.15798  12  17
## 2    12.75 1.500000 4 11.592018 13.90798  11  14
## 3    11.75 1.500000 4 10.592018 12.90798  10  13
## 4     9.75 2.217356 4  8.592018 10.90798   8  13
## 
## Alpha: 0.05 ; DF Error: 6
## Critical Value of t: 2.446912 
## 
## least Significant Difference: 1.637634 
## 
## Treatments with the same letter are not significantly different.
## 
##   Desgaste groups
## 1    14.00      a
## 2    12.75     ab
## 3    11.75      b
## 4     9.75      c

Al gráficar estos resultados se obtiene:

bar.group(x=LSD_Marca$groups,horiz=T ,col= "green",#Análisis gráfico
          xlab= "Desgaste",
          ylab = "Marca Automóvil",
          xlim =  c(0,18),
          main = "Comparaciones de las marcas de automóviles\n por medio del procedimiento LSD")

Donde finalmente se puede observar que el auto 1 y 2 al pertenecer al mismo grupo (a), no presentan diferencias significativas respecto al desgaste de los neumaticos. El automóvil 2 y 3 presentan la misma lógica al pertenecer al mismo grupo (b) por lo que no presentan diferencias sifnificativas en el desgaste de las llantas y por último la marca de automóvil 4 es la que presenta menor desgaste en los neumáticos.

Comprobación de Supuestos

Distribución Normal

qqnorm(rstandard(ANOVA))
qqline(rstandard(ANOVA))

shapiro.test(ANOVA$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  ANOVA$residuals
## W = 0.92425, p-value = 0.1974

Dado que el p-valor es mayor al nivel de significancia (0.05) entonces se puede identificar que los residuales son normales

Homogeneidad de varianzas

bartlett.test(ANOVA$residuals~Bartlettest_1$`Marca de llanta`)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  ANOVA$residuals by Bartlettest_1$`Marca de llanta`
## Bartlett's K-squared = 3.5882, df = 3, p-value = 0.3095

Teniendo en cuenta que el p-value es mayor a 0,05 entonces las varianzas son estadisticamente iguales. Cumpliendose el supuesto de Homocedasticidad.

Independencia de las observaciones

ANOVA$residuals
##      1      2      3      4      5      6      7      8      9     10     11 
##  0.375 -0.625  0.375 -0.125  0.375  0.125  0.625 -1.125  0.125 -0.125 -0.875 
##     12     13     14     15     16 
##  0.875 -0.875  0.625 -0.125  0.375
plot(ANOVA$residuals)

En esta gráfica no se observa un patrón especifico por lo tanto se concluye que son independientes

Análisis 2. Diseño cuadrado Latino Incompleto ( Cuadrado de Youden)

Ejercicio

Se desea evaluar la productividad de 4 diferentes variedades de café. Para esto, se realiza un ensayo en un terreno que se caracteriza por poseer diferentes valores de pH y además presenta diferente gradiantes de pendientes de norte a sur. Con el fin de controlar las fuentes de variabilidad, es decir:los diferentes valores de pH y los diferentes gradiantes de pendiente , el investigador opta por emplear un diseño cuadrado de Youden. Se tiene en cuenta que hay tres gradiantes de pendientes (P1,P2,P3) ubicados en tres columnas y se estudian cuatro valores de pH, ubicados en cuatro filas (pH1,pH2,pH3,pH4). Además las variedades de café son representadas por medio de cuatro letras latinas (F,H,I,J).

Los datos obtenidos corresponden a la producción en kg/parcela.

Gradiante de pendiente
pH P1 P2 P3
pH1 J = 1210 I = 1450 H = 1116
pH2 F = 1335 J = 1337 I = 1463
pH3 I = 1442 H = 1120 F = 1256
pH4 H = 1129 F = 1240 J =1320
Tabla 2. Tabla de datos
library(agricolae)
library(readxl)
youden1 <- read_excel("C:/Users/COMPAQ PC/Desktop/Diseno de Experimentos/Diseno de Experimentos/Parcial 1/Tabla3.Youden.xlsx")
## New names:
## * `` -> ...1
youden1
## Warning: `...` is not empty.
## 
## We detected these problematic arguments:
## * `needs_dots`
## 
## These dots only exist to allow future extensions and should be empty.
## Did you misspecify an argument?
## # A tibble: 12 x 5
##     ...1 Rendimiento pH    Pendiente Variedad
##    <dbl>       <dbl> <chr> <chr>     <chr>   
##  1     1        1210 pH1   P1        J       
##  2     2        1335 pH2   P1        F       
##  3     3        1442 pH3   P1        I       
##  4     4        1129 pH4   P1        H       
##  5     5        1450 pH1   P2        I       
##  6     6        1337 pH2   P2        J       
##  7     7        1120 pH3   P2        H       
##  8     8        1240 pH4   P2        F       
##  9     9        1116 pH1   P3        H       
## 10    10        1463 pH2   P3        I       
## 11    11        1256 pH3   P3        F       
## 12    12        1320 pH4   P3        J
Youden = data.frame(youden1)
Youden
##    ...1 Rendimiento  pH Pendiente Variedad
## 1     1        1210 pH1        P1        J
## 2     2        1335 pH2        P1        F
## 3     3        1442 pH3        P1        I
## 4     4        1129 pH4        P1        H
## 5     5        1450 pH1        P2        I
## 6     6        1337 pH2        P2        J
## 7     7        1120 pH3        P2        H
## 8     8        1240 pH4        P2        F
## 9     9        1116 pH1        P3        H
## 10   10        1463 pH2        P3        I
## 11   11        1256 pH3        P3        F
## 12   12        1320 pH4        P3        J

Se transforma la columna de tratamientos y bloques en factores para poder llevar a cabo los respetivos cálculos :

Youden$Rendimiento=factor(Youden$Rendimiento)
Youden$Rendimiento
##  [1] 1210 1335 1442 1129 1450 1337 1120 1240 1116 1463 1256 1320
## Levels: 1116 1120 1129 1210 1240 1256 1320 1335 1337 1442 1450 1463
Youden$pH=factor(Youden$pH)
Youden$pH
##  [1] pH1 pH2 pH3 pH4 pH1 pH2 pH3 pH4 pH1 pH2 pH3 pH4
## Levels: pH1 pH2 pH3 pH4
Youden$Pendiente = factor(Youden$Pendiente)
Youden$Pendiente
##  [1] P1 P1 P1 P1 P2 P2 P2 P2 P3 P3 P3 P3
## Levels: P1 P2 P3
Youden$Variedad= factor(Youden$Variedad)
Youden$Variedad
##  [1] J F I H I J H F H I F J
## Levels: F H I J

Se realizá el Análisis de Varianza para cada factor, obteniendo así :

Factor principal :Variedad

Teniendo en cuenta que primero se introducen los bloques y despues los respectivos tratamientos.

anilis_1 <- aov(Rendimiento~ pH+Pendiente+Variedad,data =youden1)
summary(anilis_1)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## pH           3  37855   12618   5.887 0.0897 .
## Pendiente    2    212     106   0.049 0.9525  
## Variedad     3 134102   44701  20.853 0.0164 *
## Residuals    3   6431    2144                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En esta tabla se puede observar que el p-valor de Variedad es menor a 0.05 por los efectos de estos tratamientos (tipo de variedad) son significativos.

Factor Bloque :pH

Para evaluar este primer bloque, se colocan los tratamientos y después los factores bloques :

anilis_2 = aov(Rendimiento~Variedad+Pendiente+pH,data = youden1)
summary(anilis_2)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Variedad     3 163606   54535  25.441 0.0123 *
## Pendiente    2    212     106   0.049 0.9525  
## pH           3   8350    2783   1.299 0.4176  
## Residuals    3   6431    2144                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Se púede observar en la anterior tabla que el p-valor del pH es mayor a 0.05 con un valor igual a 0.4176, de esta forma el efecto del pH no es significativo . Sin embargo , se realizó su análisis para posteriormente sacar una conclusión.

Factor Bloque : Pendiente

Luego, para evaluar el efecto del egundo bloque, la suma de cuadrados de bloques debe ajustarse por los tratamientos, por lo tanto primero se colocan los tratamientos y después los bloques.

anilis_3=aov (Rendimiento~Variedad+pH+Pendiente,data = youden1)
summary(anilis_3)
##             Df Sum Sq Mean Sq F value Pr(>F)  
## Variedad     3 163606   54535  25.441 0.0123 *
## pH           3   8350    2783   1.299 0.4176  
## Pendiente    2    212     106   0.049 0.9525  
## Residuals    3   6431    2144                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Igualmente al evaluar el factor bloque de la pendiente se puede observar que se obtuvo un p-valor mayor a 0.05 , obteniendo un valor de 0.9525.De esto se puede inferir que el efecto de la pendiente no es significativo. De igual forma aunque este factor no es de gran relevancia, dado que se busca estudiar es el efecto de las variedades y no de los bloques, se realizó su análisis para más adelante sacar una conclusión.

Análisis General

anilis_3 =lm(aov(Rendimiento~Variedad+pH+Pendiente,data = youden1))
summary (anilis_3)
## 
## Call:
## lm(formula = aov(Rendimiento ~ Variedad + pH + Pendiente, data = youden1))
## 
## Residuals:
##       1       2       3       4       5       6       7       8       9      10 
## -36.750  30.625   8.125  -2.000  28.625   6.125  -6.125 -28.625   8.125 -36.750 
##      11      12 
##  -2.000  30.625 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1228.00      46.30  26.523 0.000118 ***
## VariedadH    -129.88      40.10  -3.239 0.047884 *  
## VariedadI     185.62      40.10   4.630 0.018982 *  
## VariedadJ      18.75      40.10   0.468 0.671924    
## pHpH2          76.38      40.10   1.905 0.152906    
## pHpH3          20.25      40.10   0.505 0.648297    
## pHpH4          32.88      40.10   0.820 0.472345    
## PendienteP2     7.75      32.74   0.237 0.828113    
## PendienteP3     9.75      32.74   0.298 0.785277    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 46.3 on 3 degrees of freedom
## Multiple R-squared:  0.964,  Adjusted R-squared:  0.868 
## F-statistic: 10.04 on 8 and 3 DF,  p-value: 0.04201

A partir de la información de esta tabla se puede observar que se deben tener en cuenta los p-valores del factor principal (Variedad) ya que presentaron valores significativos, por lo que cada variedad de café se comportó de forma diferente. Por otro lado los p-valores de los bloques no son significativos . Por ultimo , se puede identificar que los p-valores de la Variedad H y la Variedad I dieron significativos.

###Revisión de supuestos

Distribución Normal

anilis_3$residuals
##       1       2       3       4       5       6       7       8       9      10 
## -36.750  30.625   8.125  -2.000  28.625   6.125  -6.125 -28.625   8.125 -36.750 
##      11      12 
##  -2.000  30.625
qqnorm(rstandard(anilis_3))
qqline(rstandard(anilis_3))

shapiro.test(anilis_3$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  anilis_3$residuals
## W = 0.90208, p-value = 0.1687

Dado que el p-valor es mayor al nivel de significancia (0.05) entonces se puede identificar que los residuales son normales

Homogeneidad de varianzas

bartlett.test(anilis_3$residuals~youden1$Variedad)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  anilis_3$residuals by youden1$Variedad
## Bartlett's K-squared = 3.1685, df = 3, p-value = 0.3664

Teniendo en cuenta que el p-value es mayor a 0,05 entonces las varianzas son estadisticamente iguales. Cumpliendose el supuesto de Homocedasticidad.

Independencia de las observaciones

anilis_3$residuals
##       1       2       3       4       5       6       7       8       9      10 
## -36.750  30.625   8.125  -2.000  28.625   6.125  -6.125 -28.625   8.125 -36.750 
##      11      12 
##  -2.000  30.625
plot(anilis_3$residuals)

En esta gráfica no se logra observa un patrón especifico por lo tanto se concluye que son independientes.

Análisis 3 .Diseño de bloque aumentado

Ejercicio

Se desea estudiar el efecto de cinco niveles de proteina en la dieta de cuyes. Para el experimento se seleccionan 15 cuyes de diferentes pesos (Kg). Por tanto, se utilizara el diseño de bloques aumentado.

RENDIMIENTO BLOQUES MEZCLAS
2.6 a 1
1.5 b 1
0.6 c 1
3.0 a 2
1.4 b 2
0.7 c 2
2.9 a 3
1.6 b 3
1.0 c 3
2.8 a 4
1.7 b 4
1.2 c 4
2.7 a 5
1.3 b 5
0.8 c 5
                   **Ho:\ Los residuos se comportan normal**


              **Ha:\ Los residuos Tienen un comportamiento anormal**
# Base de datos
library(readxl)
TABLA_3 <- read_excel("C:/Users/COMPAQ PC/Desktop/Diseno de Experimentos/Diseno de Experimentos/Parcial 1/TABLA_3.xlsx")


attach(TABLA_3)
names(TABLA_3)
## [1] "RENDIMIENTO" "BLOQUES"     "MEZCLAS"
str(TABLA_3)
## tibble [15 x 3] (S3: tbl_df/tbl/data.frame)
##  $ RENDIMIENTO: num [1:15] 2.6 1.5 0.6 3 1.4 0.7 2.9 1.6 1 2.8 ...
##  $ BLOQUES    : chr [1:15] "a" "b" "c" "a" ...
##  $ MEZCLAS    : chr [1:15] "mezcla 1" "mezcla 1" "mezcla 1" "mezcla 2" ...

Analisis de Varianza

# Generacion de bloques y tratamientos
BLOQUES <- factor(BLOQUES)
MEZCLAS <- factor(MEZCLAS)

#Tabla ANOVA
modelo <- lm(RENDIMIENTO ~ MEZCLAS+BLOQUES)
ANOVA <- aov(modelo)
summary(ANOVA)
##             Df Sum Sq Mean Sq F value  Pr(>F)    
## MEZCLAS      4  0.251   0.063   2.765   0.103    
## BLOQUES      2  9.772   4.886 215.559 1.1e-07 ***
## Residuals    8  0.181   0.023                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Los BLOQUES son un elemento significativo, ya que tiene un Pr menor a 0.05, por lo que no hay diferencia entre las medias de los rendimientos, debido a los tratamientos “MEZCLAS”

Análisis de varianza del diseño de bloque aumentado

library(agricolae)
Grupos.Mezclas<- DAU.test(block=BLOQUES,trt=MEZCLAS,y=RENDIMIENTO,method="lsd", group=TRUE)

bar.group(x = Grupos.Mezclas$groups, 
          ylim=c(0,3),
          main="Prueba de comparación de medias por medio del método DAU",
          xlab="Tipo de Mezcla",
          ylab="Rendimiento",
          col="red")

Segun la grafica con el analisis por metodo de DAU:

la mezcla 4 tiene mejor rendimiento, mientras que la mecla 1 tiene bajo rendimiento.

Estas mezclas tienen dos grupos, el “a” con el mejor rendimineto en las mezclas 4, 3, 2, y el “b” tiene menor rendimiento con las mezclas 3, 2, 5, 1.

Normalidad

# Normalidad de los residuos
qqnorm(rstandard(modelo))
qqline(rstandard(modelo))

shapiro.test(rstandard(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  rstandard(modelo)
## W = 0.96389, p-value = 0.7597

Se rechaza la hipotesis nula, ya que el value es menor al 5%, por lo que los residuos no tienen un comportamiento normal y se acepta un hipotesis alternativa, es decir, un par de medias no son iguales.

Homogeneidad

Bartest=data.frame(TABLA_3)
Bartest
##    RENDIMIENTO BLOQUES  MEZCLAS
## 1          2.6       a mezcla 1
## 2          1.5       b mezcla 1
## 3          0.6       c mezcla 1
## 4          3.0       a mezcla 2
## 5          1.4       b mezcla 2
## 6          0.7       c mezcla 2
## 7          2.9       a mezcla 3
## 8          1.6       b mezcla 3
## 9          1.0       c mezcla 3
## 10         2.8       a mezcla 4
## 11         1.7       b mezcla 4
## 12         1.2       c mezcla 4
## 13         2.7       a mezcla 5
## 14         1.3       b mezcla 5
## 15         0.8       c mezcla 5
Bartest$MEZCLAS=factor(Bartest$MEZCLAS)
Bartest$MEZCLAS
##  [1] mezcla 1 mezcla 1 mezcla 1 mezcla 2 mezcla 2 mezcla 2 mezcla 3 mezcla 3
##  [9] mezcla 3 mezcla 4 mezcla 4 mezcla 4 mezcla 5 mezcla 5 mezcla 5
## Levels: mezcla 1 mezcla 2 mezcla 3 mezcla 4 mezcla 5
Bartest$BLOQUES=factor(Bartest$BLOQUES)
Bartest$BLOQUES
##  [1] a b c a b c a b c a b c a b c
## Levels: a b c
Bartest$RENDIMIENTO=factor(Bartest$RENDIMIENTO)
Bartest$RENDIMIENTO
##  [1] 2.6 1.5 0.6 3   1.4 0.7 2.9 1.6 1   2.8 1.7 1.2 2.7 1.3 0.8
## Levels: 0.6 0.7 0.8 1 1.2 1.3 1.4 1.5 1.6 1.7 2.6 2.7 2.8 2.9 3
bartlett.test(ANOVA$residuals~TABLA_3$BLOQUES)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  ANOVA$residuals by TABLA_3$BLOQUES
## Bartlett's K-squared = 0.58572, df = 2, p-value = 0.7461

No se rechaza la hipotesis nula, por lo que se demuestra que hay homogeneidad entre los bloques y los tratamientos, existe igualdad entre la proporcion de elementos de cada grupo que hay en cada categoria de la variable.

Independencia

ANOVA$residuals
##           1           2           3           4           5           6 
## -0.04666667  0.15333333 -0.10666667  0.22000000 -0.08000000 -0.14000000 
##           7           8           9          10          11          12 
## -0.01333333 -0.01333333  0.02666667 -0.18000000  0.02000000  0.16000000 
##          13          14          15 
##  0.02000000 -0.08000000  0.06000000
plot(ANOVA$residuals)

No se rechaza la hipotesis nula,debido a que los datos estan dispersos, es decir, cada dato es independiente

. . .

Análisis 4 . Graeco - diseño cuadrado latino

Ejercicio

Considere el problema en el cual una empresa de microbuses realizo un experimento donde les interesa el consumo de gasolina de 4 diferentes unidades, ellos desean saber si existe alguna diferencia significativa entre los consumos de combustible de las unidades, de ser afirmativo ellos tomaran desiciones referentes a este factor

Conductor DIA1 DIA2 DIA3 DIA4
1 d α 75 c γ 58 b β 55 a δ 58
2 a γ 65 b α 54 c δ 71 d β 75
3 c β 67 d δ 65 a α 54 b γ 55
4 b δ 62 a β 56 d γ 65 c α 67

Letras latinas: Metodo que implemeta cada conductor

Letras griegas: Ruta de trabajo

                   **Ho:\ Los residuos se comportan normal**


              **Ha:\ Los residuos Tienen un comportamiento anormal**

Para este caso se utiliza el diseño Grecolatino.

library(agricolae)
trt1 <- c("a","b","c","d")
trt2 <- 1:4

# Tabla de tratamientos y bloques para realizar los cálculos
Tabla <- design.graeco(trt1, trt2, seed = 20, serie = 2) #Generando tabla de Grecolatino
print(Tabla$sketch)
##      [,1]   [,2]   [,3]   [,4]  
## [1,] "NA 2" "NA 1" "NA 3" "NA 4"
## [2,] "NA 3" "NA 4" "NA 2" "NA 1"
## [3,] "NA 4" "NA 3" "NA 1" "NA 2"
## [4,] "NA 1" "NA 2" "NA 4" "NA 3"

Analisis de Varianza

#Definir datos
Conductor            <- c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4)
Dia                 <- c(1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4)
Metodo_por_conductor <- c("d","a","c","b","c","b","d","a","b","c","a","d","a","d","b","c")
Ruta_de_trabajo     <- c(1,3,2,4,3,1,4,2,2,4,1,3,4,2,3,1)
Consumo_del_conductor<- c(75, 65, 67,62,58,54,65,56,55,71,54,65,58,75,55,67)
#Establecer Factores
Conductor            <-factor(Conductor)
Dia                  <-factor(Dia)
Metodo_por_conductor <-factor(Metodo_por_conductor)
Ruta_de_trabajo     <-factor(Ruta_de_trabajo)

#Tabla ANOVA - Modelo lineal
modelo <- lm (Consumo_del_conductor ~ Conductor+Dia+Ruta_de_trabajo+Metodo_por_conductor)
ANOVA <- aov(modelo)
summary(ANOVA)
##                      Df Sum Sq Mean Sq F value Pr(>F)  
## Conductor             3   80.3   26.75   3.607 0.1600  
## Dia                   3  174.7   58.25   7.854 0.0622 .
## Ruta_de_trabajo       3   23.3    7.75   1.045 0.4860  
## Metodo_por_conductor  3  483.2  161.08  21.719 0.0155 *
## Residuals             3   22.2    7.42                 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

El metodo por conductor es un elemento significativo, ya que tiene un Pr menor a 0.05, por lo que no hay diferencia entre las medias del consumo de los conductores, debido a cada conductor, los dias y la ruta de trabajo

# Analisis del Metodo por condutor
library(agricolae)
Metodo.LSD <- LSD.test( y=ANOVA, trt= "Metodo_por_conductor", group=TRUE, console = T)
## 
## Study: ANOVA ~ "Metodo_por_conductor"
## 
## LSD t Test for Consumo_del_conductor 
## 
## Mean Square Error:  7.416667 
## 
## Metodo_por_conductor,  means and individual ( 95 %) CI
## 
##   Consumo_del_conductor      std r      LCL      UCL Min Max
## a                 58.25 4.787136 4 53.91653 62.58347  54  65
## b                 56.50 3.696846 4 52.16653 60.83347  54  62
## c                 65.75 5.500000 4 61.41653 70.08347  58  71
## d                 70.00 5.773503 4 65.66653 74.33347  65  75
## 
## Alpha: 0.05 ; DF Error: 3
## Critical Value of t: 3.182446 
## 
## least Significant Difference: 6.128447 
## 
## Treatments with the same letter are not significantly different.
## 
##   Consumo_del_conductor groups
## d                 70.00      a
## c                 65.75      a
## a                 58.25      b
## b                 56.50      b
bar.group(x = Metodo.LSD$groups, horiz = T, col="blue",
          xlab="CONSUMO DEL CONDUCTOR",
          ylab="METODO POR CONDUCTOR",
          xlim=c(0,90),
          main="Prueba de comparación de medias por medio del método LDS")

Los metodos no son significativamente diferentes, por lo que se deberia analizar cual de los metodos tiene menor consumo de gasolina

Segun la grafica con el analisis por metodo de LSD, el metodo “b” es el que menos consumo tiene, mientras que el metodo “d” es el que mas consumo realiza.

Normalidad

# Normalidad de los residuos
qqnorm(rstandard(modelo))
qqline(rstandard(modelo))

shapiro.test(rstandard(modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  rstandard(modelo)
## W = 0.87193, p-value = 0.02911

Se rechaza la hipotesis nula, ya que el value es menor al 5%, por lo que los residuos no tienen un comportamiento normal y se acepta un hipotesis alternativa, es decir, un par de medias no son iguales.

Homogeneidad

# Base de datos
library(readxl)
TABLA_6 <- read_excel("C:/Users/COMPAQ PC/Desktop/Diseno de Experimentos/Diseno de Experimentos/Parcial 1/TABLA_6.xlsx")
View(TABLA_6)

attach(TABLA_6)
## The following objects are masked _by_ .GlobalEnv:
## 
##     Conductor, Consumo_del_conductor, Dia, Metodo_por_conductor,
##     Ruta_de_trabajo
names(TABLA_6)
## [1] "Conductor"             "Dia"                   "Metodo_por_conductor" 
## [4] "Ruta_de_trabajo"       "Consumo_del_conductor"
str(TABLA_6)
## tibble [16 x 5] (S3: tbl_df/tbl/data.frame)
##  $ Conductor            : num [1:16] 1 2 3 4 1 2 3 4 1 2 ...
##  $ Dia                  : num [1:16] 1 1 1 1 2 2 2 2 3 3 ...
##  $ Metodo_por_conductor : chr [1:16] "d" "a" "c" "b" ...
##  $ Ruta_de_trabajo      : num [1:16] 1 3 2 4 3 1 4 2 2 4 ...
##  $ Consumo_del_conductor: num [1:16] 75 65 67 62 58 54 65 56 55 71 ...
Bartest=data.frame(TABLA_6)
Bartest
##    Conductor Dia Metodo_por_conductor Ruta_de_trabajo Consumo_del_conductor
## 1          1   1                    d               1                    75
## 2          2   1                    a               3                    65
## 3          3   1                    c               2                    67
## 4          4   1                    b               4                    62
## 5          1   2                    c               3                    58
## 6          2   2                    b               1                    54
## 7          3   2                    d               4                    65
## 8          4   2                    a               2                    56
## 9          1   3                    b               2                    55
## 10         2   3                    c               4                    71
## 11         3   3                    a               1                    54
## 12         4   3                    d               3                    65
## 13         1   4                    a               4                    58
## 14         2   4                    d               2                    75
## 15         3   4                    b               3                    55
## 16         4   4                    c               1                    67
Bartest$Conductor=factor(Bartest$Conductor)
Bartest$Conductor
##  [1] 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
## Levels: 1 2 3 4
Bartest$Dia=factor(Bartest$Dia)
Bartest$Dia
##  [1] 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4
## Levels: 1 2 3 4
Bartest$Metodo_por_conductor=factor(Bartest$Metodo_por_conductor)
Bartest$Metodo_por_conductor
##  [1] d a c b c b d a b c a d a d b c
## Levels: a b c d
Bartest$Ruta_de_trabajo=factor(Bartest$Ruta_de_trabajo)
Bartest$Ruta_de_trabajo
##  [1] 1 3 2 4 3 1 4 2 2 4 1 3 4 2 3 1
## Levels: 1 2 3 4
Bartest$Consumo_del_conductor=factor(Bartest$Consumo_del_conductor)
Bartest$Consumo_del_conductor
##  [1] 75 65 67 62 58 54 65 56 55 71 54 65 58 75 55 67
## Levels: 54 55 56 58 62 65 67 71 75
bartlett.test(ANOVA$residuals~TABLA_6$Metodo_por_conductor)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  ANOVA$residuals by TABLA_6$Metodo_por_conductor
## Bartlett's K-squared = 0, df = 3, p-value = 1

No se rechaza la hipotesis nula, por lo que se demuestra que hay homogeneidad entre los bloques y los tratamientos, existe igualdad entre la proporcion de elementos de cada grupo que hay en cada categoria de la variable.

independencia

ANOVA$residuals
##      1      2      3      4      5      6      7      8      9     10     11 
##  1.625  0.375 -1.625 -0.375 -0.375 -1.625  0.375  1.625  0.375  1.625 -0.375 
##     12     13     14     15     16 
## -1.625 -1.625 -0.375  1.625  0.375
plot(ANOVA$residuals)

No se rechaza la hipotesis nula,debido a que los datos estan dispersos, es decir, cada dato es independiente

. . .

Análisis 5 .Diseño de bloque completo aleatorizado

Ejercicio

Un ingeniero industrial esta evaluando 4 metodos de ensamble del componente de una maquina y para tal finregistra los tiempos en segundos que se tardan los operadores en realizar el ensamble del componente con cada uno de los metodos

Segundos BLOQUE OPERADOR
97 c m1
95 d m3
94 d m1
92 c m2
91 c m4
89 a m1
88 b m1
87 b m3
85 d m4
84 a m2
82 b m4
81 a m3
79 d m2
78 c m3
77 b m2
76 a m4
                    >Ho:\ Los residuos se comportan normal


              >Ha:\ Los residuos Tienen un comportamiento anormal

Diseño de bloque completo aleatorizado

library(agricolae)
trt1 <- c("a","b","c","d")
Tabla <- design.rcbd(trt1, 4, seed = 0)
Tabla
## $parameters
## $parameters$design
## [1] "rcbd"
## 
## $parameters$trt
## [1] "a" "b" "c" "d"
## 
## $parameters$r
## [1] 4
## 
## $parameters$serie
## [1] 2
## 
## $parameters$seed
## [1] 168142813
## 
## $parameters$kinds
## [1] "Super-Duper"
## 
## $parameters[[7]]
## [1] TRUE
## 
## 
## $sketch
##      [,1] [,2] [,3] [,4]
## [1,] "c"  "b"  "a"  "d" 
## [2,] "a"  "c"  "d"  "b" 
## [3,] "d"  "a"  "c"  "b" 
## [4,] "d"  "b"  "c"  "a" 
## 
## $book
##    plots block trt1
## 1    101     1    c
## 2    102     1    b
## 3    103     1    a
## 4    104     1    d
## 5    201     2    a
## 6    202     2    c
## 7    203     2    d
## 8    204     2    b
## 9    301     3    d
## 10   302     3    a
## 11   303     3    c
## 12   304     3    b
## 13   401     4    d
## 14   402     4    b
## 15   403     4    c
## 16   404     4    a
matrix(data = Tabla$book[,1],c(4,4))
##      [,1] [,2] [,3] [,4]
## [1,]  101  201  301  401
## [2,]  102  202  302  402
## [3,]  103  203  303  403
## [4,]  104  204  304  404
library(readxl)
TABLA_9 <- read_excel("C:/Users/COMPAQ PC/Desktop/Diseno de Experimentos/Diseno de Experimentos/Parcial 1/TABLA_9.xlsx")
View(TABLA_9)

attach(TABLA_9)
names(TABLA_9)
## [1] "TIEMPO"   "BLOQUE"   "OPERADOR"
str(TABLA_9)
## tibble [16 x 3] (S3: tbl_df/tbl/data.frame)
##  $ TIEMPO  : num [1:16] 89 88 97 94 84 77 92 79 81 87 ...
##  $ BLOQUE  : chr [1:16] "a" "b" "c" "d" ...
##  $ OPERADOR: chr [1:16] "m1" "m1" "m1" "m1" ...

Analisis de Varianza

# Generacion de bloques y tratamientos
BLOQUE   <- factor(BLOQUE)
OPERADOR <- factor(OPERADOR)
#Tabla ANOVA
Modelo <- lm(TIEMPO ~ OPERADOR+BLOQUE)
ANOVA <- aov(Modelo)
summary(ANOVA)
##             Df Sum Sq Mean Sq F value Pr(>F)
## OPERADOR     3  207.2   69.06   1.880  0.203
## BLOQUE       3  143.2   47.73   1.299  0.333
## Residuals    9  330.6   36.73

Se rechaza la hipotesis nula, por tanto en el OPERADOR y en BLOQUE existe una diferencia en alguna de las medias de los rendimientos.

library(agricolae)
Grupo.Operador<- LSD.test( y=ANOVA, trt= "OPERADOR", group=TRUE, console = T)
## 
## Study: ANOVA ~ "OPERADOR"
## 
## LSD t Test for TIEMPO 
## 
## Mean Square Error:  36.72917 
## 
## OPERADOR,  means and individual ( 95 %) CI
## 
##    TIEMPO      std r      LCL      UCL Min Max
## m1  92.00 4.242641 4 85.14514 98.85486  88  97
## m2  83.00 6.683313 4 76.14514 89.85486  77  92
## m3  85.25 7.500000 4 78.39514 92.10486  78  95
## m4  83.50 6.244998 4 76.64514 90.35486  76  91
## 
## Alpha: 0.05 ; DF Error: 9
## Critical Value of t: 2.262157 
## 
## least Significant Difference: 9.69423 
## 
## Treatments with the same letter are not significantly different.
## 
##    TIEMPO groups
## m1  92.00      a
## m3  85.25      a
## m4  83.50      a
## m2  83.00      a
bar.group(x = Grupo.Operador$groups, 
          ylim=c(0,110),
          main="Prueba de comparación de medias por medio del método LSD",
          xlab="OPERADOR",
          ylab="SEGUNDOS",
          col="green")

Los metodos no son significativamente diferentes, por lo que se deberia analizar cual de los metodos tiene menor consumo de gasolina

Segun la grafica con el analisis por metodo de LSD, el metodo 1 tiene un buen ensamble, mientras que el metodo 2 no tiene un mejor ensamble.

Normalidad

# Normalidad de los residuos
qqnorm(rstandard(Modelo))
qqline(rstandard(Modelo))

shapiro.test(rstandard(Modelo))
## 
##  Shapiro-Wilk normality test
## 
## data:  rstandard(Modelo)
## W = 0.96709, p-value = 0.7895

No se rechaza la hipotesis nula, ya que el value es mayor al 5%, ya que los residuos tienen un comportamiento normal, por lo tanto las medias son iguales.

Homogeneidad

Bartest=data.frame(TABLA_9)
Bartest
##    TIEMPO BLOQUE OPERADOR
## 1      89      a       m1
## 2      88      b       m1
## 3      97      c       m1
## 4      94      d       m1
## 5      84      a       m2
## 6      77      b       m2
## 7      92      c       m2
## 8      79      d       m2
## 9      81      a       m3
## 10     87      b       m3
## 11     78      c       m3
## 12     95      d       m3
## 13     76      a       m4
## 14     82      b       m4
## 15     91      c       m4
## 16     85      d       m4
Bartest$OPERADOR=factor(Bartest$OPERADOR)
Bartest$OPERADOR
##  [1] m1 m1 m1 m1 m2 m2 m2 m2 m3 m3 m3 m3 m4 m4 m4 m4
## Levels: m1 m2 m3 m4
Bartest$BLOQUE=factor(Bartest$BLOQUE)
Bartest$BLOQUE
##  [1] a b c d a b c d a b c d a b c d
## Levels: a b c d
Bartest$TIEMPO=factor(Bartest$TIEMPO)
Bartest$TIEMPO
##  [1] 89 88 97 94 84 77 92 79 81 87 78 95 76 82 91 85
## Levels: 76 77 78 79 81 82 84 85 87 88 89 91 92 94 95 97
bartlett.test(ANOVA$residuals~TABLA_9$BLOQUE)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  ANOVA$residuals by TABLA_9$BLOQUE
## Bartlett's K-squared = 2.2896, df = 3, p-value = 0.5145

No se rechaza la hipotesis nula, por lo que se demuestra que hay homogeneidad entre los bloques y los tratamientos, existe igualdad entre la proporcion de elementos de cada grupo que hay en cada categoria de la variable.

Independencia

ANOVA$residuals
##        1        2        3        4        5        6        7        8 
##   0.4375  -1.5625   1.4375  -0.3125   4.4375  -3.5625   5.4375  -6.3125 
##        9       10       11       12       13       14       15       16 
##  -0.8125   4.1875 -10.8125   7.4375  -4.0625   0.9375   3.9375  -0.8125
plot(ANOVA$residuals)

No se rechaza la hipotesis nula,debido a que los datos estan dispersos, es decir, cada dato es independiente

. . .

Análisis 6 . Diseños de Carolina 1,2,3

Esta clase de diseños fueron elaborados por Comstock y Robinson (1948) en Carolina del Norte. Según la técnica de apareamiento entre progenitores se reconocen tres métodos cuyas características son las siguientes:

Los siguientes ejercicios de Carolina 1,2 y 3 fueron realizados utilizando la base de datos propia de la libreria ¨Agricolae¨ donde se encontraba los datos (DC) pertinentes para llevar acabo este Diseño. Sin embargo , no fue posible realizar el análisis de las tablas de varianzas, ya que no se cuenta con el conocimiento necesario en genética (esto fue hablado en la sesión extra de monitoria dada por el profesor)

Diseño Carolina 1 (concepto)

Es también denominado diseño anidado o jerárquico. Bajo este esquema, cada macho es apareado con un grupo de hembras, con restricción que cada hembra sólo participa en una sola cruza. El grupo de progenies de medios hermanos descendientes del mismo macho, se denomina grupo macho (Márquez, 1988).

Ejercicio

Carolina1: Datos para el análisis del diseño genético de Carolina I.

En este diseño se toma como población base la F2 o cualquier generación avanzada mantenida por apareamiento aleatorio, producida a partir del cruce entre dos líneas puras. De la población un individuo es seleccionado al azar y utilizado como macho. Un conjunto de 4 planes seleccionados al azar se utilizan como hembras y se aparean con el macho anterior. Así se produce un conjunto de 4 familias de hermanos completos. Esto se denota como un grupo masculino. De manera similar, se produce un gran número de grupos masculinos. No se utiliza ninguna hembra para un segundo apareamiento. cuatro grupos de machos (16 grupos de hembras) de un conjunto.

library(agricolae)
data(DC)
carolina1 <- DC$carolina1
output<-carolina(model=1,carolina1)
## Response(y):  yield 
## 
## Analysis of Variance Table
## 
## Response: y
##                             Df  Sum Sq Mean Sq F value    Pr(>F)    
## set                          1  0.5339  0.5339  7.2120 0.0099144 ** 
## set:replication              2  2.9894  1.4947 20.1914 4.335e-07 ***
## set:male                     4 22.1711  5.5428 74.8743 < 2.2e-16 ***
## set:male:female              6  4.8250  0.8042 10.8630 1.311e-07 ***
## set:replication:male:female 10  3.2072  0.3207  4.3325 0.0002462 ***
## Residuals                   48  3.5533  0.0740                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## CV: 8.286715     Mean: 3.283333
output[][-1]
## $var.m
## [1] 0.3948843
## 
## $var.f
## [1] 0.08057407
## 
## $var.A
## [1] 1.579537
## 
## $var.D
## [1] -1.257241

Diseño Carolina 2 (concepto)

Mencionado, como diseño factorial o cruzado. Esta técnica de apareamiento consiste en cruzar un grupo de progenitores machos con un conjunto de hembras en todas las combinaciones posibles. La única restricción es que unos progenitores actúan como machos y otros sólo como hembras. Habrá de notarse la diferencia con los diseños dialélicos, donde los mismos progenitores pueden usarse como hembras y machos a la vez. Este diseño tiene la ventaja de manejar un número grande de progenitores con respecto a los dialélicos (Hallauer y Miranda, 1981). Desde el punto de vista genético, la información obtenida es similar a la proporcionada por el diseño I. Con este diseño, se pueden hacer dos estimaciones independientes de la varianza aditiva más la estimación directa de la varianza de dominancia. A nivel de apareamiento entre individuos, el Diseño II sólo podría usarse en plantas multiflorales en las que sea posible hacer cruzamientos separados. En el maíz se pueden usar como progenitores líneas endogámicas, y los cruzamientos necesarios de cada progenitor se hacen usando los individuos de cada línea (cada individuo juega el papel de una flor), pero si se hace esta hay que considerar el coeficiente de endogamia en las líneas progenitoras para la estimación de las varianzas genéticas (Márquez, 1985).

Carolina2: Datos para el análisis del diseño genético de Carolina II.

Ejercicio

En este diseño se producen tanto los medio hermanos paternos como los maternos. De una población F2, n1 machos y n2 hembras son seleccionados al azar y cada macho es cruzado con cada una de las hembras. Así, n1 x n2 progenies se producen y se analizan en un experimento adecuado.

carolina2 <- DC$carolina2
majes<-subset(carolina2,carolina2[,1]==1)
majes<-majes[,c(2,5,4,3,6:8)]
output<-carolina(model=2,majes[,c(1:4,6)])
## Response(y):  yield 
## 
## Analysis of Variance Table
## 
## Response: y
##                 Df  Sum Sq Mean Sq F value    Pr(>F)    
## set              1  847836  847836 45.6296 1.097e-09 ***
## set:replication  4  144345   36086  1.9421  0.109652    
## set:male         8  861053  107632  5.7926 5.032e-06 ***
## set:female       8  527023   65878  3.5455  0.001227 ** 
## set:male:female 32  807267   25227  1.3577  0.129527    
## Residuals       96 1783762   18581                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## CV: 19.08779     Mean: 714.1301
output[][-1]
## $var.m
## [1] 2746.815
## 
## $var.f
## [1] 1355.024
## 
## $var.mf
## [1] 2215.415
## 
## $var.Am
## [1] 10987.26
## 
## $var.Af
## [1] 5420.096
## 
## $var.D
## [1] 8861.659

Diseño Carolina 3 (concepto)

Este fue desarrollado con la finalidad de estimar el grado de dominacia de los genes que controlan los caracteres en estudio. Este apareamiento consiste en retrocruzar plantas de la F2, que son tomadas de la población, las cuales se usarán como machos para polinizar los dos progenitores endogámicos, de las que desciende la F2. Habrá dos pares de progenies retrocruzadas por cada macho F2 utilizado. Este diseño tiene la finalidad de estimar la varianza aditiva y la de dominancia (Hallauer y Miranda, 1981; Márquez, 1988).

Carolina3: Datos para el análisis del diseño genético de Carolina III.

Ejercicio

La población F2 se produce mediante el cruce de dos endogámicas, por ejemplo L1 y L2. El material para la estimación de los parámetros genéticos se produce

carolina3 <- DC$carolina3
output<-carolina(model=3,carolina3)
## Response(y):  yield 
## 
## Analysis of Variance Table
## 
## Response: y
##                 Df Sum Sq Mean Sq F value   Pr(>F)   
## set              3  2.795 0.93167  1.2784 0.300965   
## set:replication  4  3.205 0.80125  1.0995 0.376215   
## set:female       4  1.930 0.48250  0.6621 0.623525   
## set:male        12 20.970 1.74750  2.3979 0.027770 * 
## set:female:male 12 27.965 2.33042  3.1978 0.005493 **
## Residuals       28 20.405 0.72875                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## CV: 21.95932     Mean: 3.8875

Se recuerda que el análisis de las tablas de varianza no fue posible realizarlo dado la falta de conocimiento en genética.

PUNTO 8, RESUMEN

Es relevante considerar un experimento de parcela dividida , cuando se tiene especialmente una situación en la que se conoce que varios factores tienen niveles más difíciles de cambiar que otros. Usualmente algunos factores difíciles de cambiar se restablecen intencionalmente con menos frecuencia a diferencia de aquellos factores fáciles de cambiar.Para cuantificar los factores difíciles de cambiar podría basarse en el presupuesto o el tiempo. Las parcelas divididas surgen en un entorno agrícola, debido a esto, gran parte de su nomenclatura hace referencia a parcelas de tierra, donde los factores difíciles de cambiar se denominan ¨factores de parcela completa¨ y aquellos más fáciles de cambiar se conocen como ¨factores de subparcela¨. Donde el número de parcelas completas (#WP) corresponde al número de veces que restablece los factores de la parcela completa y donde el número total de experimentos (N) es igual al número de subparcelas, ya que se restablece los factores de la subparcela después de cada ejecución. Este tipo de diseño puede parecer complejo comparado con otros, como es el caso al compararlo con un diseño completamente aleatorizado (CRD), pero las ventajas que trae su implementación sustentan el por qué de ejecutar este tipo de diseño. Se conoce como parcela dividida inadvertida cuando el experimentador en ocasiones no restablece todos los factores entre ejecuciones, sin embargo, al realizar este tipo de experimento de parcela dividida podría recurrirse al error de analizarlo como si fuese un CRD,tratando las ejecuciones como independientes, lo cual es erróneo ya que puede llevar a conclusiones engañosas sobre los efectos de los factores. En casos donde no se desee restablecer todos los factores entre ejecuciones , resulta conveniente elegir intencionalmente un experimento de parcela dividida donde la asignación al azar sea más estructurada, teniendo en cuenta que es de vital importancia analizar los datos como un experimento de parcela dividida, para obtener información precisa, donde se establece como análisis correcto a aquel que reconoce que las observaciones obtenidas sin restablecer todo el factor de la trama están correlacionadas entre sí. Es posible superar el rendimiento de estimación y predicción de un CRD cuando se escoge correctamente el experimento de parcela dividida. Es necesario considerar diferentes diseños que se acomoden a los diferente costos que pueden llevar los cambios de factores y aunque no siempre es apropiado hablar de la calidad y el costo del diseño en conjunto como única respuesta, normalmente permite llevar a cabo comparaciones más realistas para la toma de decisiones. Debe recordarse que cada experimento a realizar tiene diferentes prioridades, por lo que es necesario evaluar que se considera como óptimo para cada experimento y así poder centrarse en las situaciones más relevantes. Los diseños de parcelas divididas al ser escogidos estratégicamente se convierten en un diseño importante y práctico, que permite aumentar la cantidad y calidad de la información. Un buen diseño de experimentos abarca no solo un diseño sólido del mismo sino además la implementación de diferentes métodos estadísticos apropiados, que permiten realizar un análisis de los datos , los cuales plantean resultados científicos que pueden ser significativos y a su vez pueden llegar a ser replicables y reproducibles, pero para llegar a esto es indispensable reconocer a qué elementos se les asigna como ¨unidad experimental¨ y ¨unidad de observación¨, para ello se debe tener en cuenta las siguientes definiciones ; la unidad experimental, se define como la entidad más pequeña que se asigna independientemente de todas las demás unidades en un tratamiento particular, esta es conocida también como unidad de replicación, por otro lado, ¨la unidad de observación¨ se define como la entidad física sobre la que se mide un resultado de interés en un experimento, conocida también como unidad de muestreo. En algunos diseños simples, las unidades experimentales y de observación coinciden en la misma entidad física. Es indispensable aprender a reconocer estas unidades pues un diseño experimental sólido debe equilibrar la asignación correspondiente de unidades experimentales y unidades de observación de forma que los resultados obtenidos puedan ser significativos tanto en escalas de inferencia pequeñas como más grandes y esta asignación de unidades se da teniendo en cuenta la forma en cómo se organizó el experimento, como se recopilaron los datos y el alcance previsto de la inferencia. Tradicionalmente, para obtener un ANOVA correcto, los valores medios de las unidades de muestreo deben calcularse para cada unidad experimental antes del cálculo del tratamiento. De no reconocer las unidades de muestreo puede resultar en un pseudo-replicación, resultando un tratamiento para cada unidad de muestreo y de inflar el Error df se reduciría el MSE y se generaría un estadístico F más grande el cual sería incorrecto.

Para esto es primordial tener presente que los diseños experimentales son un conjunto creativo de decisiones destinadas a resolver problemas los cuales pueden ser reales o imaginarios con evidencias que permitan entenderlo. Para esto es necesario conocer los cuatro principios básicos de este concepto, esto con el resolver cualquier situación que conlleven la experimentación y la comparación de los mismos:

La replicación: Proporciona un mecanismo para estimar el error experimental, esto para generar pruebas de hipótesis válidas e intervalos de confianza; da la posibilidad de dar un mecanismo que permita aumentar la precisión de un experimento, es decir, obtener un mayor número de réplicas; Aumenta el alcance de la inferencia de la práctica y el rango de condiciones encontradas durante la experimentación; y este afecta el control de la magnitud del error experimental y regular la precisión del mismo.

La aleatorización: Definición de los materiales e instalaciones experimentales que se incluirán en la práctica, esto con el fin de que garantice que está aceptablemente representado. En las poblaciones se tiene la intención de elegir una muestra aleatoria, esto es cuando se quiere representar una población que es más grande que la muestra. También involucra la asignación de tratamientos a las unidades experimentales, con el fin de aplicar aleatoriamente réplicas de tratamientos, sin importar los filtros.

El bloqueo: Precisión, esto con el fin de generar grupos de unidades experimentales que sean homogéneas, para determinar lo que ocurrirá con un muestreo aleatorio de toda una población de estudio; Permitir diferentes tamaños de unidades cuando se requieran áreas experimentales más amplias para la aplicación de un factor en comparación a otros.

Tamaño de las unidades experimentales: Observación general de la relación negativa entre varianza por unidad y el tamaño de la parcela, creando un enigma, lo que lleve a la modificación del tamaño de la parcela y la predicción de las consecuencias de los cambios estadísticos.

El diseño de experimentos implica la unión de las matemáticas, la estadística y las ciencias biológicas, lo que ha permitido realizar tres experimentos que han sido vitales durante más de un siglo, como lo son: de Observación, los cuales verifican una constante establecida; de Medición, miden los componentes que constituyen una población, lo cual a su vez establece unas variables; y los de Comparación, contrastan dos o más prácticas que pueden tener diferencias para el campo de investigación. Al realizar el último experimento se debe tener en cuenta realizar preguntas e hipótesis que permitan definir el problema y tomar decisiones para la investigación.

Tener un modelo estadístico es fundamental para el desarrollo de un conjunto dentro de un diseño experimental, se debe también tener presente que para esta experimentación es primordial el análisis de los tratamientos que se van a implementar, esto para proporcionar reglas y procedimientos que ayuden a la obtención de resultados. Cuando ya se recopilan los datos del experimento, se debe realizar un análisis estadístico ya establecido antes de la práctica, esto con el fin de interpretar los resultados creando conclusiones que respondan a las preguntas establecidas al inicio de la investigación, esto con la finalidad de que se pueda retroalimentar por completo el trabajo.

El propósito es que mediante un diseño experimental realizado, se pueda generar y reforzar otros diseños a futuro, esto con el fin de mejorar la calidad y tener éxito en el resultado. Aunque existen diseños que tienen gran éxito, existen otros que se van al fracaso debido a que no se tiene en cuenta la relación hipótesis y resultados, esto es por un experimento mal diseñado, no tener claras las variables a trabajar, tratamientos mal diseñados que no tienen relación alguna con la hipótesis, la creación de un experimento sin supervisión adecuada o no tener claro las diferencias entre los medios de tratamiento. Para esto es importante mirar los costos monetarios a invertir en el diseño experimental, mediante el análisis del problema a estudiar, como mirando qué tratamientos aplicar, cuáles son las variables utilizar, las unidades y parcelas a generar, tener claro los parámetros a implementar, esto para que el diseño de experimentos tenga éxito.

PUNTO 9

Seleccionar un artículo científico de una revista de agronomía donde se haya utilizado un diseño en parcelas divididas. Hacer las críticas constructivas sobre: Quevedo, Y., Beltran J., Barragan, E. (2018). Efecto de la densidad de siembra en el rendimiento y rentabilidad de un híbrido de maíz en condiciones tropicales. Revista de agronomía colombiana. Corporación Colombiana de Investigación Agropecuaria - Agrosavia, Centro de investigación Nataima. Tolima (Colombia). Recuperado de: https://revistas.unal.edu.co/index.php/agrocol/article/view/71268/69728

a.La mención de la estructura factorial: Se menciona una estructura factorial al identificarse los diferentes factores que causan variabilidad en las respuestas, además, se crea una relación entre los resultados obtenidos, según el artículo ¨La altura de la planta se vio afectada por la distancia entre filas; las plantas alcanzaron su altura más alta con una distancia entre hileras de 0,8 m y la altura de la mazorca tuvo un comportamiento similar al de la altura de la planta, con las mazorcas ubicadas a mayor altura con una distancia entre hileras de 0,8 m. Sin embargo, se muestra que las mazorcas en ambos tratamientos se insertaron debajo del centro de gravedad (0.5) y exactamente en la misma posición (0.39), independientemente de la altura. Esto indica que la inserción de mazorcas en este híbrido es una característica que no se ve afectada por la densidad de siembra, lo que reduce la posibilidad de acame. El número de plantas afectó el área del tallo en este estudio; los tallos se volvieron más delgados a medida que aumentaba el número de plantas¨.
b.La razón de colocar cada factor en la parcela principal o en la subparcela: Un factor importante a mencionar es la radiación solar, el cual determina el rendimiento de la planta; Un factor limitante para el rendimiento de la planta y que es indispensable para grandes densidades de siembra es la disponibilidad de nitrógeno; Otros factores que fueron evaluados para las cuatro filas centrales son el contenido de clorofila; altura de la planta, tipo de mazorca y diámetro del tallo; La radiación solar interceptada por dia y coeficiente de extinción de luz; componentes del desempeño y características morfológicas; y por último la rentabilidad.
c.La revisión de supuestos para el análisis de varianza: Se menciona la presencia de análisis de supuestos, sin embargo, no se muestra la evidencia para verificar cada uno de los supuestos, debido a esto resulta incompleto el análisis por lo que no se puede verificar totalmente la confiabilidad del experimento respecto al análisis de varianza realizado.
d.La tabla del análisis de varianza: Datos no mostrados en el artículo.
e.El uso de muchos análisis de varianzas en lugar de uno solo multivariante: Se realizó un análisis univariado de varianza con comparación de medias de Tukey (a = 0.05) y un análisis multivariado de varianza con comparación de medias de Hotelling (a = 0.05). Para estos análisis se realizó un análisis preliminar de los supuestos. Se realizó un análisis multivariado de varianza el cual mostró que los tratamientos no afectaron estadísticamente las variables evaluadas. Los resultados fueron analizados con un análisis de varianza multivariado, mostrando que el índice de área foliar, Coeficiente de extinción de la luz de Radiación solar interceptada, fueron iguales al nivel significativo considerado para el efecto de la distancia entre surcos, número de plantas y su interacción. Para este experimento el análisis univariado es una herramienta pero no resulta ser la más eficaz, ya que existe más de un factor de interacción, como se presenta en el artículo, debido a esto resulta más eficiente realizar un análisis multivariado para relacionar las variables que se presentan en el cultivo.
f.El método de comparaciones de medias después del Anova: Debido a que no se presenta la tabla de análisis de varianza, a su vez no hay presencia de comparaciones de medias después del ANOVA. A lo largo del artículo tampoco se mencionan hipótesis que abarquen comparaciones de medias.
g.La interacción de factores: los factores del experimento y su interacción no generaron variaciones estadísticamente significativas por lo que se puede identificar que el híbrido 30K73 YG RRFlex es apto para ser cultivado en altas densidades de siembra.
h.La presencia de bloques: Se estableció un diseño de bloques completos al azar en parcelas divididas con cuatro repeticiones.
i.El balanceo o desbalanceo: Balanceo, dado que la cantidad de unidades experimentales se mantiene en cada una de las variables establecidas.
j.La definición clara de la unidad experimental: Se define claramente la unidad experimental al especificar que los diferentes tratamientos se llevarán a cabo sobre el híbrido 30K73 YG RRFlexh , para el cual se midió su rendimiento y rentabilidad para determinar el óptimo de densidad de siembra.
k.Software utilizado y librería específica (en caso de ser R): El software utilizado para los análisis estadísticos fue R versión 3.4.1 (R Core Team, 2017) a RStudio versión 1.0.136 (RStudio, EE. UU.).
l.Otros aspectos que considere de interés: El híbrido 30K73 YG RRFlex, tiene plasticidad porque ajusta sus componentes de rendimiento de acuerdo con la densidad de siembra para mantener un rendimiento de cultivo similar, lo que permitiría a cada planta asegurar la disponibilidad de semillas para establecer las generaciones futuras.