Ejercicios

Se midio la conductancia estomatica (gs: mol/m 2 s) en dos cultivares de papa diploide (Colombia y Ocarina) bajo una condicion de deficit de riego. Determinar al 95% de nivel de confianza si las dos medias obtenidas para los cultivares son estadisticamente iguales. Utilice la informacion del articulo mostrado en clase para decidir si las varianzas pueden considerarse iguales o no.

Colombia<- c(0.45,0.41,0.48,0.46,0.39,0.44,0.48,0.42,0.44,0.48,0.50,0.47,0.44,0.52)
Ocarina<-c(0.28,0.25,0.32,0.34,0.36,0.40,0.38,0.36,0.39,0.41,0.37,0.42,0.41, 0.36)
Med_co<-mean(Colombia);Med_co

## [1] 0.4557143

Med_oc<-mean(Ocarina);Med_oc

## [1] 0.3607143

Tabla1=data.frame(Colombia, Ocarina);Tabla1

##    Colombia Ocarina
## 1      0.45    0.28
## 2      0.41    0.25
## 3      0.48    0.32
## 4      0.46    0.34
## 5      0.39    0.36
## 6      0.44    0.40
## 7      0.48    0.38
## 8      0.42    0.36
## 9      0.44    0.39
## 10     0.48    0.41
## 11     0.50    0.37
## 12     0.47    0.42
## 13     0.44    0.41
## 14     0.52    0.36

Tabla2=c(Colombia, Ocarina) 
length(Tabla2)

## [1] 28

Tabla3= data.frame(conductancia= c(Colombia, Ocarina));Tabla3

##    conductancia
## 1          0.45
## 2          0.41
## 3          0.48
## 4          0.46
## 5          0.39
## 6          0.44
## 7          0.48
## 8          0.42
## 9          0.44
## 10         0.48
## 11         0.50
## 12         0.47
## 13         0.44
## 14         0.52
## 15         0.28
## 16         0.25
## 17         0.32
## 18         0.34
## 19         0.36
## 20         0.40
## 21         0.38
## 22         0.36
## 23         0.39
## 24         0.41
## 25         0.37
## 26         0.42
## 27         0.41
## 28         0.36

Tabla3$cultivar=gl(n=2, k=14, length = 28, labels = c("Colombia", "Ocarina"))
Tabla3

##    conductancia cultivar
## 1          0.45 Colombia
## 2          0.41 Colombia
## 3          0.48 Colombia
## 4          0.46 Colombia
## 5          0.39 Colombia
## 6          0.44 Colombia
## 7          0.48 Colombia
## 8          0.42 Colombia
## 9          0.44 Colombia
## 10         0.48 Colombia
## 11         0.50 Colombia
## 12         0.47 Colombia
## 13         0.44 Colombia
## 14         0.52 Colombia
## 15         0.28  Ocarina
## 16         0.25  Ocarina
## 17         0.32  Ocarina
## 18         0.34  Ocarina
## 19         0.36  Ocarina
## 20         0.40  Ocarina
## 21         0.38  Ocarina
## 22         0.36  Ocarina
## 23         0.39  Ocarina
## 24         0.41  Ocarina
## 25         0.37  Ocarina
## 26         0.42  Ocarina
## 27         0.41  Ocarina
## 28         0.36  Ocarina

tapply(Tabla3$conductancia, Tabla3$cultivar, mean)

##  Colombia   Ocarina 
## 0.4557143 0.3607143

tapply(Tabla3$conductancia, Tabla3$cultivar, sd)

##   Colombia    Ocarina 
## 0.03567250 0.04968583

Al calcular la desviacion estandar de los datos de cada cultivar se puede observar que el valor obtenido de Ocarina no es ni si quiera el doble del valor obtenido por Colombia, por lo cual, se puede asumir que ambas varianzas son estadisticamente iguales. Sin embargo, se aplica la prueba de igualdad de varianzas para confirmar dicha afirmacion.

Prueba de igualdad de las varianzas

\[H_o:\sigma_{Colombia} = \sigma_{Ocarina} \\ H_a:\sigma_{Colombia}\neq \sigma_{Ocarina}\]

Prueba_var=var.test(Tabla3$conductancia~Tabla3$cultivar); Prueba_var

## 
##  F test to compare two variances
## 
## data:  Tabla3$conductancia by Tabla3$cultivar
## F = 0.51547, num df = 13, denom df = 13, p-value = 0.2454
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.1654776 1.6057028
## sample estimates:
## ratio of variances 
##          0.5154685

ifelse(Prueba_var$p.value<0.05, "Varianzas desiguales", "Varianzas iguales")

## [1] "Varianzas iguales"

De esta forma se concluye que las varianzas son estadisticamente iguales.

Planteamiento de la hipotesis

\[H_o:\mu_{Colombia} = \mu_{Ocarina} \\ H_a:\mu_{Colombia}\neq \mu_{Ocarina}\]

Prueba T-student para dos muestras independientes

pruebat_1=t.test(Tabla3$conductancia~Tabla3$cultivar,alternative="t", mu=0,var.equal=T);pruebat_1

## 
##  Two Sample t-test
## 
## data:  Tabla3$conductancia by Tabla3$cultivar
## t = 5.8114, df = 26, p-value = 4.01e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  0.06139796 0.12860204
## sample estimates:
## mean in group Colombia  mean in group Ocarina 
##              0.4557143              0.3607143

ifelse(pruebat_1$p.value<0.05,"Rechazo Ho", "No rechazo Ho")

## [1] "Rechazo Ho"

Al aplicar la prueba t-student se obtiene un p_valor de 4.01e-06 ( 4.01e-06<0.05) y por tanto, se rechaza la hipotesis nula que afirma que la media de la conductancia estomatica de ambos cultivares sea igual en condiciones de deficit hidrico, por lo cual, la conductancia estomatica es mayor en uno de los cultivares. Para determinar mejor cual de los cultivares presenta mayor conductanca estomatica, se realiza un boxplot a continuacion:

Grafico de conductancia estomatica vs cultivar

Grafico 1: Funcion boxplot

boxplot(Tabla3$conductancia~Tabla3$cultivar, main="Medias de conductancia estomatica de los cultivares Colombia y Ocarina",size=0.05)
points(c(1,2), c(mean(Colombia), mean(Ocarina)), pch =16 ,col="red")

Grafico 2: LIbreria ggplot2

library(ggplot2)
ggplot(data = Tabla3, aes(x = cultivar, y = conductancia)) + 
  geom_boxplot(color = 'black', alpha = 0.7) + 
    stat_summary(fun=mean, geom="point", shape=20, size=3, color = "red")+
  xlab('Cultivar') + 
  ylab('Conductancia estomatica (mol/m^2*s)') +
  ggtitle('Medias de conductancia estomatica de los cultivares Colombia y Ocarina') + 
  theme_minimal()

Se concluye que el cultivar Colombia presenta una media de conductancia estomatica mayor que la del cultivar Ocarina, por lo tanto, su respuesta frente al deficit hidrico es mejor en comparacion con la del cultivar Ocarina.

Se propuso un plan de fertilizacion en papa criolla y se midio a los 45 y 77 dias despues de la siembra el peso de tuberculos (Kg/ha) mas raices. Determinar al 95% de nivel de confianza si se incremento la medida de rendimiento en las dos evaluaciones registradas. Haga una representacion grafica para ilustrar el comportamiento de ambas medidas. Calcule el cambio relativo porcentual promedio entre ambos tiempos de evaluacion. Calcule el coeficiente de correlacion de Pearson entre ambas medidas. Explique sus resultados.

peso_45<-c(69,66,72,68,65,66,67,68,69,68,66,68,64,67,60,68)
peso_77<-c(873,850,832,834,843,840,885,790,905,910,920,840,832,800,759,812)
Tabla4= data.frame(peso= c(peso_45, peso_77), dias= gl(2,16,32, c("45", "77"))); Tabla4

##    peso dias
## 1    69   45
## 2    66   45
## 3    72   45
## 4    68   45
## 5    65   45
## 6    66   45
## 7    67   45
## 8    68   45
## 9    69   45
## 10   68   45
## 11   66   45
## 12   68   45
## 13   64   45
## 14   67   45
## 15   60   45
## 16   68   45
## 17  873   77
## 18  850   77
## 19  832   77
## 20  834   77
## 21  843   77
## 22  840   77
## 23  885   77
## 24  790   77
## 25  905   77
## 26  910   77
## 27  920   77
## 28  840   77
## 29  832   77
## 30  800   77
## 31  759   77
## 32  812   77

Planteamiento de hipotesis

\[H_o:\mu_{peso_{45}} < \mu_{peso_{77}} \\ H_a:\mu_{peso_{45}}>\mu_{peso_{77}}\]

prueba2 = t.test(Tabla4$peso~Tabla4$dias, alternative = "g", paired = T); prueba2

## 
##  Paired t-test
## 
## data:  Tabla4$peso by Tabla4$dias
## t = -71.15, df = 15, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
##  -797.5533       Inf
## sample estimates:
## mean of the differences 
##                -778.375

ifelse(prueba2$p.value<0.05, "Rechazo Ho","No rechazo Ho")

## [1] "No rechazo Ho"

Al aplicar la prueba t- student para una muestra pareada, se obtiene un p valor de 1 (1>0.05) y por tanto, se puede afirmar que no se rechaza la hipotesis nula. Lo anterior indica que cuando se evalua el plan de fertilizacion y se miden los tuberculos mas las raices a los 77 dias despues de la siembra el rendimiento es mayor en comparacion con los valores registrados a los 45 dias.

Grafico: Comparacion de medias, peso vs dias

boxplot(Tabla4$peso~Tabla4$dias, main="Rendimiento de los tuberculos a 45 y 77 dias",size=0.05) 
points(c(1,2), c(mean(peso_45), mean(peso_77)), pch =16 ,col="red") 
segments(1.5, mean(peso_45), 1.5, mean(peso_77), col = "blue")
text(1.5, 650, "Diferencia\n entre ambas\n medias", pos = 2)

En el grafico se puede observar que efectivamente el rendimiento de los tuberculos a los 77 dias es mayor que a los 45 dias. Ademas, se observa que la diferencia entre ambas medias es bastante grande, y al aplicar la prueba t-student, esta diferencia se puede considerar evidencia estadistica suficiente para rechazar la hipotesis nula y por tanto, afirmar que los dias afectan el rendimiento de los tuberculos.

Cambio relativo porcentual promedio entre ambos tiempos

crp1=100*(mean(peso_77)- mean(peso_45))/mean(peso_45); crp1

## [1] 1162.838

crp2=100*(mean(peso_77)-mean(peso_45))/mean(peso_77); crp2

## [1] 92.08133

El rendimiento de los tuberculos a los 45 dias representa aproximadamente el 8% del remdimiento de los tuberculos registrados a los 77 dias, por tanto, el rendimiento a los 45 dias es 92% menos que el rendimiento a los 77 dias.Analogamente el rendimiento a los 77 dias es 1162,8% mas que el rendimiento a los 45 dias.

Coeficiente de correlacion de Pearson

plot(peso_77~peso_45,pch=16,col="orange", main = "Correlacion entre el rendimiento a los 45 y 75 dias")

cor(peso_45,peso_77,method = "pearson")

## [1] 0.3660872

En el grafico de correlacion, se observa que los puntos se encuentran bastante dispersos y no siguen un patron lineal (linea recta), por lo cual, mayor es el margen de variacion existente entre ambas variables.
Ademas, se obtiene un valor de correlacion de Pearson cercano a cero, por lo cual, ambas variables no estan relacionadas linealmente, lo que significaria que la dependencia entre ambas variables es muy baja.

Prueba de Wilcoxon de la suma de rangos-Dos muestras independientes.

Se esta evaluando la calidad de frito mediante la textura de las hojuelas de papa criolla en dos tipos de aceite (palma y maiz) utilizado para freir en condiciones controladas de tiempo y temperatura. Al final se recolectaron las hojuelas y se evaluo en una escala diagramatica la calidad de frito (escala de 1 a 5, desde (1) no crujiente hasta (5) bastante crujientes). Los datos se muestran a continuacion:

Tex_P=c(3,4,3,4,4,3,3,4,4,3,4,4,2,4,3,4,3,3,3,4,4)
Tex_M=c(3,4,4,4,4,4,3,4,3,4,4,4,4,3,4,4,4,3,3,4,3)

tabla1= data.frame(Tex_P, Tex_M)
tabla2 = data.frame(textura = c(Tex_P, Tex_M)) #Vectorizar
tabla2$Aceite = gl(n=2, k=21, length= 42, labels = c("Palma", "Maiz")); tabla2

##    textura Aceite
## 1        3  Palma
## 2        4  Palma
## 3        3  Palma
## 4        4  Palma
## 5        4  Palma
## 6        3  Palma
## 7        3  Palma
## 8        4  Palma
## 9        4  Palma
## 10       3  Palma
## 11       4  Palma
## 12       4  Palma
## 13       2  Palma
## 14       4  Palma
## 15       3  Palma
## 16       4  Palma
## 17       3  Palma
## 18       3  Palma
## 19       3  Palma
## 20       4  Palma
## 21       4  Palma
## 22       3   Maiz
## 23       4   Maiz
## 24       4   Maiz
## 25       4   Maiz
## 26       4   Maiz
## 27       4   Maiz
## 28       3   Maiz
## 29       4   Maiz
## 30       3   Maiz
## 31       4   Maiz
## 32       4   Maiz
## 33       4   Maiz
## 34       4   Maiz
## 35       3   Maiz
## 36       4   Maiz
## 37       4   Maiz
## 38       4   Maiz
## 39       3   Maiz
## 40       3   Maiz
## 41       4   Maiz
## 42       3   Maiz

Determinar al 95% de nivel de confianza si existen diferencias estaditicas en las medianas de la textura para los dos tipos de aceite. Haga una representacion grafica para ilustrar el comportamiento de ambas medidas. Explique sus resultados.

Solucion

Planteacion de la hipotesis:

Debido a que los datos no son continuos sino representan una variable discreta, la hipotesis se plantea en terminos de la Mediana, y no de la media, entonces:

\[ H_0: Mediana_{Tex\_P}=Mediana_{Tex\_M}\\ H_a: Mediana_{Tex\_P}\neq Mediana_{Tex\_M}\]

Estas son muestras independientes porque la calidad del frito en cuanto a textura en aceite de palma no influye en la calidad de frito en cuanto a textura en aceite de maiz, es decir, uno no afecta el otro.

Entonces, haciendo la prueba Wilcoxon:

wil_test=wilcox.test (Tex_P, Tex_M, mu = 0, alternativa = "t", conf.level = 0.95, 
            exact = FALSE, correct = FALSE) 
wil_test

## 
##  Wilcoxon rank sum test
## 
## data:  Tex_P and Tex_M
## W = 185.5, p-value = 0.3042
## alternative hypothesis: true location shift is not equal to 0

ifelse(wil_test$p.value<0.05, 'Rechazo Ho', 'No rechazo Ho')

## [1] "No rechazo Ho"

Con el p_valor no se rechaza la hipotesis nula, porque 0.3042> 0.05. Esto indica que no hay diferencia en la mediana de la calidad de textura, independientemente del aceite que se use, ya sea de palma o de maiz. Sin embargo, se hace un grafico que acompañe estas interpretaciones y ayude a tomar desiciones si es el caso. Un grafico que muestre si las medianas de la calidad de textura de las papas en aceite de palma es igual a la calidad de textura de las papas en aceite de maiz:

Grafico de la distribucion de la calidad de textura en ambos tipos de aceite.

par(mfrow = c(1,2)) # Funcion para meter los dos graficos en una sola pantalla
boxplot(Tex_P, ylim = c(0,5), main = 'Distribucion calidad de textura \n en aceite de palma')
text(1.38, median(Tex_P), 'Mediana')
text(1.38, median(Tex_M), 'Mediana')
boxplot(Tex_M, ylim = c(0,5), main = 'Distribucion calidad de textura \n en aceite de maiz')

Efectivamente se observa que la mediana (representada por la linea negra) de la calidad de textura de las papas en los dos tipos de aceite es igual.

Interpretación usando el diagrama de violin.

ggplot(data = tabla2 , aes(x = Aceite , y = textura)) + 
  geom_jitter(size = 1, color = 'gray', alpha = 0.5) +
  geom_violin(aes(fill = Aceite), color = 'black', alpha = .8 ) +
  geom_boxplot(color = 'black', alpha = 0.7) + 
    stat_summary(fun=median, geom="point", shape=23, size=2, color = "red")+
  xlab('Aceite') + 
  ylab('Textura') +
  ggtitle('Calidad de textura en ambos tipos de aceite') + 
  theme_minimal()

En este grafico se observa, en el eje vertical, la distribucion de los datos como si se tratara de un grafico de densidad, y en el caso del aceite de maiz se observan valores mas uniformes que varian entre 3 y 4, con mayor concentracion en el 4, mientras que en el aceite de palma se encuentran calidades mas bajas, que alcanzan valores de 2, aunque sea baja su concentracion. Por lo tanto, seria mas beneficioso usar aceite de maiz ya que al haber mayor homogeneizacion de los datos, las hojuelas resultaran ser mas crujientes.

Finalmente, con el grafico de caja se observa que en ambos casos, todos los valores son menores o iguales a 4, que representa la mediana.