Grupo: Ana Maria Montaño, Marly Daniela Quiroga y Erika Milena Aparicio
Colombia<- c(0.45,0.41,0.48,0.46,0.39,0.44,0.48,0.42,0.44,0.48,0.50,0.47,0.44,0.52)
Ocarina<-c(0.28,0.25,0.32,0.34,0.36,0.40,0.38,0.36,0.39,0.41,0.37,0.42,0.41, 0.36)
Med_co<-mean(Colombia);Med_co
## [1] 0.4557143
Med_oc<-mean(Ocarina);Med_oc
## [1] 0.3607143
Tabla1=data.frame(Colombia, Ocarina);Tabla1
## Colombia Ocarina
## 1 0.45 0.28
## 2 0.41 0.25
## 3 0.48 0.32
## 4 0.46 0.34
## 5 0.39 0.36
## 6 0.44 0.40
## 7 0.48 0.38
## 8 0.42 0.36
## 9 0.44 0.39
## 10 0.48 0.41
## 11 0.50 0.37
## 12 0.47 0.42
## 13 0.44 0.41
## 14 0.52 0.36
Tabla2=c(Colombia, Ocarina)
length(Tabla2)
## [1] 28
Tabla3= data.frame(conductancia= c(Colombia, Ocarina));Tabla3
## conductancia
## 1 0.45
## 2 0.41
## 3 0.48
## 4 0.46
## 5 0.39
## 6 0.44
## 7 0.48
## 8 0.42
## 9 0.44
## 10 0.48
## 11 0.50
## 12 0.47
## 13 0.44
## 14 0.52
## 15 0.28
## 16 0.25
## 17 0.32
## 18 0.34
## 19 0.36
## 20 0.40
## 21 0.38
## 22 0.36
## 23 0.39
## 24 0.41
## 25 0.37
## 26 0.42
## 27 0.41
## 28 0.36
Tabla3$cultivar=gl(n=2, k=14, length = 28, labels = c("Colombia", "Ocarina"))
Tabla3
## conductancia cultivar
## 1 0.45 Colombia
## 2 0.41 Colombia
## 3 0.48 Colombia
## 4 0.46 Colombia
## 5 0.39 Colombia
## 6 0.44 Colombia
## 7 0.48 Colombia
## 8 0.42 Colombia
## 9 0.44 Colombia
## 10 0.48 Colombia
## 11 0.50 Colombia
## 12 0.47 Colombia
## 13 0.44 Colombia
## 14 0.52 Colombia
## 15 0.28 Ocarina
## 16 0.25 Ocarina
## 17 0.32 Ocarina
## 18 0.34 Ocarina
## 19 0.36 Ocarina
## 20 0.40 Ocarina
## 21 0.38 Ocarina
## 22 0.36 Ocarina
## 23 0.39 Ocarina
## 24 0.41 Ocarina
## 25 0.37 Ocarina
## 26 0.42 Ocarina
## 27 0.41 Ocarina
## 28 0.36 Ocarina
tapply(Tabla3$conductancia, Tabla3$cultivar, mean)
## Colombia Ocarina
## 0.4557143 0.3607143
tapply(Tabla3$conductancia, Tabla3$cultivar, sd)
## Colombia Ocarina
## 0.03567250 0.04968583
Al calcular la desviacion estandar de los datos de cada cultivar se puede observar que el valor obtenido de Ocarina no es ni si quiera el doble del valor obtenido por Colombia, por lo cual, se puede asumir que ambas varianzas son estadisticamente iguales. Sin embargo, se aplica la prueba de igualdad de varianzas para confirmar dicha afirmacion.
\[H_o:\sigma_{Colombia} = \sigma_{Ocarina} \\ H_a:\sigma_{Colombia}\neq \sigma_{Ocarina}\]
Prueba_var=var.test(Tabla3$conductancia~Tabla3$cultivar); Prueba_var
##
## F test to compare two variances
##
## data: Tabla3$conductancia by Tabla3$cultivar
## F = 0.51547, num df = 13, denom df = 13, p-value = 0.2454
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.1654776 1.6057028
## sample estimates:
## ratio of variances
## 0.5154685
ifelse(Prueba_var$p.value<0.05, "Varianzas desiguales", "Varianzas iguales")
## [1] "Varianzas iguales"
De esta forma se concluye que las varianzas son estadisticamente iguales.
\[H_o:\mu_{Colombia} = \mu_{Ocarina} \\ H_a:\mu_{Colombia}\neq \mu_{Ocarina}\]
pruebat_1=t.test(Tabla3$conductancia~Tabla3$cultivar,alternative="t", mu=0,var.equal=T);pruebat_1
##
## Two Sample t-test
##
## data: Tabla3$conductancia by Tabla3$cultivar
## t = 5.8114, df = 26, p-value = 4.01e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 0.06139796 0.12860204
## sample estimates:
## mean in group Colombia mean in group Ocarina
## 0.4557143 0.3607143
ifelse(pruebat_1$p.value<0.05,"Rechazo Ho", "No rechazo Ho")
## [1] "Rechazo Ho"
Al aplicar la prueba t-student se obtiene un p_valor de 4.01e-06 ( 4.01e-06<0.05) y por tanto, se rechaza la hipotesis nula que afirma que la media de la conductancia estomatica de ambos cultivares sea igual en condiciones de deficit hidrico, por lo cual, la conductancia estomatica es mayor en uno de los cultivares. Para determinar mejor cual de los cultivares presenta mayor conductanca estomatica, se realiza un boxplot a continuacion:
Grafico 1: Funcion boxplot
boxplot(Tabla3$conductancia~Tabla3$cultivar, main="Medias de conductancia estomatica de los cultivares Colombia y Ocarina",size=0.05)
points(c(1,2), c(mean(Colombia), mean(Ocarina)), pch =16 ,col="red")
Grafico 2: LIbreria ggplot2
library(ggplot2)
ggplot(data = Tabla3, aes(x = cultivar, y = conductancia)) +
geom_boxplot(color = 'black', alpha = 0.7) +
stat_summary(fun=mean, geom="point", shape=20, size=3, color = "red")+
xlab('Cultivar') +
ylab('Conductancia estomatica (mol/m^2*s)') +
ggtitle('Medias de conductancia estomatica de los cultivares Colombia y Ocarina') +
theme_minimal()
Se concluye que el cultivar Colombia presenta una media de conductancia estomatica mayor que la del cultivar Ocarina, por lo tanto, su respuesta frente al deficit hidrico es mejor en comparacion con la del cultivar Ocarina.
peso_45<-c(69,66,72,68,65,66,67,68,69,68,66,68,64,67,60,68)
peso_77<-c(873,850,832,834,843,840,885,790,905,910,920,840,832,800,759,812)
Tabla4= data.frame(peso= c(peso_45, peso_77), dias= gl(2,16,32, c("45", "77"))); Tabla4
## peso dias
## 1 69 45
## 2 66 45
## 3 72 45
## 4 68 45
## 5 65 45
## 6 66 45
## 7 67 45
## 8 68 45
## 9 69 45
## 10 68 45
## 11 66 45
## 12 68 45
## 13 64 45
## 14 67 45
## 15 60 45
## 16 68 45
## 17 873 77
## 18 850 77
## 19 832 77
## 20 834 77
## 21 843 77
## 22 840 77
## 23 885 77
## 24 790 77
## 25 905 77
## 26 910 77
## 27 920 77
## 28 840 77
## 29 832 77
## 30 800 77
## 31 759 77
## 32 812 77
\[H_o:\mu_{peso_{45}} < \mu_{peso_{77}} \\ H_a:\mu_{peso_{45}}>\mu_{peso_{77}}\]
prueba2 = t.test(Tabla4$peso~Tabla4$dias, alternative = "g", paired = T); prueba2
##
## Paired t-test
##
## data: Tabla4$peso by Tabla4$dias
## t = -71.15, df = 15, p-value = 1
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -797.5533 Inf
## sample estimates:
## mean of the differences
## -778.375
ifelse(prueba2$p.value<0.05, "Rechazo Ho","No rechazo Ho")
## [1] "No rechazo Ho"
Al aplicar la prueba t- student para una muestra pareada, se obtiene un p valor de 1 (1>0.05) y por tanto, se puede afirmar que no se rechaza la hipotesis nula. Lo anterior indica que cuando se evalua el plan de fertilizacion y se miden los tuberculos mas las raices a los 77 dias despues de la siembra el rendimiento es mayor en comparacion con los valores registrados a los 45 dias.
boxplot(Tabla4$peso~Tabla4$dias, main="Rendimiento de los tuberculos a 45 y 77 dias",size=0.05)
points(c(1,2), c(mean(peso_45), mean(peso_77)), pch =16 ,col="red")
segments(1.5, mean(peso_45), 1.5, mean(peso_77), col = "blue")
text(1.5, 650, "Diferencia\n entre ambas\n medias", pos = 2)
En el grafico se puede observar que efectivamente el rendimiento de los tuberculos a los 77 dias es mayor que a los 45 dias. Ademas, se observa que la diferencia entre ambas medias es bastante grande, y al aplicar la prueba t-student, esta diferencia se puede considerar evidencia estadistica suficiente para rechazar la hipotesis nula y por tanto, afirmar que los dias afectan el rendimiento de los tuberculos.
crp1=100*(mean(peso_77)- mean(peso_45))/mean(peso_45); crp1
## [1] 1162.838
crp2=100*(mean(peso_77)-mean(peso_45))/mean(peso_77); crp2
## [1] 92.08133
El rendimiento de los tuberculos a los 45 dias representa aproximadamente el 8% del remdimiento de los tuberculos registrados a los 77 dias, por tanto, el rendimiento a los 45 dias es 92% menos que el rendimiento a los 77 dias.Analogamente el rendimiento a los 77 dias es 1162,8% mas que el rendimiento a los 45 dias.
plot(peso_77~peso_45,pch=16,col="orange", main = "Correlacion entre el rendimiento a los 45 y 75 dias")
cor(peso_45,peso_77,method = "pearson")
## [1] 0.3660872
En el grafico de correlacion, se observa que los puntos se encuentran bastante dispersos y no siguen un patron lineal (linea recta), por lo cual, mayor es el margen de variacion existente entre ambas variables.
Ademas, se obtiene un valor de correlacion de Pearson cercano a cero, por lo cual, ambas variables no estan relacionadas linealmente, lo que significaria que la dependencia entre ambas variables es muy baja.
Se esta evaluando la calidad de frito mediante la textura de las hojuelas de papa criolla en dos tipos de aceite (palma y maiz) utilizado para freir en condiciones controladas de tiempo y temperatura. Al final se recolectaron las hojuelas y se evaluo en una escala diagramatica la calidad de frito (escala de 1 a 5, desde (1) no crujiente hasta (5) bastante crujientes). Los datos se muestran a continuacion:
Tex_P=c(3,4,3,4,4,3,3,4,4,3,4,4,2,4,3,4,3,3,3,4,4)
Tex_M=c(3,4,4,4,4,4,3,4,3,4,4,4,4,3,4,4,4,3,3,4,3)
tabla1= data.frame(Tex_P, Tex_M)
tabla2 = data.frame(textura = c(Tex_P, Tex_M)) #Vectorizar
tabla2$Aceite = gl(n=2, k=21, length= 42, labels = c("Palma", "Maiz")); tabla2
## textura Aceite
## 1 3 Palma
## 2 4 Palma
## 3 3 Palma
## 4 4 Palma
## 5 4 Palma
## 6 3 Palma
## 7 3 Palma
## 8 4 Palma
## 9 4 Palma
## 10 3 Palma
## 11 4 Palma
## 12 4 Palma
## 13 2 Palma
## 14 4 Palma
## 15 3 Palma
## 16 4 Palma
## 17 3 Palma
## 18 3 Palma
## 19 3 Palma
## 20 4 Palma
## 21 4 Palma
## 22 3 Maiz
## 23 4 Maiz
## 24 4 Maiz
## 25 4 Maiz
## 26 4 Maiz
## 27 4 Maiz
## 28 3 Maiz
## 29 4 Maiz
## 30 3 Maiz
## 31 4 Maiz
## 32 4 Maiz
## 33 4 Maiz
## 34 4 Maiz
## 35 3 Maiz
## 36 4 Maiz
## 37 4 Maiz
## 38 4 Maiz
## 39 3 Maiz
## 40 3 Maiz
## 41 4 Maiz
## 42 3 Maiz
Determinar al 95% de nivel de confianza si existen diferencias estaditicas en las medianas de la textura para los dos tipos de aceite. Haga una representacion grafica para ilustrar el comportamiento de ambas medidas. Explique sus resultados.
Debido a que los datos no son continuos sino representan una variable discreta, la hipotesis se plantea en terminos de la Mediana, y no de la media, entonces:
\[ H_0: Mediana_{Tex\_P}=Mediana_{Tex\_M}\\ H_a: Mediana_{Tex\_P}\neq Mediana_{Tex\_M}\]
Estas son muestras independientes porque la calidad del frito en cuanto a textura en aceite de palma no influye en la calidad de frito en cuanto a textura en aceite de maiz, es decir, uno no afecta el otro.
Entonces, haciendo la prueba Wilcoxon:
wil_test=wilcox.test (Tex_P, Tex_M, mu = 0, alternativa = "t", conf.level = 0.95,
exact = FALSE, correct = FALSE)
wil_test
##
## Wilcoxon rank sum test
##
## data: Tex_P and Tex_M
## W = 185.5, p-value = 0.3042
## alternative hypothesis: true location shift is not equal to 0
ifelse(wil_test$p.value<0.05, 'Rechazo Ho', 'No rechazo Ho')
## [1] "No rechazo Ho"
Con el p_valor no se rechaza la hipotesis nula, porque 0.3042> 0.05. Esto indica que no hay diferencia en la mediana de la calidad de textura, independientemente del aceite que se use, ya sea de palma o de maiz. Sin embargo, se hace un grafico que acompañe estas interpretaciones y ayude a tomar desiciones si es el caso. Un grafico que muestre si las medianas de la calidad de textura de las papas en aceite de palma es igual a la calidad de textura de las papas en aceite de maiz:
par(mfrow = c(1,2)) # Funcion para meter los dos graficos en una sola pantalla
boxplot(Tex_P, ylim = c(0,5), main = 'Distribucion calidad de textura \n en aceite de palma')
text(1.38, median(Tex_P), 'Mediana')
text(1.38, median(Tex_M), 'Mediana')
boxplot(Tex_M, ylim = c(0,5), main = 'Distribucion calidad de textura \n en aceite de maiz')
Efectivamente se observa que la mediana (representada por la linea negra) de la calidad de textura de las papas en los dos tipos de aceite es igual.
ggplot(data = tabla2 , aes(x = Aceite , y = textura)) +
geom_jitter(size = 1, color = 'gray', alpha = 0.5) +
geom_violin(aes(fill = Aceite), color = 'black', alpha = .8 ) +
geom_boxplot(color = 'black', alpha = 0.7) +
stat_summary(fun=median, geom="point", shape=23, size=2, color = "red")+
xlab('Aceite') +
ylab('Textura') +
ggtitle('Calidad de textura en ambos tipos de aceite') +
theme_minimal()
En este grafico se observa, en el eje vertical, la distribucion de los datos como si se tratara de un grafico de densidad, y en el caso del aceite de maiz se observan valores mas uniformes que varian entre 3 y 4, con mayor concentracion en el 4, mientras que en el aceite de palma se encuentran calidades mas bajas, que alcanzan valores de 2, aunque sea baja su concentracion. Por lo tanto, seria mas beneficioso usar aceite de maiz ya que al haber mayor homogeneizacion de los datos, las hojuelas resultaran ser mas crujientes.
Finalmente, con el grafico de caja se observa que en ambos casos, todos los valores son menores o iguales a 4, que representa la mediana.