Introducción al análisis estadístico

cédula:1000257372

1. Prueba t con dos variables independientes

Usando los datos suministrados de la conductancia estomática, se hicieron análisis de sus medias por separado. Considerando que el ultimo dato de Ocarino fue asumido dentro de la media de los demás datos por cuanto no se encontraba disponible. Estos datos son dados en mol/m^2s

los datos son los siguientes

Colombia=c(0.45,0.41,0.42,0.46,0.39,0.44,0.48,0.42,0.44,0.48,0.50,0.47,0.44,0.52)
Ocarina=c(0.28,0.25,0.32,0.34,0.36,0.40,0.32,0.36,0.39,0.41,0.37,0.42,0.41)
Ocarina_comp=c(Ocarina, 0.35)
resultados=data.frame(Colombia, Ocarina_comp)
conduct=c(Colombia, Ocarina,0.35)
vari=gl(n=2, k= 14, length = 28, labels = c('Colombia', 'Ocarina') )
datos1= data.frame(variedad=vari, conductividad=conduct)
resultados

##    Colombia Ocarina_comp
## 1      0.45         0.28
## 2      0.41         0.25
## 3      0.42         0.32
## 4      0.46         0.34
## 5      0.39         0.36
## 6      0.44         0.40
## 7      0.48         0.32
## 8      0.42         0.36
## 9      0.44         0.39
## 10     0.48         0.41
## 11     0.50         0.37
## 12     0.47         0.42
## 13     0.44         0.41
## 14     0.52         0.35

En la tabla se pueden observar las datos regusitrados de manera independiente.

De acuerdo con las medias calculadas de la conductancia estomática, podemos dar una suposición de cual es la variedad que mejor resistió al estrés hidrico:

media_col=mean(Colombia)
media_ocar=mean(Ocarina)
data.frame(media_col, media_ocar)

##   media_col media_ocar
## 1 0.4514286  0.3561538

Donde podemos obervar que la variedad presenta una media superior a Ocarina, con una diferencia positiva de 0.095 en conductancia estomática.

En el siguiente gráfico podemos observar evidenciar lo anterior:

library(ggplot2)
ggplot(datos1, aes(conductividad, fill = variedad))+geom_density(alpha = 0.6)

Sin embargo, pse realizará un prueba t de student para asegurarnos de que las medias no sean iguales. Para ello, nos aseguraremos de que los datos presenten una distribución normal.

Prueba de normalidad de shapiro \[ W = \frac{(\displaystyle\sum_{i=1}^n a_ix_{(i)})^2}{\displaystyle\sum_{i=1}n(x_i-\overline x)^2} \]

con nuestros datos, extraemos el valor de probabilidad:

norm_col=shapiro.test(Colombia)
norm_ocar=shapiro.test(Ocarina)
prub_norm=data.frame(norm_col$p.value,norm_ocar$p.value)
prub_norm

##   norm_col.p.value norm_ocar.p.value
## 1        0.9856254         0.3694675

Y determinamos si los datos son normales:

ifelse(norm_col$p.value<0.05, "Datos no normales", "Datos normales")

## [1] "Datos normales"

ifelse(norm_ocar$p.value<0.05, "Datos no normales", "Datos normales")

## [1] "Datos normales"

Ahora revisamos las varianzas de los datos, las cuales deben ser iguales. por lo que hacemos el test de varianza y extraemos el valor de probabilidad:

var=var.test(x=Colombia, y=Ocarina, alternative = "two.sided", var.equal= T, conf.level = 0.95)
var$p.value

## [1] 0.1953117

Y hacemos la determinación de la igualdad de las varianzas:

ifelse(var$p.value<0.05, "los datos tienen varianzas diferentes", "los datos tienen varianzas iguales")

## [1] "los datos tienen varianzas iguales"

Con esto, tenemos que los datos presentan una distribución normal, lo cual da luz verde para aplicar la prueba de t de student, tomando en cuenta que los resultados de Colombia y Ocarina fueron dados de manera independiente. \[ t.student=\frac{ \overline x_{Colombia} - \overline x_{Ocarina}}{\sqrt{s^2 (\frac{1}{n_{Colombia}}+\frac{1}{n_{Ocarina}})}} \]

Aplicado a nuestros datos, extraemos el valor de probabilidad:

prut= t.test(x = datos1$conduct[datos1$vari=='Colombia'], y = datos1$conduct[datos1$vari=='Ocarina'], mu = 0, alternative = 'l', conf.level = 0.95)
prut$p.value

## [1] 0.9999968

Resta determinar si los datos presentan medias iguales o no:

ifelse(prut$p.value<0.05, "media Ocarina menor que Colombia", "medias iguales en ambas variedades")

## [1] "medias iguales en ambas variedades"

Conclusiones: como pudimos oberservar, las medias de los datos son iguales, y de acuerdo a los datos estudiados, la variedad Colombia presenta mejor rendimiento que Ocarina, por cuanto la cunductividad estomática es proporcional al rendimiento.

2. Prueba t con datos dependientes

El plan de fertilización papa, generó dos lineas de resultados, a 45 y 77 dias de siembra, dados en kg/ha

dds45=c(69,66,72,68,65,66,67,68,69,62,66,68,64,67,60,68)
dds77=c(873,850,832,834,843,840,825,790,905,910,920,840,832,800,759,812)
rend.papa=data.frame(dds45,dds77)
rend.papa

##    dds45 dds77
## 1     69   873
## 2     66   850
## 3     72   832
## 4     68   834
## 5     65   843
## 6     66   840
## 7     67   825
## 8     68   790
## 9     69   905
## 10    62   910
## 11    66   920
## 12    68   840
## 13    64   832
## 14    67   800
## 15    60   759
## 16    68   812

Estos resultados fueron comparados en una gráfica de tal manera que el rendimiento en 45 dias y 77 dias se comparara uno a uno entre “x” y “y” respectivamente:

library(lattice)
xyplot(dds45~dds77)

Aquí se puede concluir que los datos se encuentran fuertemente dispersos y se hace imposible determinar una regresión lineal lo suficientemente precisa como para dar una confiabilidad prudente en determinación de resultados.

Determinamos, si los datos presentan distribución normal para aplicar la prueba t de student y determinar diferencias en sus medias.

norm_45=shapiro.test(dds45)
norm_77=shapiro.test(dds77)
norm_rend=data.frame(norm_45$p.value, norm_77$p.value)
norm_rend

##   norm_45.p.value norm_77.p.value
## 1        0.414071       0.4692935

Evaluamos los valores e probabilidad:

ifelse(norm_45$p.value<0.05, "Datos no normales", "Datos normales")

## [1] "Datos normales"

ifelse(norm_77$p.value<0.05, "Datos no normales", "Datos normales")

## [1] "Datos normales"

determinamos la varianza de los datos y extraemos el valor de probabilidad.

var=var.test(x=dds45, y=dds77, alternative = "two.sided", var.equal= T, conf.level = 0.95)
var$p.value

## [1] 1.210108e-14

Se hace la determinación de las varianza

ifelse(var$p.value<0.05, "los datos tienen varianzas diferentes", "los datos tienen varianzas iguales")

## [1] "los datos tienen varianzas diferentes"

Verificado esto, realizamos la prueba de t de student para determinar si la segunda media (la tomada a los 77 días) es mayor a la primera (tomada a los 45 dias). Extraemos el valor de probabilidad

prut_2=t.test(dds45,dds77, paired = T, mu=0, conf.level = 0.95, alternative ='l')
prut_2$p.value

## [1] 1.003411e-20

Extraido el valor de probabilidad, procedemos a evaluarlo:

ifelse(prut_2$p.value<0.05, "incremento en la media","no hay incremento en la media")

## [1] "incremento en la media"

Aqui podemos evidenciar que efectivamente hay un crecimiento en el rendimiento de la papa en el periodo de tiempo, por olo que hace efectivo el plan de fertilización utlizado, pero es necesario determinar cuanto.

Sin embargom estos resultados a han sido dados de manera correlacionada, pero la grafica de los mismos no demuestra esta relación, por lo que realizamos una prueba de correlación de Pearson

prueba de correlación de Pearson \[ correlación = \frac{N\sum{}XY-(\sum{}X)(\sum{}Y)}{\sqrt{N\sum{}X^2-(\sum{}X)^2}*\sqrt{N\sum{}Y^2-(\sum{}Y)^2}} \]

Aplicado a nuestros datos, extraemos el valor de probabilidad

prut_3=cor.test(dds45,dds77, method = "pearson", conf.level = 0.95, alternative = 't', continuity = F)
prut_3$p.value

## [1] 0.6546677

Teniendo esto, lo evaluamos:

ifelse(prut_3$p.value<0.05, "correlación No nula", "correlación nula")

## [1] "correlación nula"

Por lo que esto quiere decir que no podemos asegurar que los datos esten relacionados, por lo que se hace imposible asumir que los resultados obtenidos en el rendimiento de los 77 dias esten relacionados con los tomados a los 45 dias, por consiguiente no podemos afirmar que el alto rendimiento de la papa este diectamente relacionado con el plan de fertilización, por cuanto los datos son muy dispersos y el comportamiento sea muy variado.

Ahora bien, determinamos el porcentaje de cambio en el periodo de tiempo

Cambio relativo \[ cambio.relativo=\frac{\overline x_{dds77} - \overline x_{dds45}}{\overline x_{dds77}} *100% \]

Aplicado a nuestro datos tenemos:

media45=mean(dds45)
media77=mean(dds77)
cambio_relativo= ((media77-media45)/media77)*100
cambio_relativo

## [1] 92.09061

En esto podemos decir que tenemos un incremento del 92% en tan solo 32 dias en el tamaño de las raices, pero que no podemos asegurar, como ya se habia dicho antes, que este resultado este directamente relacionado con el plan de fertilización.

3. Prueba de wilcoxon de la suma de rangos-Dos muestras independientes

Tenemos el nivel efectividad de aceites vegetales (palma y maiz) para la crocancancia de los fritos, donde tenemos los siguientes resultados

palma=c(3,4,3,4,4,3,3,4,4,3,4,4,2,4,3,4,3,3,3,4,4)
maiz=c(3,4,4,4,4,4,3,4,3,4,4,4,4,3,4,4,4,3,3,4,3)
crocancia=data.frame(palma, maiz)
crocancia

##    palma maiz
## 1      3    3
## 2      4    4
## 3      3    4
## 4      4    4
## 5      4    4
## 6      3    4
## 7      3    3
## 8      4    4
## 9      4    3
## 10     3    4
## 11     4    4
## 12     4    4
## 13     2    4
## 14     4    3
## 15     3    4
## 16     4    4
## 17     3    4
## 18     3    3
## 19     3    3
## 20     4    4
## 21     4    3

crocancia= c(palma,maiz)
planta= gl(n=2, k=21, length = 42, labels = c('palma', 'maiz'))
datos2 = data.frame(planta, crocancia)
library(ggplot2)
ggplot(datos2, aes(crocancia, fill = planta))+geom_boxplot(alpha=0.6)

Donde sus distribuciones en este diagrama de cajas muestran medianas iguales y distribuciones muy similares

mediana.palma=median(palma)
mediana.maiz=median(maiz)
mediana= data.frame(mediana.maiz, mediana.palma)
mediana

##   mediana.maiz mediana.palma
## 1            4             4

lo anterior lo comprobaremos con el test de Wilcoxon, asegurando primero si los datos estan correlacionados o no con una prueba de correlación

cor.planta=cor.test(palma, maiz, mu = 0, alternative = "t", conf.level = 0.95)
cor.planta$p.value

## [1] 0.8049564

Extraido el valor de probabilidad, lo evaluamos:

ifelse(cor.planta$p.value<0.05, "correlación no nula", "correlación nula")

## [1] "correlación nula"

Considerando que los datos no estan correlacionados, realizamos la prueba de wilcoxon de la siguiente forma:

wilcox.planta=wilcox.test(palma, maiz, paired = T, mu=0, alternative = "two.sided", exact = NULL, correct = T, conf.int = F, conf.level = 0.95)

## Warning in wilcox.test.default(palma, maiz, paired = T, mu = 0, alternative =
## "two.sided", : cannot compute exact p-value with ties

## Warning in wilcox.test.default(palma, maiz, paired = T, mu = 0, alternative =
## "two.sided", : cannot compute exact p-value with zeroes

wilcox.planta$p.value

## [1] 0.2754707

Extraido el valor de probabilidad, lo evaluamos:

ifelse(wilcox.planta$p.value<0.05, "medianas no iguales", "medianas iguales")

## [1] "medianas iguales"

Donde corroboramos que la distribución de los datos es tan similar que presentan las mismas medianas. Esto nos afirma que las evaluaciones presentan mismos valores en la crocancia de los fritos, por consiguiente podemos inferir que ambos aceites tienen la misma capacidad de generar crocancia en los fritos.

4. prueba de Wilcoxon para de la suma de rangos - Dops muestras pareadas

Usando el aceite anterior, observamos la conservación en papa criolla a diferentes temperaturas (4°C y 12°C) donde:

L_4c= c(69.26,68.15,69.17,68.88,70.01,70.15,70.66,68.68,71.00,72.18,69.15,70.00,68.64,68.12,68.12)
a_4c=c(-1.31,-1.25,-1.42,-1.35,-1.32,-1.15,-1.25,-1.29,-1.42,-1.45,-1.29,-1.22,-1.19,-1.25,-1.25)
b_4c=c(28.68,27.66,28.02,27.66,27.66,26.88,26.25,26.26,28.15,30.00,28.24,25.59,24.69,25.56,26.26)
L_12c=c(62.20,60.45,63.12,61.64,61.25,62.55,64.12,65.65,66.87,65.11,66.14,62.64,61.97,60.58,60.68)
a_12c=c(0.81,0.78,0.55,0.81,0.77,0.69,0.59,0.55,0.42,0.39,0.41,0.37,0.35,0.34,0.34)
b_12c=c(37.31,35.90,36.36,36.12,36.45,35.99,36.14,36.14,35.55,34.77,32.32,31.96,30.17,36.65,37.15)
Cuatro.grados = data.frame(L_4c,a_4c,b_4c)
Doce.grados = data.frame(L_12c,a_12c,b_12c)
medidas = data.frame(Cuatro.grados,Doce.grados)
medidas

##     L_4c  a_4c  b_4c L_12c a_12c b_12c
## 1  69.26 -1.31 28.68 62.20  0.81 37.31
## 2  68.15 -1.25 27.66 60.45  0.78 35.90
## 3  69.17 -1.42 28.02 63.12  0.55 36.36
## 4  68.88 -1.35 27.66 61.64  0.81 36.12
## 5  70.01 -1.32 27.66 61.25  0.77 36.45
## 6  70.15 -1.15 26.88 62.55  0.69 35.99
## 7  70.66 -1.25 26.25 64.12  0.59 36.14
## 8  68.68 -1.29 26.26 65.65  0.55 36.14
## 9  71.00 -1.42 28.15 66.87  0.42 35.55
## 10 72.18 -1.45 30.00 65.11  0.39 34.77
## 11 69.15 -1.29 28.24 66.14  0.41 32.32
## 12 70.00 -1.22 25.59 62.64  0.37 31.96
## 13 68.64 -1.19 24.69 61.97  0.35 30.17
## 14 68.12 -1.25 25.56 60.58  0.34 36.65
## 15 68.12 -1.25 26.26 60.68  0.34 37.15

Realizamos una mrueba de wilcoxon para determinar si el aceite es igual de eferctivo en amabas temperaturas:

Prueba de wIlcoxon

wilcox_L=wilcox.test(L_4c,L_12c,mu = 0, alternative = "two.sided", paired = T, exact = NULL, correct = T, conf.int = 0.95 )
wilcox_a=wilcox.test(a_4c,a_12c,mu = 0, alternative = "two.sided", paired = T, exact = NULL, correct = T, conf.int = 0.95 )

## Warning in wilcox.test.default(a_4c, a_12c, mu = 0, alternative = "two.sided", :
## cannot compute exact p-value with ties

## Warning in wilcox.test.default(a_4c, a_12c, mu = 0, alternative = "two.sided", :
## cannot compute exact confidence interval with ties

wilcox_b=wilcox.test(b_4c,b_12c,mu = 0, alternative = "two.sided", paired = T, exact = NULL, correct = T, conf.int = 0.95 )
wilcox.general=data.frame(wilcox_L$p.value,wilcox_a$p.value,wilcox_b$p.value)
wilcox.general

##   wilcox_L.p.value wilcox_a.p.value wilcox_b.p.value
## 1     6.103516e-05     0.0007068908     6.103516e-05

wilcox.general2=data.frame(wilcox_L$statistic,wilcox_a$statistic,wilcox_b$statistic)
wilcox.general2

##   wilcox_L.statistic wilcox_a.statistic wilcox_b.statistic
## V                120                  0                  0

Extraidos el valor de probabilidad para cada linea de color tenemos que:

ifelse(wilcox_L$p.value<0.05, "medianas no iguales", "medianas iguales")

## [1] "medianas no iguales"

ifelse(wilcox_a$p.value<0.05, "medianas no iguales", "medianas iguales")

## [1] "medianas no iguales"

ifelse(wilcox_b$p.value<0.05, "medianas no iguales", "medianas iguales")

## [1] "medianas no iguales"

por lo que la efectividad del aceite no es igual en cada temperatura, auqnue esta prueba no tiene sentido por cuanto es necesario hacer las pruebas considerando las tres lineas de color en conjunto.

col_L=c(L_4c,L_12c)
temp= gl(n=2, k=15, length = 30, labels = c("4° Celsius", "12° Celsius"))
col.L=data.frame(temperatura=temp, color=col_L)
library(ggplot2)
ggplot(col.L, aes(col_L, fill = temp))+geom_boxplot(alpha = 0.6)

col_a=c(a_4c,a_12c)
temp= gl(n=2, k=15, length = 30, labels = c("4° Celsius", "12° Celsius"))
col.a=data.frame(temperatura=temp, color=col_a)
library(ggplot2)
ggplot(col.a, aes(color, fill = temperatura))+geom_boxplot(alpha = 0.6)

col_b=c(b_4c,b_12c)
temp= gl(n=2, k=15, length = 30, labels = c("4° Celsius", "12° Celsius"))
col.b=data.frame(temperatura=temp, color=col_b)
library(ggplot2)
ggplot(col.b, aes(col_b, fill = temp))+geom_boxplot(alpha = 0.6)

Esto hace necesario una trasnformacion de la dimensión

Transformación de la dimensión

\[ \triangle E = \sqrt{(L_{12}^*-L_{4}^*)^2+(a_{12}^*-a_{4}^*)^2+(b_{12}^*-b_{4}^*)^2} \]

Delt.E=sqrt((L_12c-L_4c)^2+(a_12c-a_4c)^2+(b_12c-b_4c)^2)
Delt.E

##  [1] 11.349665 11.458992 10.489948 11.342610 12.584506 12.005736 11.998721
##  [8] 10.496709  8.671937  8.724872  5.347570  9.862789  8.768746 13.504362
## [15] 13.284344

Introducción al análisis estadístico

John Maiker Daniel Contreras Velásquez

8/5/2020