Chi cuadrado

Es un test para determinar homogeneidad de frecuencias. Primero, se debe incluir una matriz

h<-c(54,57)
m<-c(34,36)
data.frame(h,m)->x

Luego, se le buscan los valores esperados con el comando chisq.test()$expected

chisq.test(x)$expected
##             h        m
## [1,] 53.96685 34.03315
## [2,] 57.03315 35.96685

Como todos los valores esperados son mayores a 5, se utiliza la prueba chisq.test(), si al menos uno no lo fuese, se usa fisher.test()

chisq.test(x)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  x
## X-squared = 0, df = 1, p-value = 1

Si el valor de p-value es menor a 0.05, se rechaza la hipótesis nula

Correlación

Sirve para mostrar si existe una relación entre 2 variables distintas. Teniendo los conjuntos de datos:

long<-c(1,2,3,4,5,6,7)
alt<-c(2,3,5,7,6,8,9)

Se procede a comprobar su normalidad… Si son normales, se usa Pearson, si no, se usa Spearman o Kendall

shapiro.test(long)
## 
##  Shapiro-Wilk normality test
## 
## data:  long
## W = 0.978, p-value = 0.9493
shapiro.test(alt)
## 
##  Shapiro-Wilk normality test
## 
## data:  alt
## W = 0.96211, p-value = 0.8366

Como en este caso son normales, se usa el comando cor.test(x, y, method=“pearson”)

cor.test(long,alt, method = "pearson")
## 
##  Pearson's product-moment correlation
## 
## data:  long and alt
## t = 8, df = 5, p-value = 0.0004929
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.7644645 0.9947165
## sample estimates:
##       cor 
## 0.9630868

Si p-value es menor a 0.05, se rechaza la hipóstesis nula, es decir, si hay una correlación, dependiendo del signo de la prueba estadística, se puede saber si es positiva o negativa

Regresión

Sirve para predecir Primero, se usa un par de datos y se le aplica el siguiente comando, yendo primero el valor de y y luego el de x, en caso de que se tome la siguiente ecuación y=mx+b

lm(long~alt)
## 
## Call:
## lm(formula = long ~ alt)
## 
## Coefficients:
## (Intercept)          alt  
##     -0.6377       0.8116

Con base a dichos valores, se puede saber el resultado de y o de x sustituyendo en la fórmula… (Intercept es siempre igual a b y en este caso alt es igual a m) El model de AIC nos dice que, en caso de tener múltiples modelos, cual es el más confiable (lo será aquel cuyo valor sea el menor). el comando es AIC(model1,modelo2,modelo3…)

ANOVA

Sirve para saber si hay diferencias significativas en más de 2 conjuntos de datos En este caso, primero se usa aov(x~y) siendo x el vector numérico y y el conjunto de factores. Luego, se usa shapiro.test(aov(x~y)$residuals) para determinar su normalidad… Si son normales Se calcula si son balanceados o no, luego si son homocedásticos (hay varias maneras, pero se recomienda usar LevenneTest, obtenido al instalar el paquete car). El primero se consigue con el comando tapply(x,y, length), el cual, si los números obtenidos son iguales, quiere decir que sí lo son. En caso de ser balanceados, se usa el comando summary(aov(x~y)) y se observa el valor de F,el cual si es menor a 0.05, demuestra que al menos hay una diferencia significativa entre 2 conjutos de datos. Luego se hace una prueba a posteriori si esto último se cumplió, la cual será TukeyHSD() si son balanceados y pairwise.t.test() si no lo son. Si los datos no son balanceados, se calcula p utilizando el comando oneway.test() (Aquí se asume que siempre serán homocedásticos) Si no son normales Se calcula si son balanceados o no (usando tapply, tal y como en el caso anterior), luego si son homocedásticos. Si son balanceados, se usa kruskal.test(), si no, se usa oneway.test()… En caso de que se rechace H0 con base al valor de p (p<0.05), se hacec una prueba a posteriori, la cual será pairwise.wilcox.test(formula, method=“bonferroni”) si datos son balanceados, y si no, se usa pairwise.wilcox.test(formula, method=“none”). (Se asume que siempre serán homocedásticos)

En todos los casos con las pruebas a posteriori, el valor de los lugares donde podrían haber diferencias se observa el p-value, el cual, si es menor a 0.05, sí hay una diferencia significativa