Variables hipótesis
numérica - categórica = no diferencia entre medias
categórica - categórica = no relación, varible independientes
numérico - numérico = no correlación significativa
Hipótesis negada = HIPÓTESIS NULA (H0)
Variable numérica de interés: la variable “base”
Estadística paramétrica (más exactas, más requistos) y no paramétrica
Exploración bivariada
Significatividad = H0
qqplot
facet_grid(. ~ SEX) = dividir en base al sexo
-Usando el shapiroTest
Normalidad = x>0.05 = Paramétrico
No normal = x<0.05 = No paramétrico
-Cuando al menos una tiene probabilidad menor a 0.05, debemos ir por el camino no paramétrico.
-Se infiere un comportamiento normal cuando:
-Puntos alejados mucho de la diagonal = no normalidad.
Lo importante es = p-value
-No paramétrico / No normal
wilcox (dos valores) -> Significativa = p-value < 0.05
No significatividad = p-value > 0.05
kruskal (+ de dos valores) -> Significativa = p-value < 0.05
No significatividad = p-value > 0.05
El ggplot siguiente, empleo del notch (cuando está cerca no hay diferencia de medias), sirve para corroborar gráficamente lo dictaminado por el wilcox/kruskal
-Paramétrico / Normal
Prueba para dos valores = t.test (formula,X) -> Significativa = p-value < 0.05
No significatividad = p-value > 0.05
Prueba para + de dos valores = summary(aov(x, data=y))
Asteríscos = p-value < 0.05, ello implica significatividad -> Al menos una difiere de las demás. Para detectar las diferencias:
library(ggpubr)
ggerrorplot(hsb, x = "HSP", y = "MATH", desc_stat = "mean_ci")
La pregunta: ¿Habrá alguna relación entre ambas?
H0: Las variables son independientes.
Tabla de contingencia (Se crea una tabla de doble entrada)
Porcentajes : prop_X=prop.table(X,margin = 2) / (prop_X=prop.table(X,margin = 2)) round(prop_X,2)
Porcentaje del nivel de ocurrencia (la primera imagen, balloonplot), si son parecidos los valores se puede inferir que hay independencia.
El Chi Cuadro (si p-value>0.05, son independientes; este cuadro se da para dar un veredicto final)
Calcular la intensidad, si hay dependencia (contingencia y cramer x>0.3, la intensidad)
La pregunta: ¿Hay correlación?
H0: No tienen correlación, no hay significatividad.
Normalidad = x>0.05
No normal = x<0.05
% 1 = directa = bajo izquierda - arriba derecha Ambos implican significatividad %-1 = inversa = bajo derecha - arriba izquierda
%La correlación aumenta si se acerca al 1 o -1, y se desvanece si se acerca a cero (esto cuando los puntos están dispersos).