Exploración bivariada

1) Categórica - Numérica

Significatividad = H0

qqplot

facet_grid(. ~ SEX) = dividir en base al sexo

Lo que queremos es saber si la diferencia entre medias es significativa o no.

Primero se determina si se comporta normal o no la bivariada. Después de determinar eso, se empieza a calcular o con el parámetrico o con el no parámetrico.

-Usando el shapiroTest

Normalidad = x>0.05 = Paramétrico

No normal = x<0.05 = No paramétrico

-Cuando al menos una tiene probabilidad menor a 0.05, debemos ir por el camino no paramétrico.

-Se infiere un comportamiento normal cuando:

-Puntos alejados mucho de la diagonal = no normalidad.

Después se comparan las medias para descubrir si sus diferencias son significativas o no.

Lo importante es = p-value

-No paramétrico / No normal

wilcox (dos valores) -> Significativa  = p-value < 0.05 
                        No significatividad = p-value > 0.05

kruskal (+ de dos valores) -> Significativa  = p-value < 0.05 
                              No significatividad = p-value > 0.05
  
  El ggplot siguiente, empleo del notch (cuando está cerca no hay diferencia de medias), sirve para corroborar gráficamente lo dictaminado por el wilcox/kruskal

-Paramétrico / Normal

Prueba para dos valores = t.test (formula,X) -> Significativa  = p-value < 0.05 
                                                No significatividad = p-value > 0.05 

Prueba para + de dos valores = summary(aov(x, data=y)) 
  
  Asteríscos = p-value < 0.05, ello implica significatividad -> Al menos una difiere de las demás. Para detectar las diferencias:
    
    library(ggpubr)
    ggerrorplot(hsb, x = "HSP", y = "MATH", desc_stat = "mean_ci")

2) Categórica - Categórica (todas son no paramétricas = no prueba de normalidad, todas son no normales)

La pregunta: ¿Habrá alguna relación entre ambas?

H0: Las variables son independientes.

  1. Tabla de contingencia (Se crea una tabla de doble entrada)

    Porcentajes : prop_X=prop.table(X,margin = 2) / (prop_X=prop.table(X,margin = 2)) round(prop_X,2)

    Porcentaje del nivel de ocurrencia (la primera imagen, balloonplot), si son parecidos los valores se puede inferir que hay independencia.

    El Chi Cuadro (si p-value>0.05, son independientes; este cuadro se da para dar un veredicto final)

  2. Calcular la intensidad, si hay dependencia (contingencia y cramer x>0.3, la intensidad)

3) Numérica - Numérica: o parametrica o no parametrica

La pregunta: ¿Hay correlación?

H0: No tienen correlación, no hay significatividad.

Primero : ¿Se comporta normal la variable? Respuesta en base al p-value,
                                                                          Normalidad = x>0.05
                                                                          No normal = x<0.05 
Segundo : Calcular la significatividad de la correlación

% 1 = directa = bajo izquierda - arriba derecha Ambos implican significatividad %-1 = inversa = bajo derecha - arriba izquierda

%La correlación aumenta si se acerca al 1 o -1, y se desvanece si se acerca a cero (esto cuando los puntos están dispersos).

  1. Pearson (Normalidad-paramétrico) Si la probabilidad es menor a 0.05 (p-value)
  2. Spearman (No normal-no paramétrico)