Continuaremos con nuestra exploración de las comparaciones entre dos variables. Ahora toca el turno de comparar dos variables numéricas con la famosa correlación.

Empecemos con el ejemplo y desde ahí vamos explicando. Una experiencia común a todos los aquí presentes: admisión a la universidad; en este caso a la licenciatura. Para ingresar (al menos a la IBERO) ustedes requieren (al menos antes de la pandemia) de un promedio de preparatoria aprobatorio y de un buen puntaje en el examen de admisión. ¿Qué tan bueno? Pues… hasta que se llenen las sillas disponibles en el salón (supongo).

Esta situación abre varias preguntas interesantes.

¿Qué tanto se relaciona el examen de admisión con el puntaje obtenido en el primer semestre de la carrera? ¿Algunas secciones del examen son mejores para predecir el desempeño académico?

Vamos a contestar con correlaciones. Veamos los datos

library(tidyverse)
library(skimr)
library(corrr)
library(GGally)

library(readr)
exani <- read_csv("exani.csv")

exani <- exani %>% 
  rename(
    r_mate= "razonamientologicomatemático",
    r_verbal= "razonamientoverbal")

head(exani) #Las primeras 5 entradas

skim(exani) # 1,702 alumnos de primer ingreso
── Data Summary ────────────────────────
                           Values
Name                       exani 
Number of rows             1702  
Number of columns          12    
_______________________          
Column type frequency:           
  character                2     
  numeric                  10    
________________________         
Group variables            None  

── Variable type: character ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
  skim_variable n_missing complete_rate   min   max empty n_unique whitespace
1 sexo                  0             1     1     1     0        2          0
2 carrera               0             1     7    43     0       36          0

── Variable type: numeric ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
   skim_variable n_missing complete_rate    mean     sd    p0    p25    p50    p75  p100 hist 
 1 X1                    0         1      852.   491.       1  426.   852.  1277.   1702 ▇▇▇▇▇
 2 promedio              0         1       80.3    7.57    60   75     80     85     100 ▁▆▇▅▂
 3 puntaje               0         1     7515.   857.       0 6980   7460   8040    9660 ▁▁▁▇▅
 4 r_mate                0         1       68.1   17.4     15   55     70     80     100 ▁▂▇▆▆
 5 matemáticas           0         1       67.2   15.7     10   55     68.3   79     100 ▁▂▅▇▃
 6 r_verbal              0         1       72.8   14.7     25   65     75     85     100 ▁▃▇▇▅
 7 español               0         1       71.9   14.3     20   63.2   73.7   84.2   100 ▁▂▆▇▅
 8 tics                  0         1       60.2   14.2     20   50     60     70      95 ▁▅▇▅▁
 9 global               13         0.992   68.1   11.3     31   60     68     76      98 ▁▃▇▆▂
10 prom_bac            574         0.663    5.36   1.40     2    4      5      6       9 ▂▃▇▂▁

Primero veamos nuestra variable dependiente: promedio primer semestre (media: 80.3)

exani %>%
  ggplot(aes(x= promedio))+
  geom_histogram(binwidth = 1, fill= "orchid4", color="white")+
  geom_vline(xintercept = mean(exani$promedio), color= "blue")+
  geom_vline(xintercept = 78, color= "black")+
  theme_minimal()

Si fueran coordinadores de carrera… ¿Por qué les preocuparía la línea negra?

El 7.8 es el promedio mínimo para permanecer en la carrera (puntaje de calidad, aunque varía por programa). Todos ellos están en riesgo de salir y reciben una amonestación para que se pongan las pilas. ¿Pudimos haberlo anticipado?

Veamos nustra variable independiente: puntaje global del examen

exani %>%
  ggplot(aes(x= global))+
  geom_histogram(binwidth = 1, fill= "salmon3", color="white")+
  theme_minimal()

Vamos a ver si están relacionados

exani %>% 
  ggplot(aes(x=global, y=promedio)) +
    geom_jitter(color="#69b3a2", alpha=0.7)+
  theme_minimal()

¿Están asociadas?

Vamos a ver cómo se interpreta esto. Un punto refleja la posición que tuvo en global Y en promedio.

Por ello, mientras más márcada es la diagonal que va de abajo izquierda hacia arriba derecha, entonces la relación es más fuerte.

Aquí uno siente como que sí va en la dirección correcta pero hay muchas excepciones. ¿Cuál punto es contra-intutivo?

exani %>% 
  ggplot(aes(x=global, y=promedio)) +
    geom_hex()+
  theme_minimal()

Para este tipo de situaciones la correlación nos da una métrica útil.


exani %>% 
  select(promedio, global) %>% 
  correlate()

Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

Primero veamos nuestros WARNINGS. Nos avisa que el método por default es el de Pearson. Este es el correcto si queremos asociar dos variables numéricas. en otro momento, probablemente el siguiente semestre, veremos otro tipo de correlaciones, las cuales se asocian al tipo de variable, pero se interpretan igual. Así es que nos mantendremos con esta.

Ahora el valor! Tenemos una correlación de 0.312

¿Bueno, malo, mucho, poco, decepcionante, emocionante?

Voy a dar unas referencias para entender esto.

Las correlaciones tienen dos caracteristicas: direccion y fuerza

  1. La dirección se denota por el signo: positivo o negativo. En este caso es positivo. Una relacion positiva significa que conforme aumenta la var X, tambien aumenta la var Y. A la inversa, valores bajos de X, coinciden con valores bajos de Y. Las direcciones positivas nos dan esta imagen de una diagonal que va de abajo izquierda hacia arriba derecha. Si el signo hubiera sido negativo, entonces la diagonal iria de arriba izquierda hacia abajo derecha. Es negativa porque las vars X y Y van en direcciones opuestas: conforme aumenta X, disminuye Y

  2. La fuerza se denota por la magnitud del coeficiente. Las correlaciones siempre tienen un rango que va del -1 al 1 (cualquier valor fuera de este rango NO es una correlacion). Mientras mas cerca del 1 o el -1, la relacion es más fuerte. Mientras mas cerca del 0, la relacion es mas debil

Entonces, si el valor es positivo (0 a 1), la asociacion es positiva: diagonal de abajo a arriba. Si el valor es negativo (-1 a 0), la asociacion es negativa: diagonal arriba hacia abajo. Cuando la asociación es fuerte, la diagnonal es más nítida; cuando es débil, los puntos hacen una nebulosa difusa (la diagonal se ve más bien horizontal)

Algunos ejemplos:

Así es que una correlación de 0.312 es más bien débil. Veamos la mentada diagonal.

exani %>% 
  ggplot(aes(x=global, y=promedio)) +
    geom_jitter(color="#69b3a2", alpha=0.7)+
  geom_smooth(method='lm')+
  theme_minimal()

Esa diagonal es la que matemáticamente mejor explica la correlación. Nos dice que sí hay una relación positiva. Mientras más horizontal esa línea, menor la asociación. Mientras más inclinada, más fuerte. Esta es una correlación entre débil y moderada.

¿Entonces es un buen examen?

Vamos a examinar otra variable: una que combina el promedio de prepa y el resultado en el examen: puntaje de admisión

exani %>% 
  select(puntaje, promedio) %>% 
  correlate()

Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

Mucho mejor. Veamos la diagonal

exani %>% 
  ggplot(aes(x=puntaje, y=promedio)) +
    geom_jitter(color="#69b3a2", alpha=0.7)+
  geom_smooth(method='lm')+
  theme_minimal()

Y eso? Tenemos ahí unos datos atípicos. Va de nuevo todo

exani %>%
  filter(puntaje > 5000) %>% 
  select(puntaje, promedio) %>% 
  correlate()

Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'

Aún mejor! Vean la importancia de cuidarse de los outliers

exani %>%
  filter(puntaje > 5000) %>%
  ggplot(aes(x=puntaje, y=promedio)) +
    geom_jitter(color="#69b3a2", alpha=0.7)+
  geom_smooth(method='lm')+
  theme_minimal()

Mejor, no creen?

exani %>% 
    filter(puntaje > 5000) %>%
  ggplot(aes(x=puntaje, y=promedio)) +
    geom_hex()+
  theme_minimal()

Ahora vamos a seguir esta lógica pero en una matriz de correlaciones

Haremos una compración todos contra todos

corr1 <- exani %>% 
  filter(puntaje > 5000) %>%
  select(-c(X1, sexo, carrera)) %>%
  correlate() %>%
  shave()

corr1

Más bonito

corr1 %>% fashion()

Ahora una matriz más informativa. Noten los asteriscos. ¿Qué significan? ¿Cuál es la HO?


exani %>%
  filter(puntaje > 5000) %>%
  select(-c(X1, sexo, carrera)) %>%
  filter(puntaje > 5000) %>%
  ggpairs()

Vamos a enfocar la pregunta sobre nuestra VD

corr1 %>% focus(promedio)

Y tal vez aún más informativo

corr1 %>%
  focus(promedio) %>%
  mutate(term = reorder(term, promedio)) %>%
  ggplot(aes(term, promedio)) +
    geom_col(fill= "tan4") + 
  coord_flip()+
  theme_minimal()

Y de pilón, un par de gráfias que me gustan más para matriz. Salen de este tutorial.

library(corrplot)
corrplot 0.89 loaded
exani2 <- exani %>%
  filter(puntaje > 5000) %>%
  select(-c(X1, sexo, carrera)) %>% 
  drop_na()
corr2 <- cor(exani2)
corr2 <- cor(exani2)
corrplot(corr2, method = 'number', type = 'lower')

Mi favorito

Pero igual y soy muy cuadrado. Vean como combinan dirección y fuerza pero visualmente

o un combo

