Continuaremos con nuestra exploración de las comparaciones entre dos variables. Ahora toca el turno de comparar dos variables numéricas con la famosa correlación.
Empecemos con el ejemplo y desde ahí vamos explicando. Una experiencia común a todos los aquí presentes: admisión a la universidad; en este caso a la licenciatura. Para ingresar (al menos a la IBERO) ustedes requieren (al menos antes de la pandemia) de un promedio de preparatoria aprobatorio y de un buen puntaje en el examen de admisión. ¿Qué tan bueno? Pues… hasta que se llenen las sillas disponibles en el salón (supongo).
Esta situación abre varias preguntas interesantes.
¿Qué tanto se relaciona el examen de admisión con el puntaje obtenido en el primer semestre de la carrera? ¿Algunas secciones del examen son mejores para predecir el desempeño académico?
Vamos a contestar con correlaciones. Veamos los datos
library(tidyverse)
library(skimr)
library(corrr)
library(GGally)
library(readr)
exani <- read_csv("exani.csv")
exani <- exani %>%
rename(
r_mate= "razonamientologicomatemático",
r_verbal= "razonamientoverbal")
head(exani) #Las primeras 5 entradas
skim(exani) # 1,702 alumnos de primer ingreso
── Data Summary ────────────────────────
Values
Name exani
Number of rows 1702
Number of columns 12
_______________________
Column type frequency:
character 2
numeric 10
________________________
Group variables None
── Variable type: character ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable n_missing complete_rate min max empty n_unique whitespace
1 sexo 0 1 1 1 0 2 0
2 carrera 0 1 7 43 0 36 0
── Variable type: numeric ──────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
1 X1 0 1 852. 491. 1 426. 852. 1277. 1702 ▇▇▇▇▇
2 promedio 0 1 80.3 7.57 60 75 80 85 100 ▁▆▇▅▂
3 puntaje 0 1 7515. 857. 0 6980 7460 8040 9660 ▁▁▁▇▅
4 r_mate 0 1 68.1 17.4 15 55 70 80 100 ▁▂▇▆▆
5 matemáticas 0 1 67.2 15.7 10 55 68.3 79 100 ▁▂▅▇▃
6 r_verbal 0 1 72.8 14.7 25 65 75 85 100 ▁▃▇▇▅
7 español 0 1 71.9 14.3 20 63.2 73.7 84.2 100 ▁▂▆▇▅
8 tics 0 1 60.2 14.2 20 50 60 70 95 ▁▅▇▅▁
9 global 13 0.992 68.1 11.3 31 60 68 76 98 ▁▃▇▆▂
10 prom_bac 574 0.663 5.36 1.40 2 4 5 6 9 ▂▃▇▂▁
Primero veamos nuestra variable dependiente: promedio primer semestre (media: 80.3)
exani %>%
ggplot(aes(x= promedio))+
geom_histogram(binwidth = 1, fill= "orchid4", color="white")+
geom_vline(xintercept = mean(exani$promedio), color= "blue")+
geom_vline(xintercept = 78, color= "black")+
theme_minimal()

Si fueran coordinadores de carrera… ¿Por qué les preocuparía la línea negra?
El 7.8 es el promedio mínimo para permanecer en la carrera (puntaje de calidad, aunque varía por programa). Todos ellos están en riesgo de salir y reciben una amonestación para que se pongan las pilas. ¿Pudimos haberlo anticipado?
Veamos nustra variable independiente: puntaje global del examen
exani %>%
ggplot(aes(x= global))+
geom_histogram(binwidth = 1, fill= "salmon3", color="white")+
theme_minimal()

Vamos a ver si están relacionados
exani %>%
ggplot(aes(x=global, y=promedio)) +
geom_jitter(color="#69b3a2", alpha=0.7)+
theme_minimal()

¿Están asociadas?
Vamos a ver cómo se interpreta esto. Un punto refleja la posición que tuvo en global Y en promedio.
- Puntos hacia la derecha reflejan puntajes altos en el exani.
- Puntos hacia arriba reflejan puntajes altos en el promedio
- Puntos arriba y a la derecha reflejan puntajes altos en exani Y en promedio
Por ello, mientras más márcada es la diagonal que va de abajo izquierda hacia arriba derecha, entonces la relación es más fuerte.
Aquí uno siente como que sí va en la dirección correcta pero hay muchas excepciones. ¿Cuál punto es contra-intutivo?
exani %>%
ggplot(aes(x=global, y=promedio)) +
geom_hex()+
theme_minimal()

Para este tipo de situaciones la correlación nos da una métrica útil.
exani %>%
select(promedio, global) %>%
correlate()
Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'
Primero veamos nuestros WARNINGS. Nos avisa que el método por default es el de Pearson. Este es el correcto si queremos asociar dos variables numéricas. en otro momento, probablemente el siguiente semestre, veremos otro tipo de correlaciones, las cuales se asocian al tipo de variable, pero se interpretan igual. Así es que nos mantendremos con esta.
Ahora el valor! Tenemos una correlación de 0.312
¿Bueno, malo, mucho, poco, decepcionante, emocionante?
Voy a dar unas referencias para entender esto.
Las correlaciones tienen dos caracteristicas: direccion y fuerza
La dirección se denota por el signo: positivo o negativo. En este caso es positivo. Una relacion positiva significa que conforme aumenta la var X, tambien aumenta la var Y. A la inversa, valores bajos de X, coinciden con valores bajos de Y. Las direcciones positivas nos dan esta imagen de una diagonal que va de abajo izquierda hacia arriba derecha. Si el signo hubiera sido negativo, entonces la diagonal iria de arriba izquierda hacia abajo derecha. Es negativa porque las vars X y Y van en direcciones opuestas: conforme aumenta X, disminuye Y
La fuerza se denota por la magnitud del coeficiente. Las correlaciones siempre tienen un rango que va del -1 al 1 (cualquier valor fuera de este rango NO es una correlacion). Mientras mas cerca del 1 o el -1, la relacion es más fuerte. Mientras mas cerca del 0, la relacion es mas debil
Entonces, si el valor es positivo (0 a 1), la asociacion es positiva: diagonal de abajo a arriba. Si el valor es negativo (-1 a 0), la asociacion es negativa: diagonal arriba hacia abajo. Cuando la asociación es fuerte, la diagnonal es más nítida; cuando es débil, los puntos hacen una nebulosa difusa (la diagonal se ve más bien horizontal)
Algunos ejemplos:
- Una correlacion de .3 muestra una asociacion más debil que una correlacion de .7; ambas positivas
- Una correlacion de -.2 muestra una asociacion más debil que una correlacion de -.6; ambas negativas
- Una correlacion de .2 muestra una asociacion más debil que una correlacion de -.6
Así es que una correlación de 0.312 es más bien débil. Veamos la mentada diagonal.
exani %>%
ggplot(aes(x=global, y=promedio)) +
geom_jitter(color="#69b3a2", alpha=0.7)+
geom_smooth(method='lm')+
theme_minimal()

Esa diagonal es la que matemáticamente mejor explica la correlación. Nos dice que sí hay una relación positiva. Mientras más horizontal esa línea, menor la asociación. Mientras más inclinada, más fuerte. Esta es una correlación entre débil y moderada.
¿Entonces es un buen examen?
Vamos a examinar otra variable: una que combina el promedio de prepa y el resultado en el examen: puntaje de admisión
exani %>%
select(puntaje, promedio) %>%
correlate()
Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'
Mucho mejor. Veamos la diagonal
exani %>%
ggplot(aes(x=puntaje, y=promedio)) +
geom_jitter(color="#69b3a2", alpha=0.7)+
geom_smooth(method='lm')+
theme_minimal()

Y eso? Tenemos ahí unos datos atípicos. Va de nuevo todo
exani %>%
filter(puntaje > 5000) %>%
select(puntaje, promedio) %>%
correlate()
Correlation method: 'pearson'
Missing treated using: 'pairwise.complete.obs'
Aún mejor! Vean la importancia de cuidarse de los outliers
exani %>%
filter(puntaje > 5000) %>%
ggplot(aes(x=puntaje, y=promedio)) +
geom_jitter(color="#69b3a2", alpha=0.7)+
geom_smooth(method='lm')+
theme_minimal()

Mejor, no creen?
exani %>%
filter(puntaje > 5000) %>%
ggplot(aes(x=puntaje, y=promedio)) +
geom_hex()+
theme_minimal()

Ahora vamos a seguir esta lógica pero en una matriz de correlaciones
Haremos una compración todos contra todos
corr1 <- exani %>%
filter(puntaje > 5000) %>%
select(-c(X1, sexo, carrera)) %>%
correlate() %>%
shave()
corr1
Más bonito
corr1 %>% fashion()
Ahora una matriz más informativa. Noten los asteriscos. ¿Qué significan? ¿Cuál es la HO?
exani %>%
filter(puntaje > 5000) %>%
select(-c(X1, sexo, carrera)) %>%
filter(puntaje > 5000) %>%
ggpairs()

Vamos a enfocar la pregunta sobre nuestra VD
corr1 %>% focus(promedio)
Y tal vez aún más informativo
corr1 %>%
focus(promedio) %>%
mutate(term = reorder(term, promedio)) %>%
ggplot(aes(term, promedio)) +
geom_col(fill= "tan4") +
coord_flip()+
theme_minimal()

Y de pilón, un par de gráfias que me gustan más para matriz. Salen de este tutorial.
library(corrplot)
corrplot 0.89 loaded
exani2 <- exani %>%
filter(puntaje > 5000) %>%
select(-c(X1, sexo, carrera)) %>%
drop_na()
corr2 <- cor(exani2)
corr2 <- cor(exani2)
corrplot(corr2, method = 'number', type = 'lower')

Mi favorito

Pero igual y soy muy cuadrado. Vean como combinan dirección y fuerza pero visualmente


o un combo

