Avance 1

Equipo 4: Andrea Félix, Marina Portillo, Rosa González, Marijose González, Daniela González

28/04/2021

Introducción

La correlación lineal y la regresión lineal simple son métodos estadísticos que estudian la relación lineal existente entre dos variables. Antes de profundizar en cada uno de ellos, conviene destacar algunas diferencias:

  • La correlación cuantifica como de relacionadas están dos variables, mientras que la regresión lineal consiste en generar una ecuación (modelo) que, basándose en la relación existente entre ambas variables, permita predecir el valor de una a partir de la otra.

  • El cálculo de la correlación entre dos variables es independiente del orden o asignación de cada variable a X e Y, mide únicamente la relación entre ambas sin considerar dependencias. En el caso de la regresión lineal, el modelo varía según qué variable se considere dependiente de la otra (lo cual no implica causa-efecto).

  • A nivel experimental, la correlación se suele emplear cuando ninguna de las variables se ha controlado, simplemente se han medido ambas y se desea saber si están relacionadas. En el caso de estudios de regresión lineal, es más común que una de las variables se controle (tiempo, concentración de reactivo, temperatura…) y se mida la otra.

  • Por norma general, los estudios de correlación lineal preceden a la generación de modelos de regresión lineal. Primero se analiza si ambas variables están correlacionadas y, en caso de estarlo, se procede a generar el modelo de regresión.

Ejercicio de correlación lineal

IDH: Educación vs PIB

El índice de desarrollo humano (IDH) es un indicador de progreso. Antes de calcular el propio IDH, es necesario crear un índice para cada uno de sus tres componentes. A fin de calcular los índices de esos tres componentes -esperanza de vida, educación y PIB- en este análisis se pretende comparar la correlación entre el el porcentaje de variación del PIB y la eficiencia de la educación para el año 2019 en México.

Se dispone información obtenida del informe “Principales Cifras del Sistema Educativo Nacional 2018-2019” de la eficiencia del sistema educativo escolarizado por entidad federativa, esto representa el número de alumnos que terminan la educación superior en el ciclo escolar 2018-2019 de cada cien que iniciaron sus estudios en el ciclo 2002-2003; así como información del INEGI sobre los resultados del Producto Interno Bruto por Entidad Federativa 2019 en México. A continuación se muestra un diagrama a cerca de la correlación de estas dos variables, ambas importantes para el estudio del IDH en el país.

R contiene funciones que permiten calcular los diferentes tipos de correlaciones y sus niveles de significancia: cor() y cor.test(). La segunda función es más completa ya que además de calcular el coeficiente de correlación indica su significancia (p-value) e intervalo de confianza.

Importar datos y paquetes

library(pacman)
p_load("MASS", "ggplot2","readr", "prettydoc")
pibescolaridad <- read.csv("pibescolaridad.csv")

Gráfica de dispersión

ggplot(data = pibescolaridad, aes(x=pib, y = escolaridad)) +
  geom_point(colour="red4") +
  ggtitle("Diagrama de dispersion de estados de México") +
  theme_bw() +
  theme(plot.title = element_text(hjust = 0.5))

El diagrama de dispersión parece indicar una posible relación lineal positiva entre ambas variables.

Para poder elegir el coeficiente de correlación adecuado, se tiene que analizar el tipo de variables y la distribución que presentan. En este caso, ambas variables son cuantitativas continuas y pueden transformarse en rangos para ordenarlas, por lo que a priori los tres coeficientes podrían aplicarse. La elección se hará en función de la distribución que presenten las observaciones.

Análisis de normalidad

Representación gráfica

par (mfrow = c(1,2))
hist(pibescolaridad$pib, breaks = 10, main = "", xlab = "% de variación de PIB", border="darkred")
hist(pibescolaridad$escolaridad, breaks = 10, main = "", xlab = "Eficiencia del sistema educativo", border="blue")

En relación de estas dos gráficas de barras podemos notar que la eficiencia del sistema educativo tiene un comportamiento más normal, dado a que los datos se apegan más al promedio.

Gráfico cuantilico

par(mfrow = c(1,1))
qqnorm(pibescolaridad$pib, main = "% de variación de PIB", col = "darkred")
qqline(pibescolaridad$pib)

qqnorm(pibescolaridad$escolaridad, main = "Eficiencia del sistema educativo", col = "darkred")
qqline(pibescolaridad$escolaridad)

Viendo estas graficas de analisis cuantilicos nos hacemos la idea de que probablemente los datos del porcentaje de PIB en el año 2019, no son normales.

Prueba (test) de hipotesis para el analisis de normalidad

# Test de Shapiro wilk para % de variación de PIB

shapiro.test(pibescolaridad$pib)
## 
##  Shapiro-Wilk normality test
## 
## data:  pibescolaridad$pib
## W = 0.94051, p-value = 0.07741

Dado que el valor de P es mayor a 0.05 (5%) los datos SI son normales

# Test de Shapiro wilk para eficiencia del sistema educativo

shapiro.test(pibescolaridad$escolaridad)
## 
##  Shapiro-Wilk normality test
## 
## data:  pibescolaridad$escolaridad
## W = 0.98937, p-value = 0.9843

Dado que el valor de P es mayor a 0.05 (5%) los datos SI son normales

El análisis gráfico y el contraste de normalidad muestran que para ambas variables se puede asumir normalidad. Siendo estrictos el valor de p-value en PIB es muy pequeño comparado con p-value en la escolaridad, este hecho excluye la posibilidad de utilizar el coeficiente de Pearson, dejando como alternativas el de Spearman o Kendall. Sin embargo, dado que la distribución no se aleja mucho de la normalidad y de que el coeficiente de Pearson tiene cierta robustez, a fines prácticos sí que se podría utilizar siempre y cuando se tenga en cuenta este hecho en los resultados. Otra posibilidad es tratar de transformar las variables para mejorar su distribución.

Análisis

par (mfrow = c(1,2))
hist(pibescolaridad$pib, breaks = 10, main = "", xlab = "log10(% de variación de PIB)", border="darkred")
qqnorm(log10(pibescolaridad$pib), main= "% de variación de PIB", col = "darkred")
## Warning in qqnorm(log10(pibescolaridad$pib), main = "% de variación de PIB", :
## Se han producido NaNs
qqline(log10(pibescolaridad$pib))
## Warning in quantile(y, probs, names = FALSE, type = qtype, na.rm = TRUE): Se han
## producido NaNs

Ahora, con los datos ajustados a escala logaritmica de base, tenemos el siguiente análisis de normalidad.

shapiro.test(log(pibescolaridad$pib))
## Warning in log(pibescolaridad$pib): Se han producido NaNs
## 
##  Shapiro-Wilk normality test
## 
## data:  log(pibescolaridad$pib)
## W = 0.90376, p-value = 0.1279
Aunque no es necesario dado a que en la primer prueba ya era aceptable el porciento arrojado por la prueba.

Fuentes

Secretaria de Educación Pública. (2019). Principales Cifras del Sistema Educativo Nacional 2018-2019

INEGI (2019).COMUNICADO DE PRENSA NÚM. 632/20 PRODUCTO INTERNO BRUTO POR ENTIDADFEDERATIVA 2019