La pandemia de COVID-19 desencadenó una crisis económica global, desatando una crisis económica global sin precedentes. Las calles quedaron vacías, los negocios cerraron y mucha gente perdió su trabajo, donde todos los sectores, desde la industria hasta las tiendas pequeñas, se vieron afectados, y quienes ya estaban pasando dificultades financieras se encontraron en una situación aún más complicada.
Con las fronteras cerradas y las restricciones de movimiento, la economía se frenó, lo que significó menos dinero para muchas personas y más presión sobre los sistemas de salud y seguridad social.
Pero la crisis no se quedó solo en lo económico; también afectó el sistema educativo: las escuelas cerraron, lo que obligó a estudiantes y profesores a adaptarse al aprendizaje a distancia, y esta nueva forma de aprender fue difícil para muchos, especialmente para quienes no tenían acceso a una buena conexión a Internet o a dispositivos tecnológicos.
Para algunos estudiantes, esto significó un aprendizaje menor, lo que empeoró las diferencias educativas y sociales que ya existían. La pandemia no solo puso a prueba la fuerza económica del mundo, sino también su capacidad para asegurar que todos los estudiantes tengan una educación justa y de calidad.
El Banco Mundial es una fuente invaluable de información que cubre diversos aspectos socioeconómicos a nivel mundial, donde se recopilan estudios y encuestas de distintos temas de interes. Para conllevar el desarrollo del proyecto, utilizaremos una base de datos que estudia la perdida de aprendizaje registrada y documentada entre marzo del 2020 y marzo del 2022 en respuesta al fenomeno del COVID - 19.
“El COVID-19 causó importantes perturbaciones en el sistema educativo mundial. Un análisis exhaustivo de la evidencia de pérdida de aprendizaje registrada y documentada desde el comienzo del cierre de escuelas entre marzo de 2020 y marzo de 2022 encuentra incluso evidencia de pérdida de aprendizaje. La mayoría de los estudios observaron aumentos en la desigualdad donde ciertos grupos demográficos de estudiantes experimentaron pérdidas de aprendizaje más significativas que otros. Pero también hay casos atípicos: países que lograron limitar la cantidad de pérdidas. Esta revisión consolida toda la evidencia disponible y documenta los hallazgos empíricos. Se incluyen datos de 41 países, junto con otras variables relacionadas con la experiencia de la pandemia. Estos datos están disponibles públicamente y se actualizarán periódicamente.” (Segun la pagina oficial)
En este proyecto de análisis de datos, nos enfocaremos en explorar una base proporcionada por el Banco Mundial de Microdatos, donde el objetivo principal es realizar un análisis de regresión lineal múltiple para identificar las variables que podrían influir en un indicador específico de interés, siendo en nuestro caso, un enfoque hacia la variable “gdp”.
De la base de datos original tomada del Banco Mundial de Microdatos, elegimos las siguientes variables pertinentes para desarrollar el proyecto:
Country: Paises tomados para realizar dicho estudio
Stringency: Indice de rigor de los confinamientos
Pop: Poblacion de los paises estudiados
Deaths: Tasa de mortalidad por COVID-19
Gdp: Producto interno bruto per capita 2020
Internet: tasa de penetracion de internet: porcentaje de la poblacion con acceso a internet
Hlo: Calidad Escolar
Schooling: Años de Escolaridad
High: Paises de altos y bajos ingresos
El modelo empleado para realizar nuestro análisis se basa en la elección del gdp como variable dependiente, con el fin de estudiar su comportamiento y correlación con las demás variables inicialmente mencionadas.
Consiguiente a esto se procedió a analizar la significancia de cada una de las variables de nuestro modelo para identificar cuáles deberían ser interpretadas y cuales solo eran necesarias para el planteamiento y funcionamiento del modelo al considerar un margen de error del 5%. Procediendo a construir una matriz de correlaciones entre todas las variables donde se obtuvo el siguiente grafico:
ggcorrplot(r,
hc.order = TRUE,
type = "lower",
lab = TRUE)
A partir del cual podemos establecer el orden de las variables que tienen una correlación mayor con la variable dependiente (gdp). Obteniendo el siguiente resultado: 1. internet (0.73) 2. schooling (0.63) 3. hlo (0.62) 4. deaths (0.14) 5. pop (-0.22) 6. stringency (-0.24) Recalcando que la variable high no hace parte de este gráfico, puesto que es cualitativa.
Además se acogió el valor de intercepto para la ecuación de nuestro modelo, tomándolo como un valor de ajuste, puesto que para este modelo no corresponde brindarle una interpretación, ya que existen variables seleccionadas que no tienen sentido al tomar el valor de 0, incumpliendo una condición necesaria para que el valor de intercepto pueda ser interpretado.
Por ultimo para la descripción del modelo, se alanizó el valor del R^2 ajustado, extrayendo que dicho modelo tendrá un nivel de confianza de 79.49%.
La siguiente es la ecuacion de modelo de regresion lineal que relaciona el GDP con las demas variables anteriormente mencionadas y tomadas.
\[GDP =β_0 + β_1(pop) + β_2(stringency) +
β_3(deaths) + β_4(internet) + β_5(hlo) + β_6(high) +
β_7(schooling)\]
Donde:
\(β_0\): Es un valor de ajuste para el modelo
\(β_1\): Es un valor necesario para nuestro modelo, sin embargo, no influye directamente en el valor del gdp, pues trabajando con un margen de error del 5%, la variable pop no tiene significancia
\(β_2\): Indica que por cada punto que aumente el índice de rigor de confinamiento, el gdp disminuirá $414.7 dolares
\(β_3\): Indica que por cada punto que aumente la tasa de mortalidad por COVID, el gdp disminuirá $54.52 dolares
\(β_4\): Indica que por cada punto porcentual que aumente el porcentaje de la población de las personas que usen internet, el gdp aumentará $464.6 dolares
\(β_5\): Indica que por cada punto que aumente el índice de calidad escolar, el gdp aumentará $57.02 dolares
\(β_6\): Indica que si un país cuenta con un alto nivel de ingresos, el gdp aumentará $19880 dolares
\(β_7\): Es un valor necesario para nuestro modelo, sin embargo, no influye directamente en el valor del gdp, pues trabajando con un margen de error del 5%, la variable schooling no tiene significancia
Asi, la ecuacion junto al estudio de modelo de regresion lineal calculado en el codigo se define como:
\[GDP =-6.931 - 0.00000558(pop) - 414.7(stringency) - 54.52(deaths) + 464.6(internet) + 57.02(hlo) + 19880(high) - 618.2(schooling)\]
Se empieza a estudiar la base de datos a partir de la relación entre la variable dependiente seleccionada (gdp), respecto a dos categorías definidas por la variable cualitativa recopilada (high); procediendo a construir el siguiente diagrama de cajas:
graf1 <- ggplot(tabla,
aes(x= factor(high,
labels = c("Bajo",
"Alto")),
y=gdp)) +
geom_boxplot(fill="lightgreen") +
labs(title = "Distribución del gdp por nivel de ingresos")
ggplotly(graf1)
Respecto a este gráfico, es posible extraer un valor para indicadores estadísticos como lo son la media, máximos y minimos del gdp correspondiente a los países de la muestra, seccionado en países de altos o bajos niveles de ingresos.
Países con alto nivel de ingresos: media = $45189.40 dolares máximo = $87100.40 dolares minimo = $3798.64 Paises con bajo nivel de ingresos: Media = $4591.38 dolares Máximo = $27681.60 dolares Minimo= $636.29 dolares
Con estos datos podemos establecer una comparación entre el conjunto de países con altos ingresos y el conjunto de países con bajos ingresos, evidenciando que los paises con mayor nivel de ingresos, en promedio tienen un gdp superior al de los países de bajo nivel de ingresos, con una diferencia de $40598.02 dolares. Ademas, es posible apreciar que el valor minimo del gdp en los países con alto nivel de ingresos, está relativamente próximo a la media del gdp de los países con bajo nivel de ingresos.
Posteriormente, mediante un diagrama de dispersión se estudió la relación de la variable de agrupación (high), con respecto a la variable numérica (gdp), como se puede observar a continuación
graf3 <- ggplot(tabla,
aes(y = factor(high,
labels = c("Bajo", "Alto")),
x = gdp,
color = high)) +
geom_jitter(alpha = 0.7,
size = 1.5) +
scale_x_continuous(labels = dollar) +
labs(title = "gdp por nivel de ingresos",
x = "gdp",
y = "Nivel de ingresos del país") +
theme_minimal() +
theme(legend.position = "none")
ggplotly(graf3)
Mediante la gráfica se puede analizar la dispersión que tienen los datos dependiendo el nivel de ingresos con respecto a la variable gdp, observando que en los países de bajo nivel de ingresos, los datos son significativamente mas homogéneos, evidenciando que en estos países, el común denominador es tener un bajo aporte al gdp, en comparación a los países con alto nivel de ingresos en donde se presenta mayor dispersion de los datos.
Para poder analizar la relación de la variable gdp en cuanto al internet, se usó un gráfico de dispersión con línea de ajuste la cual intenta modelar la relación de manera general y donde cada punto es una observación individual de los datos, como se puede apreciar en el siguiente grafico.
graf2 <- ggplot(tabla,
aes(x=internet,
y=gdp)) +
geom_point(color="steelblue") +
geom_smooth(method = "lm")
ggplotly(graf2)
## `geom_smooth()` using formula = 'y ~ x'
Por medio de esta grafica se puede analizar que cuando el porcentaje de las personas que tienen acceso a internet es menor al 50% su aporte al gdp es mínimo y tiende a cero, estos datos presentan mayor uniformidad, en comparación a cuando el acceso a internet es mayor al 50%, puesto que en este caso la uniformidad disminuye y aumenta el aporte al gdp.
Sabiendo que un modelo debe cumplir con 4 supuestos para afirmar que a partir de él es posible hacer inferencia sobre la población, se comprobó el cumplimiento de cada uno de ellos. Independencia: Se cumple, gracias a que las variables relacionadas en el modelo para definir el gdp son independientes entre sí.
plot(modelo1, 1)
La linealidad se cumple, puesto que la media de los errores del modelo tiende a ser 0 como se puede apreciar en el siguiente grafico.
hist(modelo1$residuals, freq = FALSE, main = "Distribucion de los residuos del modelo")
lines(xfit, yfit, col = "red")
En principio y basándose en el grafico anterior se podría inferir que los datos del modelo siguen una distribución normal, sin embargo al realizar la prueba de shapiro wilk, confirmamos que este supuesto no se cumple, pues el valor p obtenido es de 0.001172, lo cual es menor a la significancia con la que se trabajó, por ende se debe rechazar la hipótesis nula (los datos provienen de una distribución normal) y aceptar la hipótesis alternativa (los datos no provienen de una distribución normal).
plot(modelo1, 3)
El supuesto de varianza constante es importante para analizar la regresión lineal, el cual establece que los errores del modelo es constante en todas las combinaciones de los valores de las variables productoras, este fue estudiado mediante la prueba de Breusch-Pagan, obteniendo como resultado un valor p de 0.43, por lo tanto al trabajar con una significancia del 5%, no hay suficiente evidencia para rechazar la hipótesis nula (la varianza de los errores del modelo es constante), por ende se termina aceptando esta misma.
A partir de todas estas pruebas y enfocándose específicamente en que el supuesto de normalidad no se cumple, es posible afirmar que este modelo no es apto para realizar inferencia estadística sobre la población.
vif(modelo1)
## tabla$pop tabla$stringency tabla$deaths
## 1.318460 1.226378 1.725344
## tabla$internet tabla$hlo as.factor(tabla$high)
## 4.244072 2.342836 1.977568
## tabla$schooling
## 3.056511
La multicolinealidad es un fenómeno en el análisis de regresión donde dos o más variables predictoras están altamente correlacionadas entre sí. Esto puede dificultar la interpretación de los coeficientes, causar inestabilidad en las estimaciones, reducir el poder estadístico del modelo y aumentar los errores estándar de los coeficientes.
Por dicha razón se ejecutó una prueba para los vif (factores de inflación de la varianza) de cada termino del modelo, obteniendo como resultado en cada una de las variables valores mayores a 1 y menores a 5, lo cual es un indicio de que los coeficientes asociados de regresión están bien estimados, pues se sugiere que un vif entre 1 y 5 es aceptable.
Continuando con el análisis se procedió a modelar tres situaciones para estudiar el comportamiento del gdp, teniendo en cuenta que los valores para cada variable fueron asignados de acuerdo a los datos de algún país con una situación similar a la que se desea modelar.
• Situación 1: País con 50 millones de habitantes y alto nivel de ingresos Ecuación:
\(Y_1 = β_0 + β_1(50000000) + β_2(61) + β_3(278.69) + β_4(99) + β_5(569.013) + β_6(1) + β_7(13.18)\)
Resultado: Gdp= $42464.57
• Situación 2: Pais con 50 millones de habitantes y bajo nivel de ingreso Ecuacion:
\(Y_2 = β_0 + β_1(50000000) + β_2(40) + β_3(4.7) + β_4(40) + β_5(229.175) + β_6(0) + β_7(2.30)\)
Resultado: Gdp= $6173.59
• Situación 3: Pais con poca población y alto nivel de ingresos Ecuacion:
\(Y_3 = β_0 + β_1(10000000) + β_2(47) + β_3(250) + β_4(70) + β_5(480) + β_6(1) + β_7(10)\)
Resultado: Gdp = $33475.67
• Situación 4: Alta cantidad de población con internet Ecuación
\(Y_4 = β_0 + β_1(50000000) + β_2(40) + β_3(4.7) + β_4(90) + β_5(229.175) + β_6(0) + β_7(2.30)\)
Resultado: Gdp = $29401.78
Partiendo del resultado de la modelación de dichas situaciones se confirma nuevamente la relación directa entre un alto nivel de ingresos y un gdp mayor, pues sin importar el número de habitantes del país se ve reflejada esta tendencia en los resultados; además se puede observar que el internet tiene gran influencia sobre el gdp, teniendo en cuenta que las situaciones donde el porcentaje de personas con internet es alto, este también aumenta, un claro ejemplo de esto son las situaciones 2 y 4
Posteriormente, se procedió a realizar predicciones de la variable dependiente, mediante el uso de la función predict(), la cual permite hacer esto a partir de una data frame previamente asignado con valores para cada variable independiente. Teniendo en cuenta estas predicciones, fue posible realizar el siguiente grafico.
plot(tabla$gdp, data$Predicho,
xlab = "Valores Observados", ylab = "Valores Predichos",
main = "Valores Observados vs. Predichos")
abline(0, 1, col = "red")
Este es un gráfico de dispersión de valores observados (base de datos inicial) vs valores predichos (datos obtenidos con la función predict), logrando destacar la predicción precisa del modelo debido a que los puntos representan la relación entre los valores observados y los valores predichos y la línea roja hace referencia a los valores para una predicción perfecta, por lo tanto, entre mas cercanos a la línea roja estén los puntos (menor dispersión) mayor va a ser la precisión de la predicción.
El análisis de regresión lineal múltiple realizado sobre los datos proporcionados permite concluir que existen variables clave que muestran una correlación significativa con el Producto Interno Bruto (GDP) per cápita de los países estudiados. Específicamente, la penetración de internet, la calidad escolar y los países con alto nivel de ingresos parecen tener una influencia importante en el desarrollo económico de estos países.
El modelo de regresión cumple con los supuestos de varianza constante, linealidad e independencia, lo cual indica que la relación entre las variables predictoras y el GDP es consistente. Sin embargo, el supuesto de normalidad de los residuos no se cumple completamente, sugiriendo que el modelo no es apto para realizar inferencia en la población.
Los coeficientes estimados para las variables significativas proporcionan información valiosa sobre la dirección y la magnitud de la relación entre estos factores y el GDP, lo que puede ayudar a comprender mejor los determinantes del desarrollo económico.
No obstante, es importante tener en cuenta las limitaciones inherentes al análisis de correlación, ya que este no implica causalidad. Por lo tanto, si bien se han identificado variables asociadas al GDP, no se puede afirmar que exista una relación de causa-efecto directa entre ellas.