El informe aborda el análisis del impacto en el aprendizaje ocasionado por la pandemia de COVID-19 durante el período comprendido entre 2020 y 2022. La crisis mundial generada por la propagación del virus llevó al cierre de centros educativos en todo el mundo, afectando la educación de aproximadamente 1.600 millones de estudiantes.
Ante esta situación, se llevó a cabo un estudio que analiza diversas variables relacionadas con la interrupción educativa para evaluar su repercusión en la pérdida del aprendizaje a nivel internacional. Se seleccionó una muestra de 40 países para llevar a cabo dicho análisis.
Es fundamental destacar la importancia de comprender las graves repercusiones y las variables asociadas con la pérdida de aprendizaje a nivel global. Este análisis puede anticipar posibles consecuencias negativas a largo plazo, especialmente el escenario de que algo similar a la pandemia se repita. La comprensión de estos efectos es esencial para tomar medidas adecuadas y mitigar los impactos adversos en el aprendizaje y la formación de los futuros profesionales de la sociedad a largo plazo.
Inicialmente se organizan las variables cuantitativas de la base de datos en una matriz de correlaciones, con el objetivo de identificar a aquellas que muestren mayor relación con la variable de estudio loss:
Así pues, se escogen las siete variables cuantitativas que más correlación tienen con la pérdida del aprendizaje para incluirlas en el posterior modelo de dicha variable, siendo las siguientes:
En esta matriz es posible identificar la intensidad y dirección de las relaciones que tiene la variable de interés loss con las demás, teniendo lo siguiente:
Es importante resaltar que el hecho de que las variables tengan correlación no implica que exista una causalidad entre ellas. Esto significa que por ahora no es posible afirmar que el comportamiento de loss dependa del valor de las otras variables.
Además de estas variables cuantitativas, también se elige a las variables cualitativas region y desarrollo como las variables independientes en torno a las cuales se busca definir el comportamiento de la pérdida del aprendizaje.
Así pues, las variables que formarán parte del modelo son:
Es la variable de estudio que se modeló en función de las demás
variables, es decir, la variable dependiente. Representa la disminución
de las puntuaciones que hubo en el promedio académico de cada país tras
la pandemia del COVID-19, en el periodo académico 2020-2021.
Está dada en desviaciones estándar, donde un mayor valor representa una
mayor disminución en el rendimiento académico del país.
El comportamiento de esta variable oscila entre un valor de 0,
perteneciente al país Suecia, y 0.8, perteneciente al país Nepal.
Hace referencia al número de semanas que estuvieron cerradas las
instituciones educativas durante la pandemia en los paises
analizados.
El comportamiento de esta variable está entre 0 semanas, dato
perteneciente a Suecia; y 93 semanas, dato perteneciente a India.
Esta variable corresponde al PIB per cápita de cada país durante el
año 2020, expresado en dólares estadounidenses. Tener en cuenta esta
variable es de suma importancia debido a que la calidad de la educación
está relacionada con el PIB de cada país, ya que este se relaciona con
la estabilidad económica del territorio y con su capacidad para invertir
en sectores importantes para su población.
El comportamiento del PIB de estos países oscila entre USD 636.3, dato
perteneciente a Malawi; y USD 87100.4, dato perteneciente a Suiza.
Esta variable representa el porcentaje de la población del país que
tiene acceso a una conexión de internet; y es relevante porque va ligada
al período de tiempo en que las clases a nivel global comenzaron a ser
totalmente virtuales, modalidad que limitó a muchas personas que no
contaban con este servicio.
El país que reportó una menor cobertura de internet fue Malawi, con un
10%; mientras que la mayor cobertura se encontró en Canadá, con un
97%.
Esta variable refleja el promedio obtenido en pruebas internacionales
que miden el nivel de educación de los distintos países, como las
pruebas PISA, LLECE, entre otras.
Los datos de esta variable oscilan entre 229 puntos obtenidos por Ghana,
y 569 puntos obtenidos por Japón.
Hace referencia a la tasa de vacunación contra el COVID-19 de los
diferentes países, medida en el número de dosis suministradas por cada
100 habitantes.
En esta variable los datos se mueven en un intervalo desde 1.9 dosis por
cada 100 habitantes pertenecientes al país de Uganda, hasta 115 dosis
suministradas por cada 100 habitantes pertenecientes a Chile.
Muestra cuántos años en promedio la población asistió a algún centro
de estudios para recibir formación académica.
El menor valor pertenece a Etiopía, con un promedio de 2.3 años;
mientras que el mayor corresponde a Estados Unidos, con 13.18 años.
Corresponde a una variable con escala ordinal que hace referencia a
la forma de gobierno que rige el país.
En este caso, la escala ordinal va desde -7 hasta 10; donde -7
representa un tipo de gobierno de monarquía hereditaria, es decir, en el
que todo el poder se concentra en una persona escogida por el regente
previo; mientras que el 10 representa un tipo de gobierno totalmente
democrático. De esta forma, los valores intermedios corresponden a
gobiernos con mayor inclinación hacia uno de los dos extremos.
Esta variable clasifica a los paises según el continente al que pertenecen, dividiéndolos entre los continentes de África, América, Asia y Europa.
Esta variable clasifica a los distintos países según su índice de desarrollo humano (IDH), considerando como desarrollados a aquellos con un IDH superior a 8, mientras que los demás se califican como subdesarrollados.
Así pues, el modelo queda definido de la siguiente forma:
\[
\hat{los}s = \hat{\beta_0} + \hat{\beta_1}weeks + \hat{\beta_2}gdp +
\hat{\beta_3}internet + \hat{\beta_4}hlo + \hat{\beta_5}vac +
\hat{\beta_6}schooling + \hat{\beta_7}polity +
\] \[
\hat{\beta_8}regionAfrica + \hat{\beta_9}regionAmerica +
\hat{\beta_{10}}regionAsia + \hat{\beta_{11}}desarrolloSubdesarrollado
\] Es de notar que aparecieron nuevas variables, las cuales son
resultado de las dos variables cualitativas que se añadieron al modelo.
Dichas nuevas variables corresponden a las categorías que pueden tener
region y desarrollo después de haber
tomado una de ellas como referencia, es decir:
Así pues, el modelo toma como referencia los valores esperados para
un país europeo desarrollado, y las variables adicionales funcionan como
auxiliares para cuando se desee inferir acerca de un país que no
corresponda con alguna de esas dos descripciones (o con ninguna).
La elección de estas categorías como base de referencia se debe a que
corresponden al escenario de país en el que se considera que están las
mejores condiciones para que la pérdida del aprendizaje sea mínima, como
se observa en el análisis de ambas variables.
Como parte del análisis exploratorio realizado a la base de datos del modelo, se obtuvieron algunas estadísticas descriptivas de sus variables. Esto proporciona información de relevancia para comprender mejor el comportamiento de las variables que conforman el modelo con el que se va a trabajar. Así, con dichas estadísticas obtenidas para las 7 variables cuantitativas del modelo, se realizó la siguiente tabla:
## Estadisticos WEEKS LOSS INTERNET HLO VAC GDP
## 1 Promedio 21.10000 0.2322500 68.92500 460.02657 59.66354 20959.973
## 2 Mediana 13.50000 0.2200000 75.50000 482.34850 72.50000 11682.650
## 3 Desviacion Estandar 18.32163 0.1576183 25.21638 90.13406 32.57375 22486.981
## 4 Minimo 0.00000 0.0000000 10.00000 229.17500 1.90467 636.286
## 5 Maximo 93.00000 0.8000000 97.00000 569.01300 115.00000 87100.400
## SCHOOLING
## 1 9.38575
## 2 9.81000
## 3 2.77001
## 4 2.30000
## 5 13.18000
Las variables descriptivas obtenidas son:
Es posible realizar gráficos en los que se puedan visualizar algúnas de estas estadísticas, como por ejemplo un diagrama de cajas. Así, se realiza uno de la variable de estudio loss:
La línea que está en la mitad del cuadro corresponde a la mediana de
los valores de loss, la cual señala al valor que separa
la cantidad de datos en dos mitades (es decir, el 50% serán superiores a
ella, y el otro 50% serán inferiores).
Los dos extremos de la caja corresponden a los cuartiles 1 y 3, los
cuales encierran a la mitad central de los datos. Es decir, el 25% de
los datos correspondientes a los valores más altos están a la derecha de
la caja, mientras que el correspondiente a los más bajos están a la
izquierda.
Se observa que hay unos valores representados por unos puntos, los
cuales corresponden a valores atípicos cuyo comportamiento se aleja
considerablemente del visto en la mayoría de los datos.
Es posible realizar la misma visualización con las demás variables, como por ejemplo con weeks:
También es posible realizar gráficos que ayuden a comprender mejor la relación entre dos de las variables del modelo. Por ejemplo, podemos observar la variación en el valor de loss frente a los distintos valores de weeks:
## `geom_smooth()` using formula = 'y ~ x'
Al observar gráficamente la distribución de los valores respecto a ambas variables, se observa que presentan cierto comportamiento lineal positivo a pesar de tener una dispersión elevada, lo que permite darse una idea de que los escenarios en los que el cierre duró más semanas sí fueron de los que más pérdida del aprendizaje presentaron (aunque no se puede afirmar una causalidad).
Posterior a la exploración de las variables y a la construcción del modelo, se obtuvieron los siguientes resultados al ser procesado mediante una regresión lineal:
##
## Call:
## lm(formula = loss ~ weeks + gdp + internet + hlo + vac + schooling +
## polity + region + desarrollo, data = BaseDatos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.20898 -0.07985 0.01080 0.05820 0.37146
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.331e-01 2.719e-01 1.225 0.23080
## weeks 5.030e-03 1.759e-03 2.860 0.00792 **
## gdp -9.823e-07 1.520e-06 -0.646 0.52339
## internet 1.373e-03 1.955e-03 0.703 0.48813
## hlo -3.611e-04 4.108e-04 -0.879 0.38690
## vac 1.364e-03 1.520e-03 0.897 0.37714
## schooling -2.479e-02 1.622e-02 -1.529 0.13750
## polity 6.559e-03 5.990e-03 1.095 0.28287
## regionAfrica -2.454e-02 9.439e-02 -0.260 0.79677
## regionAmerica -7.252e-02 9.376e-02 -0.773 0.44575
## regionAsia -4.369e-02 7.708e-02 -0.567 0.57542
## desarrolloSubdesarrollado 3.609e-02 1.165e-01 0.310 0.75911
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.1299 on 28 degrees of freedom
## Multiple R-squared: 0.5122, Adjusted R-squared: 0.3205
## F-statistic: 2.673 on 11 and 28 DF, p-value: 0.01751
Inicialmente se revisa la columna de los valores-p de las variables, con el objetivo de compararlos respecto al nivel de significancia y revisar cuál de ellos es menor a dicho nivel. Teniendo en cuenta el criterio de que una significancia se considera aceptable hasta alrededor de un 10%, se observa que la única variable cuyo valor-p está debajo de dicho espectro es weeks. De hecho, dicha variable permite fijar la significancia en un 1% y aún así su valor-p continúa siendo menor, por lo que se trabaja con esa nivel de significancia (ya que proporciona una mayor confiabilidad a la siguiente afirmación).
En otras palabras, con un riesgo de equivocarse del 1%, el modelo permite afirmar que el número de semanas que estuvieron cerrados los colegios debido a la pandemia del COVID-19 SÍ influyó en la pérdida del aprendizaje evidenciada en cada país.
Coeficientes de las variables:
El coeficiente que aparece junto a cada variable corresponde a aquel que
cumplirá el papel de pendiente para dicha variable a la hora de realizar
inferencias con el modelo.
En cuanto a su significado lógico, sólo es posible definirlo en los
casos en los que tiene un sentido para lo esperado en la realidad.
Por ejemplo con weeks: Al ser un coeficiente positivo,
está indicando que al añadir una semana de cierre adicional a un país
hipótetico también se obtendrá un mayor valor en el correspondiente
loss de dicho país (específicamente, aumentará en la
cantidad de dicho coeficiente). Esto tiene sentido cuando pensamos en
que el mantener las escuelas cerradas por más tiempo va a aumentar la
pérdida del aprendizaje de dicho país.
Interpretación del R-cuadrado:
El valor del R-cuadrado del modelo (0.3205) hace referencia a que dicho
modelo puede explicar el 32.05% de la variabilidad de los datos de la
muestra de datos.
Análisis de los supuestos del modelo:
Para poder confirmar que el modelo construido a partir de la base de
datos puede inferir valores de la población general, es necesario
verificar si cumple con 4 supuestos que recaen sobre los errores del
modelo:
Linealidad:
Este supuesto implica que la relación entre las variables del modelo sea lineal, lo que ocurre si el coeficiente de al menos una de ellas es diferente de 0 (lo que implicaría que tiene influencia sobre la variable dependiente).
En este caso, el p-value del modelo (1.751%) fue menor al nivel de
significancia utilizado (5%), lo que permite aprobar la hipótesis
alterna y se dice que el coeficiente de al menos una de las variables no
es 0, cumpliéndose el supuesto.
Con el coeficiente de dicha variable, se tiene al menos una pendiente
que le da una naturaleza lineal al modelo.
Varianza Constante:
Indica que la varianza de los datos manejados por el modelo es
constante, lo que le proporciona cierta fiabilidad al indicar que los
puntos de este conjunto de datos presentan consistencia.
El supuesto puede evaluarse mediante la prueba de Breusch-Pagan y un
nivel de significancia dado (que se tomará en 5%), en donde la hipótesis
nula señalará que la varianza es constante, y la alterna dirá que no lo
es:
bptest(modelo)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 17.538, df = 11, p-value = 0.09295
Se puede observar que el p-value del modelo tiene un valor de 9.295%, lo que es mayor al nivel de significancia manejado (5%). Por tal razón no se rechaza la hipótesis nula y se concluye con una confiabilidad del 95% que el modelo tiene una varianza constante.
Normalidad:
El supuesto de normalidad indica que los datos recopilados en la base
de datos provienen de una distribución normal.
Similar al supuesto anterior, puede evaluarse a través de una prueba,
siendo la de Shapiro-Wilk:
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.95238, p-value = 0.09161
Se observa que el modelo tiene un p-valor de 9,161%, lo que es mayor al nivel de significancia del 5% establecido. En este caso la hipótesis nula que no se rechaza está afirmando que los datos recogidos sí provienen de una distribución normal, lo que se asegura con un 95% de confiabilidad.
Independencia:
Este supuesto nos quiere decir que si la muestra fue tomada de forma independiente (al azar) sus errores asociados también lo serán. En este caso, la base de datos fue construida teniendo en cuenta este detalle, por lo que el supuesto se puede confirmar.
Así pues, el modelo cumplió los 4 supuestos y por ello es posible afirmar que permite realizar inferencias sobre datos de la población, las cuales se realizarán utilizando la función obtenida.
Esto ayuda a realizar pruebas respecto a países hipotéticos con las
condiciones que se deseen (siempre y cuando estén dentro del rango
mostrado por los demás países de la muestra), obteniendo un valor
estimado de la pérdida del aprendizaje que se espera que sea aproximado
al que tendría en la realidad.
Para realizar dichas estimaciones, se utiliza la función de estimación
del modelo con los coeficientes ya obtenidos, es decir:
\[
\hat{loss} = 0.3331 + 0.00503weeks - 0.00000098gdp + 0.001373internet -
0.0003611hlo + 0.001364vac - 0.02479schooling + 0.006559polity -
\] \[
0.02454regionAfrica - 0.07252regionAmerica - 0.04369regionAsia +
0.03609desarrolloSubdesarrollado
\] VARIABLES CATEGÓRICAS
Las variables categóricas nos ayudan a poder comparar una variable respecto a las demás dentro de unas categorías especificadas, con el fin de evaluar el impacto que pueden tener este tipo de datos sobre la variable dependiente loss.
Para este caso se escogieron las variables region con la categoría Europa y desarrollo con la categoría Desarrollado, tomando como referencia los valores esperados de un país europeo desarrollado para ser comparado con las demás categorías.
Estos coeficientes son los que permiten inferir valores para los estudios hipotéticos que se deseen plantear para el modelo. Por ejemplo, si se escoge analizar un país de América se tiene un coeficiente de -7.252e-02, lo cual indica que por ser un país americano tendrá una pérdida del aprendizaje menor a la del promedio de paises europeos desarrollados (ya que es el grupo fijado como referencia).
Por otra parte, la variable desarrollo permite deducir que un país subdesarrollado comparado con un país desarrollado europeo aumentará su perdida de aprendizaje en 3.609e-02. Aún así, debe recordarse que el modelo no respalda ninguna causalidad directa entre las dos variables cualitativas y loss.
También es posible cambiar el grupo de categorías que se está tomando como referencia, como por ejemplo:
Para este caso se fijó la variable region con la categoría África, y desarrollo con la categoría subdesarrollado.
Se observa que un país de América o un país desarrollado tendrán un menor valor de pérdida del aprendizaje a comparación de dicha selección de referencia.
Ejemplo de aplicación del modelo:
Por ejemplo, es posible estimar el valor de la pérdida del aprendizaje esperado para un país con condiciones como:
Los valores de dichas condiciones son reemplazados en las variables de la función del modelo, obteniendo: \[ \hat{loss} = 0.2443 \] Así, el modelo estima que el valor de la pérdida del aprendizaje para este país ficticio es del 0.2443, un valor ligeramente superior al promedio registrado entre los otros países. Como curiosidad, se observa que también es cercano al loss registrado en Colombia (0.24).