Introducción y descripción de variables

El COVID-19 generó un gran caos en el sistema educativo a nivel mundial. Un análisis detallado de la pérdida de aprendizaje registrada desde que comenzaron los cierres de escuelas en marzo de 2020 hasta marzo de 2022 revela que hay pruebas claras de esta pérdida. La mayoría de los estudios encontraron que aumentó la desigualdad, ya que ciertos grupos de estudiantes sufrieron más pérdidas de aprendizaje que otros. Sin embargo, también hay países que lograron minimizar esta pérdida.

En este trabajo vamos a estudiar la pérdida Disminución de las puntuaciones de las pruebas debido al cierre de escuelas por COVID en desviaciones estándar 2021; donde revisaremos las variables que la afectan y que tanto influyen estas en ella, es decir, cuales son significativas y cuáles no.

Reducción en el rendimiento académico de los estudiantes en diversas pruebas y evaluaciones, que se ha observado como resultado del cierre de escuelas durante la pandemia de COVID-19.

Nuestra variable depenndiente se estudiará junto a una variable independiente cualitativa y otras cinco variables independientes cuantitativas a través de un modelo de regresión lineal. Este trabajo se hace con propósitos académicos en la Universidad del Valle, los datos utilizados en este trabajo son extraidos de una base de datos situada en una pagina web que se nos proporciono por el maestro, de esta misma provienen las variables, que se estudiaron con la implementacion de estadistica descriptiva. Todo a travesde la aplicación RStudio.

Con el fin de conocer el impacto de las variables independientes sobre la variable dependiente, usaremos un modelo de regresión lineal para aproximar la relación de dependencia entre la variable V3 (Pérdida Disminución de las puntuaciones de las pruebas debido al cierre de escuelas por COVID en desviaciones estándar 2021), con las demás variables independientes.

Nombre de las varibles:

  • Loss: Decline in test scores due to COVID school closures in standard deviations 2021 Disminución de las puntuaciones de las pruebas debido al cierre de escuelas por COVID en desviaciones estándar 2021

  • Region_code: Region code Codigo de region

  • Weeks: Weeks schools closed on average 2021 Semanas de escuelas cerradas en promedio 2021

  • Pop: Population Poblacion

  • Stringency: Stingency of lockdowns index, average 2021 Índice de rigor de los confinamientos, promedio 2021

  • Deaths: Death rate due to COVID, average 2021 Tasa de mortalidad por COVID, promedio 2021

  • Schooling: years of schooling Años de escolaridad

Disminución de las puntuaciones de las pruebas debido al cierre de escuelas por COVID en desviaciones estándar 2021

Metodologia

La metodología empleada en este informe consiste en la aplicación de lo visto en clase de Gestión de Datos curso de la Universidad del Valle, la aplicación de un análisis de regresión lineal múltiple con el propósito de analizar la relación entre una variable dependiente y variables independientes escogidas por nosotros.

El análisis de regresión lineal múltiple es una técnica estadística que ayuda a entender cómo varias variables independientes influyen en una variable dependiente. Se utiliza para predecir valores, controlar variables adicionales, identificar factores significativos y validar hipótesis en diversos campos como la economía, la medicina o la sociología. Es una herramienta clave para comprender las relaciones complejas entre variables en conjuntos de datos con múltiples influencias.

Resultados del modelo

Disperción y correlación de las variables

##  [1] "country"     "loss"        "weeks"       "deaths"      "gdp"        
##  [6] "private"     "internet"    "hlo"         "vac"         "stringency" 
## [11] "union"       "polity"      "loggdp"      "logweeks"    "weeks2"     
## [16] "pop"         "schooling"   "wbcode"      "region_code" "hlo25"      
## [21] "oecd"        "covid"       "high"        "covid25"
## 
## Call:
## lm(formula = loss ~ weeks + pop + as.numeric(deaths) + stringency + 
##     as.numeric(gdp) + as.numeric(private) + internet + as.numeric(hlo) + 
##     vac + as.numeric(union) + polity + loggdp + logweeks + weeks2 + 
##     as.numeric(schooling) + as.numeric(hlo25) + as.numeric(covid) + 
##     as.numeric(covid25), data = BASEDEDATOS)
## 
## Coefficients:
##           (Intercept)                  weeks                    pop  
##             6.888e-02              1.033e-03              4.638e-11  
##    as.numeric(deaths)             stringency        as.numeric(gdp)  
##             6.927e-07             -2.655e-08             -7.440e-10  
##   as.numeric(private)               internet        as.numeric(hlo)  
##            -1.320e-08              7.193e-04              9.316e-06  
##                   vac      as.numeric(union)                 polity  
##             1.628e-08              1.569e-04             -8.897e-04  
##                loggdp               logweeks                 weeks2  
##             3.105e-10              1.266e-09             -1.121e-05  
## as.numeric(schooling)      as.numeric(hlo25)      as.numeric(covid)  
##             1.766e-03             -4.226e-09             -9.596e-06  
##   as.numeric(covid25)  
##            -6.685e-08
## 
## Call:
## lm(formula = loss ~ weeks + pop + as.numeric(deaths) + stringency + 
##     as.numeric(gdp) + as.numeric(private) + internet + as.numeric(hlo) + 
##     vac + as.numeric(union) + polity + loggdp + logweeks + weeks2 + 
##     as.numeric(schooling) + as.numeric(hlo25) + as.numeric(covid) + 
##     as.numeric(covid25), data = BASEDEDATOS)
## 
## Residuals:
##       Min        1Q    Median        3Q       Max 
## -0.092607 -0.009261  0.002407  0.008474  0.065002 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            6.888e-02  9.900e-02   0.696    0.495    
## weeks                  1.033e-03  2.906e-03   0.355    0.726    
## pop                    4.638e-11  4.419e-11   1.049    0.306    
## as.numeric(deaths)     6.927e-07  8.108e-05   0.009    0.993    
## stringency            -2.655e-08  1.139e-07  -0.233    0.818    
## as.numeric(gdp)       -7.440e-10  5.790e-08  -0.013    0.990    
## as.numeric(private)   -1.320e-08  2.951e-08  -0.447    0.659    
## internet               7.193e-04  6.722e-04   1.070    0.297    
## as.numeric(hlo)        9.316e-06  6.171e-07  15.096 2.14e-12 ***
## vac                    1.628e-08  1.002e-07   0.162    0.873    
## as.numeric(union)      1.569e-04  5.993e-04   0.262    0.796    
## polity                -8.897e-04  1.991e-03  -0.447    0.660    
## loggdp                 3.105e-10  3.036e-09   0.102    0.920    
## logweeks               1.266e-09  1.133e-08   0.112    0.912    
## weeks2                -1.121e-05  3.028e-05  -0.370    0.715    
## as.numeric(schooling)  1.766e-03  6.767e-03   0.261    0.797    
## as.numeric(hlo25)     -4.226e-09  1.496e-07  -0.028    0.978    
## as.numeric(covid)     -9.596e-06  6.331e-07 -15.157 1.99e-12 ***
## as.numeric(covid25)   -6.685e-08  1.736e-07  -0.385    0.704    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.03596 on 20 degrees of freedom
##   (2 observations deleted due to missingness)
## Multiple R-squared:  0.9717, Adjusted R-squared:  0.9462 
## F-statistic: 38.14 on 18 and 20 DF,  p-value: 1.173e-11
## 
## Call:
## lm(formula = as.numeric(loss) ~ weeks + pop + as.numeric(deaths) + 
##     stringency, data = base2)
## 
## Coefficients:
##        (Intercept)               weeks                 pop  as.numeric(deaths)  
##          1.016e-01           5.983e-03          -3.331e-11           4.423e-05  
##         stringency  
##         -2.664e-08
## 
## Call:
## lm(formula = as.numeric(loss) ~ weeks + pop + as.numeric(deaths) + 
##     stringency, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.19369 -0.10486  0.00749  0.06723  0.45779 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         1.016e-01  4.309e-02   2.359   0.0239 *  
## weeks               5.983e-03  1.271e-03   4.706 3.68e-05 ***
## pop                -3.331e-11  7.600e-11  -0.438   0.6638    
## as.numeric(deaths)  4.423e-05  1.673e-04   0.264   0.7930    
## stringency         -2.664e-08  1.154e-07  -0.231   0.8187    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.128 on 36 degrees of freedom
## Multiple R-squared:  0.4201, Adjusted R-squared:  0.3557 
## F-statistic:  6.52 on 4 and 36 DF,  p-value: 0.0004707

Los datos arrojados por el modelo numero 1 nos indica que para la variable dependiente ¨loss¨ la unica variable que es significativa es ¨weeks¨

## 
## Call:
## lm(formula = loss ~ weeks, data = base2)
## 
## Coefficients:
## (Intercept)        weeks  
##     0.10963      0.00564
## 
## Call:
## lm(formula = loss ~ weeks, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.18959 -0.11243  0.00397  0.06961  0.46477 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.109626   0.029486   3.718  0.00063 ***
## weeks       0.005640   0.001073   5.256 5.56e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1235 on 39 degrees of freedom
## Multiple R-squared:  0.4147, Adjusted R-squared:  0.3997 
## F-statistic: 27.63 on 1 and 39 DF,  p-value: 5.559e-06

## 
##  Pearson's product-moment correlation
## 
## data:  as.numeric(loss) and weeks
## t = 5.2565, df = 39, p-value = 5.559e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4193986 0.7942567
## sample estimates:
##       cor 
## 0.6439601

El cor.test nos arroja que si existe una correlacion en estas dos variables y que la correlacion que existe entre estas es alta debido a que el cofieciente es de 0.6439601

## 
## Call:
## lm(formula = loss ~ weeks, data = base2)
## 
## Coefficients:
## (Intercept)        weeks  
##     0.10963      0.00564
## 
## Call:
## lm(formula = loss ~ weeks, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -0.18959 -0.11243  0.00397  0.06961  0.46477 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 0.109626   0.029486   3.718  0.00063 ***
## weeks       0.005640   0.001073   5.256 5.56e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.1235 on 39 degrees of freedom
## Multiple R-squared:  0.4147, Adjusted R-squared:  0.3997 
## F-statistic: 27.63 on 1 and 39 DF,  p-value: 5.559e-06
## (Intercept)       weeks 
## 0.109626430 0.005640043

\(0.109626430+0.005640043\times(valor de weeks)\) esta es la ecuacion para predecir el valor de perdida de las pruebas en funcion de las semanas perdidas con una efectividad del \(41\%\).

Supuestos

Los supuestos en un modelo de regresión lineal son condiciones que se deben cumplir para que los resultados del modelo sean válidos y confiables. Estos supuestos son fundamentales porque garantizan la precisión y la interpretación adecuada de los resultados del análisis de regresión. A continuación se explican los supuestos a verificar en este trabajo y se verifican simultáneamente.

Linealidad

El supuesto de linealidad asume que la relación entre las variables independientes y la variable dependiente (Loss Decline in test scores due to COVID school closures in standard deviations 2021) es lineal. Es decir, los cambios en la variable dependiente están directamente relacionados con los cambios proporcionales en las variables independientes. Para ello analizamos la gráfica de dispersión del modelo, de los valores residuales y los valores ajustados.

## 
##  Pearson's product-moment correlation
## 
## data:  as.numeric(loss) and weeks
## t = 5.2565, df = 39, p-value = 5.559e-06
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.4193986 0.7942567
## sample estimates:
##       cor 
## 0.6439601

Podemos observar que segun nuestra prueba de hipotesis si exste una relacion lineal, ya que nuestro p-value es menor a 0.05, es decir, rechazamos la hipotesis nula y concluimos que hay una relacion lineal y nuestro coeficiente es 0.64, el cual indica una correlacion directa alta, a medida que aumentan las semanas en las que las escuelas fueron cerradas por covid aumenta la disminucion de puntuaciones en las pruebas por el covid.

Normalidad

Este supuesto establece que los valores residuales deben seguir una distribución normal. Se busca que estos residuos se distribuyan normalmente alrededor de cero, si los residuos no siguen una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo1$residuals
## W = 0.91119, p-value = 0.003607

Hipótesis a probar:

H0: Hay normalidad.

H1: No hay normalidad.

Se rechaza H0 cuando:

Valor−p < Alpha

0.003607 < 0.05

Varianza constante

Este supuesto implica que la dispersión de los errores debe ser constante a lo largo de la línea de regresión.Es importante evaluar la homocedasticidad de un modelo de regresión lineal porque si los errores tienen una varianza diferente para diferentes valores de las variables independientes, el modelo puede traer errores en las predicciones o en los coeficientes de regresión.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 6.1019, df = 4, p-value = 0.1917

Para evaluar este supuesto usamos la función de RStudio bptest, con el fin de obtener el valor p y compararlo con el nivel de significancia.

Hipótesis a probar:

H0: Hay varianza constante.

H1: No hay Hay varianza constante.

Se rechaza H0 cuando:

Valor−p<Alpha

0.1917> 0.05

Independencia

El supuesto de linealidad implica que la relación entre la variable dependiente y las variables independientes es lineal. Este supuesto se cumple automáticamente en los modelos de regresión lineal si los datos se han recopilado mediante un muestreo aleatorio y no hay factores que influyen en la correlación entre las observaciones. En este caso el supuesto se cumple ya que las variables se obtienen de una muestra aleatoria.

Conclusion

Para finalizar, la única variable significativa de las escogidas para encontrar un por qué hubo una disminución de las puntuaciones de las pruebas debido al cierre de las escuelas por covid es la cantidad de semanas en las que estas escuelas estuvieron cerradas, según el modelo la cantidad de muertes por covid, el rigor de los confinamientos, años de escolaridad, y la población de cada país encuestado no fueron realmente significativos para tenerlos en cuenta.

Bibliografía