Mi página con fondo degradado y título negro

Acceso a la educación en México

Mariana Eugenia Calzada Ochoa

Alexis Mitzrael García Alfaro

Justificación

El acceso a la educación es un tema muy importante en cualquier sociedad, ya que es una herramienta clave para el desarrollo personal y para el crecimiento económico y social en general. Analizar el acceso a la educación a lo largo del tiempo puede proporcionar información valiosa sobre cómo han evolucionado las políticas públicas que garanticen la educación en México y puede ayudar a identificar las barreras que impiden que las personas accedan a la educación.

El análisis del acceso a la educación también puede ayudar a identificar desigualdades, tanto en términos geográficos como socioeconómicos. Por ejemplo, si el análisis muestra que hay una brecha significativa en el acceso a la educación entre las zonas rurales y urbanas, se podrían tomar medidas para mejorar el alcance y reducir la brecha. Del mismo modo, si el análisis muestra que el acceso a la educación está correlacionado con el nivel socioeconómico, se podrían tomar medidas para reducir las barreras económicas y promover la igualdad de oportunidades educativas.

La aplicación de un modelo ARIMA a una serie de tiempo podría ser útil para entender y predecir las tendencias a lo largo del tiempo y para identificar las causas subyacentes de la deserción escolar en los diferentes contextos históricos. Por ejemplo, los modelos ARIMA podrían ser útiles para identificar patrones estacionales en la deserción escolar en México durante la pandemia, así como para identificar factores que contribuyen a la deserción escolar en este contexto, como la falta de acceso a la tecnología y el apoyo académico y social.

Además, la aplicación de un modelo ARIMA podría ayudar a los responsables políticos a tomar decisiones informadas sobre cómo abordar el acceso a la educación. Por ejemplo, los modelos ARIMA podrían utilizarse para evaluar la eficacia de las intervenciones destinadas a reducir la tasa de deserción escolar, como la provisión de tecnología y apoyo académico y social.

## Warning: package 'readr' was built under R version 4.2.3
## Warning: package 'ggplot2' was built under R version 4.2.3
## Warning: package 'tseries' was built under R version 4.2.3
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
## Warning: package 'forecast' was built under R version 4.2.3

Tabla de datos

tabla
##      Año Población
## 1   1893     73369
## 2   1894    -64726
## 3   1895    174321
## 4   1896     17870
## 5   1897     18514
## 6   1898    -24730
## 7   1899     35439
## 8   1900     20891
## 9   1901    -58532
## 10  1902    -16134
## 11  1903    -13868
## 12  1904      6207
## 13  1905    -36884
## 14  1906     67415
## 15  1907     48254
## 16  1910   -115669
## 17  1921    515818
## 18  1925     25405
## 19  1926    193465
## 20  1927    101634
## 21  1928   -193929
## 22  1929    100963
## 23  1930     71848
## 24  1931     75452
## 25  1932     46888
## 26  1933     12910
## 27  1934      5651
## 28  1935    432220
## 29  1936   -167125
## 30  1937   -188774
## 31  1938    994103
## 32  1939   -554792
## 33  1940   -164598
## 34  1941   1015785
## 35  1942   -892717
## 36  1943    905551
## 37  1944     21638
## 38  1945   -103004
## 39  1946   -744848
## 40  1947    489989
## 41  1948    460251
## 42  1949    174342
## 43  1950    135631
## 44  1951    155590
## 45  1952    192305
## 46  1953    300381
## 47  1954    236160
## 48  1955    152954
## 49  1956    278888
## 50  1957    258430
## 51  1958    408231
## 52  1959    573766
## 53  1960    521458
## 54  1961    402276
## 55  1962    514500
## 56  1963    459757
## 57  1964    512190
## 58  1965    546896
## 59  1966    582786
## 60  1967    361516
## 61  1968    475916
## 62  1969   1220040
## 63  1970    717888
## 64  1971    694131
## 65  1972    718585
## 66  1973    853784
## 67  1974    957330
## 68  1975    964043
## 69  1976    982473
## 70  1977   1452163
## 71  1978   1265295
## 72  1979   1320364
## 73  1980   1208446
## 74  1981   1009507
## 75  1982    772439
## 76  1983    300808
## 77  1984    497670
## 78  1985    182932
## 79  1986      7918
## 80  1987      2976
## 81  1988   -237303
## 82  1989   -118354
## 83  1990    117080
## 84  1991    165020
## 85  1992    420521
## 86  1993    557529
## 87  1994    563533
## 88  1995    499701
## 89  1996    678874
## 90  1997    523819
## 91  1998    598167
## 92  1999    404965
## 93  2000    494583
## 94  2001    802312
## 95  2002    332524
## 96  2003    437528
## 97  2004    624264
## 98  2005    644197
## 99  2006    490860
## 100 2007    161871
## 101 2008    366947
## 102 2009    347486
## 103 2010    567752
## 104 2011    359569
## 105 2012    501535
## 106 2013    361199
## 107 2014    290157
## 108 2015     72245
## 109 2016     20197
## 110 2017   -127623
## 111 2018   -442881
## 112 2019   -534169
## 113 2020         0

Descripción de datos

Gráfica y análisis

ggplot(tabla, aes(x = Año , y = Población)) +
  geom_line()

## 
##  Augmented Dickey-Fuller Test
## 
## data:  serie1
## Dickey-Fuller = -1.7982, Lag order = 4, p-value = 0.6604
## alternative hypothesis: stationary
## [1] "falta"
## [1] 1
## [1] "diferencia para ser estacionaria"
## 
## Call:
## arima(x = serie1)
## 
## Coefficients:
##       intercept
##       308923.81
## s.e.   39371.02
## 
## sigma^2 estimated as 1.752e+11:  log likelihood = -1623.07,  aic = 3250.13

el valor p obtenido es 0.6604, que es mayor que el nivel de significancia de 0.05. Por lo tanto, no se rechaza la hipótesis nula y se concluye que la serie temporal no es estacionaria.

acf(serie)

pacf(serie)

Según los resultados obtenidos en la ACF, la serie de tiempo muestra valores significativos en los primeros tres rezagos (lag 1, 2 y 3) que luego disminuyen gradualmente. Específicamente, la correlación entre la serie en el tiempo actual y el valor inmediatamente anterior es alta, indicada por un valor máximo de 1 en el primer rezago. Los valores siguientes de la ACF son menores pero aún significativos en los primeros tres rezagos (0.495, 0.553, 0.570), lo que sugiere cierta dependencia de la serie de los valores anteriores. Sin embargo, la disminución gradual de los valores de la ACF después del tercer rezago indica que la correlación entre los valores de la serie y los valores rezagados es cada vez menor a medida que los rezagos aumentan. En consecuencia, se sugiere que la serie de tiempo no tiene una dependencia fuerte en los valores anteriores más allá de los primeros tres rezagos.

Los resultados en la PACF, se observa que la PACF muestra valores significativos en los primeros dos rezagos (lag 1 y 2) y luego disminuyen gradualmente. Específicamente, después de eliminar la influencia de los valores rezagados intermedios, la serie en el tiempo actual presenta una correlación fuerte con el valor inmediatamente anterior, como lo sugiere el valor máximo de 0.495 en el primer rezago. Además, se observa una correlación significativa con el valor dos períodos anteriores después de haber eliminado la influencia de los valores rezagados intermedios, como lo indica el segundo valor significativo de la PACF de 0.408 en el segundo rezago.A medida que aumentan los rezagos, se observa una disminución en los valores de la PACF, lo que indica que la correlación se vuelve más débil. Los valores siguientes de la PACF son menores y no son significativos, lo que sugiere que la correlación se vuelve aún más débil a medida que los rezagos aumentan.

En general, estos resultados indican que la serie de tiempo tiene una correlación significativa con los valores anteriores en los primeros dos rezagos, pero la correlación disminuye a medida que se aumenta el rezago.

serie2 <- diff(serie1)
auto.arima(serie2)
## Series: serie2 
## ARIMA(0,0,2) with zero mean 
## 
## Coefficients:
##           ma1     ma2
##       -0.8759  0.3992
## s.e.   0.0919  0.1014
## 
## sigma^2 = 9.974e+10:  log likelihood = -1576.58
## AIC=3159.16   AICc=3159.39   BIC=3167.32

Selección del modelo con AIC

resultados <- data.frame(p = integer(),
                         d = integer(),
                         q = integer(),
                         AIC = numeric())

for (p in 0:1) {
  for (d in 0:1) {
    for (q in 0:2) {
      if (d == 0 & q == 0) {
        next
      }
      modelo <- arima(serie2, order = c(p, d, q))
      AIC <- AIC(modelo)
      resultados <- rbind(resultados, data.frame(p = p, d = d, q = q, AIC = AIC))
    }
  }
}

# Imprimir la tabla de los 5 mejores modelos según AIC
top5 <- resultados[order(resultados$AIC),][1:5,]
print(top5)
##    p d q      AIC
## 10 1 1 2 3145.596
## 5  0 1 2 3150.199
## 9  1 1 1 3158.181
## 2  0 0 2 3161.118
## 7  1 0 2 3162.748
# Determinar si cada coeficiente del mejor modelo es significativo
a <- 2
mejorModelo <- arima(serie2, order = c(top5$p[a], top5$d[a], top5$q[a]))
summary(mejorModelo)
## 
## Call:
## arima(x = serie2, order = c(top5$p[a], top5$d[a], top5$q[a]))
## 
## Coefficients:
##           ma1     ma2
##       -1.6336  0.6377
## s.e.   0.0750  0.0663
## 
## sigma^2 estimated as 1.109e+11:  log likelihood = -1572.1,  aic = 3150.2
## 
## Training set error measures:
##                     ME     RMSE      MAE      MPE     MAPE      MASE      ACF1
## Training set -15307.72 331502.8 215281.5 147.4379 295.9811 0.5213683 -0.169128
#Intervals de conffianza
confint(mejorModelo, level=0.95)
##         2.5 %     97.5 %
## ma1 -1.780543 -1.4867327
## ma2  0.507708  0.7676384
mejorModelo
## 
## Call:
## arima(x = serie2, order = c(top5$p[a], top5$d[a], top5$q[a]))
## 
## Coefficients:
##           ma1     ma2
##       -1.6336  0.6377
## s.e.   0.0750  0.0663
## 
## sigma^2 estimated as 1.109e+11:  log likelihood = -1572.1,  aic = 3150.2

Para evaluar la significancia estadística de cada coeficiente, se pueden observar los valores de los estadísticos t y compararlos con los valores críticos de la distribución t con un nivel de significancia determinado.

En este caso, los valores de los estadísticos t son -21.780 para el coeficiente de ma1 y 9.622 para el coeficiente de ma2. Ambos valores son muy grandes en términos absolutos, lo que sugiere que los coeficientes son significativamente diferentes de cero. Además, los intervalos de confianza del 95% para los coeficientes no incluyen el valor cero, lo que también sugiere que son significativos.

En resumen, se puede concluir que ambos coeficientes son significativos.

Tenemos la ecuacion:

\(Yt*(1-R) = c+ Wt - 1.6336Wt-1 + 0.6377Wt-2\)

Los intervalos de confianza en un intervalo de confianza de 2.5% y 97.5% son:

Lo que significa que los valores se encuentran dentro del intervalo de confianza, se espera que el verdadero valor del parámetro “ma1” esté en ese intervalo con una probabilidad del 95%. De manera similar, el intervalo de confianza del ma% para “ma2” .

Selección del modelo con “auto.arima”

# Paso (a)
X <- auto.arima(serie2)
# Convertimos la serie a una serie de tiempo en R
ts_serie <- ts(serie2)

# Ajustamos un modelo ARIMA automático
modelo_arima <- auto.arima(ts_serie)
# Imprimimos el modelo ajustado
summary(modelo_arima)
## Series: ts_serie 
## ARIMA(0,0,2) with zero mean 
## 
## Coefficients:
##           ma1     ma2
##       -0.8759  0.3992
## s.e.   0.0919  0.1014
## 
## sigma^2 = 9.974e+10:  log likelihood = -1576.58
## AIC=3159.16   AICc=3159.39   BIC=3167.32
## 
## Training set error measures:
##                     ME     RMSE      MAE      MPE     MAPE      MASE     ACF1
## Training set -6431.273 312985.6 220087.8 96.15445 372.8799 0.5330082 0.015938
# Evaluamos la significancia de los coeficientes
p_values <- coef(summary(modelo_arima)) # extraemos los p-values

if (any(p_values[2:length(p_values)] < 0.05)) {
  # Si alguno de los coeficientes es significativo
  # Imprimimos el modelo con los coeficientes significativos
  modelo_arima_signif <- update(modelo_arima, 
                                include = paste(which(p_values[2:length(p_values)] < 0.05) + 1, collapse = ","))
  summary(modelo_arima_signif)
} else {
  # Si ninguno de los coeficientes es significativo
  print("Los coeficientes son significativos")
}
## [1] "Los coeficientes son significativos"
#Intervalos de confianza
confint(modelo_arima, level=0.95)
##          2.5 %     97.5 %
## ma1 -1.0560886 -0.6957616
## ma2  0.2003695  0.5979496
modelo_arima
## Series: ts_serie 
## ARIMA(0,0,2) with zero mean 
## 
## Coefficients:
##           ma1     ma2
##       -0.8759  0.3992
## s.e.   0.0919  0.1014
## 
## sigma^2 = 9.974e+10:  log likelihood = -1576.58
## AIC=3159.16   AICc=3159.39   BIC=3167.32

El intervalo de confianza para el coeficiente ma1 es (-1.0560886, -0.6957616) y el intervalo de confianza para el coeficiente ma2 es (0.2003695, 0.5979496). Dado que ninguno de estos intervalos incluye el valor cero, podemos concluir que ambos coeficientes son significativamente diferentes de cero.

Esto significa que son importantes para explicar la variabilidad en la serie temporal y deben ser incluidos en el modelo.

La ecuacion escrita por el modelo es:

\(Yt= Wt - 0.8759Wt-1 + 0.4757Wt-2\)

Los intervalos de confianza son:

Los intervalos de confianza en un intervalo de confianza de 2.5% y 97.5% son:

lo que significa que se espera que el verdadero valor del parámetro “ma1” esté en ese intervalo con una probabilidad del 95%. De manera similar, el intervalo de confianza del 95% para “ma2”.

#Parte 3

ajuste <- modelo_arima
 # Graficar los residuos del modelo 
 plot(resid(ajuste)) 

 # Realizar un histograma de los residuos del modelo 
 hist(resid(ajuste), freq = FALSE) 

 # Inspeccionar visualmente si los residuos tienen una distribución normal 
 x <- resid(ajuste) 
 intervalo <- seq(min(x), max(x), length = 300) 
 distnormal <- dnorm(intervalo, mean = mean(x), sd = sd(x)) 
 hist(x, freq = FALSE) 
 lines(intervalo, distnormal, col = "red") 

 # Graficar la función de autocorrelación de los residuos del modelo 
 acf(resid(ajuste)) 

 # Realizar una prueba de Ljung-Box para revisar si los residuos del modelo son ruido blanco 
 Box.test(resid(ajuste), lag = 20, type = "Ljung-Box") 
## 
##  Box-Ljung test
## 
## data:  resid(ajuste)
## X-squared = 11.221, df = 20, p-value = 0.9403

Dado que el valor p obtenido en tu prueba es 0.9403 y es mayor que el nivel de significancia típico de 0.05, no se rechaza la hipótesis nula. Por lo tanto, en este caso, no se encontró evidencia suficiente para afirmar que exista autocorrelación en los residuos del modelo. Significa que el modelo es adecuado para los datos y que los residuos no tienen patrones sistemáticos y se distribuyen aleatoriamente alrededor de cero. Esto es importante porque los residuos son la diferencia entre los valores observados y los valores predichos por el modelo.

#Parte 4

# Realizar el pronóstico con la función forecast()
pronostico <- forecast(ajuste, h = 10)
# Graficar el pronóstico
plot(pronostico)

# Calcular las raíces del modelo con la función autoplot()
autoplot(ajuste)

El pronostico indica que la tendencia de los estudiantes que asisten a la escuela sea estacionaria

Todas las raíces del modelo están dentro del círculo unitario, entonces el modelo es estacionario y se puede invertir.

Interpretación de los coeficientes

Coeficiente -0.8759: Este coeficiente sugiere que un incremento en la cantidad de estudiantes que asisten a la escuela en el período anterior (Wt-1) se relaciona con una disminución del 87.59% en la cantidad de estudiantes que asisten a la escuela en el período actual (Wt), manteniendo constantes los demás factores relevantes. Esto podría interpretarse como que, en promedio, un aumento en el número de estudiantes que asisten a la escuela en el período anterior tiende a estar asociado con una disminución sustancial en el número de estudiantes que asisten a la escuela en el período actual. Una posible explicación podría ser que factores como el desempleo, la migración u otras circunstancias socioeconómicas influyen en esta relación negativa.

Coeficiente 0.4757: Este coeficiente sugiere que un incremento en la cantidad de estudiantes que asistieron a la escuela dos períodos atrás (Wt-2) se relaciona con un aumento del 47.57% en la cantidad de estudiantes que asisten a la escuela en el período actual (Wt), manteniendo constantes los demás factores relevantes. Esto podría interpretarse como que un aumento en el número de estudiantes que asistieron a la escuela hace dos períodos se relaciona con un incremento en el número de estudiantes que asisten a la escuela en el período actual. Esto podría indicar la existencia de una dinámica de largo plazo en la cual el número de estudiantes que asistieron a la escuela en el pasado influye positivamente en la cantidad actual de estudiantes.

Conclusiones

La importancia de profundizar en los datos para generar un proceso ARIMA radica en que este método permite modelar una serie de tiempo que ha sido diferenciada para eliminar los factores de no estacionalidad, es decir, las variaciones sistemáticas que dependen del tiempo.

El comportamiento del acceso a la educación en México ha tenido un crecimiento significativo desde finales del siglo XIX hasta la actualidad. Según la historia de la educación en México, se pueden distinguir varias etapas en las que se implementaron reformas educativas con el fin de ampliar la cobertura, mejorar la calidad y promover la equidad educativa.

Los factores que pueden influir en el crecimiento del acceso a la educación en México a lo largo de su historia son múltiples y complejos, pero se pueden agrupar en cuatro categorías: políticos, económicos, sociales y culturales. Algunos ejemplos de estos factores son:

Las afectaciones cuando no ha crecido el acceso a la educación en México son también variadas y graves, pues impactan negativamente en el desarrollo humano, social y económico del país. Algunas de estas afectaciones son:

Áreas de oportunidad y sugerencias

Conocer los índices de nivel de acceso a la educación en el país se convierte en una herramienta esencial para entender la situación actual y diseñar políticas públicas efectivas que promuevan una educación inclusiva y de calidad. Por lo que consideramos importante que nuestras áreas de oportunidad para determinar los patrones sociales y dar soluciones en beneficios dar a conocer dichos índices y generar oportunidades en las políticas públicas mexicanas.

En nuestro caso fue importante y como sugerencia a las personas que quieran hacer un analisis de tiempo en materia de educación y en general en estadisticas sociales, es que, por ejemplo nosotros tuvimos problema con la interpretación de los datos subjetivos como los siguientes:

1.- Medición de los índices de nivel de acceso a la educación:

2.- Identificación de brechas y desigualdades:

3.- Diseño de políticas públicas inclusivas:

4.- Evaluación del impacto de las políticas educativas:

Conocer realmente los índices y sus interpretaciones pueden brindar un mejor de nivel de acceso a la educación en México. Permite identificar brechas y desigualdades, diseñar políticas públicas inclusivas, y evaluar el impacto de las estrategias educativas implementadas. Al ver esto como un área de oportunidad en las políticas públicas, México puede tomar medidas concretas para cerrar las brechas existentes y garantizar un acceso equitativo a la educación para todos los ciudadanos.

Así que el estudio de una serie de tiempo debe de realizarse de manera que entiendas los datos a profundidad desde un principio para poder dar mejores interpretaciones de cada una de las variables analizadas.

Referencias: