Contexto

En Chile uno de cada diez estudiantes no termina sus estudios secundarios.

La educación es uno de los principales elementos que determinan el potencial desarrollo y crecimiento socioeconómico de un país y su población. De esta manera, es sumamente importante la calidad de la educación que se imparte en el ámbito superior (universidades, técnicos, etc.) pero sobretodo a nivel básico y medio (colegios y liceos) ya que estos últimos dos, de acuerdo a la Ley General de Educación de 2009, son obligatorios.

Es importante resaltar que en Chile hay una gran desigualdad socioeconómica que se ve reflejada en el sistema educativo de Chile, donde los colegios particulares tienen mejor calidad de educación y mejores resultados que los colegios municipales subvencionados y estos mejor que los municipales. Esta es una de las razones por la que el Estado considera la deserción escolar como un problema que se debe resolver, porque tiene efecto negativo tanto para el individuo como para la sociedad, indican que “Fomentar la continuidad de las trayectorias escolares es un desafío vinculado con la justicia social y la equidad de las oportunidades educativas” (División de educación general, Ministerio de Educación, 2020). De ahí la finalidad de nuestro trabajo, por medio de mezclas de base de datos, gráficos y regresiones responderemos a la siguiente pregunta ¿Cuáles son los factores que hacen que los estudiantes tiendan a abandonar sus estudios escolares en Chile (educación básica y media)?

Es relevante responder esta pregunta porque el Estado, específicamente el Ministerio de Educación, ofrece un programa de entrega de recursos pedagógicos a diferentes familias y con una correcta detección de los factores que afectan a los estudiantes (socioeconómico, familiar u otro), y/o el tipo de estudiante, que tendería a abandonar sus estudios se podría gestionar una distribución más eficiente, con un fín específico y anticipado (antes del punto de inflexión) dirigido a quienes más lo necesiten y así predecir esta deserción para poder abordarla de la mejor manera.

Pregunta a elegir

Para resolver la pregunta, ¿cuáles son los factores que hacen que los estudiantes tiendan a abandonar sus estudios escolares en Chile (educación básica y media)? nuestro objetivo es lograr construir un modelo de predicción correcto para la deserción escolar mediante la detección de los factores que hacen que los estudiantes tiendan a abandonar sus estudios escolares en Chile tanto en la educación básica, como en media.

Base de datos

Utilizamos dos bases de datos del Ministerio de Educación “Matrículas” y “Rendimiento escolar”, ambas de todos los establecimientos educacionales del Chile del año 2019. No todos los establecimientos presentan su información completa al Ministerio de Educación, por lo cual, hay variables incompletas que inciden en los resultados y estimaciones de este proyecto. Además, en relación al tipo de educación, solo serán consideradas la “Educación Básica”, “Enseñanza Media” y “Educación Especial”, dejando de lado la la Corporación de Administración Delegada y el Servicio Local de Educación, debido a que el número de estudiantes asistentes a este tipo de enseñanza era una categoría muy poco significativa para el total de la muestra.

Cargamos los paquetes a utilizar

library(data.table)
library(ggplot2)
library(readstata13)
library(dplyr)
library(treemap)
library(caret)
library(jtools)

Cargamos las bases a utilizar

matricula2019<-fread("matricula2019.csv")
rendimiento2019<-fread("rendimiento2019.csv")

Limpieza y órden de base de datos del Ministerio de Educación

Eliminamos la educación parvularia y adulta, debido a que nuestro segmento de estudio son estudiantes escolares niños/jóvenes que desertan.

matricula2019<-matricula2019[!(matricula2019$COD_ENSE2=="1"|matricula2019$COD_ENSE2=="3"|matricula2019$COD_ENSE2=="6"|matricula2019$COD_ENSE2=="8")]
rendimiento2019<-rendimiento2019[!(rendimiento2019$COD_ENSE2=="1"|rendimiento2019$COD_ENSE2=="3"|rendimiento2019$COD_ENSE2=="6"|rendimiento2019$COD_ENSE2=="8")]

Eliminamos establecimientos con 0 matrículas durante el año (la mayoría se debe a no presentar registros debido a que no tienen una equivalencia de los grados que cursan con el tipo de enseñanza que reportan, por lo que MINEDUC los marca como missings)

matricula2019<-matricula2019[!is.na(MAT_HOM_TOT | MAT_MUJ_TOT)]

Nombrarmos los grados de enseñanza a estudiar.

matricula2019[COD_ENSE2=="2",enseñanza:="Básica Niños"]
matricula2019[COD_ENSE2=="4",enseñanza:="Educación Especial"]
matricula2019[COD_ENSE2=="5",enseñanza:="Enseñanza Media Humanístico Científica Jóvenes."]
matricula2019[COD_ENSE2=="7",enseñanza:="Enseñanza Media Técnico Profesional y Artística, Jóvenes"]

Nombramos las regiones según su código de región.

matricula2019[COD_REG_RBD=="1",region:="Tarapacá"]
matricula2019[COD_REG_RBD=="2",region:="Antofagasta"]
matricula2019[COD_REG_RBD=="3",region:="Atacama"]
matricula2019[COD_REG_RBD=="4",region:="Coquimbo"]
matricula2019[COD_REG_RBD=="5",region:="Valparaíso"]
matricula2019[COD_REG_RBD=="6",region:="O'Higgins"]
matricula2019[COD_REG_RBD=="7",region:="Maule"]
matricula2019[COD_REG_RBD=="8",region:="Biobío"]
matricula2019[COD_REG_RBD=="9",region:="Araucanía"]
matricula2019[COD_REG_RBD=="10",region:="Los Lagos"]
matricula2019[COD_REG_RBD=="11",region:="Carlos Ibañez del Campo"]
matricula2019[COD_REG_RBD=="12",region:="Magallanes y Antártica Chilena"]
matricula2019[COD_REG_RBD=="13",region:="Metropolitana de Santiago"]
matricula2019[COD_REG_RBD=="14",region:="Los Ríos"]
matricula2019[COD_REG_RBD=="15",region:="Arica y Parinacota"]
matricula2019[COD_REG_RBD=="16",region:="Ñuble"]

A continuación, hicimos un merge entre las bases de datos de matrículas y rendimiento por establecimiento del año 2019.

base<-merge(x=matricula2019,y=rendimiento2019,by="RBD")

Dejamos sólo los establecimientos cuya dependencia sea municipal, particular subvencionado y particular pagado. La base de datos contenía además establecimientos educacionales de la Corporación de Administración Delegada y el Servicio Local de Educación, pero el número de estudiantes de ese tipo de establecimiento era muy poco significativo con la muestra total, por lo cual fueron excluídos.

base<-base[!(COD_DEPE2.x=="4"|COD_DEPE2.x=="5")]

Se agregaron los nombre a cada código de dependencia

base[COD_DEPE2.x=="1", dependencia:="Municipal"]
base[COD_DEPE2.x=="2", dependencia:="Particular Subvencionado"]
base[COD_DEPE2.x=="3", dependencia:="Particular Pagado"]

Se creó la variable “Enseñanza” que junta la enseñanza media artística y científica.

base[COD_ENSE2.x=="7",enseñanza:="Enseñanza Media"]
base[COD_ENSE2.x=="5",enseñanza:="Enseñanza Media"]

Finalmente, limpiamos la base merge. Eliminamos las variables que no utilizamos para el modelo de estimación de la deserción escolar (ej: número de cursos por establecimiento, porcentaje de asistencia y variables repetidas a consecuencia del merge)

base<-base[,-53:-64]
base<-base[,-58:-65]
base<-base[,-70:-73]
base<-base[,-72:-85]
base<-base[,-43:-48]
base<-base[,-166:-174]

Crear variables a utilizar

Le cambiamos a 0 todos los NA’s que aparezcan en los cursos duales de cada establecimeinto, ya que no todos los establecimientos imparten esta modalidad de educación. Lo anterior con el objetivo de poder sumarlos al número de matrículas totales.

base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]
base<-base[is.na(MAT_CUR_DUAL_TOT),MAT_CUR_DUAL_TOT:=0]
base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]

Sumamos el número de traslados y retiros totales. Los traslados cuentan a aquellos estudiantes que se cambiaron de curso dentro del mismo establecimiento o que se cambiaron a otro durante el año. Mientras que los retiros, son aquellos estudiantes que dejaron de asistir a clases sin notificar un cambio de curso o establecimiento. El número de retiro será nuestra variable de deserción dadas las características de esta variable.

base[,traslados_total:=TRA_HOM_TO+TRA_MUJ_TO+TRA_SI_TO]
base[,retiros_total:=RET_HOM_TO+RET_MUJ_TO]

Se sumaron el total de aprobados y reprobados según sexo y quienes no tenían registro de esta categoría.

base[,aprobados_total:=APR_HOM_TO+APR_MUJ_TO+APR_SI_TO]
base[,reprobados_total:=REP_HOM_TO+REP_MUJ_TO+REP_SI_TO]

Creación de nuevas bases de datos simplificadas:

Para así evitar la duplicidad de información proveniente de los establecimientos educacionales.

El bjetivo principal es eliminar establecimientos duplicados que se presentan en la base original dado los diferentes tipos de enseñanza, cursos, etc. Creamos un número identificador (“id”) para cada establecimiento según su tipo de enseñanza (básica, media o especial), además de crear una tabla (“tabla1”) que contuviera solamente los totales de aprobación, reprobación, matrícula, retiros y traslados, junto con su respectivos nombres, tipos de enseñanza, región y dependencia. Las nuevas bases resultantes se llaman “base2” y “EU”.

tabla1<-base[,.(RBD,NOM_RBD.x,COD_ENSE2.x,aprobados_total, reprobados_total, matricula_total,retiros_total,traslados_total,enseñanza,region,dependencia,NOM_COM_RBD.x)]
tabla1[,id:=paste0(NOM_RBD.x,COD_ENSE2.x)]

El objeto “base2” se clasifica por tipo de enseñanza en cada establecimiento y fue el resultado de múltiples merges de tablas con las totalidad de las sumas de las variables a estudiar según el “id”.

tabla2<-tabla1[,sum(aprobados_total), by=(id)]
tabla3<-tabla1[,sum(reprobados_total), by=(id)]
tabla4<-tabla1[,sum(matricula_total), by=(id)]
tabla5<-tabla1[,sum(traslados_total), by=(id)]
tabla6<-tabla1[,sum(retiros_total), by=(id)]

Agregamos las variables de tipo categóricas a cada establecimiento, eliminando las filas duplicadas que surgían y nombramos las restantes.

tabla7<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(id)]
tabla7<-tabla7[!duplicated(id)]

names(tabla2)[2]<-"aprobados_total"
names(tabla3)[2]<-"reprobados_total"
names(tabla4)[2]<-"matriculas_total"
names(tabla5)[2]<-"traslados_total"
names(tabla6)[2]<-"retiros_total"

Tras una serie de merges entre los objetos creados previamente obtuvimos como resultado final la base “base2”.

base2<-merge(tabla2,tabla3,by="id")
base2<-merge(base2,tabla4,by="id")
base2<-merge(base2,tabla5,by="id")
base2<-merge(base2,tabla6,by="id")
base2<-merge(base2,tabla7,by="id")

Por otro lado, se siguió la misma idea con la creación de la base EU, la cual se clasifica por establecimiento y no por tipo de enseñanza según establecimiento como la “base2”. Es decir, se repiten algunas establecimientos pero los divide por tipo de enseñaza media, básica o especial.

tablaA<-tabla1[,sum(aprobados_total), by=(NOM_RBD.x)]
tablaB<-tabla1[,sum(reprobados_total), by=(NOM_RBD.x)]
tablaC<-tabla1[,sum(matricula_total), by=(NOM_RBD.x)]
tablaD<-tabla1[,sum(traslados_total), by=(NOM_RBD.x)]
tablaE<-tabla1[,sum(retiros_total), by=(NOM_RBD.x)]
tablaF<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(NOM_RBD.x)]
tablaF<-tablaF[!duplicated(NOM_RBD.x)]

names(tablaA)[2]<-"aprobados_total"
names(tablaB)[2]<-"reprobados_total"
names(tablaC)[2]<-"matriculas_total"
names(tablaD)[2]<-"traslados_total"
names(tablaE)[2]<-"retiros_total"

EU<-merge(tablaA,tablaB,by="NOM_RBD.x")
EU<-merge(EU,tablaC,by="NOM_RBD.x")
EU<-merge(EU,tablaD,by="NOM_RBD.x")
EU<-merge(EU,tablaE,by="NOM_RBD.x")
EU<-merge(EU,tablaF,by="NOM_RBD.x")

Estadística descriptiva

Gráfico 1: Tipo de enseñanza por región.

ggplot(data=base2, aes(x=region, fill=enseñanza)) + geom_bar(position = "stack") + labs(x="Región", y="Número de Establecimientos", title="Distribución de Establecimientos Educacionales por Región" , subtitle = "Por tipo de enseñanza", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 7,angle = 85,vjust = 0.5))

En este gráfico de barras podemos observar que el tipo de enseñanza que se imparte en mayor proporción dentro del país es “Educación Básica” y “Enseñanza Media” es segundo lugar, mientras que la “Educación Especial” es el tipo de enseñanza que menos se imparte en todas las regiones. También vemos que en la Región Metropolitana de Santiago se concentra la mayor cantidad de establecimientos, lo que podría tener relación con que es la región con mayor número de habitantes seguidas por Valparaíso, la Araucanía y Bío-Bío.

Gráfico 2: Tipos de establecimientos por región.

ggplot(data=EU,aes(x=dependencia, fill=dependencia)) + geom_bar(position="dodge") + facet_wrap(~region) + labs(x="Región", y="Número de Establecimientos", title="Distribución de Tipos de Establecimientos Educacionales por Región" , subtitle = "Por tipo de dependencia", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 5.5,angle = 75,vjust = 0.5))

Este gráfico muestra el tipo de establecimiento educacional por región. Podemos notar que en la gran mayoría de las regiones los establecimientos de tipo Municipal son los que más abundan, seguidos por los Particulares Subvencionados y en mucho menor proporción los establecimientos Particulares Pagados.

Gráfico 3: Proporción de establecimientos de el país.

Creamos un id para cada establecimiento para que sean representados en el gráfico circular.

estab<-base[,sum(RBD),by="dependencia"]
estab[dependencia=="Municipal", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Subvencionado", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Pagado", prom:=round(V1/257657998,2)]

ggplot(estab,aes(x="",y=prom,fill=dependencia))+geom_bar(stat="identity",color="black")+geom_text(aes(label=prom),position=position_stack(vjust=0.55),color="black",size=5)+coord_polar(theta = "y")+theme_void()+labs(title="Proporción de Establecimientos en Chile", subtitle="Por tipo de Establecimiento")+scale_fill_discrete(name="Tipo de Establecimiento")

En este gráfico se observa claramente que los establecimientos educacionales particular subvencionados predominan en el país con un 62%, mientras que los municipales equivalen a un 28% y los particulares pagados conforman un 11% del total de establecimientos en Chile.

Gráfico 4: Relación entre el número de reprobados y retirados.

base2[,num:=row.names(base2)]
base2$num<-as.numeric(base2$num)
muestra2<-sample(x=1:nrow(base2), size = 1*nrow(base2))

ggplot(data=base2[num %in% muestra2 & retiros_total<=200], aes(x=reprobados_total,y=retiros_total)) +
  geom_point() + geom_smooth(method="lm", se=FALSE, color="darkgreen") + labs(x="Número de Reprobados", y="Número de Retirados", title="Relación entre Número de Estudiantes Reprobados y Retirados", subtitle="Por Establecimiento Educacional",caption = "Fuente: Ministerio de Educación, Matrículas y Rendimiento por Unidad Educacional 2019") 

Se creó scatter-plot mediante una muestra más pequeña para visualizar la cantidad de retiros por local en relación al número de reprobados. Este gráfico se hace a partir de la “base2” que corrigue un poco las repeticiones de establecimientos. Con un modelo lineal aplicado sobre el gráfico de puntos se puede ver una tendencia positiva entre ambas variables, es decr, a mayor número de repobrados mayor el número de estudiantes retirados.

Gráfico 4: Número de estudiantes retirados por región.

treemap(EU,index="region", vSize ="retiros_total", type="value", title="Retiros Totales por Región")

# En los gráficos anteriores se pudo observar que la Región Metropolitana de Santiago es la que más Establecimientos Educacionales concentra dado la mayor densidad poblacional que tiene. Por esta razón, es la región que mayor número de deserciones escolares tiene en todo el país

Tal como vimos en el primer gráfico la región Metropolitana, Santiago, es aquella que concentra el mayor número de establecimientos y a su vez de deserciones (tal como muestra este gráfico). Pese a la información que nos entregan los gráficos, aún no podemos confirmar que la concentración de deserciones sea proporcional al número de establecimientos, por lo que a continuación estudiaremos por medio de modelos multivariables de regresiones y predicciones otras variables que pueden explicar la decisión de dejar los estudios básicos y/o medios.

4) Estrategia de Resolución

Crearemos regresiones con el objetivo de explicar la deserción en escolares mediante un modelo multivariable de predicción dentro de la muestra. En primer lugar utilizamos la base original “base” para realizar este modelo.

Regresión 1

reg1<-lm(data=base,formula=retiros_total~matricula_total+reprobados_total+aprobados_total)
summary(reg1)
## 
## Call:
## lm(formula = retiros_total ~ matricula_total + reprobados_total + 
##     aprobados_total, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.498  -1.835  -1.124   0.698  69.826 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.278e+00  4.414e-02  28.952   <2e-16 ***
## matricula_total  -9.586e-05  1.515e-04  -0.633    0.527    
## reprobados_total  2.364e-01  3.259e-03  72.546   <2e-16 ***
## aprobados_total   2.371e-03  1.693e-04  14.001   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.533 on 22611 degrees of freedom
## Multiple R-squared:  0.2724, Adjusted R-squared:  0.2723 
## F-statistic:  2821 on 3 and 22611 DF,  p-value: < 2.2e-16

Esta regresión nos muestra que el número de matrículas totales por establecimiento no es significativo para la estimación de la deserción, mientras que el número de aprobados y reprobados si lo es.

Regresión 2

reg2<-lm(data=base,formula=retiros_total~region+reprobados_total+aprobados_total+dependencia+enseñanza)
summary(reg2)
## 
## Call:
## lm(formula = retiros_total ~ region + reprobados_total + aprobados_total + 
##     dependencia + enseñanza, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.441  -1.936  -0.772   0.882  69.339 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                           3.9838547  0.1975712  20.164  < 2e-16 ***
## regionAraucanía                      -2.9651438  0.2179293 -13.606  < 2e-16 ***
## regionArica y Parinacota             -0.6142626  0.3252133  -1.889  0.05893 .  
## regionAtacama                        -2.3119875  0.3339162  -6.924 4.51e-12 ***
## regionBiobío                         -2.9411953  0.2149325 -13.684  < 2e-16 ***
## regionCarlos Ibañez del Campo        -3.6521157  0.3484297 -10.482  < 2e-16 ***
## regionCoquimbo                       -2.8562717  0.2290134 -12.472  < 2e-16 ***
## regionLos Lagos                      -3.0400377  0.2184058 -13.919  < 2e-16 ***
## regionLos Ríos                       -2.8017079  0.2421515 -11.570  < 2e-16 ***
## regionMagallanes y Antártica Chilena -2.8935997  0.3805928  -7.603 3.01e-14 ***
## regionMaule                          -3.1662238  0.2178785 -14.532  < 2e-16 ***
## regionMetropolitana de Santiago      -0.8078772  0.1974946  -4.091 4.32e-05 ***
## regionÑuble                          -3.3544420  0.2351556 -14.265  < 2e-16 ***
## regionO'Higgins                      -2.7258315  0.2291862 -11.894  < 2e-16 ***
## regionTarapacá                       -0.5116707  0.2603051  -1.966  0.04935 *  
## regionValparaíso                     -2.3658209  0.2089808 -11.321  < 2e-16 ***
## reprobados_total                      0.2259910  0.0032541  69.448  < 2e-16 ***
## aprobados_total                       0.0021971  0.0001412  15.558  < 2e-16 ***
## dependenciaParticular Pagado         -1.3489702  0.1167962 -11.550  < 2e-16 ***
## dependenciaParticular Subvencionado  -1.5760047  0.0643131 -24.505  < 2e-16 ***
## enseñanzaEducación Especial           0.5893870  0.1900973   3.100  0.00193 ** 
## enseñanzaEnseñanza Media              0.6810005  0.0597060  11.406  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.367 on 22593 degrees of freedom
## Multiple R-squared:  0.3251, Adjusted R-squared:  0.3245 
## F-statistic: 518.3 on 21 and 22593 DF,  p-value: < 2.2e-16

Al incorporar las variables de región, tipo de dependencia y enseñanza, nos resulta esta regresión que cuenta con un alto nivel de significancia en todas sus variables significativas (sin considerar matrículas totales).

A continuación, creamos regresiones con el objetivo de explicar la deserción en escolares mediante un modelo multivariable a partir de las bases simplificadas (“Base2” y “EU”).

Regresión 3

reg3<-lm(data=base2,formula=retiros_total~matriculas_total+reprobados_total+aprobados_total)
summary(reg3)
## 
## Call:
## lm(formula = retiros_total ~ matriculas_total + reprobados_total + 
##     aprobados_total, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -107.703   -2.941   -1.029    0.815  184.567 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.9080049  0.1181963   7.682  1.7e-14 ***
## matriculas_total -0.0001917  0.0002136  -0.898    0.369    
## reprobados_total  0.2975131  0.0046916  63.414  < 2e-16 ***
## aprobados_total   0.0043801  0.0002763  15.855  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.472 on 10898 degrees of freedom
## Multiple R-squared:  0.4784, Adjusted R-squared:  0.4782 
## F-statistic:  3332 on 3 and 10898 DF,  p-value: < 2.2e-16

Con esta regresión hecha a partir de la “base2” nuevamente el número de matrículas totales es poco significante para la predicción por lo que descartamos por completo esta variable para nuestro modelo de predicción de deserción escolar.

Regresión 4

reg4<-lm(data=EU,formula=retiros_total~matriculas_total+region+reprobados_total+aprobados_total)
summary(reg4)
## 
## Call:
## lm(formula = retiros_total ~ matriculas_total + region + reprobados_total + 
##     aprobados_total, data = EU)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -177.462   -3.964   -0.681    0.506  304.617 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                            9.510807   1.269473   7.492 7.54e-14 ***
## matriculas_total                       0.015245   0.001604   9.507  < 2e-16 ***
## regionAraucanía                       -9.671859   1.372399  -7.047 1.98e-12 ***
## regionArica y Parinacota              -3.660245   2.045097  -1.790 0.073531 .  
## regionAtacama                         -8.455537   2.123017  -3.983 6.87e-05 ***
## regionBiobío                          -9.188474   1.381963  -6.649 3.16e-11 ***
## regionCarlos Ibañez del Campo        -10.806965   2.292911  -4.713 2.48e-06 ***
## regionCoquimbo                       -10.029181   1.433991  -6.994 2.90e-12 ***
## regionLos Lagos                       -9.356170   1.382021  -6.770 1.38e-11 ***
## regionLos Ríos                        -8.567614   1.502321  -5.703 1.22e-08 ***
## regionMagallanes y Antártica Chilena  -9.682628   2.383595  -4.062 4.91e-05 ***
## regionMaule                           -9.358683   1.406560  -6.654 3.06e-11 ***
## regionMetropolitana de Santiago       -4.814527   1.305376  -3.688 0.000227 ***
## regionÑuble                           -8.916030   1.526813  -5.840 5.44e-09 ***
## regionO'Higgins                       -8.893941   1.444157  -6.159 7.71e-10 ***
## regionTarapacá                        -0.921785   1.843878  -0.500 0.617148    
## regionValparaíso                      -8.100917   1.373397  -5.898 3.82e-09 ***
## reprobados_total                       0.273670   0.005958  45.936  < 2e-16 ***
## aprobados_total                       -0.011414   0.001601  -7.130 1.10e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.42 on 7691 degrees of freedom
## Multiple R-squared:  0.5416, Adjusted R-squared:  0.5406 
## F-statistic: 504.9 on 18 and 7691 DF,  p-value: < 2.2e-16

Al incorporar las variables de tipo de dependencia, enseñanza y región a un modelo realizado desde la base “EU” podemos observar que la región de Arica y Tarapacá dejan de ser significativas, mientras que el resto se mantiene muy significativo. Sin embargo, el R cuadrado aumenta mucho en comparación a las regresiones anteriores.

Predicciones y Errores de cada Regresión

# Regresión 1
pred1<-predict(reg1)
predicciones1<-data.table(RMSE=RMSE(pred1,base$retiros_total),MAE=MAE(pred1,base$retiros_total))
predicciones1
##        RMSE      MAE
## 1: 4.532436 2.658371
# Regresión 2
pred2<-predict(reg2) #Es la que menor RMSE y MAE me da. Mejor modelo y en base original
predicciones2<-data.table(RMSE=RMSE(pred2,base$retiros_total),MAE=MAE(pred2,base$retiros_total))
predicciones2
##        RMSE      MAE
## 1: 4.365083 2.561198
# Regresión 3
pred3<-predict(reg3)
predicciones3<-data.table(RMSE=RMSE(pred3,base2$retiros_total),MAE=MAE(pred3,base2$retiros_total))
predicciones3
##        RMSE      MAE
## 1: 9.470586 4.849853
# Regresión 4
pred4<-predict(reg4)
predicciones4<-data.table(RMSE=RMSE(pred4,EU$retiros_total),MAE=MAE(pred4,EU$retiros_total))
predicciones4
##        RMSE      MAE
## 1: 15.40517 6.777708

Podemos observar que al estimar los errores de cada regresión creadas anteriormente, la regresión con menor error RMSE y MAE es la regresión 2. Con estas predicciones nos podemos dar cuenta que la simplificación de la base original que dio origen a “base2” y “EU”, tienen muchos sesgos que no permiten una predicción correcta lo cual genera que el error predicho de estas regresiones sea mayor a los modelos provenientes de la base original. Por esta razón, utilizaremos la regresión 2 que mediante las variables de aprobación, reprobación, tipo de enseñanza, tipo de dependencia y región, genera estimaciones con menores errores (RMSE=4.365083 y MAE=2.561198).

Por otro lado, probareos los modelos fuera de la muestra. Utilizaremos el método de validación cruzada con k-folds:

Predicción 1: Con variables aprobados, reprobados y región.

set.seed(12345)
setupKCV <- trainControl(method = "cv" , number = 5)

predkfolds1<-train(retiros_total~aprobados_total+reprobados_total+region,data=base,method="lm",trControl= setupKCV)

print(predkfolds1)
## Linear Regression 
## 
## 22615 samples
##     3 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18092, 18092, 18092, 18093, 18091 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.441967  0.3034833  2.581638
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Predicción 2: Varibales aprobados, reprobados, región, tipo de enseñanza y dependencia.

predkfolds2<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base,method="lm",trControl= setupKCV)
print(predkfolds2)
## Linear Regression 
## 
## 22615 samples
##     5 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18091, 18092, 18092, 18092, 18093 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.367631  0.3243331  2.563851
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Predicción 3: Variables aprobados, reprobados, región y tipo de enseñanza.

predkfolds3<-train(retiros_total~aprobados_total+reprobados_total+enseñanza, data=base, method="lm", trControl=setupKCV)
print(predkfolds3)
## Linear Regression 
## 
## 22615 samples
##     3 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18092, 18092, 18093, 18091, 18092 
## Resampling results:
## 
##   RMSE     Rsquared   MAE     
##   4.51833  0.2777484  2.627838
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

De estas tres predicciones, la predicción 2 es la que tiene menor error (RMSE= 4.367631 y MAE= 2.563851) similar al modelo realizado dentro de la muestra, la cual contiene las variables de aprobación, reprobación, región, tipo de enseñanza y dependencia.

Finalmente, quisimos realizar también la prueba de estimación mediante el método de validación cruzada “Leave One Out” para asegurarnos de encontrar el mejor modelo de predicción:

Predicción 4 (LOOCV): Utilizamos las mismas variables que usamos en los mejores modelos de predicción anteriormente hechos.

setupLOO <- trainControl(method = "LOOCV")

predLOO<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base[1:4000],method="lm",trControl= setupLOO)

print(predLOO)
## Linear Regression 
## 
## 4000 samples
##    5 predictor
## 
## No pre-processing
## Resampling: Leave-One-Out Cross-Validation 
## Summary of sample sizes: 3999, 3999, 3999, 3999, 3999, 3999, ... 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.345072  0.3517314  2.481942
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Con este modelo de validación cruzada se pudo reducir el error de estimación un poco más en comparación a los otros (RMSE= 4.345072 y MAE= 2.481942).

Conclusión

En resumen, los modelos multivariables que obtuvimos en la investigación son los siguiente:

  • Estimación dentro de la muestra con regresión: RMSE=4.365083 y MAE=2.561198
  • Estimación fuera de la muestra con VC k-folds: RMSE= 4.367631 y MAE= 2.563851
  • Estimación fuera de la muestra con VC “LOO”: RMSE= 4.345072 y MAE= 2.481942

Consideramos que el mejor modelo para estimar la deserción será aquel obtenido con la validación cruzada “LOO” , debido a que es el que tiene errores de predicción más pequeños. Por lo tanto, los factores (variables) que más influyen en la cantidad de estudiantes que desertan por establecimiento educacional son: números de aprobados y reprobados, la región, el tipo de enseñanza (media, básica o especial) y el tipo de dependencia (municipal, particular pagado o particular subvencionado).

Tal como dijimos en la introducción, al identificar y predecir cuáles son los factores que inciden en la decisión de dejar la enseñanza Básica y/o Media se pueden tomar medidas preventivas, más eficientes, de apoyo a los estudiantes y a sus familias, donde el enfoque de este no sea únicamente por ingresos económicos o tipo de establecimiento (Municipal, Particular Subvencionado y Particular Pagado).

Por otro lado, sabemos que la situación económica de muchas familias se vio profundamente afectada por las consecuencias de la pandemia, lo que podría tener efectos en una mayor tasa de deserción escolar en el año 2020 que en otros años (debido a problemas económicos). Esto se puede respaldar en distintos informes presentados por el Ministerio de Educación, donde se destaca la preocupación del probable aumento de deserciones de niños y jóvenes, pues se proyecta que a raíz de la pandemia una de las consecuencias que generará será la disminución de las matrículas para el año 2021 y aumento de la cantidad de estudiantes repitentes; y tal como analizamos, estas son variables influyentes directamente en el aumento de la deserción escolar. Es por esto que el modelo de estimación en este proyecto, tendrá a su vez utilidad futura para estimar cómo la pandemia puede haber aumentado la deserción escolar y variado el grado de incidencia de cada una de las variables utilizadas en el modelo.

Sumado a todo lo anterior, las medidas de protección han impedido realizar cualquier tipo de actividad que reúna a muchas personas, lo cual imposibilita a todos los recintos educacionales impartir clases. Si bien se aplicaron modalidades online para continuar con las clases, es posible que muchos estudiantes hayan dejado sus estudios (desertado) por no recibir la misma calidad de educación, ni ambiente que propicie el aprendizaje o porque no se pudieron adaptar al nuevo sistema. Aún no sabemos con certeza cuáles son los efectos de la pandemia en la escolaridad y habría que esperar a que el Ministerio de Educación publique la nuevas bases de información educacional para observar los resultados, sin embargo, este modelo de predicción podría ayudar a estimar las consecuencias educacionales que dejará esta pandemia.