Proyecto Final

Contexto

En Chile uno de cada diez estudiantes no termina sus estudios secundarios.

La educación es uno de los principales elementos que determinan el potencial desarrollo y crecimiento socioeconómico de un país y su población. De esta manera, es sumamente importante la calidad de la educación que se imparte en el ámbito superior (universidades, técnicos, etc.) pero sobre todo a nivel básico y medio (colegios y liceos) ya que estos últimos dos, de acuerdo a la Ley General de Educación de 2009, son obligatorios.

Es importante resaltar que en Chile hay una gran desigualdad socioeconómica que se ve reflejada en el sistema educativo de Chile, donde los colegios particulares tienen mejor calidad de educación y mejores resultados que los colegios municipales subvencionados y estos mejor que los municipales. Esta es una de las razones por la que el Estado considera la deserción escolar como un problema que se debe resolver, porque tiene efecto negativo tanto para el individuo como para la sociedad, indican que “Fomentar la continuidad de las trayectorias escolares es un desafío vinculado con la justicia social y la equidad de las oportunidades educativas” (División de educación general, Ministerio de Educación, 2020). De ahí la finalidad de nuestro trabajo, por medio de mezclas de base de datos, gráficos y regresiones responderemos a la siguiente pregunta ¿cuáles son los factores que influyen en la cantidad de estudiantes (niños y jóvenes) que desertan por establecimiento educacional en Chile?

Es relevante responder esta pregunta porque el Estado, específicamente el Ministerio de Educación, ofrece un programa de entrega de recursos pedagógicos a diferentes familias y con una correcta detección de los factores que afectan a los estudiantes (socioeconómico, familiar u otro), y/o el tipo de estudiante, que tendería a abandonar sus estudios se podría gestionar una distribución más eficiente, con un fin específico y anticipado (antes del punto de inflexión) dirigido a quienes más lo necesiten y así predecir esta deserción para poder abordarla de la mejor manera.

Pregunta a elegir

Para resolver la pregunta, ¿cuáles son los factores que influyen en la cantidad de estudiantes (niños y jóvenes) que desertan por establecimiento educacional en Chile?, nuestro objetivo es lograr construir un modelo de predicción correcto para la deserción escolar mediante la detección de los factores que hacen que los estudiantes tiendan a abandonar sus estudios escolares en Chile tanto en la educación básica, como en media.

Base de datos

Utilizamos dos bases de datos del Ministerio de Educación “Matrículas” y “Rendimiento escolar”, ambas de todos los establecimientos educacionales del Chile del año 2019. No todos los establecimientos presentan su información completa al Ministerio de Educación, por lo cual, hay variables incompletas que inciden en los resultados y estimaciones de este proyecto. Además, en relación al tipo de educación, solo serán consideradas la “Educación Básica”, “Enseñanza Media” y “Educación Especial”, dejando de lado la Corporación de Administración Delegada y el Servicio Local de Educación, debido a que el número de estudiantes asistentes a este tipo de enseñanza era una categoría muy poco significativa para el total de la muestra.

Cargamos los paquetes a utilizar

library(data.table)
library(ggplot2)
library(readstata13)
library(dplyr)
library(treemap)
library(caret)
library(jtools)

Cargamos las bases a utilizar

matricula2019<-fread("matricula2019.csv")
rendimiento2019<-fread("rendimiento2019.csv")

Limpieza y orden de base de datos del Ministerio de Educación

Eliminamos la educación parvularia y adulta, debido a que nuestro segmento de estudio son estudiantes escolares niños/jóvenes que desertan.

matricula2019<-matricula2019[!(matricula2019$COD_ENSE2=="1"|matricula2019$COD_ENSE2=="3"|matricula2019$COD_ENSE2=="6"|matricula2019$COD_ENSE2=="8")]
rendimiento2019<-rendimiento2019[!(rendimiento2019$COD_ENSE2=="1"|rendimiento2019$COD_ENSE2=="3"|rendimiento2019$COD_ENSE2=="6"|rendimiento2019$COD_ENSE2=="8")]

Eliminamos los establecimientos con 0 matrículas durante el año, la mayoría se debe a no presentar registros debido a que no tienen una equivalencia de los grados que cursan con el tipo de enseñanza que reportan, por lo que MINEDUC los marca como missings.

matricula2019<-matricula2019[!is.na(MAT_HOM_TOT | MAT_MUJ_TOT)]

Nombramos los grados de enseñanza a estudiar.

matricula2019[COD_ENSE2=="2",enseñanza:="Básica Niños"]
matricula2019[COD_ENSE2=="4",enseñanza:="Educación Especial"]
matricula2019[COD_ENSE2=="5",enseñanza:="Enseñanza Media Humanístico Científica Jóvenes."]
matricula2019[COD_ENSE2=="7",enseñanza:="Enseñanza Media Técnico Profesional y Artística, Jóvenes"]

Nombramos las regiones según su código de región.

matricula2019[COD_REG_RBD=="1",region:="Tarapacá"]
matricula2019[COD_REG_RBD=="2",region:="Antofagasta"]
matricula2019[COD_REG_RBD=="3",region:="Atacama"]
matricula2019[COD_REG_RBD=="4",region:="Coquimbo"]
matricula2019[COD_REG_RBD=="5",region:="Valparaíso"]
matricula2019[COD_REG_RBD=="6",region:="O'Higgins"]
matricula2019[COD_REG_RBD=="7",region:="Maule"]
matricula2019[COD_REG_RBD=="8",region:="Biobío"]
matricula2019[COD_REG_RBD=="9",region:="Araucanía"]
matricula2019[COD_REG_RBD=="10",region:="Los Lagos"]
matricula2019[COD_REG_RBD=="11",region:="Carlos Ibañez del Campo"]
matricula2019[COD_REG_RBD=="12",region:="Magallanes y Antártica Chilena"]
matricula2019[COD_REG_RBD=="13",region:="Metropolitana de Santiago"]
matricula2019[COD_REG_RBD=="14",region:="Los Ríos"]
matricula2019[COD_REG_RBD=="15",region:="Arica y Parinacota"]
matricula2019[COD_REG_RBD=="16",region:="Ñuble"]

A continuación, hicimos un merge entre las bases de datos de matrículas y rendimiento por establecimiento del año 2019.

base<-merge(x=matricula2019,y=rendimiento2019,by="RBD")

Dejamos sólo los establecimientos cuya dependencia sea municipal, particular subvencionado y particular pagado. La base de datos contenía además establecimientos educacionales de la Corporación de Administración Delegada y el Servicio Local de Educación, pero el número de estudiantes de ese tipo de establecimiento era muy poco significativo con la muestra total, por lo cual los excluimos.

base<-base[!(COD_DEPE2.x=="4"|COD_DEPE2.x=="5")]

Agregamos los nombres a cada código de dependencia

base[COD_DEPE2.x=="1", dependencia:="Municipal"]
base[COD_DEPE2.x=="2", dependencia:="Particular Subvencionado"]
base[COD_DEPE2.x=="3", dependencia:="Particular Pagado"]

Creamos la variable “Enseñanza” que juntara la enseñanza media artística con la variable enseñanza media científica.

base[COD_ENSE2.x=="7",enseñanza:="Enseñanza Media"]
base[COD_ENSE2.x=="5",enseñanza:="Enseñanza Media"]

Finalmente, limpiamos la base merge. Eliminamos las variables que no utilizamos para el modelo de estimación de la deserción escolar (ej.: número de cursos por establecimiento, porcentaje de asistencia y variables repetidas a consecuencia del merge)

base<-base[,-53:-64]
base<-base[,-58:-65]
base<-base[,-70:-73]
base<-base[,-72:-85]
base<-base[,-43:-48]
base<-base[,-166:-174]

Crear variables a utilizar

Cambiamos a 0 todos los NA’s que estaban en los cursos duales de cada establecimiento, ya que no todos los establecimientos imparten esta modalidad de educación. Lo anterior con el objetivo de poder sumarlos al número de matrículas totales.

base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]
base<-base[is.na(MAT_CUR_DUAL_TOT),MAT_CUR_DUAL_TOT:=0]
base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]

Sumamos el número de traslados y retiros totales. Los traslados cuentan a aquellos estudiantes que se cambiaron de curso dentro del mismo establecimiento o que se cambiaron a otro durante el año, mientras que los retiros son aquellos estudiantes que dejaron de asistir a clases sin notificar un cambio de curso o establecimiento. El número de retiro será nuestra variable de deserción dadas las características de esta variable.

base[,traslados_total:=TRA_HOM_TO+TRA_MUJ_TO+TRA_SI_TO]
base[,retiros_total:=RET_HOM_TO+RET_MUJ_TO]

Juntamos el total de aprobados, total de reprobados según sexo y quienes no tenían registro de esta categoría en la variable aprobados_total. Y lo mismo para los reprobados en la variable reprobados_total.

base[,aprobados_total:=APR_HOM_TO+APR_MUJ_TO+APR_SI_TO]
base[,reprobados_total:=REP_HOM_TO+REP_MUJ_TO+REP_SI_TO]

Creación de nuevas bases de datos simplificadas:

Así evitamos la duplicidad de información proveniente de los establecimientos educacionales.

Nuestro objetivo principal es eliminar establecimientos duplicados que se presentan en la base original dado los diferentes como tipos de enseñanza y cursos. Creamos un número identificador (id) para cada establecimiento según su tipo de enseñanza (básica, media o especial), además de creamos una tabla (tabla1) que contuviera solamente los totales de aprobación, reprobación, matrícula, retiros y traslados, junto con su respectivos nombres, tipos de enseñanza, región y dependencia. Las nuevas bases resultantes se llaman “base2” y “EU”.

tabla1<-base[,.(RBD,NOM_RBD.x,COD_ENSE2.x,aprobados_total, reprobados_total, matricula_total,retiros_total,traslados_total,enseñanza,region,dependencia,NOM_COM_RBD.x)]
tabla1[,id:=paste0(NOM_RBD.x,COD_ENSE2.x)]

El objeto “base2” se clasifica por tipo de enseñanza en cada establecimiento y fue el resultado de múltiples merges de tablas con las totalidades de las sumas de las variables a estudiar según el “id”.

tabla2<-tabla1[,sum(aprobados_total), by=(id)]
tabla3<-tabla1[,sum(reprobados_total), by=(id)]
tabla4<-tabla1[,sum(matricula_total), by=(id)]
tabla5<-tabla1[,sum(traslados_total), by=(id)]
tabla6<-tabla1[,sum(retiros_total), by=(id)]

Agregamos las variables de tipo categóricas a cada establecimiento, eliminamos las filas duplicadas que surgían y nombramos las restantes.

tabla7<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(id)]
tabla7<-tabla7[!duplicated(id)]

names(tabla2)[2]<-"aprobados_total"
names(tabla3)[2]<-"reprobados_total"
names(tabla4)[2]<-"matriculas_total"
names(tabla5)[2]<-"traslados_total"
names(tabla6)[2]<-"retiros_total"

Tras una serie de merges, entre los objetos creados previamente, obtuvimos como resultado final la base “base2”.

base2<-merge(tabla2,tabla3,by="id")
base2<-merge(base2,tabla4,by="id")
base2<-merge(base2,tabla5,by="id")
base2<-merge(base2,tabla6,by="id")
base2<-merge(base2,tabla7,by="id")

Por otro lado, se siguió la misma idea con la creación de la base EU, la cual se clasifica por establecimiento y no por tipo de enseñanza según establecimiento como la “base2”. Es decir, se repiten algunos establecimientos pero los divide por tipo de enseñanza media, básica o especial.

tablaA<-tabla1[,sum(aprobados_total), by=(NOM_RBD.x)]
tablaB<-tabla1[,sum(reprobados_total), by=(NOM_RBD.x)]
tablaC<-tabla1[,sum(matricula_total), by=(NOM_RBD.x)]
tablaD<-tabla1[,sum(traslados_total), by=(NOM_RBD.x)]
tablaE<-tabla1[,sum(retiros_total), by=(NOM_RBD.x)]
tablaF<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(NOM_RBD.x)]
tablaF<-tablaF[!duplicated(NOM_RBD.x)]

names(tablaA)[2]<-"aprobados_total"
names(tablaB)[2]<-"reprobados_total"
names(tablaC)[2]<-"matriculas_total"
names(tablaD)[2]<-"traslados_total"
names(tablaE)[2]<-"retiros_total"

EU<-merge(tablaA,tablaB,by="NOM_RBD.x")
EU<-merge(EU,tablaC,by="NOM_RBD.x")
EU<-merge(EU,tablaD,by="NOM_RBD.x")
EU<-merge(EU,tablaE,by="NOM_RBD.x")
EU<-merge(EU,tablaF,by="NOM_RBD.x")

Estadística descriptiva

El objetivo de la siguiente tabla es visualizar la cantidad de aprobados, reprobados y matrículas por región. A simple vista notamos que la cantidad de aprobados en mayor a la de reprobados, pero no por eso esta última es insignificativa.

base2[,.(Aprobados=sum(aprobados_total),Reprobados=sum(reprobados_total),Matricula=sum(matriculas_total)), by=(region)]

##                             region Aprobados Reprobados Matricula
##  1:                     Valparaíso    580519      15413    602137
##  2:             Arica y Parinacota    100472       2055     95912
##  3:                       Tarapacá    150816       3420    154369
##  4:                          Maule    332661      10059    339162
##  5:                      O'Higgins    256132       7800    267598
##  6:      Metropolitana de Santiago   1990997      54539   2047158
##  7:                       Coquimbo    266372       7283    272358
##  8:                         Biobío    425889      10343    424505
##  9:                          Ñuble    170215       4926    158682
## 10:                    Antofagasta    190946       3155    189900
## 11:                        Atacama     85509       2308     87124
## 12: Magallanes y Antártica Chilena     37592        836     39211
## 13:                      Los Lagos    254402       9708    266511
## 14:                       Los Ríos    104576       2708    102994
## 15:                      Araucanía    284447      10115    298152
## 16:        Carlos Ibañez del Campo     33691       1669     33292

Gráfico 1: Tipo de enseñanza por región.

ggplot(data=base2, aes(x=region, fill=enseñanza)) + geom_bar(position = "stack") + labs(x="Región", y="Número de Establecimientos", title="Distribución de Establecimientos Educacionales" , subtitle = "Por región y tipo de enseñanza", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 7,angle = 85,vjust = 0.5))

En este gráfico de barras podemos observar que el tipo de enseñanza que se imparte en mayor proporción dentro del país es “Educación Básica” y en segundo lugar es “Enseñanza Media”, mientras que la “Educación Especial” es el tipo de enseñanza que menos se imparte en todas las regiones. También vemos que la mayor cantidad de establecimientos se concentran en la Región Metropolitana de Santiago, lo que podría tener relación con que es la región con mayor número de habitantes seguidas por Valparaíso, la Araucanía y BíoBío.

Gráfico 2: Tipos de establecimientos por región.

ggplot(data=EU,aes(x=dependencia, fill=dependencia)) + geom_bar(position="dodge") + facet_wrap(~region) + labs(x="Región", y="Número de Establecimientos", title="Distribución de Tipos de Establecimientos Educacionales por Región" , subtitle = "Por tipo de dependencia", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 5.5,angle = 75,vjust = 0.5))

Este gráfico muestra el tipo de establecimiento educacional por región. Podemos notar que en la gran mayoría de las regiones los establecimientos de tipo Municipal son los que más abundan, seguidos por los Particulares Subvencionados y en mucha menor proporción los establecimientos Particulares Pagados.

Gráfico 3: Proporción de establecimientos del país.

Creamos un id para cada establecimiento para que sean representados en el gráfico circular.

estab<-base[,sum(RBD),by="dependencia"]
estab[dependencia=="Municipal", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Subvencionado", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Pagado", prom:=round(V1/257657998,2)]

ggplot(estab,aes(x="",y=prom,fill=dependencia))+geom_bar(stat="identity",color="black")+geom_text(aes(label=prom),position=position_stack(vjust=0.55),color="black",size=5)+coord_polar(theta = "y")+theme_void()+labs(title="Proporción de Establecimientos en Chile", subtitle="Por tipo de Establecimiento")+scale_fill_discrete(name="Tipo de Establecimiento")

En este gráfico se observa claramente que la cantidad de establecimientos educacionales del tipo particular subvencionados predominan en el país con un 62%, mientras que los municipales equivalen a un 28% y los particulares pagados conforman un 11% del total de establecimientos en Chile.

Gráfico 4: Relación entre el número de reprobados y retirados.

base2[,num:=row.names(base2)]
base2$num<-as.numeric(base2$num)
muestra2<-sample(x=1:nrow(base2), size = 1*nrow(base2))

ggplot(data=base2[num %in% muestra2 & retiros_total<=200], aes(x=reprobados_total,y=retiros_total)) +
  geom_point() + geom_smooth(method="lm", se=FALSE, color="darkgreen") + labs(x="Número de Reprobados", y="Número de Retirados", title="Relación entre Número de Estudiantes Reprobados y Retirados", subtitle="Por Establecimiento Educacional",caption = "Fuente: Ministerio de Educación, Matrículas y Rendimiento por Unidad Educacional 2019")

Se creó scatter-plot mediante una muestra más pequeña para visualizar la cantidad de retiros por establecimientos en relación al número de reprobados. Este gráfico se hace a partir de la “base2” que corrige un poco las repeticiones de establecimientos. Con un modelo lineal aplicado sobre el gráfico de puntos se puede ver una tendencia positiva entre ambas variables, es decir, a mayor número de reprobados mayor el número de estudiantes retirados.

Gráfico 5: Número de estudiantes retirados por región.

treemap(EU,index="region", vSize ="retiros_total", type="value", title="Retiros Totales por Región")

# En los gráficos anteriores se pudo observar que la Región Metropolitana de Santiago es la que más Establecimientos Educacionales concentra, dado que tiene la mayor densidad poblacional. Por esta razón, es la región que mayor número de deserciones escolares tiene en todo el país

Tal como vimos en el primer gráfico la región Metropolitana, Santiago, es aquella que concentra el mayor número de establecimientos y a su vez de deserciones (tal como muestra este gráfico). Pese a la información que nos entregan los gráficos, aún no podemos confirmar que la concentración de deserciones sea únicamente debido a la proporción de número de establecimientos, por lo que a continuación estudiaremos por medio de modelos multivariables de regresiones y predicciones otras variables que puedan explicar la decisión de dejar los estudios básicos y/o medios.

Estrategia de Resolución

Crearemos regresiones con el objetivo de explicar la deserción en escolares mediante un modelo multivariable de predicción dentro de la muestra. En primer lugar utilizamos la base original “base” para realizar este modelo.

Regresión 1

reg1<-lm(data=base,formula=retiros_total~matricula_total+reprobados_total+aprobados_total)
summary(reg1)

## 
## Call:
## lm(formula = retiros_total ~ matricula_total + reprobados_total + 
##     aprobados_total, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -18.498  -1.835  -1.124   0.698  69.826 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       1.278e+00  4.414e-02  28.952   <2e-16 ***
## matricula_total  -9.586e-05  1.515e-04  -0.633    0.527    
## reprobados_total  2.364e-01  3.259e-03  72.546   <2e-16 ***
## aprobados_total   2.371e-03  1.693e-04  14.001   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.533 on 22611 degrees of freedom
## Multiple R-squared:  0.2724, Adjusted R-squared:  0.2723 
## F-statistic:  2821 on 3 and 22611 DF,  p-value: < 2.2e-16

Esta regresión nos muestra que el número de matrículas totales por establecimiento no es significativo para la estimación de la deserción, mientras que el número de aprobados y reprobados si lo es.

Regresión 2

reg2<-lm(data=base,formula=retiros_total~region+reprobados_total+aprobados_total+dependencia+enseñanza)
summary(reg2)

## 
## Call:
## lm(formula = retiros_total ~ region + reprobados_total + aprobados_total + 
##     dependencia + enseñanza, data = base)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -17.441  -1.936  -0.772   0.882  69.339 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                           3.9838547  0.1975712  20.164  < 2e-16 ***
## regionAraucanía                      -2.9651438  0.2179293 -13.606  < 2e-16 ***
## regionArica y Parinacota             -0.6142626  0.3252133  -1.889  0.05893 .  
## regionAtacama                        -2.3119875  0.3339162  -6.924 4.51e-12 ***
## regionBiobío                         -2.9411953  0.2149325 -13.684  < 2e-16 ***
## regionCarlos Ibañez del Campo        -3.6521157  0.3484297 -10.482  < 2e-16 ***
## regionCoquimbo                       -2.8562717  0.2290134 -12.472  < 2e-16 ***
## regionLos Lagos                      -3.0400377  0.2184058 -13.919  < 2e-16 ***
## regionLos Ríos                       -2.8017079  0.2421515 -11.570  < 2e-16 ***
## regionMagallanes y Antártica Chilena -2.8935997  0.3805928  -7.603 3.01e-14 ***
## regionMaule                          -3.1662238  0.2178785 -14.532  < 2e-16 ***
## regionMetropolitana de Santiago      -0.8078772  0.1974946  -4.091 4.32e-05 ***
## regionÑuble                          -3.3544420  0.2351556 -14.265  < 2e-16 ***
## regionO'Higgins                      -2.7258315  0.2291862 -11.894  < 2e-16 ***
## regionTarapacá                       -0.5116707  0.2603051  -1.966  0.04935 *  
## regionValparaíso                     -2.3658209  0.2089808 -11.321  < 2e-16 ***
## reprobados_total                      0.2259910  0.0032541  69.448  < 2e-16 ***
## aprobados_total                       0.0021971  0.0001412  15.558  < 2e-16 ***
## dependenciaParticular Pagado         -1.3489702  0.1167962 -11.550  < 2e-16 ***
## dependenciaParticular Subvencionado  -1.5760047  0.0643131 -24.505  < 2e-16 ***
## enseñanzaEducación Especial           0.5893870  0.1900973   3.100  0.00193 ** 
## enseñanzaEnseñanza Media              0.6810005  0.0597060  11.406  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.367 on 22593 degrees of freedom
## Multiple R-squared:  0.3251, Adjusted R-squared:  0.3245 
## F-statistic: 518.3 on 21 and 22593 DF,  p-value: < 2.2e-16

Al incorporar las variables de región, tipo de dependencia y enseñanza, la regresión resulta con un alto nivel de significancia en todas sus variables (sin considerar matrículas totales).

A continuación, siguiendo con el modelo multivariable, creamos regresiones con el objetivo de explicar la deserción en escolares pero esta vez a partir de las bases simplificadas (“Base2” y “EU”).

Regresión 3

reg3<-lm(data=base2,formula=retiros_total~matriculas_total+reprobados_total+aprobados_total)
summary(reg3)

## 
## Call:
## lm(formula = retiros_total ~ matriculas_total + reprobados_total + 
##     aprobados_total, data = base2)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -107.703   -2.941   -1.029    0.815  184.567 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       0.9080049  0.1181963   7.682  1.7e-14 ***
## matriculas_total -0.0001917  0.0002136  -0.898    0.369    
## reprobados_total  0.2975131  0.0046916  63.414  < 2e-16 ***
## aprobados_total   0.0043801  0.0002763  15.855  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 9.472 on 10898 degrees of freedom
## Multiple R-squared:  0.4784, Adjusted R-squared:  0.4782 
## F-statistic:  3332 on 3 and 10898 DF,  p-value: < 2.2e-16

Con esta regresión hecha a partir de la “base2” nuevamente el número de matrículas totales es poco significante para la predicción por lo que descartamos por completo esta variable para nuestro modelo de predicción de deserción escolar.

Regresión 4

reg4<-lm(data=EU,formula=retiros_total~matriculas_total+region+reprobados_total+aprobados_total)

summary(reg4)

## 
## Call:
## lm(formula = retiros_total ~ matriculas_total + region + reprobados_total + 
##     aprobados_total, data = EU)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -177.462   -3.964   -0.681    0.506  304.617 
## 
## Coefficients:
##                                        Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                            9.510807   1.269473   7.492 7.54e-14 ***
## matriculas_total                       0.015245   0.001604   9.507  < 2e-16 ***
## regionAraucanía                       -9.671859   1.372399  -7.047 1.98e-12 ***
## regionArica y Parinacota              -3.660245   2.045097  -1.790 0.073531 .  
## regionAtacama                         -8.455537   2.123017  -3.983 6.87e-05 ***
## regionBiobío                          -9.188474   1.381963  -6.649 3.16e-11 ***
## regionCarlos Ibañez del Campo        -10.806965   2.292911  -4.713 2.48e-06 ***
## regionCoquimbo                       -10.029181   1.433991  -6.994 2.90e-12 ***
## regionLos Lagos                       -9.356170   1.382021  -6.770 1.38e-11 ***
## regionLos Ríos                        -8.567614   1.502321  -5.703 1.22e-08 ***
## regionMagallanes y Antártica Chilena  -9.682628   2.383595  -4.062 4.91e-05 ***
## regionMaule                           -9.358683   1.406560  -6.654 3.06e-11 ***
## regionMetropolitana de Santiago       -4.814527   1.305376  -3.688 0.000227 ***
## regionÑuble                           -8.916030   1.526813  -5.840 5.44e-09 ***
## regionO'Higgins                       -8.893941   1.444157  -6.159 7.71e-10 ***
## regionTarapacá                        -0.921785   1.843878  -0.500 0.617148    
## regionValparaíso                      -8.100917   1.373397  -5.898 3.82e-09 ***
## reprobados_total                       0.273670   0.005958  45.936  < 2e-16 ***
## aprobados_total                       -0.011414   0.001601  -7.130 1.10e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.42 on 7691 degrees of freedom
## Multiple R-squared:  0.5416, Adjusted R-squared:  0.5406 
## F-statistic: 504.9 on 18 and 7691 DF,  p-value: < 2.2e-16

Al incorporar las variables de tipo de dependencia, enseñanza y región a un modelo realizado desde la base “EU” podemos observar que la región de Arica y Tarapacá dejan de ser significativas, mientras que el resto se mantiene muy significativo. Sin embargo, el R cuadrado aumenta mucho en comparación a las regresiones anteriores.

reg5<-lm(data=EU,formula=retiros_total~enseñanza+traslados_total+reprobados_total+aprobados_total)

summary(reg5)

## 
## Call:
## lm(formula = retiros_total ~ enseñanza + traslados_total + reprobados_total + 
##     aprobados_total, data = EU)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -188.452   -2.559   -0.467    0.527  200.007 
## 
## Coefficients:
##                              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                 1.224e-01  1.831e-01   0.668    0.504    
## enseñanzaEducación Especial 2.160e+01  2.443e+00   8.841   <2e-16 ***
## enseñanzaEnseñanza Media    1.240e+01  6.960e-01  17.823   <2e-16 ***
## traslados_total             9.193e-02  1.927e-03  47.698   <2e-16 ***
## reprobados_total            1.847e-01  5.220e-03  35.384   <2e-16 ***
## aprobados_total             1.693e-03  1.977e-04   8.562   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 13.5 on 7704 degrees of freedom
## Multiple R-squared:  0.648,  Adjusted R-squared:  0.6478 
## F-statistic:  2837 on 5 and 7704 DF,  p-value: < 2.2e-16

En esta última regresión seguimos usando la base “EU”, no consideramos la variable región y matriculas_totales e incorporamos las variables: enseñanza y traslados_total. Podemos observar que todas son significativas. En este caso el R cuadrado ajustado es el más alto en comparación a las otras regresiones.

Predicciones y Errores de cada Regresión

# Regresión 1
pred1<-predict(reg1)
predicciones1<-data.table(RMSE=RMSE(pred1,base$retiros_total),MAE=MAE(pred1,base$retiros_total))
predicciones1

##        RMSE      MAE
## 1: 4.532436 2.658371

# Regresión 2
pred2<-predict(reg2) #Es la que menor RMSE y MAE me da. Mejor modelo y en base original
predicciones2<-data.table(RMSE=RMSE(pred2,base$retiros_total),MAE=MAE(pred2,base$retiros_total))
predicciones2

##        RMSE      MAE
## 1: 4.365083 2.561198

# Regresión 3
pred3<-predict(reg3)
predicciones3<-data.table(RMSE=RMSE(pred3,base2$retiros_total),MAE=MAE(pred3,base2$retiros_total))
predicciones3

##        RMSE      MAE
## 1: 9.470586 4.849853

# Regresión 4
pred4<-predict(reg4)
predicciones4<-data.table(RMSE=RMSE(pred4,EU$retiros_total),MAE=MAE(pred4,EU$retiros_total))
predicciones4

##        RMSE      MAE
## 1: 15.40517 6.777708

# Regresión 5
pred5<-predict(reg5)
predicciones5<-data.table(RMSE=RMSE(pred5,EU$retiros_total),MAE=MAE(pred5,EU$retiros_total))
predicciones5

##        RMSE      MAE
## 1: 13.49908 5.755624

Podemos observar que al estimar los errores de las regresión creadas anteriormente, la regresión con menor error RMSE y MAE es la regresión 2. Con estas predicciones nos podemos dar cuenta que la simplificación de la base original que dio origen a “base2” y “EU”, tienen muchos sesgos que no permiten una predicción correcta lo cual genera que el error predicho de estas regresiones sea mayor a los modelos provenientes de la base original. Por esta razón, utilizaremos la regresión 2 que mediante las variables de aprobación, reprobación, tipo de enseñanza, tipo de dependencia y región, generar estimaciones con menores errores (RMSE=4.365083 y MAE=2.561198).

Por otro lado, probaremos los modelos fuera de la muestra. Utilizaremos el método de validación cruzada con k-folds:

Predicción 1: Con variables aprobados, reprobados y región.

set.seed(12345)
setupKCV <- trainControl(method = "cv" , number = 5)

predkfolds1<-train(retiros_total~aprobados_total+reprobados_total+region,data=base,method="lm",trControl= setupKCV)

print(predkfolds1)

## Linear Regression 
## 
## 22615 samples
##     3 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18092, 18092, 18092, 18093, 18091 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.441967  0.3034833  2.581638
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Predicción 2: Varibales aprobados, reprobados, región, tipo de enseñanza y dependencia.

predkfolds2<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base,method="lm",trControl= setupKCV)
print(predkfolds2)

## Linear Regression 
## 
## 22615 samples
##     5 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18091, 18092, 18092, 18092, 18093 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.367631  0.3243331  2.563851
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Predicción 3: Variables aprobados, reprobados, región y tipo de enseñanza.

predkfolds3<-train(retiros_total~aprobados_total+reprobados_total+enseñanza, data=base, method="lm", trControl=setupKCV)
print(predkfolds3)

## Linear Regression 
## 
## 22615 samples
##     3 predictor
## 
## No pre-processing
## Resampling: Cross-Validated (5 fold) 
## Summary of sample sizes: 18092, 18092, 18093, 18091, 18092 
## Resampling results:
## 
##   RMSE     Rsquared   MAE     
##   4.51833  0.2777484  2.627838
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

De las tres predicciones, la predicción 2 es la que tiene menor error (RMSE= 4.367631 y MAE= 2.563851) similar al modelo realizado dentro de la muestra, la que contiene las variables de aprobación, reprobación, región, tipo de enseñanza y dependencia.

Finalmente, para asegurarnos de encontrar el mejor modelo de predicción quisimos realizar la prueba de estimación mediante el método de validación cruzada “Leave One Out”:

Predicción 4 (LOOCV): Utilizamos las mismas variables que usamos en los mejores modelos de predicción anteriormente hechos (aprobados_total, reprobados_total, region, enseñanza y dependencia).

setupLOO <- trainControl(method = "LOOCV")

predLOO<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base[1:4000],method="lm",trControl= setupLOO)

print(predLOO)

## Linear Regression 
## 
## 4000 samples
##    5 predictor
## 
## No pre-processing
## Resampling: Leave-One-Out Cross-Validation 
## Summary of sample sizes: 3999, 3999, 3999, 3999, 3999, 3999, ... 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.345072  0.3517314  2.481942
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Predicción 5 (LOOCV): Utilizamos las variables aprobados_total, reprobados_total y enseñanza.

setupLOO2 <- trainControl(method = "LOOCV")

predLOO2<-train(retiros_total~aprobados_total+reprobados_total+enseñanza,data=base[1:4000],method="lm",trControl= setupLOO2)

print(predLOO2)

## Linear Regression 
## 
## 4000 samples
##    3 predictor
## 
## No pre-processing
## Resampling: Leave-One-Out Cross-Validation 
## Summary of sample sizes: 3999, 3999, 3999, 3999, 3999, 3999, ... 
## Resampling results:
## 
##   RMSE      Rsquared   MAE     
##   4.563626  0.2848446  2.549269
## 
## Tuning parameter 'intercept' was held constant at a value of TRUE

Con este último modelo de validación cruzada se pudo reducir el error de estimación un poco más en comparación a los otros, siendo la predicción 4 la que tiene el menor error (RMSE= 4.345072 y MAE= 2.481942).

Conclusión

En resumen, los modelos multivariables que obtuvimos en la investigación son los siguientes:

Estimación dentro de la muestra con regresión: RMSE=4.365083 y MAE=2.561198
Estimación fuera de la muestra con VC k-folds: RMSE= 4.367631 y MAE= 2.563851
Estimación fuera de la muestra con VC “LOO”: RMSE= 4.345072 y MAE= 2.481942

Dado lo anterior, el mejor modelo para predecir la cantidad de estudiantes que desertan por establecimiento educacional son: números de aprobados y reprobados, la región, el tipo de enseñanza (media, básica o especial) y el tipo de dependencia (municipal, particular pagado o particular subvencionado). Los errores más pequeños los obtuvimos con el método de validación cruzada “Leave One Out”

Tal como dijimos en la introducción, al identificar y predecir cuáles son los factores que inciden en la decisión de dejar la enseñanza Básica y/o Media se pueden tomar medidas preventivas, más eficientes, de apoyo a los estudiantes y a sus familias, donde el enfoque de este no sea únicamente por ingresos económicos o tipo de establecimiento (Municipal, Particular Subvencionado y Particular Pagado).

Por otro lado, sabemos que la situación económica de muchas familias se vio profundamente afectada por las consecuencias de la pandemia, lo que podría tener efectos en una mayor tasa de deserción escolar en el año 2020 que en otros años (debido a problemas económicos). Esto se puede respaldar en distintos informes presentados por el Ministerio de Educación, donde se destaca la preocupación del probable aumento de deserciones de niños y jóvenes, pues se proyecta que a raíz de la pandemia una de las consecuencias que generará será la disminución de las matrículas para el año 2021 y aumento de la cantidad de estudiantes repitentes; y tal como analizamos, estas son variables influyentes directamente en el aumento de la deserción escolar. Es por esto que el modelo de estimación en este proyecto, tendrá a su vez utilidad futura para estimar cómo la pandemia puede haber aumentado la deserción escolar y ha variado el grado de incidencia de cada una de las variables utilizadas en el modelo.

Sumado a todo lo anterior, las medidas de protección han impedido realizar cualquier tipo de actividad que reúna a muchas personas, lo cual imposibilita a todos los recintos educacionales impartir clases. Si bien se aplicaron modalidades online para continuar con las clases, es posible que muchos estudiantes hayan dejado sus estudios (desertado) por no recibir la misma calidad de educación, ni ambiente que propicie el aprendizaje o porque no se pudieron adaptar al nuevo sistema. Aún no sabemos con certeza cuáles son los efectos de la pandemia en la escolaridad y habría que esperar a que el Ministerio de Educación publique la nuevas bases de información educacional para observar los resultados, sin embargo, este modelo de predicción podría ayudar a estimar las consecuencias educacionales que dejará esta pandemia.