La educación es uno de los principales elementos que determinan el potencial desarrollo y crecimiento socioeconómico de un país y su población. De esta manera, es sumamente importante la calidad de la educación que se imparte en el ámbito superior (universidades, técnicos, etc.) pero sobre todo a nivel básico y medio (colegios y liceos) ya que estos últimos dos, de acuerdo a la Ley General de Educación de 2009, son obligatorios.
Es importante resaltar que en Chile hay una gran desigualdad socioeconómica que se ve reflejada en el sistema educativo de Chile, donde los colegios particulares tienen mejor calidad de educación y mejores resultados que los colegios municipales subvencionados y estos mejor que los municipales. Esta es una de las razones por la que el Estado considera la deserción escolar como un problema que se debe resolver, porque tiene efecto negativo tanto para el individuo como para la sociedad, indican que “Fomentar la continuidad de las trayectorias escolares es un desafío vinculado con la justicia social y la equidad de las oportunidades educativas” (División de educación general, Ministerio de Educación, 2020). De ahí la finalidad de nuestro trabajo, por medio de mezclas de base de datos, gráficos y regresiones responderemos a la siguiente pregunta ¿cuáles son los factores que influyen en la cantidad de estudiantes (niños y jóvenes) que desertan por establecimiento educacional en Chile?
Es relevante responder esta pregunta porque el Estado, específicamente el Ministerio de Educación, ofrece un programa de entrega de recursos pedagógicos a diferentes familias y con una correcta detección de los factores que afectan a los estudiantes (socioeconómico, familiar u otro), y/o el tipo de estudiante, que tendería a abandonar sus estudios se podría gestionar una distribución más eficiente, con un fin específico y anticipado (antes del punto de inflexión) dirigido a quienes más lo necesiten y así predecir esta deserción para poder abordarla de la mejor manera.
Para resolver la pregunta, ¿cuáles son los factores que influyen en la cantidad de estudiantes (niños y jóvenes) que desertan por establecimiento educacional en Chile?, nuestro objetivo es lograr construir un modelo de predicción correcto para la deserción escolar mediante la detección de los factores que hacen que los estudiantes tiendan a abandonar sus estudios escolares en Chile tanto en la educación básica, como en media.
Cargamos los paquetes a utilizar
library(data.table)
library(ggplot2)
library(readstata13)
library(dplyr)
library(treemap)
library(caret)
library(jtools)
Cargamos las bases a utilizar
matricula2019<-fread("matricula2019.csv")
rendimiento2019<-fread("rendimiento2019.csv")
Eliminamos la educación parvularia y adulta, debido a que nuestro segmento de estudio son estudiantes escolares niños/jóvenes que desertan.
matricula2019<-matricula2019[!(matricula2019$COD_ENSE2=="1"|matricula2019$COD_ENSE2=="3"|matricula2019$COD_ENSE2=="6"|matricula2019$COD_ENSE2=="8")]
rendimiento2019<-rendimiento2019[!(rendimiento2019$COD_ENSE2=="1"|rendimiento2019$COD_ENSE2=="3"|rendimiento2019$COD_ENSE2=="6"|rendimiento2019$COD_ENSE2=="8")]
Eliminamos los establecimientos con 0 matrículas durante el año, la mayoría se debe a no presentar registros debido a que no tienen una equivalencia de los grados que cursan con el tipo de enseñanza que reportan, por lo que MINEDUC los marca como missings.
matricula2019<-matricula2019[!is.na(MAT_HOM_TOT | MAT_MUJ_TOT)]
Nombramos los grados de enseñanza a estudiar.
matricula2019[COD_ENSE2=="2",enseñanza:="Básica Niños"]
matricula2019[COD_ENSE2=="4",enseñanza:="Educación Especial"]
matricula2019[COD_ENSE2=="5",enseñanza:="Enseñanza Media Humanístico Científica Jóvenes."]
matricula2019[COD_ENSE2=="7",enseñanza:="Enseñanza Media Técnico Profesional y Artística, Jóvenes"]
Nombramos las regiones según su código de región.
matricula2019[COD_REG_RBD=="1",region:="Tarapacá"]
matricula2019[COD_REG_RBD=="2",region:="Antofagasta"]
matricula2019[COD_REG_RBD=="3",region:="Atacama"]
matricula2019[COD_REG_RBD=="4",region:="Coquimbo"]
matricula2019[COD_REG_RBD=="5",region:="Valparaíso"]
matricula2019[COD_REG_RBD=="6",region:="O'Higgins"]
matricula2019[COD_REG_RBD=="7",region:="Maule"]
matricula2019[COD_REG_RBD=="8",region:="Biobío"]
matricula2019[COD_REG_RBD=="9",region:="Araucanía"]
matricula2019[COD_REG_RBD=="10",region:="Los Lagos"]
matricula2019[COD_REG_RBD=="11",region:="Carlos Ibañez del Campo"]
matricula2019[COD_REG_RBD=="12",region:="Magallanes y Antártica Chilena"]
matricula2019[COD_REG_RBD=="13",region:="Metropolitana de Santiago"]
matricula2019[COD_REG_RBD=="14",region:="Los Ríos"]
matricula2019[COD_REG_RBD=="15",region:="Arica y Parinacota"]
matricula2019[COD_REG_RBD=="16",region:="Ñuble"]
A continuación, hicimos un merge entre las bases de datos de matrículas y rendimiento por establecimiento del año 2019.
base<-merge(x=matricula2019,y=rendimiento2019,by="RBD")
Dejamos sólo los establecimientos cuya dependencia sea municipal, particular subvencionado y particular pagado. La base de datos contenía además establecimientos educacionales de la Corporación de Administración Delegada y el Servicio Local de Educación, pero el número de estudiantes de ese tipo de establecimiento era muy poco significativo con la muestra total, por lo cual los excluimos.
base<-base[!(COD_DEPE2.x=="4"|COD_DEPE2.x=="5")]
Agregamos los nombres a cada código de dependencia
base[COD_DEPE2.x=="1", dependencia:="Municipal"]
base[COD_DEPE2.x=="2", dependencia:="Particular Subvencionado"]
base[COD_DEPE2.x=="3", dependencia:="Particular Pagado"]
Creamos la variable “Enseñanza” que juntara la enseñanza media artística con la variable enseñanza media científica.
base[COD_ENSE2.x=="7",enseñanza:="Enseñanza Media"]
base[COD_ENSE2.x=="5",enseñanza:="Enseñanza Media"]
Finalmente, limpiamos la base merge. Eliminamos las variables que no utilizamos para el modelo de estimación de la deserción escolar (ej.: número de cursos por establecimiento, porcentaje de asistencia y variables repetidas a consecuencia del merge)
base<-base[,-53:-64]
base<-base[,-58:-65]
base<-base[,-70:-73]
base<-base[,-72:-85]
base<-base[,-43:-48]
base<-base[,-166:-174]
Cambiamos a 0 todos los NA’s que estaban en los cursos duales de cada establecimiento, ya que no todos los establecimientos imparten esta modalidad de educación. Lo anterior con el objetivo de poder sumarlos al número de matrículas totales.
base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]
base<-base[is.na(MAT_CUR_DUAL_TOT),MAT_CUR_DUAL_TOT:=0]
base[,matricula_total:=MAT_CUR_DUAL_TOT+MAT_TOTAL]
Sumamos el número de traslados y retiros totales. Los traslados cuentan a aquellos estudiantes que se cambiaron de curso dentro del mismo establecimiento o que se cambiaron a otro durante el año, mientras que los retiros son aquellos estudiantes que dejaron de asistir a clases sin notificar un cambio de curso o establecimiento. El número de retiro será nuestra variable de deserción dadas las características de esta variable.
base[,traslados_total:=TRA_HOM_TO+TRA_MUJ_TO+TRA_SI_TO]
base[,retiros_total:=RET_HOM_TO+RET_MUJ_TO]
Juntamos el total de aprobados, total de reprobados según sexo y quienes no tenían registro de esta categoría en la variable aprobados_total. Y lo mismo para los reprobados en la variable reprobados_total.
base[,aprobados_total:=APR_HOM_TO+APR_MUJ_TO+APR_SI_TO]
base[,reprobados_total:=REP_HOM_TO+REP_MUJ_TO+REP_SI_TO]
Así evitamos la duplicidad de información proveniente de los establecimientos educacionales.
Nuestro objetivo principal es eliminar establecimientos duplicados que se presentan en la base original dado los diferentes como tipos de enseñanza y cursos. Creamos un número identificador (id) para cada establecimiento según su tipo de enseñanza (básica, media o especial), además de creamos una tabla (tabla1) que contuviera solamente los totales de aprobación, reprobación, matrícula, retiros y traslados, junto con su respectivos nombres, tipos de enseñanza, región y dependencia. Las nuevas bases resultantes se llaman “base2” y “EU”.
tabla1<-base[,.(RBD,NOM_RBD.x,COD_ENSE2.x,aprobados_total, reprobados_total, matricula_total,retiros_total,traslados_total,enseñanza,region,dependencia,NOM_COM_RBD.x)]
tabla1[,id:=paste0(NOM_RBD.x,COD_ENSE2.x)]
El objeto “base2” se clasifica por tipo de enseñanza en cada establecimiento y fue el resultado de múltiples merges de tablas con las totalidades de las sumas de las variables a estudiar según el “id”.
tabla2<-tabla1[,sum(aprobados_total), by=(id)]
tabla3<-tabla1[,sum(reprobados_total), by=(id)]
tabla4<-tabla1[,sum(matricula_total), by=(id)]
tabla5<-tabla1[,sum(traslados_total), by=(id)]
tabla6<-tabla1[,sum(retiros_total), by=(id)]
Agregamos las variables de tipo categóricas a cada establecimiento, eliminamos las filas duplicadas que surgían y nombramos las restantes.
tabla7<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(id)]
tabla7<-tabla7[!duplicated(id)]
names(tabla2)[2]<-"aprobados_total"
names(tabla3)[2]<-"reprobados_total"
names(tabla4)[2]<-"matriculas_total"
names(tabla5)[2]<-"traslados_total"
names(tabla6)[2]<-"retiros_total"
Tras una serie de merges, entre los objetos creados previamente, obtuvimos como resultado final la base “base2”.
base2<-merge(tabla2,tabla3,by="id")
base2<-merge(base2,tabla4,by="id")
base2<-merge(base2,tabla5,by="id")
base2<-merge(base2,tabla6,by="id")
base2<-merge(base2,tabla7,by="id")
Por otro lado, se siguió la misma idea con la creación de la base EU, la cual se clasifica por establecimiento y no por tipo de enseñanza según establecimiento como la “base2”. Es decir, se repiten algunos establecimientos pero los divide por tipo de enseñanza media, básica o especial.
tablaA<-tabla1[,sum(aprobados_total), by=(NOM_RBD.x)]
tablaB<-tabla1[,sum(reprobados_total), by=(NOM_RBD.x)]
tablaC<-tabla1[,sum(matricula_total), by=(NOM_RBD.x)]
tablaD<-tabla1[,sum(traslados_total), by=(NOM_RBD.x)]
tablaE<-tabla1[,sum(retiros_total), by=(NOM_RBD.x)]
tablaF<-tabla1[,.(enseñanza,region,dependencia,NOM_COM_RBD.x),by=(NOM_RBD.x)]
tablaF<-tablaF[!duplicated(NOM_RBD.x)]
names(tablaA)[2]<-"aprobados_total"
names(tablaB)[2]<-"reprobados_total"
names(tablaC)[2]<-"matriculas_total"
names(tablaD)[2]<-"traslados_total"
names(tablaE)[2]<-"retiros_total"
EU<-merge(tablaA,tablaB,by="NOM_RBD.x")
EU<-merge(EU,tablaC,by="NOM_RBD.x")
EU<-merge(EU,tablaD,by="NOM_RBD.x")
EU<-merge(EU,tablaE,by="NOM_RBD.x")
EU<-merge(EU,tablaF,by="NOM_RBD.x")
El objetivo de la siguiente tabla es visualizar la cantidad de aprobados, reprobados y matrículas por región. A simple vista notamos que la cantidad de aprobados en mayor a la de reprobados, pero no por eso esta última es insignificativa.
base2[,.(Aprobados=sum(aprobados_total),Reprobados=sum(reprobados_total),Matricula=sum(matriculas_total)), by=(region)]
## region Aprobados Reprobados Matricula
## 1: Valparaíso 580519 15413 602137
## 2: Arica y Parinacota 100472 2055 95912
## 3: Tarapacá 150816 3420 154369
## 4: Maule 332661 10059 339162
## 5: O'Higgins 256132 7800 267598
## 6: Metropolitana de Santiago 1990997 54539 2047158
## 7: Coquimbo 266372 7283 272358
## 8: Biobío 425889 10343 424505
## 9: Ñuble 170215 4926 158682
## 10: Antofagasta 190946 3155 189900
## 11: Atacama 85509 2308 87124
## 12: Magallanes y Antártica Chilena 37592 836 39211
## 13: Los Lagos 254402 9708 266511
## 14: Los Ríos 104576 2708 102994
## 15: Araucanía 284447 10115 298152
## 16: Carlos Ibañez del Campo 33691 1669 33292
ggplot(data=base2, aes(x=region, fill=enseñanza)) + geom_bar(position = "stack") + labs(x="Región", y="Número de Establecimientos", title="Distribución de Establecimientos Educacionales" , subtitle = "Por región y tipo de enseñanza", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 7,angle = 85,vjust = 0.5))
En este gráfico de barras podemos observar que el tipo de enseñanza que se imparte en mayor proporción dentro del país es “Educación Básica” y en segundo lugar es “Enseñanza Media”, mientras que la “Educación Especial” es el tipo de enseñanza que menos se imparte en todas las regiones. También vemos que la mayor cantidad de establecimientos se concentran en la Región Metropolitana de Santiago, lo que podría tener relación con que es la región con mayor número de habitantes seguidas por Valparaíso, la Araucanía y BíoBío.
ggplot(data=EU,aes(x=dependencia, fill=dependencia)) + geom_bar(position="dodge") + facet_wrap(~region) + labs(x="Región", y="Número de Establecimientos", title="Distribución de Tipos de Establecimientos Educacionales por Región" , subtitle = "Por tipo de dependencia", caption = "Fuente: Ministerio de Educación, Matrículas por Unidad Educacional 2019") + theme(axis.text.x=element_text(size = 5.5,angle = 75,vjust = 0.5))
Este gráfico muestra el tipo de establecimiento educacional por región. Podemos notar que en la gran mayoría de las regiones los establecimientos de tipo Municipal son los que más abundan, seguidos por los Particulares Subvencionados y en mucha menor proporción los establecimientos Particulares Pagados.
Creamos un id para cada establecimiento para que sean representados en el gráfico circular.
estab<-base[,sum(RBD),by="dependencia"]
estab[dependencia=="Municipal", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Subvencionado", prom:=round(V1/257657998,2)]
estab[dependencia=="Particular Pagado", prom:=round(V1/257657998,2)]
ggplot(estab,aes(x="",y=prom,fill=dependencia))+geom_bar(stat="identity",color="black")+geom_text(aes(label=prom),position=position_stack(vjust=0.55),color="black",size=5)+coord_polar(theta = "y")+theme_void()+labs(title="Proporción de Establecimientos en Chile", subtitle="Por tipo de Establecimiento")+scale_fill_discrete(name="Tipo de Establecimiento")
En este gráfico se observa claramente que la cantidad de establecimientos educacionales del tipo particular subvencionados predominan en el país con un 62%, mientras que los municipales equivalen a un 28% y los particulares pagados conforman un 11% del total de establecimientos en Chile.
base2[,num:=row.names(base2)]
base2$num<-as.numeric(base2$num)
muestra2<-sample(x=1:nrow(base2), size = 1*nrow(base2))
ggplot(data=base2[num %in% muestra2 & retiros_total<=200], aes(x=reprobados_total,y=retiros_total)) +
geom_point() + geom_smooth(method="lm", se=FALSE, color="darkgreen") + labs(x="Número de Reprobados", y="Número de Retirados", title="Relación entre Número de Estudiantes Reprobados y Retirados", subtitle="Por Establecimiento Educacional",caption = "Fuente: Ministerio de Educación, Matrículas y Rendimiento por Unidad Educacional 2019")
Se creó scatter-plot mediante una muestra más pequeña para visualizar la cantidad de retiros por establecimientos en relación al número de reprobados. Este gráfico se hace a partir de la “base2” que corrige un poco las repeticiones de establecimientos. Con un modelo lineal aplicado sobre el gráfico de puntos se puede ver una tendencia positiva entre ambas variables, es decir, a mayor número de reprobados mayor el número de estudiantes retirados.
treemap(EU,index="region", vSize ="retiros_total", type="value", title="Retiros Totales por Región")
# En los gráficos anteriores se pudo observar que la Región Metropolitana de Santiago es la que más Establecimientos Educacionales concentra, dado que tiene la mayor densidad poblacional. Por esta razón, es la región que mayor número de deserciones escolares tiene en todo el país
Tal como vimos en el primer gráfico la región Metropolitana, Santiago, es aquella que concentra el mayor número de establecimientos y a su vez de deserciones (tal como muestra este gráfico). Pese a la información que nos entregan los gráficos, aún no podemos confirmar que la concentración de deserciones sea únicamente debido a la proporción de número de establecimientos, por lo que a continuación estudiaremos por medio de modelos multivariables de regresiones y predicciones otras variables que puedan explicar la decisión de dejar los estudios básicos y/o medios.
Crearemos regresiones con el objetivo de explicar la deserción en escolares mediante un modelo multivariable de predicción dentro de la muestra. En primer lugar utilizamos la base original “base” para realizar este modelo.
reg1<-lm(data=base,formula=retiros_total~matricula_total+reprobados_total+aprobados_total)
summary(reg1)
##
## Call:
## lm(formula = retiros_total ~ matricula_total + reprobados_total +
## aprobados_total, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -18.498 -1.835 -1.124 0.698 69.826
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.278e+00 4.414e-02 28.952 <2e-16 ***
## matricula_total -9.586e-05 1.515e-04 -0.633 0.527
## reprobados_total 2.364e-01 3.259e-03 72.546 <2e-16 ***
## aprobados_total 2.371e-03 1.693e-04 14.001 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.533 on 22611 degrees of freedom
## Multiple R-squared: 0.2724, Adjusted R-squared: 0.2723
## F-statistic: 2821 on 3 and 22611 DF, p-value: < 2.2e-16
Esta regresión nos muestra que el número de matrículas totales por establecimiento no es significativo para la estimación de la deserción, mientras que el número de aprobados y reprobados si lo es.
reg2<-lm(data=base,formula=retiros_total~region+reprobados_total+aprobados_total+dependencia+enseñanza)
summary(reg2)
##
## Call:
## lm(formula = retiros_total ~ region + reprobados_total + aprobados_total +
## dependencia + enseñanza, data = base)
##
## Residuals:
## Min 1Q Median 3Q Max
## -17.441 -1.936 -0.772 0.882 69.339
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.9838547 0.1975712 20.164 < 2e-16 ***
## regionAraucanía -2.9651438 0.2179293 -13.606 < 2e-16 ***
## regionArica y Parinacota -0.6142626 0.3252133 -1.889 0.05893 .
## regionAtacama -2.3119875 0.3339162 -6.924 4.51e-12 ***
## regionBiobío -2.9411953 0.2149325 -13.684 < 2e-16 ***
## regionCarlos Ibañez del Campo -3.6521157 0.3484297 -10.482 < 2e-16 ***
## regionCoquimbo -2.8562717 0.2290134 -12.472 < 2e-16 ***
## regionLos Lagos -3.0400377 0.2184058 -13.919 < 2e-16 ***
## regionLos Ríos -2.8017079 0.2421515 -11.570 < 2e-16 ***
## regionMagallanes y Antártica Chilena -2.8935997 0.3805928 -7.603 3.01e-14 ***
## regionMaule -3.1662238 0.2178785 -14.532 < 2e-16 ***
## regionMetropolitana de Santiago -0.8078772 0.1974946 -4.091 4.32e-05 ***
## regionÑuble -3.3544420 0.2351556 -14.265 < 2e-16 ***
## regionO'Higgins -2.7258315 0.2291862 -11.894 < 2e-16 ***
## regionTarapacá -0.5116707 0.2603051 -1.966 0.04935 *
## regionValparaíso -2.3658209 0.2089808 -11.321 < 2e-16 ***
## reprobados_total 0.2259910 0.0032541 69.448 < 2e-16 ***
## aprobados_total 0.0021971 0.0001412 15.558 < 2e-16 ***
## dependenciaParticular Pagado -1.3489702 0.1167962 -11.550 < 2e-16 ***
## dependenciaParticular Subvencionado -1.5760047 0.0643131 -24.505 < 2e-16 ***
## enseñanzaEducación Especial 0.5893870 0.1900973 3.100 0.00193 **
## enseñanzaEnseñanza Media 0.6810005 0.0597060 11.406 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.367 on 22593 degrees of freedom
## Multiple R-squared: 0.3251, Adjusted R-squared: 0.3245
## F-statistic: 518.3 on 21 and 22593 DF, p-value: < 2.2e-16
Al incorporar las variables de región, tipo de dependencia y enseñanza, la regresión resulta con un alto nivel de significancia en todas sus variables (sin considerar matrículas totales).
A continuación, siguiendo con el modelo multivariable, creamos regresiones con el objetivo de explicar la deserción en escolares pero esta vez a partir de las bases simplificadas (“Base2” y “EU”).
reg3<-lm(data=base2,formula=retiros_total~matriculas_total+reprobados_total+aprobados_total)
summary(reg3)
##
## Call:
## lm(formula = retiros_total ~ matriculas_total + reprobados_total +
## aprobados_total, data = base2)
##
## Residuals:
## Min 1Q Median 3Q Max
## -107.703 -2.941 -1.029 0.815 184.567
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.9080049 0.1181963 7.682 1.7e-14 ***
## matriculas_total -0.0001917 0.0002136 -0.898 0.369
## reprobados_total 0.2975131 0.0046916 63.414 < 2e-16 ***
## aprobados_total 0.0043801 0.0002763 15.855 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 9.472 on 10898 degrees of freedom
## Multiple R-squared: 0.4784, Adjusted R-squared: 0.4782
## F-statistic: 3332 on 3 and 10898 DF, p-value: < 2.2e-16
Con esta regresión hecha a partir de la “base2” nuevamente el número de matrículas totales es poco significante para la predicción por lo que descartamos por completo esta variable para nuestro modelo de predicción de deserción escolar.
reg4<-lm(data=EU,formula=retiros_total~matriculas_total+region+reprobados_total+aprobados_total)
summary(reg4)
##
## Call:
## lm(formula = retiros_total ~ matriculas_total + region + reprobados_total +
## aprobados_total, data = EU)
##
## Residuals:
## Min 1Q Median 3Q Max
## -177.462 -3.964 -0.681 0.506 304.617
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.510807 1.269473 7.492 7.54e-14 ***
## matriculas_total 0.015245 0.001604 9.507 < 2e-16 ***
## regionAraucanía -9.671859 1.372399 -7.047 1.98e-12 ***
## regionArica y Parinacota -3.660245 2.045097 -1.790 0.073531 .
## regionAtacama -8.455537 2.123017 -3.983 6.87e-05 ***
## regionBiobío -9.188474 1.381963 -6.649 3.16e-11 ***
## regionCarlos Ibañez del Campo -10.806965 2.292911 -4.713 2.48e-06 ***
## regionCoquimbo -10.029181 1.433991 -6.994 2.90e-12 ***
## regionLos Lagos -9.356170 1.382021 -6.770 1.38e-11 ***
## regionLos Ríos -8.567614 1.502321 -5.703 1.22e-08 ***
## regionMagallanes y Antártica Chilena -9.682628 2.383595 -4.062 4.91e-05 ***
## regionMaule -9.358683 1.406560 -6.654 3.06e-11 ***
## regionMetropolitana de Santiago -4.814527 1.305376 -3.688 0.000227 ***
## regionÑuble -8.916030 1.526813 -5.840 5.44e-09 ***
## regionO'Higgins -8.893941 1.444157 -6.159 7.71e-10 ***
## regionTarapacá -0.921785 1.843878 -0.500 0.617148
## regionValparaíso -8.100917 1.373397 -5.898 3.82e-09 ***
## reprobados_total 0.273670 0.005958 45.936 < 2e-16 ***
## aprobados_total -0.011414 0.001601 -7.130 1.10e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.42 on 7691 degrees of freedom
## Multiple R-squared: 0.5416, Adjusted R-squared: 0.5406
## F-statistic: 504.9 on 18 and 7691 DF, p-value: < 2.2e-16
Al incorporar las variables de tipo de dependencia, enseñanza y región a un modelo realizado desde la base “EU” podemos observar que la región de Arica y Tarapacá dejan de ser significativas, mientras que el resto se mantiene muy significativo. Sin embargo, el R cuadrado aumenta mucho en comparación a las regresiones anteriores.
reg5<-lm(data=EU,formula=retiros_total~enseñanza+traslados_total+reprobados_total+aprobados_total)
summary(reg5)
##
## Call:
## lm(formula = retiros_total ~ enseñanza + traslados_total + reprobados_total +
## aprobados_total, data = EU)
##
## Residuals:
## Min 1Q Median 3Q Max
## -188.452 -2.559 -0.467 0.527 200.007
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.224e-01 1.831e-01 0.668 0.504
## enseñanzaEducación Especial 2.160e+01 2.443e+00 8.841 <2e-16 ***
## enseñanzaEnseñanza Media 1.240e+01 6.960e-01 17.823 <2e-16 ***
## traslados_total 9.193e-02 1.927e-03 47.698 <2e-16 ***
## reprobados_total 1.847e-01 5.220e-03 35.384 <2e-16 ***
## aprobados_total 1.693e-03 1.977e-04 8.562 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 13.5 on 7704 degrees of freedom
## Multiple R-squared: 0.648, Adjusted R-squared: 0.6478
## F-statistic: 2837 on 5 and 7704 DF, p-value: < 2.2e-16
En esta última regresión seguimos usando la base “EU”, no consideramos la variable región y matriculas_totales e incorporamos las variables: enseñanza y traslados_total. Podemos observar que todas son significativas. En este caso el R cuadrado ajustado es el más alto en comparación a las otras regresiones.
# Regresión 1
pred1<-predict(reg1)
predicciones1<-data.table(RMSE=RMSE(pred1,base$retiros_total),MAE=MAE(pred1,base$retiros_total))
predicciones1
## RMSE MAE
## 1: 4.532436 2.658371
# Regresión 2
pred2<-predict(reg2) #Es la que menor RMSE y MAE me da. Mejor modelo y en base original
predicciones2<-data.table(RMSE=RMSE(pred2,base$retiros_total),MAE=MAE(pred2,base$retiros_total))
predicciones2
## RMSE MAE
## 1: 4.365083 2.561198
# Regresión 3
pred3<-predict(reg3)
predicciones3<-data.table(RMSE=RMSE(pred3,base2$retiros_total),MAE=MAE(pred3,base2$retiros_total))
predicciones3
## RMSE MAE
## 1: 9.470586 4.849853
# Regresión 4
pred4<-predict(reg4)
predicciones4<-data.table(RMSE=RMSE(pred4,EU$retiros_total),MAE=MAE(pred4,EU$retiros_total))
predicciones4
## RMSE MAE
## 1: 15.40517 6.777708
# Regresión 5
pred5<-predict(reg5)
predicciones5<-data.table(RMSE=RMSE(pred5,EU$retiros_total),MAE=MAE(pred5,EU$retiros_total))
predicciones5
## RMSE MAE
## 1: 13.49908 5.755624
Podemos observar que al estimar los errores de las regresión creadas anteriormente, la regresión con menor error RMSE y MAE es la regresión 2. Con estas predicciones nos podemos dar cuenta que la simplificación de la base original que dio origen a “base2” y “EU”, tienen muchos sesgos que no permiten una predicción correcta lo cual genera que el error predicho de estas regresiones sea mayor a los modelos provenientes de la base original. Por esta razón, utilizaremos la regresión 2 que mediante las variables de aprobación, reprobación, tipo de enseñanza, tipo de dependencia y región, generar estimaciones con menores errores (RMSE=4.365083 y MAE=2.561198).
Por otro lado, probaremos los modelos fuera de la muestra. Utilizaremos el método de validación cruzada con k-folds:
set.seed(12345)
setupKCV <- trainControl(method = "cv" , number = 5)
predkfolds1<-train(retiros_total~aprobados_total+reprobados_total+region,data=base,method="lm",trControl= setupKCV)
print(predkfolds1)
## Linear Regression
##
## 22615 samples
## 3 predictor
##
## No pre-processing
## Resampling: Cross-Validated (5 fold)
## Summary of sample sizes: 18092, 18092, 18092, 18093, 18091
## Resampling results:
##
## RMSE Rsquared MAE
## 4.441967 0.3034833 2.581638
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
predkfolds2<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base,method="lm",trControl= setupKCV)
print(predkfolds2)
## Linear Regression
##
## 22615 samples
## 5 predictor
##
## No pre-processing
## Resampling: Cross-Validated (5 fold)
## Summary of sample sizes: 18091, 18092, 18092, 18092, 18093
## Resampling results:
##
## RMSE Rsquared MAE
## 4.367631 0.3243331 2.563851
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
predkfolds3<-train(retiros_total~aprobados_total+reprobados_total+enseñanza, data=base, method="lm", trControl=setupKCV)
print(predkfolds3)
## Linear Regression
##
## 22615 samples
## 3 predictor
##
## No pre-processing
## Resampling: Cross-Validated (5 fold)
## Summary of sample sizes: 18092, 18092, 18093, 18091, 18092
## Resampling results:
##
## RMSE Rsquared MAE
## 4.51833 0.2777484 2.627838
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
De las tres predicciones, la predicción 2 es la que tiene menor error (RMSE= 4.367631 y MAE= 2.563851) similar al modelo realizado dentro de la muestra, la que contiene las variables de aprobación, reprobación, región, tipo de enseñanza y dependencia.
Finalmente, para asegurarnos de encontrar el mejor modelo de predicción quisimos realizar la prueba de estimación mediante el método de validación cruzada “Leave One Out”:
setupLOO <- trainControl(method = "LOOCV")
predLOO<-train(retiros_total~aprobados_total+reprobados_total+region+enseñanza+dependencia,data=base[1:4000],method="lm",trControl= setupLOO)
print(predLOO)
## Linear Regression
##
## 4000 samples
## 5 predictor
##
## No pre-processing
## Resampling: Leave-One-Out Cross-Validation
## Summary of sample sizes: 3999, 3999, 3999, 3999, 3999, 3999, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 4.345072 0.3517314 2.481942
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
setupLOO2 <- trainControl(method = "LOOCV")
predLOO2<-train(retiros_total~aprobados_total+reprobados_total+enseñanza,data=base[1:4000],method="lm",trControl= setupLOO2)
print(predLOO2)
## Linear Regression
##
## 4000 samples
## 3 predictor
##
## No pre-processing
## Resampling: Leave-One-Out Cross-Validation
## Summary of sample sizes: 3999, 3999, 3999, 3999, 3999, 3999, ...
## Resampling results:
##
## RMSE Rsquared MAE
## 4.563626 0.2848446 2.549269
##
## Tuning parameter 'intercept' was held constant at a value of TRUE
Con este último modelo de validación cruzada se pudo reducir el error de estimación un poco más en comparación a los otros, siendo la predicción 4 la que tiene el menor error (RMSE= 4.345072 y MAE= 2.481942).
En resumen, los modelos multivariables que obtuvimos en la investigación son los siguientes:
Dado lo anterior, el mejor modelo para predecir la cantidad de estudiantes que desertan por establecimiento educacional son: números de aprobados y reprobados, la región, el tipo de enseñanza (media, básica o especial) y el tipo de dependencia (municipal, particular pagado o particular subvencionado). Los errores más pequeños los obtuvimos con el método de validación cruzada “Leave One Out”
Tal como dijimos en la introducción, al identificar y predecir cuáles son los factores que inciden en la decisión de dejar la enseñanza Básica y/o Media se pueden tomar medidas preventivas, más eficientes, de apoyo a los estudiantes y a sus familias, donde el enfoque de este no sea únicamente por ingresos económicos o tipo de establecimiento (Municipal, Particular Subvencionado y Particular Pagado).
Por otro lado, sabemos que la situación económica de muchas familias se vio profundamente afectada por las consecuencias de la pandemia, lo que podría tener efectos en una mayor tasa de deserción escolar en el año 2020 que en otros años (debido a problemas económicos). Esto se puede respaldar en distintos informes presentados por el Ministerio de Educación, donde se destaca la preocupación del probable aumento de deserciones de niños y jóvenes, pues se proyecta que a raíz de la pandemia una de las consecuencias que generará será la disminución de las matrículas para el año 2021 y aumento de la cantidad de estudiantes repitentes; y tal como analizamos, estas son variables influyentes directamente en el aumento de la deserción escolar. Es por esto que el modelo de estimación en este proyecto, tendrá a su vez utilidad futura para estimar cómo la pandemia puede haber aumentado la deserción escolar y ha variado el grado de incidencia de cada una de las variables utilizadas en el modelo.
Sumado a todo lo anterior, las medidas de protección han impedido realizar cualquier tipo de actividad que reúna a muchas personas, lo cual imposibilita a todos los recintos educacionales impartir clases. Si bien se aplicaron modalidades online para continuar con las clases, es posible que muchos estudiantes hayan dejado sus estudios (desertado) por no recibir la misma calidad de educación, ni ambiente que propicie el aprendizaje o porque no se pudieron adaptar al nuevo sistema. Aún no sabemos con certeza cuáles son los efectos de la pandemia en la escolaridad y habría que esperar a que el Ministerio de Educación publique la nuevas bases de información educacional para observar los resultados, sin embargo, este modelo de predicción podría ayudar a estimar las consecuencias educacionales que dejará esta pandemia.