Introducción

ICFES son las siglas de Instituto Colombiano para el Fomento de la Educación Superior. Este organismo es el encargado de promover la educación superior en Colombia. En sus inicios, fue creada para evaluar a los alumnos cursando su último año de bachillerato y por lo tanto, muchas universidades desde entonces lo han tenido en cuenta para sus procesos de admisión.

Con el decreto 1324 de 2009, se cambio el nombre de ICFES a Pruebas Saber pro. Está estipulado que los alumnos que obtengan los diez primeros puntajes del departamento o capital, reciben una distinción, además, de recibir descuentos para estudiar en varias universidades de hasta el 75% o incluso becas completas.

El examen consta de preguntas realizadas sobre distintas áreas de formación tales como matemáticas, ciencias sociales, lenguaje, biología, filosofía, química, física e inglés.

Sabiendo ya la importancia de las pruebas saber, se planea realizar modelos para estudiar el rendimiento académico de los estudiantes de Antioquia.

Con los modelos resultantes se espera encontrar que variables afectan el rendimiento academico y cuantificar esa información.

Retos

Contextualizar la base de datos
Crear la variable resultado, nivel de riqueza del estudiante y nivel de riqueza del colegio
Realizar modelos para estudiar el rendimiento académico
Obtener conclusiones con respecto al análisis

Contextualización del conjunto de datos

El resultado de las pruebas saber indican de alguna manera no solo el nivel académico del estudiante, sino también el nivel académico del colegio o establecimiento, pero el ICFES, además, de realizar las pruebas saber, también recolecta a la par información del estudiante que la presenta, como del establecimiento educativo al que pertenece.

Con la aplicación del examen Saber 11, los estudiantes deben diligenciar encuestas que indagan sobre información personal, información socioeconómica, entre otros. En el conjunto de datos de las pruebas saber podemos encontrar la siguiente información

1. Información personal: Este módulo indaga por aspectos como el género del estudiante, pertenencia a una etnia, discapacidades, lugar de residencia, entre otros.
1. Información Académica y de citación: Este módulo indaga por aspectos cómo el colegio al que pertenece el estudiante, valor de la pensión que paga en su colegio (en caso de que lo haga), entre otros.
1. Información socioeconómica: Este módulo indaga por aspectos familiares como el nivel educativo de los padres, su ocupación, servicios con los que cuenta el hogar, entre otros.

El conjunto de datos con el que se trabajara corresponde a las pruebas saber 11 del segundo semestre del año 2013, este conjunto de datos contiene información de los tres módulos(Información personal, Información académica, Información socioeconómica)

En el siguiente link pueden encontrar un diccionario con algo de información y descripción de algunas de las variables.

Creación la variable resultado, nivel de riqueza del estudiante y nivel de riqueza del colegio

Estas variables fueron creadas previamente en un trabajo anterior, para mirar con mas detalle como fueron creadas visitar el siguiente link

Planteamiento de modelos

Inicialmente se puede pensar que el rendimiento académico de un estudiante se puede ver afectado por varios factores, suele suceder que cuando una persona presenta un examen, su resultado puede depender del clima, si recibió alguna noticia impactante, un tiempo antes de entrar al examen ó incluso el nivel educativo de la madre; por eso, si buscamos estudiar que afecta el rendimiento de un estudiante en las pruebas ICFES, se puede pensar mas bien en factores generales, es decir, que no cambian de manera drástica en un dia para otro, siguiendo la idea anterior se plantean las siguientes variables, con la intención de mirar que tanto afectan el rendimiento académico de un estudiante en las pruebas saber, recordar que se esta trabajando con un cojunto de datos del 2013.

Las variables propuestas son las siguientes:

Riqueza del estudiante(pobreza): Esta variable fue creada teniendo en cuenta algunos factores socioeconómicos del estudiante; por lo tanto, se espera que esta variable tenga información de la riqueza del estudiante; lo cual se tiene la idea de que un estudiante con mayor recursos, puede obtener ventajas en el resultado de los ICFES.
Jornada del colegio(COLE_INST_JORNADA): Esta variable contiene información si el estudiante estudiaba en jornada de la tarde, mañana, noche, completa, o sabatina-dominical. Se proponen esta variable pensando que los estudiante que tienen cierta jornada les puede ir mejor, en especial las jornadas mas comunes como lo es la mañána o la tarde.
Naturaleza del colegio(COLE_NATURALEZA): Esta variable contienen información de si el colegio del estudiante era publico(ofical), o si era privado(no oficial), como suele suceder, se espera que los estudiantes de colegios privados tengan mejores resultados.
Edad del estudiante(ESTU_EDAD): Esta variable contiene la edad el estudiante, se puede pensar que la edad afecta el rendimiento académico.
Genero del estudiante(ESTU_GENERO): Esta variable contiene el genero del estudiante, se incluye para observar si el genero puede afectar o no el rendimiento en las pruebas saber.
Educación del padre(FAMI_COD_EDUCA_PADRE): Esta variable indica el nivel educativo del padre, se puede pensar que si los padres tienen alto nivel educativo, entonces, los hijos pueden tener buen rendimiento académico.
Educación de la madre(FAMI_COD_EDUCA_MADRE): Esta variable indica el nivel educativo de la madre, se puede pensar que si los padres tienen alto nivel educativo, entonces, los hijos pueden tener buen rendimiento académico.

La variable que se busca explicar es el rendimiento académico del estudiante en las pruebas saber, es decir, el resultado, esta variable contiene 10 categorias, indicando como (100, 200] a los de peor resultado y (900, 1000] a los de mejor resultado.

Modelo de regresión logistica multiple

Se propone un modelo inicial que estudiara el rendimiento académico del estudiante, a través de las variables mencionadas anteriormente, los modelos a utilizar seran modelos logisticos multiples, el caso de exito sera sacar quedar en algunas de las siguientes categorias: (700, 800], (800, 900], (900, 1000] y como fracaso el resto de categorias.

La Regresión Logística, desarrollada por David Cox en 1958, es un método de regresión que permite estimar la probabilidad de una variable cualitativa binaria en función de una o varias variables. Una de las principales aplicaciones de la regresión logística es la de clasificación binaria, en el que las observaciones se clasifican en un grupo u otro dependiendo del valor que tome las variables empleadas como predictores.

La estimación del modelo se realiza con base en las 44060 observaciones, correspondiente a los estudiantes de los colegios del Valle del Aburra, con el objetivo de explicar el resultado de las pruebas saber en función de la riqueza del estudiante, el género, naturaleza del colegio, jornada del colegio, nivel educativo del padre y nivel educativo de la madre.

Variable	Estimate	Std. Error	z value	Pr(>\|z\|)
(Intercept)	-0.7699012	0.1205752	-6.385	1.71e-10
ESTU_EDAD	0.0005148	0.0001331	3.868	0.000110
ESTU_GENEROM	-0.2404683	0.0239389	-10.045	< 2e-16
COLE_NATURALEZAO	-0.2625458	0.0302369	-8.683	< 2e-16
COLE_INST_JORNADAMAÃ‘ANA	0.6007060	0.0552611	10.870	< 2e-16
COLE_INST_JORNADANOCHE	1.8351930	0.0637761	28.776	< 2e-16
COLE_INST_JORNADASABATINA - DOMINICAL	1.6855250	0.0642161	26.248	< 2e-16
COLE_INST_JORNADATARDE	0.7645476	0.0579820	13.186	< 2e-16
FAMI_COD_EDUCA_PADRE	-0.0385065	0.0052669	-7.311	2.65e-13
FAMI_COD_EDUCA_MADRE	-0.0909198	0.0070292	-12.935	< 2e-16
pobreza2	0.1445138	0.1204572	1.200	0.230252
pobreza3	0.1341948	0.1143793	1.173	0.240698
pobreza4	0.0922366	0.1127943	0.818	0.413504
pobreza5	-0.0001592	0.1115997	-0.001	0.998862
pobreza6	-0.0679430	0.1109863	-0.612	0.540422
pobreza7	-0.2243807	0.1104369	-2.032	0.042179
pobreza8	-0.3968451	0.1113359	-3.564	0.000365
pobreza9	-0.6597494	0.1154003	-5.717	1.08e-08
pobreza10	-1.2641921	0.1302470	-9.706	< 2e-16

Note: Coeficientes de los parametros del modelo

Algunas interpretaciones son:

Al pasar de la jornada de la noche a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en los mejores grupos vs los peores aumento en 1.835.
Al pasar de la jornada de la sabatina-dominial a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en los mejores grupos vs los peores aumento en 1.685.
Al pasar del nivel de pobreza 10 a un nivel 1, el logaritmo de la razon de odds de estar en en los mejores grupos vs los peores disminuye en 1.264.

De la tabla anterior se observa que todas las variables planteadas para el modelo son significativas, aunque algunos niveles de la variable pobreza no son significativos, con que lo sea al menos uno es suficiente para que la variable sea estadísticamente significativa, por lo tanto, se observa que sacar un buen resultado en los ICFES esta relacionado con las variables propuestas.

FALSE [1] "p-value: 0"

El modelo en conjunto sí es significativo y, acorde a los p-values mostrados en la tabla anterior, también es significativa la contribución al modelo de todos los predictores.

Comparación de las predicciones con las observaciones

Predicciones	Reales
	0	1
0	31005	1884
1	8493	2678

El modelo es capaz de clasificar correctamente \(\frac{31005+2678}{31005+2678+1884+8493}=0.764(76.4\%)\) de las observaciones de ajuste. Si se analiza en detalle cómo se distribuye el error, se aprecia que el modelo solo ha sido capaz de identificar correctamente a 2678 de los 11171 alumnos que realmente obtuvieron un buen resultado. El porcentaje de falsos negativos es muy alto. Seleccionar otro tipo de modelos puede mejorar la exactitud del modelo.

Modelo de regresión logistica multinomial

Pensando en mejorar la exactitud del modelo, pero siguiendo la misma linea de los modelos logisticos, se puede pensar en proponer un modelo logistico multinomial, con el cual se busca que la asignación a cada grupo sea mas precisa.

La regresión logística multinomial generaliza el método de regresión logística para problemas multiclase, es decir, con más de dos posibles resultados discretos. Es decir, se trata de un modelo que se utiliza para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables independientes (que pueden ser de valor real, valor binario, categórico-valorado, etc.)

La estimación del modelo se realiza con base en las 44060 observaciones, correspondiente a los estudiantes de los colegios del Valle del Aburra, con el objetivo de explicar el resultado de las pruebas saber en función de la riqueza del estudiante, el género, naturaleza del colegio, jornada del colegio, nivel educativo del padre y nivel educativo de la madre.

Tabla con los coeficientes del modelo

	(Intercept)	ESTU_EDAD	ESTU_GENEROM	COLE_NATURALEZAO	COLE_INST_JORNADAMAÑANA	COLE_INST_JORNADANOCHE	COLE_INST_JORNADASABATINA - DOMINICAL	COLE_INST_JORNADATARDE	FAMI_COD_EDUCA_PADRE	FAMI_COD_EDUCA_MADRE	pobreza2	pobreza3	pobreza4	pobreza5	pobreza6	pobreza7	pobreza8	pobreza9	pobreza10
(100,200]	0.3596263	0.0001086	-0.0797895	0.4016319	0.1256655	0.6941515	0.8413127	0.3077826	-0.0509264	-0.0879701	0.2979569	0.7655578	0.2038373	0.4732401	0.2103351	0.1388420	0.0554615	0.1435619	-0.2136717
(200,300]	0.3615640	0.0006182	-0.2131067	0.4094792	0.3879559	1.4546174	1.6399041	0.6572210	-0.0797342	-0.1337488	0.5576719	1.0714915	0.4962303	0.5636631	0.3438366	0.2558222	0.1841529	0.0212391	-0.2591798
(300,400]	0.9442192	0.0009917	-0.3979750	0.3307876	0.4779368	1.9067586	2.0868870	0.7714615	-0.0817495	-0.1548771	0.2023334	0.6713939	0.1331835	0.2583379	-0.1120293	-0.2052285	-0.3936293	-0.5051504	-0.9813295
(400,500]	0.5292524	0.0009921	-0.4392838	0.2866853	0.6829736	2.4778453	2.6088807	1.0324279	-0.0786055	-0.1707141	0.5279764	1.0242669	0.4134569	0.5809372	0.1915809	0.0737137	-0.1984027	-0.4006369	-1.0325931
(500,600]	1.5955517	0.0005538	-0.5146004	0.2255434	0.9411717	2.8992786	3.1894942	1.2977701	-0.1015228	-0.1855748	-0.5290737	0.0025129	-0.5427001	-0.4790347	-0.8861638	-1.0563116	-1.2618731	-1.6826272	-2.0659231
(600,700]	1.1409764	0.0011160	-0.5080827	0.0489279	0.9809090	3.3320317	3.4141842	1.3579241	-0.0936028	-0.2225595	0.0748108	0.5744050	-0.0451001	0.1187971	-0.2316108	-0.4560406	-0.8210162	-1.0570268	-1.8118735
(700,800]	0.7670116	0.0012022	-0.5771635	0.0881567	0.7545504	3.2979463	3.3507142	1.2017659	-0.1058950	-0.2231471	0.7804053	1.2337568	0.7121459	0.6956484	0.3090615	0.0306146	-0.2964289	-0.5697410	-1.4106755
(800,900]	1.5282540	0.0012752	-0.6120086	-0.0265203	0.8342980	3.5471337	3.6422431	1.2125694	-0.1160607	-0.2445540	-0.0271684	0.5930484	-0.0734735	-0.0028435	-0.3961067	-0.7700411	-0.9691161	-1.4007211	-2.2804818
(900,1e+03]	1.2954871	0.0012632	-0.5658598	-0.1862587	1.2165192	4.3727768	4.3572416	1.7268202	-0.0929041	-0.2511175	-0.2447057	0.2601544	-0.3349577	-0.3722939	-0.6773608	-1.0073868	-1.4813024	-1.8648795	-2.3703852

Note: Coeficientes de los parametros del modelo

Algunas intepretaciones son:

Al pasar de la jornada de la mañana a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 1.216.
Al pasar de la jornada de la noche a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 4.373.
Al pasar de la jornada de la sabatina-dominial a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 4.357.
Al pasar de la jornada de la tarde a jornada completa u ordinaria, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos aumentan en 1.727.
Al pasar del nivel de pobreza 3 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (700, 800] vs los otros grupos aumentan en 1.234.
Al pasar del nivel de pobreza 7 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (500, 600] vs los otros grupos disminuye en 1.056.
Al pasar del nivel de pobreza 8 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 1.481.
Al pasar del nivel de pobreza 9 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 1.864.
Al pasar del nivel de pobreza 8 a un nivel 1, el logaritmo de la razon de odds de estar en el grupo (900, 1000] vs los otros grupos disminuye en 2.370.

Se mirara la tabla de la significancia de los parámetros del modelo

	(Intercept)	ESTU_EDAD	ESTU_GENEROM	COLE_NATURALEZAO	COLE_INST_JORNADAMAÑANA	COLE_INST_JORNADANOCHE	COLE_INST_JORNADASABATINA - DOMINICAL	COLE_INST_JORNADATARDE	pobreza2	pobreza3	pobreza4	pobreza5	pobreza6	pobreza7	pobreza8	pobreza9	pobreza10
(100,200]	0.1214793	0.7841259	0.0412875	0.0000000	0.0247214	0.0004702	0.0001649	8.7e-06	0.2894467	0.0035249	0.4016109	0.0447786	0.3608035	0.5402665	0.8058196	0.5262808	0.3511740
(200,300]	0.1185521	0.0921226	0.0000002	0.0000000	0.0000000	0.0000000	0.0000000	0.0e+00	0.0420555	0.0000318	0.0378110	0.0158358	0.1313704	0.2547375	0.4103065	0.9250059	0.2588980
(300,400]	0.0000006	0.0047617	0.0000000	0.0000000	0.0000000	0.0000000	0.0000000	0.0e+00	0.3923141	0.0021748	0.4983503	0.1745590	0.5429925	0.2545671	0.0281646	0.0054887	0.0000002
(400,500]	0.0107553	0.0052200	0.0000000	0.0000006	0.0000000	0.0000000	0.0000000	0.0e+00	0.0328497	0.0000096	0.0503663	0.0046540	0.3377366	0.7072722	0.3111553	0.0441111	0.0000008
(500,600]	0.0000000	0.1424798	0.0000000	0.0000871	0.0000000	0.0000000	0.0000000	0.0e+00	0.0072473	0.9886828	0.0002814	0.0007420	0.0000000	0.0000000	0.0000000	0.0000000	0.0000000
(600,700]	0.0000000	0.0015765	0.0000000	0.3935470	0.0000000	0.0000000	0.0000000	0.0e+00	0.7223654	0.0029482	0.7894838	0.4628801	0.1348995	0.0025148	0.0000001	0.0000000	0.0000000
(700,800]	0.0001196	0.0006169	0.0000000	0.1295103	0.0000000	0.0000000	0.0000000	0.0e+00	0.0008245	0.0000000	0.0003155	0.0003078	0.0987921	0.8679380	0.1076223	0.0026007	0.0000000
(800,900]	0.0000000	0.0002912	0.0000000	0.6530337	0.0000000	0.0000000	0.0000000	0.0e+00	0.8936806	0.0013378	0.6461271	0.9852009	0.0067933	0.0000001	0.0000000	0.0000000	0.0000000
(900,1e+03]	0.0000000	0.0003699	0.0000000	0.0016629	0.0000000	0.0000000	0.0000000	0.0e+00	0.2084752	0.1408352	0.0253727	0.0094070	0.0000006	0.0000000	0.0000000	0.0000000	0.0000000

Note: Significancia de los parametros

De la tabla anterior, en general todas las covariables son significativas, ya que al menos en alguna de las subpoblaciones se rechaza la hipotesis nula, por lo tanto el rendimiento académico se ve afectado por las variables propuestas.

Comparación de las predicciones con las observaciones

	(0,100]	(100,200]	(200,300]	(300,400]	(400,500]	(500,600]	(600,700]	(700,800]	(800,900]	(900,1e+03]
(0,100]	3893	1045	406	129	85	212	70	59	6	37
(100,200]	2071	1263	555	216	174	473	107	165	16	139
(200,300]	1334	1132	649	233	178	547	152	212	32	248
(300,400]	1054	988	535	260	217	611	156	276	47	376
(400,500]	787	855	510	255	197	634	174	268	45	478
(500,600]	647	753	521	230	201	686	215	317	70	619
(600,700]	517	663	461	198	180	622	201	314	72	841
(700,800]	450	563	383	196	158	633	193	361	98	930
(800,900]	354	476	324	147	134	552	187	307	94	1112
(900,1e+03]	313	336	294	113	95	447	202	289	84	1346

Note: Matriz de confusión

El modelo es capaz de clasificar correctamente 0.2031321` de las observaciones de ajuste. Si se analiza en detalle cómo se distribuye el error, se aprecia que el modelo no ha sido capaz de identificar correctamente a los alumnos. Se propone utilizar otra clase de modelos que permita penalizar el error.

Conclusiones

Aunque los modelos no son adecuados para realizar predicciones, los resultados obtenidos sugieren que las variables propuestas, en el contexto de los resultados de las pruebas saber son relevantes, sin embargo, se recomienda estudiar otro tipo de modelos o mejorar los que se tienen.
En los dos modelos se observo que las variables que mas afectaban la probabilidad de pertener a un grupo o otro fueron la jornada del colegio y el nivel de pobreza; por lo tanto estas dos variables son importantes estudiarlas a fondo con modelos que puedan optimizar el error de falsos positivos, ya que se observan que afectan el resultado de las pruebas saber.
Mediante el modelo de Regresión Logística Multinomial, se determinó que la probabilidad de pertenecer al grupo (900, 1000] aumenta a medida que aumenta nivel de pobreza.
Se recomienda aplicar modelos optimizando el error de falsos positivos.

Referencias

de Respuesta, C. D. D. E. L. C. O. (n.d.). DICCIONARIO DE VARIABLES SABER 11° PERIODO 2013-20141. Gov.Co. Retrieved August 7, 2021, from https://www.icfes.gov.co/documents/20143/517898/Diccionario%20saber%2011%202013%201%20a%202014%201.pdf

PreICFES. (2012, May 6). ICFES, que es y para que sirve el examen de estado. Icfesinteractivo.info. https://icfesinteractivo.info/que-es/

Pruebas Saber - ..::Ministerio de Educaci�n Nacional de Colombia:: (n.d.). Gov.Co. Retrieved August 7, 2021, from https://www.mineducacion.gov.co/1621/w3-article-244735.html

Rodríguez Dueñas, F. J., Benavides Gutiérrez2, H. L., & Riascos Villegas, A. J. (2018, 2 octubre). Predicción del desempeño académico usando técnicas de aprendizaje de máquinas. ICFES. https://www.icfes.gov.co/documents/20143/234129/Prediccion+desempeno+academico+usando+un+enfoque+de+mineria+de+datos.pdf/0e5d0f1d-20ac-dffc-f3f1-88ccfde6b0bc