Antecedentes

A continuación, se elabora una propuesta de estudio que busca sentar los objetivos, metodologías e insumos necesarios que permitan analizar y evaluar el impacto de modificar la ponderación de selección asignada a las calificaciones de enseñanza secundaria. Para tal fin se busca caracterizar y sistematizar la relación entre el rendimiento académico temprano, a partir de las calificaciones de la instrucción secundaria, y factores de progresión académica tales como tasa de retención y/o permanencia. La USACH, busca establecer el mejor criterio de ponderación del factor de admisión, asociado a las calificaciones de enseñanza media que permitan una selección responsable de los estudiantes.

El Puntaje NEM corresponde al promedio de calificaciones de enseñanza media que se obtienen en cada nivel cursado, transformado a un puntaje estándar. El Puntaje Ranking se otorga a la posición relativa de las calificaciones de enseñanza media en comparación con las tres generaciones del o de las estudiantes en su contexto educativo.

Actualmente, la ponderación del puntaje de selección en USACH se desglosa en 10% para el rendimiento académico de las notas de enseñanza media (NEM) que se considera un registro absoluto y 40% con el Puntaje Ranking (PR), que busca establecer una posición relativa en su contexto educativo particular, asignando importancia a la posición obtenida de los estudiantes como factor de admisión. La adición de ambos factores constituye el 50% de la ponderación para la selección de ingreso a las 73 carreras de pregrado que conforman la oferta regular 2023 vigente con alumnos nuevos.

El otro 50 % corresponde a las pruebas de selección universitaria, actuales o pasadas. La institución busca conocer el impacto de alterar la actual ponderación Esto con el fin de determinar si es oportuno o requiere modificación, para una admisión con responsabilidad.

Objetivo General

  • Describir, relacionar y modelar los registros DEMRE-E de calificaciones de enseñanza media, puntaje ranking y los resultados de lenguaje y matemática, respecto de los registros de matrícula por carrera en torno a las tasas de retención, desde primer a tercer año.

Objetivos Específicos

  • Identificar las variables que resulten estadísticamente significativas en torno a la retención al primer, segundo y tercer año.

  • Determinar los efectos de NEM, RNK y LMAT como variables independientes, para los registros de retención por facultad.

  • Establecer comparaciones de los tres factores de selección indicados, de modo de identificar el tamaño de cada efecto y su nivel de significación y de esta manera determinar factores protectores en torno a la retención.

Metodología

  • Se trabajó con Información de postulaciones efectivas DEMRE-E desde el año 2014 hasta 2022. Se excluye el año de proceso 2023, dado que en este año se efectúa un cambio de escala (0 - 1000) y se producen cambios en las pruebas de selección.

  • Se consolidó la información y se procedió a relacionar con los registros de cohortes y retención para los años de cohorte 2014 - 2022. Esto resulta en 35017 registros con información DEMRE de matrículas efectivas en programas regulares.

Estos programas incluyen:

  • CUPO P.S.U.
  • CUPO P.D.T.
  • CUPO BEA
  • CUPO OFICIO DEMRE

I Descripción de las Variables Explicativas

1.1 NEM, Ranking y Lenguaje y Matemática

A continuación se describen los registros asociados a los Puntajes NEM, Ranking y LMAT presentes en la información de DEMRE-E consolidada. Importante señalar que las medidas de tendencia central, media y mediana indican que las calificaciones del nivel secundario de los postulantes a la Universidad de Santiago de Chile (USACH) son cada vez más altas, lo que denota que la institución habría aumentado su demanda, en cuanto a estudiantes con mejor rendimiento secundario. El caso de LMAT es menos claro a este respecto.

Continuas

Puntaje NEM Y Puntaje Ranking 2014 - 2022
grupo n media mediana sd min max rango asimetría kurtosis
X11 PTJE_NEM 35017 662.73 664.0 65.46 368 845 477 -0.28 0.15
X12 PTJE_RANKING 35017 716.99 721.0 87.24 383 850 467 -0.39 -0.30
X13 PROMEDIO_LMAT_REC 35017 600.27 600.5 57.14 306 821 515 0.08 0.05
X14 EDAD_2 35017 18.86 18.0 2.37 16 68 52 5.68 58.30

Categóricas

A continuación se describen las covariables del estudio:

Frecuencia Categoría Proporción
Sexo
18896 H 0.54
16121 M 0.46
35017 Sum 1.00
Grupo Dependencia
9407 Municipal 0.27
3413 Particular Pagado 0.10
22027 Particular Subvencionado 0.63
111 SLE 0.00
34958 Sum 1.00
Frecuencia Categoría Proporción
Region
5383 Region 0.15
29624 RM 0.85
35007 Sum 1.00
Rama Educacional
29371 Cientifico Humanista 0.84
7 Sin Informacion 0.00
5639 Tecnico Profesional 0.16
35017 Sum 1.00


\[ \] \[ \]

A continuación se muestra, por medio de tres histogramas, información de los registros de tres factores de selección: NEM, Ranking y LMAT (media de los resultados obtenidos de lenguaje y matemática).

Importante señalar la frecuencia anómala de aquellos puntajes iguales a 850 puntos para el Puntaje Ranking, que resultan escapar de la probabilidad esperada para esa región de la curva. En efecto, se espera una baja probabilidad de puntajes tan altos. Una posible explicación resulta en la naturaleza de la asignación del puntaje a los mejores estudiantes de cada generación. Esto implicaría la posibilidad de puntajes asociados a calificaciones medias o bajas con una alta asignación de Puntaje Ranking.

\[ \]

1.2 Distribución Variables Puntaje NEM, Ranking y LMAT

  • Respecto a la distribución de los datos la mediana del Puntaje NEM en 2014 corresponde a 649 la cual aumenta hasta 703 puntos en 2022.

  • En efecto, este aumento también se verifica en el Puntaje Ranking, en el 2014 709.5 la cual aumenta hasta 750 puntos en 2022.

  • La serie, para Lenguaje y Matemática inicia con una mediana de 601.5, en tanto que en 2022 esta corresponde a 590.5

Puntaje NEM, Ranking y LMAT 2014 - 2022 por Año de Proceso
PROCESO
NEM
RNK
LMAT
Año n media med min max sd asim media med min max sd asim n media med min max sd asim
2014 3840 647.4 649.0 400 818 64.9 -0.3 706.7 709.5 400 850 92.8 -0.3 3840 602.7 601.5 476.0 787.5 54.3 0.1
2015 4095 649.9 652.0 395 816 61.8 -0.2 715.9 719.0 395 850 89.5 -0.3 4095 605.0 604.0 475.0 814.0 56.6 0.2
2016 3519 653.8 657.0 414 826 60.0 -0.2 713.0 715.0 414 850 85.1 -0.2 3519 605.4 606.0 475.0 786.5 55.2 0.1
2017 3598 656.9 657.0 427 816 60.7 -0.2 715.4 718.0 427 850 84.8 -0.3 3598 605.0 605.5 475.0 792.5 54.5 0.2
2018 3891 657.3 658.0 435 824 61.2 -0.3 714.8 716.0 435 850 86.1 -0.3 3891 607.5 608.0 475.5 797.0 56.6 0.1
2019 3942 657.9 659.5 410 825 64.6 -0.4 710.8 716.0 414 850 88.7 -0.4 3942 602.1 603.0 475.0 790.5 55.8 0.1
2020 4378 661.4 661.0 407 835 63.4 -0.3 708.9 711.0 410 850 84.2 -0.3 4378 597.7 597.5 475.5 800.0 56.5 0.2
2021 3998 680.9 689.0 368 840 68.0 -0.6 727.6 735.0 383 850 87.1 -0.6 3998 587.8 588.0 306.0 821.0 61.3 -0.1
2022 3756 699.4 703.0 389 845 66.5 -0.6 740.9 750.0 407 850 80.9 -0.7 3756 590.2 591.0 330.0 797.5 59.3 0.0

Es posible indicar, que de acuerdo a la información expuesta y según a lo registrado por DEMRE, los estudiantes que ingresan a la USACH en el periodo descrito, pueden considerarse aptos para el nivel universitario. En efecto, solo el 25% de los puntajes se encuentra por debajo de 621 para el Puntaje NEM y 659 para Ranking, lo cual indicaría una población que evidencia aptitudes adecuadas para el nivel universitario, considerando que el 75% de las postulaciones presenta un puntaje medio o medio alto.

La distribución para los puntajes asociados a Lenguaje y Matemática indican que el primer cuartil se encuentra en torno a 560.5, es decir, el 25% de los resultados de Lenguaje y Matemática se encuentra por debajo de este indicador. En tanto que el tercer cuartil se encuentra en 637.5

En efecto, la mediana del Puntaje Ranking muestra la tendencia de aumento de este indicador de selección, particularmente a partir del año 2021, donde la tendencia parece acentuarse. Este comportamiento se evidencia también en el Puntaje NEM y Ranking, por otro lado, LMAT disminuye a partir del año 2021.

1.2.1 Distribución Variables Puntaje NEM, Ranking y LMAT - SEXO

Es posible identificar que la distribución de ambas variables favorece al grupo femenino.

  • En efecto, la mediana del periodo 2014-2022 para el grupo masculino del puntaje NEM corresponde a 651 en tanto que para el grupo femenino 680.

  • La mediana del periodo 2014-2022 para el grupo masculino del puntaje Ranking corresponde a 703 en tanto que para el grupo femenino 741.

  • La mediana del periodo 2014-2022 para el grupo masculino del puntaje del promedio de Lenguaje y matemática corresponde a 607 en tanto que para el grupo femenino 592.

1.2.2 Distribución Variables Puntaje NEM, Ranking y LMAT - Establecimiento de Origen

Respecto de la información de las variables analizadas y el establecimiento de origen se advierte que:

  • Para el Puntaje NEM, los mayores puntajes corresponden a estudiantes de establecimientos Particulares Pagados.

  • En tanto el Puntaje Ranking, favorece en mayor medida a estudiantes de establecimientos Particulares Subvencionados y Municipales.

  • Finalmente los registros de Lenguaje y matemática evidencian la mayor brecha entre particulares pagados y el resto de los establecimientos. Donde los primeros obtienen resultados más altos en cada año de la serie analizada.

II Descripción de la Variable Dependiente

En este apartado se describe la variable dependiente, la cual corresponde a una variable de tipo dicotómica, es decir, de respuesta binaria, donde si la variable toma el valor 0 corresponde a aquellos estudiantes “No Retenidos” y 1 los estudiantes “Retenidos”.En este caso se utiliza la retención por carrera, es decir, se considera retenido o retenida aquella matrícula que se mantiene al año siguiente en la misma carrera.

2.1 Gráficos: Box plot

En los siguientes gráficos se muestra la relación entre las variables Puntaje NEM, Ranking y LMAT según el grupo de No Retenidos (0) y Retenidos (1):

  • La relación para el Puntaje NEM es positiva y directa, es decir, a medida que aumenta el Puntaje NEM aumenta la probabilidad de estar retenido. El grupo retenido tiene puntajes más altos que el grupo no retenido.

  • En el Puntaje Ranking esta relación es nula al 1er año de retención, y al 2do y 3er año esta es directa.

  • Por otro lado, para el Puntaje LMAT esta relación es positiva y directa para la retención al año 1,2 y 3.

  • En primer año la diferencia porcentual de la media de los puntajes normalizados para NEM entre retenidos y no retenidos corresponde a 0.012 y la diferencia de la mediana es 0.0125. En la retención al tercer año esta diferencia corresponde a 0.0356 y 0.0294, respectivamente.

  • En primer año la diferencia porcentual de la media de los puntajes normalizados para RNK entre retenidos y no retenidos corresponde a 0.002 y la diferencia de la mediana es 0.0022. En la retención al tercer año esta diferencia corresponde a 0.0356 y 0.0321, respectivamente.

  • En primer año la diferencia porcentual de la media de los puntajes normalizados para LMAT entre retenidos y no retenidos corresponde a 0.0264 y la diferencia de la mediana es 0.0262. En la retención al tercer año esta diferencia corresponde a 0.0276 y 0.0272, respectivamente.

2.2 Modelos

Modelo Logístico

En primera instancia se realiza un modelo de regresión logística, el cual opera a través de una variable respuesta que se define como:

\[ y= \left\{ \begin{array}{l} 0 \hspace{3mm} Estudiante \hspace{1mm} No \hspace{1mm} Retenido\\ 1 \hspace{3mm} Estudiante \hspace{1mm} Retenido \end{array} \right. \] Esta regresión utiliza la función Logit, la cual se define como:

\[ F(x^t\beta) = \frac{e^{(x^t\beta)}}{1+e^{(x^t\beta)}} \] En esta primera iteración se utilizan las siguientes variables explicativas: Año de ingreso, carrera, Puntaje NEM, puntaje Ranking, puntaje Promedio(Comprensión Lectora y Matemática), edad, sexo, nivel socio económico, dependencia establecimiento educacional (Público, Subvencionado o Particular) y tipo de establecimiento (Científico Humanista o Técnico Profesional). Y se define un nivel de significancia de \(\alpha=0.05\).

De esta forma, en la siguiente tabla se observan los coeficientes, los odds ratio, que expresan la fuerza de la relación, y que variables son significativas para la explicación de la retención de primer año (Modelo 1), retención al segundo año (Modelo 2) y retención al tercer año (Modelo 3).

Interpretaciones

  • El Odd Ratio para la variable Puntaje NEM = 1.0036, es decir, si el Puntaje NEM aumenta en una unidad, y el resto de las variables del modelo se mantienen constantes, la probabilidad de retener al estudiante aumenta en 1.0036 en comparación si no aumenta en una unidad el puntaje NEM, esta variable es significativa para el modelo.

  • Ahora, el Odd Ratio para Puntaje Ranking = 0.9983, es decir, si el Puntaje Ranking aumenta en una unidad, y el resto de las variables del modelo permanecen constantes, la probabilidad de retener al estudiante disminuye 0.9983 en comparación si no aumenta el puntaje ranking en una unidad. En efecto, en referencia a la retención de primer año el Puntaje Ranking demuestra una relación negativa, donde a mayor puntaje ranking aumenta la probabilidad o las chances de no ser retenido.

  • Ahora, el Odd Ratio para Puntaje Lenguaje y Matemática = 1.0063, es decir, si el Puntaje lmat aumenta en una unidad, y el resto de las variables del modelo permanecen constantes, la probabilidad de retener al estudiante disminuye 1.0063 en comparación si no aumenta el puntaje lmat en una unidad.

Nota:

  • Para retención al primer año 35017, están todas las cohortes.

  • Para retención al segundo año 31261, están todas las cohortes menos 2022

  • Para retención al tercer año 27263, están todas las cohortes excepto 2021 y 2022.

Modelo de Cox

En esta instancia se utiliza la regresión de Cox, el cual expresa una función de riesgo \(h(t)\) en función del tiempo \(t\) y un conjunto de variables explicativas \((X)\). La variable tiempo se define como:

\[ t: \text{años hasta que el estudiante aparece como No Retenido.}\hspace{2mm} t=1,2,3\]

Esta regresión utiliza la función Logit, la cual se define como: \[ h(t,X)=h_0(t) \cdot exp{\sum_{j=1}^{p}\beta_jX_j}\]

En las siguientes tablas se observan los resultados de dos tablas sumarias del análisis de cox. En la primera de ellas se indica la cantidad casos en “riesgo” en este caso 35017 de los cuales se observan 6493 no retenciones que equivalen a una tasa de “sobreviviencia” de 0.815. La sobrevivencia al tercer año corresponde a 0.625

time n.risk n.event survival
1 35017 6493 0.815
2 25438 3172 0.713
3 19417 2390 0.625

La interpretación del modelo se presenta a través de la \(exp(\beta_i)\). Importante señalar que en esta tabla se omiten los coeficientes, ya que se trabaja directamente con los HR (Hazard Ratio). Cuando el HR es mayor que 1 indica que la relación es directa respecto de la variable dependiente. Asimismo, cuando el HR es menor que 1 indica una relación inversa.

Como el evento que se busca evaluar es relativo a la “No Retención”, los factores están invertidos respecto del Modelo Logístico ya presentado, es decir, aquí el evento es justamente opuesto: “No Retenido - No Retenida”.

  • De acuerdo a lo anterior podemos señalar que la variable asociada a las mujeres demuestra ser una variable significativa. El HR asociado corresponde a 0.93 por tanto la relación respecto del evento de no retención correspondería a un factor protector.

  • Es posible indicar que NEM es una variable significativa. El HR asociado corresponde a 0.996, por tanto la relación respecto del evento de no retención correspondería a un factor protector.

  • Es posible indicar que Ranking es una variable significativa. El HR asociado corresponde a 1.002, por tanto la relación respecto del evento de no retención correspondería a un factor de riesgo.

  • La variable Lmat, resulta ser significativa. El HR asociado corresponde a 0.995, y por tanto sería protector.

  • Es posible indicar que Region es una variable significativa. El HR asociado corresponde a 0.818, por tanto la relación respecto del evento de no retención correspondería a un factor protector, respecto de ser de región metropolitana que región.

  • Es posible indicar que los estudiantes de establecimientos Pagados resulta ser significativa. El HR asociado corresponde a 1.227, por tanto la relación respecto del evento de no retención correspondería a un factor de riesgo.

  • Es posible indicar que los estudiantes de establecimientos Subvencionados resulta ser significativa. El HR asociado corresponde a 0.916, por tanto la relación respecto del evento de no retención correspondería a un factor protector.

  • Es posible indicar que los estudiantes técnico profesionales de la variable rama educacional resulta ser no significativa. El HR asociado corresponde a 1.031, por tanto la relación respecto del evento de no retención correspondería a un factor de riesgo

Principales Resultados

Se indican los principales resultados, donde los modelos muestran convergencia. Es importante señalar que el modelo logístico muestra resultados por cada año de retención, en tanto que el modelo cox lo hace de manera agregada para todo el periodo.

  • Las notas de enseñanza media (NEM) resultan ser un factor protector. En efecto, se verifica una relación directa, es decir calificaciones más altas de NEM afectan positivamente la retención de primer, segundo y tercer año.

  • El puntaje Ranking, en ambos modelos se muestra como un factor de riesgo. Es decir, en muchas matrículas seleccionadas, a pesar de verificar altos o muy altos puntajes en este factor de selección, no se verifica un efecto directo, sino inverso en la trayectoria académica en términos de permanencia. En efecto, se muestra que muchos estudiantes seleccionados, “bonificados” por alto puntajes ranking, no garantizan su permanencia en la carrera de entrada o en el peor de los casos en la institución.

  • Los resultados de lenguaje y matemática, resulta ser un factor protector, es decir una relación directa respecto de la retención. En efecto, en cada año de retención, los resultados obtenidos garantizan un mejora relativa de la retención en estudiantes que obtienen puntajes más altos. Esta variable, como se discutió, es la que presenta los efectos mas grandes respecto del impacto en retención.

  • Ser mujer resulta ser un factor protector de la retención, tanto en primero, segundo o tercer año.

  • Ser de región resulta ser un factor de riesgo respecto que pertenecer a la región metropolitana, en cada año de retención.

  • Respecto del grupo de dependencia, pertenecer a origen municipal y subvencionado resulta ser un factor protector, no así aquellos estudiantes de origen Particular Pagado que representa un factor de riesgo en cada año de retención.

  • Finalmente, respecto de la rama educacional, resulta ser un factor de riesgo pertenecer a la rama Tecnico Profesional

Anexos

Anexo 1

Tabla continuas

Resultado Variables Continuas
Estado
ret 1
ret 2
ret 3
Año Ret
no ret
ret
no ret
ret
no ret
ret
Var Media Sd Media Sd Media Sd Media Sd Media Sd Media Sd
EDAD_2 18.89 2.67 18.86 2.29 18.97 2.71 18.86 2.22 19.01 2.54 18.86 2.20
PTJE_NEM 658.06 65.04 663.80 65.51 652.41 64.05 660.68 63.75 644.35 64.39 661.28 60.73
PTJE_RANKING 716.23 88.55 717.17 86.94 710.30 89.38 715.65 86.74 701.68 91.82 718.30 84.13
PROMEDIO_LMAT_REC 589.20 56.97 602.79 56.88 592.93 56.36 604.88 56.55 594.52 54.97 608.73 55.59

Gráfico Var. Cont.

Anexo 2

Tabla Columnas

Resultado Variables categoricas
var
ret 1
ret 2
ret 3
var
no ret
ret
no ret
ret
no ret
ret
freq prop freq prop freq prop freq prop freq prop freq prop
Sexo
H 3759 0.58 15137 0.53 5227 0.59 11564 0.52 6001 0.60 8685 0.51
M 2734 0.42 13387 0.47 3669 0.41 10801 0.48 4080 0.40 8497 0.49
Sum 6493 1.00 28524 1.00 8896 1.00 22365 1.00 10081 1.00 17182 1.00
Region
Region 1118 0.17 4265 0.15 1525 0.17 3324 0.15 1643 0.16 2579 0.15
RM 5372 0.83 24252 0.85 7367 0.83 19036 0.85 8434 0.84 14598 0.85
Sum 6490 1.00 28517 1.00 8892 1.00 22360 1.00 10077 1.00 17177 1.00
grupo dep
Municipal 1826 0.28 7581 0.27 2552 0.29 5899 0.26 2872 0.29 4474 0.26
Particular Pagado 717 0.11 2696 0.09 918 0.10 2044 0.09 977 0.10 1541 0.09
Particular Subvencionado 3908 0.60 18119 0.64 5375 0.61 14343 0.64 6194 0.62 11120 0.65
SLE 28 0.00 83 0.00 31 0.00 46 0.00 23 0.00 21 0.00
Sum 6479 1.00 28479 1.00 8876 1.00 22332 1.00 10066 1.00 17156 1.00
Rama
Cientifico Humanista 5288 0.81 24083 0.84 7314 0.82 18827 0.84 8252 0.82 14498 0.84
Sin Informacion 4 0.00 3 0.00 5 0.00 2 0.00 5 0.00 2 0.00
Tecnico Profesional 1201 0.18 4438 0.16 1577 0.18 3536 0.16 1824 0.18 2682 0.16
Sum 6493 1.00 28524 1.00 8896 1.00 22365 1.00 10081 1.00 17182 1.00

Tabla Filas

Resultado Variables categoricas
id
ret 1
ret 2
ret 3
id
no ret
ret
no ret
ret
no ret
ret
id freq prop freq prop freq prop freq prop freq prop freq prop
Sexo
1 H 3759 0.20 15137 0.80 5227 0.31 11564 0.69 6001 0.41 8685 0.59
2 M 2734 0.17 13387 0.83 3669 0.25 10801 0.75 4080 0.32 8497 0.68
Region
4 Region 1118 0.21 4265 0.79 1525 0.31 3324 0.69 1643 0.39 2579 0.61
5 RM 5372 0.18 24252 0.82 7367 0.28 19036 0.72 8434 0.37 14598 0.63
grupo dep
7 Municipal 1826 0.19 7581 0.81 2552 0.30 5899 0.70 2872 0.39 4474 0.61
8 Particular.Pagado 717 0.21 2696 0.79 918 0.31 2044 0.69 977 0.39 1541 0.61
9 Particular.Subvencionado 3908 0.18 18119 0.82 5375 0.27 14343 0.73 6194 0.36 11120 0.64
10 SLE 28 0.25 83 0.75 31 0.40 46 0.60 23 0.52 21 0.48
Rama
12 Cientifico.Humanista 5288 0.18 24083 0.82 7314 0.28 18827 0.72 8252 0.36 14498 0.64
13 Sin.Informacion 4 0.57 3 0.43 5 0.71 2 0.29 5 0.71 2 0.29
14 Tecnico.Profesional 1201 0.21 4438 0.79 1577 0.31 3536 0.69 1824 0.40 2682 0.60

(tab content)

Anexo 3

A continuación se describe el porcentaje de estudiantes que regresa a la institución, luego de ser considerado como no retenido.
Tabla Estudiantes no retenidos que regresan
Año frec_1 prop_1 frec_2 prop_2 total
2014 16 2.11% 17 1.39% 33
2015 13 1.33% 14 0.99% 27
2016 14 2.1% 19 1.8% 33
2017 5 0.66% 11 0.96% 16
2018 14 1.79% 15 1.33% 29
2019 20 3.06% 6 0.7% 26
2020 26 4.6% 10 1.08% 36
2020 26 4.6% 0 0 26
2021 8 1.2% NA NA NA