En este apartado se muestra el comportamiento de la matrícula de mujeres y hombres de pre-grado universitario para el período 2007 - 2021. El modelo que se generará consiste en un modelo lineal, donde estipulamos que existe dependencia entre el número de matriculados en el sistema y el sexo totalizado de la matrícula, para un primer modelo.

Como primera hipótesis, es posible señalar que existiría una diferencia en la matrícula universitaria de pre-grado, si consideramos el sexo como factor.

Es decir, la variable sexo, permitiría otorgar una explicación al aumento de la matrícula universitaria de pre-grado. En donde este incremento, como se ha establecido en el apartado descriptivo, favorece de manera general a la matrícula femenina.

indicadores descriptivos
NIVEL.GLOBAL variable 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Pregrado hombres 246245 256877 267394 283710 295876 300772 308875 306709 304750 305317 306727 309526 308479 298845 310537
Pregrado mujeres 259137 267733 282342 301681 319935 330494 336458 338658 341445 350464 359079 368687 368605 361345 380843

En el primer modelamiento, la diferencia promedio de la matrícula femenina y masculina para el periodo 2007 - 2021 corresponde a 37.084. Es decir, la matricula femenina evidencia un aumento medio de 37.085 en el periodo evaluado en comparación con la media de matricula masculina. La variable resulta ser significativa (p<0,01). Es decir, con 99% de confianza podemos señalar que el sexo es una variable que explica el aumento de la matrícula del sistema universitario chileno y además se demuestra que las medias de matrícula femenina son más altas que la matrícula masculina, a nivel general.

No obstante, el r ajustado resulta ser bajo, 0,257, el cual indica que la relación de dependencia indicada sólo explica el 26% de la variabilidad entre el número de matriculados y el sexo asociado a la matrícula.

###idea modelo lineal para reemplazar diferencia de medias
#model_2=with(tabla_1.1, lm(value~variable+as.factor(AÑO)))


#summary(with(tabla_1.1, lm(value~variable)))


#summary(model_2)
model_1=with(tabla_1.1, lm(value~variable))
#pander(model_1)
summary(model_1)
## 
## Call:
## lm(formula = value ~ variable)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -71990 -10977   8924  15321  49716 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       294043       7895  37.244   <2e-16 ***
## variablemujeres    37085      11165   3.321   0.0025 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30580 on 28 degrees of freedom
## Multiple R-squared:  0.2826, Adjusted R-squared:  0.257 
## F-statistic: 11.03 on 1 and 28 DF,  p-value: 0.0025
#pander(model_2)
###modelo 1
#model_1=with(tabla_1.1, lm(value~variable))

Por tal motivo se genera un segundo modelo que permite obtener un mayor grado explicación de la variabilidad. Para tal efecto, se agrega la variable año, como factor, en la relación de dependencia, todo lo cual genera un modelo lineal múltiple.

Este modelo, exhibe un r ajustado de 0,84, el cual ya puede considerarse un modelo razonable, tanto para explicar la dependencia como para generar pronósticos plausibles.Es decir este modelo explica el 84% de la variación entre las variables ingresadas al modelo.

En este segundo modelo, la matricula femenina continua evidenciado el mismo beta. Ahora bien, se evalúa cada año como factor de la relación de dependencia. Todos resultan significativos, excepto 2008 y 2009 los cuales son los años con menor diferencia entre la matrícula femenina y masculina (ver gráficos).

A partir de 2012 cada uno de los años resulta ser significativo con un error inferior a 0,001, es decir el tiempo resulta ser otra variable importante para explicar el aumento de la matrícula en el sistema universitario.

Por tanto, el modelo indica el aumento sostenido de la matrícula desde 2007 a 2021, donde desde 2010 el incremento resulta ser estadísticamente significativo, es decir podemos generalizarlo a la mayoría de los programas que SIES publica. Y además, la diferencia promedio de la matrícula femenina y masculina para el periodo 2007 - 2021 corresponde a 37.084.

En consecuencia, la matrícula Universitaria de pre-grado es mayoritariamente femenina y esta sentencia es estadísticamente significativa. Además, la matrícula del sistema exprimenta un aumento significativo, desde el año 2010 hasta el final de la serie.

###idea modelo lineal para reemplazar diferencia de medias
model_2=with(tabla_1.1, lm(value~variable+as.factor(AÑO)))
summary(model_2)
## 
## Call:
## lm(formula = value ~ variable + as.factor(AÑO))
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -16611  -9076      0   9076  16611 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          234149      10268  22.804 1.80e-12 ***
## variablemujeres       37085       5134   7.223 4.40e-06 ***
## as.factor(AÑO)2008     9614      14060   0.684 0.505276    
## as.factor(AÑO)2009    22177      14060   1.577 0.137049    
## as.factor(AÑO)2010    40005      14060   2.845 0.012971 *  
## as.factor(AÑO)2011    55215      14060   3.927 0.001519 ** 
## as.factor(AÑO)2012    62942      14060   4.477 0.000522 ***
## as.factor(AÑO)2013    69976      14060   4.977 0.000203 ***
## as.factor(AÑO)2014    69993      14060   4.978 0.000203 ***
## as.factor(AÑO)2015    70407      14060   5.008 0.000192 ***
## as.factor(AÑO)2016    75200      14060   5.348 0.000103 ***
## as.factor(AÑO)2017    80212      14060   5.705 5.44e-05 ***
## as.factor(AÑO)2018    86416      14060   6.146 2.54e-05 ***
## as.factor(AÑO)2019    85851      14060   6.106 2.71e-05 ***
## as.factor(AÑO)2020    77404      14060   5.505 7.75e-05 ***
## as.factor(AÑO)2021    92999      14060   6.614 1.16e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 14060 on 14 degrees of freedom
## Multiple R-squared:  0.9242, Adjusted R-squared:  0.8429 
## F-statistic: 11.37 on 15 and 14 DF,  p-value: 2.264e-05
#model_1=with(tabla_1.1, lm(value~variable))
#pander(model_1)
#summary(model_1)

#pander(model_2)
###modelo 1
#model_1=with(tabla_1.1, lm(value~variable))

En efecto, un ejercicio visual apoya esta los resultados del moldeamiento.

La mediana de la matrícula femenina para el periodo indicado se encuentra en torno a 34.000 matriculadas en circunstancias que la mediana masculina se encuentra un poco por sobre 31.000 (boxplot)

A partir del año 2010 la diferencia entre la matrícula femenina y masculina se hace evidente.(gráfico de puntos)

with(tabla_1.1, plot(value~variable+AÑO))

En este apartado damos cuenta de las pruebas que nos permitirán demostrar o declinar la hipótesis central del trabajo, el cual señala que existirían diferencias estadísticamente significativas entre en la matrícula si controlamos por sexo.

Donde, de corroborarse la hipóestsis, y la información presentada en el apartado descriptivo la matrícula femenina se ve sub-representada, en el área de tecnología, a pesar de que a nivel general la matrícula femenina es mayoría en el sistema universitario de pregrado.

indicadores descriptivos Área tecnología
NIVEL.GLOBAL variable 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021
Pregrado hombres 83498 89557 93770 99888 104632 107778 114854 115756 115974 115509 116071 115763 113239 108025 113307
Pregrado mujeres 23006 25020 27174 28675 30224 31673 34748 35536 35706 36013 36528 36614 35965 35004 37083

Para tal efecto se modelarán dos modelos adicionales lineales controlando por el área de conocimiento “tecnología” que agrupa a los programas que involucran a la matemática, física, informática, mecánica, etc.

El beta del modelo resulta ser negativo, esto indica que la categoría de referencia, es decir mujeres, representa un dato menor al masculino.

La diferencia promedio de la matrícula femenina y masculina para el periodo 2007 - 2021, dentro del área de Tecnología corresponde a -74.577. Es decir, la diferencia promedio de la matricula totalizada entre hombres y mujeres resulta ser desfavorable para el grupo femenino con una diferencia de 74.577 matrículas. En efecto, la media de matrícula masculina resulta ser siempre más alta para cada uno de los años de la serie (p<0,001).

El r ajustado indica 0,98, lo cual nos indica que el modelo es capaz de explicar el 98% de la variabilidad de la relación de dependencia expuesta.

Por otro lado, el aumento de la matrícula resulta ser significativa, en el área de tecnología en cada uno de los años incluidos en el modelo excepto 2008 y 2009, lo cual coincide con los modelos expuestos anteriormente.

## 
## Call:
## lm(formula = value ~ variable + as.factor(AÑO))
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -7042  -2416      0   2416   7042 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           90540       3247  27.884 1.14e-13 ***
## variablemujeres      -74577       1624 -45.935  < 2e-16 ***
## as.factor(AÑO)2008     4036       4446   0.908 0.379322    
## as.factor(AÑO)2009     7220       4446   1.624 0.126703    
## as.factor(AÑO)2010    11030       4446   2.481 0.026437 *  
## as.factor(AÑO)2011    14176       4446   3.188 0.006572 ** 
## as.factor(AÑO)2012    16474       4446   3.705 0.002354 ** 
## as.factor(AÑO)2013    21549       4446   4.847 0.000259 ***
## as.factor(AÑO)2014    22394       4446   5.037 0.000182 ***
## as.factor(AÑO)2015    22588       4446   5.080 0.000168 ***
## as.factor(AÑO)2016    22509       4446   5.062 0.000173 ***
## as.factor(AÑO)2017    23048       4446   5.184 0.000139 ***
## as.factor(AÑO)2018    22937       4446   5.159 0.000145 ***
## as.factor(AÑO)2019    21350       4446   4.802 0.000282 ***
## as.factor(AÑO)2020    18263       4446   4.107 0.001067 ** 
## as.factor(AÑO)2021    21943       4446   4.935 0.000219 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4446 on 14 degrees of freedom
## Multiple R-squared:  0.9937, Adjusted R-squared:  0.9869 
## F-statistic: 146.2 on 15 and 14 DF,  p-value: 9.753e-13