El conjunto de datos cuentas con 1725 características, sin embargo muchas de ellas no contienen información. Por esta razón se deciden eliminar las característica que tengan más del 20% en valores NaN. Por otra parte, el conjunto de datos contiene diferentes formas para representar los valores vacíos, por ejemplo cadenas de texto vacías o con espacios y, adicionalmente, hay registros con valores en PrivacySuppressed. Todos estos valores se recopilaron y se replazaron por el objeto NA de R.
Existen variables (INSTNM, NPCURL, INSTURL) con todos los valores, pero no aportan información para el análisis. Estas columnas también fueron eliminadas del conjunto de datos. La variable LOCALE tiene categorías y sub-categorías, por lo cual se decide que no son necesarias ya que con las categorías es suficiente para describir lo que se quiere. Finalmente, se eliminaron variables redudantes del conjunto de datos, por ejemplo, LONGITUDE, LATITUDE, ZIP, entre otras.
Se estandarizan todas las variables categóricas a un mismo tipo de dato: factor. Además, se observa que en gran medida las variables categóricas están dadas por las CIP*, por lo que se decide tenerlas en otro dataframe.
Por otra parte, se divide el conjunto de datos en variables númericas y categóricas con el fin de facilitar el procesamiento de las componentes principales. Sin embargo, en el conjunto de datos categórico quedaron varias variables numéricas, así que se obtuvo el índice de la última categórica y se extrajeron desde ese índice hasta el final las otra numéricas. Esto luego se unió con el conjunto total de variables numéricas. Las variables CIP* obtenidas previamente se eliminan ya que estas no representan una información fácil de interpretar para cada universidad.
Los datos numéricos faltantes se completan realizando una extrapolación de los datos que se tienen en la base datos. Se hacen separado para los datos numéricos y enteros. También los datos numéricos se normalizaron con el método Min-Max para dejar los registros en un rango de 0-1.
Con los datos numéricos extrapolados y estandarizados se hace un análisis de las componente principales. A continuación se presenta este resumen:
## Importance of components:
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
## Standard deviation 0.9191915 0.58297084 0.53887308 0.50883809 0.41066151
## Proportion of Variance 0.2286032 0.09195259 0.07856757 0.07005345 0.04562872
## Cumulative Proportion 0.2286032 0.32055582 0.39912339 0.46917684 0.51480557
## Comp.6 Comp.7 Comp.8 Comp.9 Comp.10
## Standard deviation 0.37820659 0.36694189 0.34975305 0.31355355 0.30219511
## Proportion of Variance 0.03870156 0.03643048 0.03309736 0.02660074 0.02470843
## Cumulative Proportion 0.55350713 0.58993761 0.62303497 0.64963572 0.67434415
## Comp.11 Comp.12 Comp.13 Comp.14 Comp.15
## Standard deviation 0.28722743 0.2775111 0.2726052 0.26725272 0.25724364
## Proportion of Variance 0.02232144 0.0208368 0.0201066 0.01932478 0.01790439
## Cumulative Proportion 0.69666558 0.7175024 0.7376090 0.75693377 0.77483816
## Comp.16 Comp.17 Comp.18 Comp.19 Comp.20
## Standard deviation 0.24590300 0.24475789 0.23806309 0.23249036 0.22346240
## Proportion of Variance 0.01636055 0.01620853 0.01533396 0.01462447 0.01351074
## Cumulative Proportion 0.79119872 0.80740725 0.82274121 0.83736569 0.85087643
## Comp.21 Comp.22 Comp.23 Comp.24 Comp.25
## Standard deviation 0.21548018 0.20654488 0.2021161 0.19899718 0.178326506
## Proportion of Variance 0.01256276 0.01154248 0.0110528 0.01071431 0.008604034
## Cumulative Proportion 0.86343919 0.87498167 0.8860345 0.89674878 0.905352811
## Comp.26 Comp.27 Comp.28 Comp.29
## Standard deviation 0.176170140 0.166535124 0.159094753 0.152297060
## Proportion of Variance 0.008397208 0.007503813 0.006848288 0.006275573
## Cumulative Proportion 0.913750020 0.921253833 0.928102121 0.934377694
## Comp.30 Comp.31 Comp.32 Comp.33
## Standard deviation 0.136831039 0.13402316 0.130138874 0.124477008
## Proportion of Variance 0.005065701 0.00485993 0.004582309 0.004192264
## Cumulative Proportion 0.939443395 0.94430333 0.948885635 0.953077898
## Comp.34 Comp.35 Comp.36 Comp.37
## Standard deviation 0.119112064 0.112347806 0.106769858 0.106025578
## Proportion of Variance 0.003838679 0.003415069 0.003084378 0.003041527
## Cumulative Proportion 0.956916578 0.960331647 0.963416025 0.966457552
## Comp.38 Comp.39 Comp.40 Comp.41
## Standard deviation 0.100640570 0.09125751 0.085450277 0.082321487
## Proportion of Variance 0.002740416 0.00225324 0.001975592 0.001833567
## Cumulative Proportion 0.969197968 0.97145121 0.973426801 0.975260367
## Comp.42 Comp.43 Comp.44 Comp.45
## Standard deviation 0.079554247 0.075274211 0.071759063 0.071166150
## Proportion of Variance 0.001712368 0.001533073 0.001393233 0.001370305
## Cumulative Proportion 0.976972735 0.978505808 0.979899041 0.981269346
## Comp.46 Comp.47 Comp.48 Comp.49
## Standard deviation 0.067800014 0.06687236 0.063686140 0.061923613
## Proportion of Variance 0.001243741 0.00120994 0.001097388 0.001037488
## Cumulative Proportion 0.982513087 0.98372303 0.984820415 0.985857902
## Comp.50 Comp.51 Comp.52 Comp.53
## Standard deviation 0.0596348755 0.058504917 0.0548864522 0.0537900373
## Proportion of Variance 0.0009622124 0.000926094 0.0008150808 0.0007828418
## Cumulative Proportion 0.9868201147 0.987746209 0.9885612894 0.9893441313
## Comp.54 Comp.55 Comp.56 Comp.57
## Standard deviation 0.0531466051 0.0523233626 0.0515899450 0.0497663032
## Proportion of Variance 0.0007642252 0.0007407329 0.0007201127 0.0006701023
## Cumulative Proportion 0.9901083565 0.9908490894 0.9915692021 0.9922393043
## Comp.58 Comp.59 Comp.60 Comp.61
## Standard deviation 0.0491741524 0.0457991576 0.0452225126 0.044617837
## Proportion of Variance 0.0006542505 0.0005675254 0.0005533242 0.000538626
## Cumulative Proportion 0.9928935549 0.9934610803 0.9940144045 0.994553031
## Comp.62 Comp.63 Comp.64 Comp.65
## Standard deviation 0.0443427544 0.0430416317 0.0417048490 0.0384594607
## Proportion of Variance 0.0005320049 0.0005012424 0.0004705908 0.0004001997
## Cumulative Proportion 0.9950850355 0.9955862779 0.9960568687 0.9964570683
## Comp.66 Comp.67 Comp.68 Comp.69
## Standard deviation 0.0370376791 0.0363664572 0.0356512718 0.0328017850
## Proportion of Variance 0.0003711572 0.0003578263 0.0003438907 0.0002911155
## Cumulative Proportion 0.9968282255 0.9971860518 0.9975299425 0.9978210580
## Comp.70 Comp.71 Comp.72 Comp.73
## Standard deviation 0.0315691678 0.0299463955 0.0287314219 0.0276359155
## Proportion of Variance 0.0002696476 0.0002426383 0.0002233493 0.0002066417
## Cumulative Proportion 0.9980907056 0.9983333439 0.9985566932 0.9987633350
## Comp.74 Comp.75 Comp.76 Comp.77
## Standard deviation 0.0274265720 0.025570966 0.023691094 0.0230650632
## Proportion of Variance 0.0002035229 0.000176915 0.000151859 0.0001439394
## Cumulative Proportion 0.9989668579 0.999143773 0.999295632 0.9994395713
## Comp.78 Comp.79 Comp.80 Comp.81
## Standard deviation 0.0207444318 0.0201049644 0.0197521841 1.769178e-02
## Proportion of Variance 0.0001164323 0.0001093646 0.0001055603 8.468632e-05
## Cumulative Proportion 0.9995560035 0.9996653682 0.9997709285 9.998556e-01
## Comp.82 Comp.83 Comp.84 Comp.85
## Standard deviation 1.670872e-02 1.567112e-02 2.979684e-03 3.467182e-05
## Proportion of Variance 7.553645e-05 6.644622e-05 2.402208e-06 3.252547e-10
## Cumulative Proportion 9.999312e-01 9.999976e-01 1.000000e+00 1.000000e+00
## Comp.86 Comp.87 Comp.88 Comp.89
## Standard deviation 3.264214e-09 3.165327e-09 2.116336e-09 2.038354e-09
## Proportion of Variance 2.882887e-18 2.710862e-18 1.211824e-18 1.124164e-18
## Cumulative Proportion 1.000000e+00 1.000000e+00 1.000000e+00 1.000000e+00
## Comp.90
## Standard deviation 0
## Proportion of Variance 0
## Cumulative Proportion 1
De lo anterior, se puede observar que las primeras 17 componentes explican, aproximadamente, el 80% de la variabilidad. Para confirmar esto analíticamente, se calcula la variabilidad acumulada de las componentes y se obtiene la mínima componente con un 80% aproximado de esta:
## Comp.17
## 17
Lo cual confirma lo que se mostró anterior. Para ver gráficamente lo anterior:
Figura 1: Numero de CP que explican el 80% de variabilidad
Como resumen de las componentes, el siguiente gráfico muestra la varianza explicada por la primeras 10 componentes:
Figura 2: Grafico de la varianza por CP
Se necesita tener la proyección del conjunto de datos sobre las componentes principales óptimas, para luego unirlo con el conjunto categórico. Esta proyección se realiza obteniendo los vectores propios de estas componentes, y aplicando un producto de matrices entre estos vectores y el conjunto de datos numéricos. Finalmente, se une este nuevo conjunto de datos con el categórico.
## Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7
## 1 -0.6445214 0.02441169 -1.701497 -0.3384359 0.71236675 -1.251629 -0.26129528
## 2 -0.8602802 0.07942134 -1.014516 -1.0252714 0.49799893 -1.290255 0.53148953
## 4 -0.8043934 -0.01907578 -1.198065 -0.3931983 0.03886686 -0.804247 0.58079545
## 5 -0.7199848 0.42063106 -1.582556 -0.7772371 0.97444140 -1.470664 -0.15260423
## 6 -1.2933220 -0.26015744 -1.064702 -1.3327491 0.74580368 -1.608232 0.79224632
## 9 -0.6587499 0.38736931 -0.695950 -0.2222746 0.31174816 -1.000238 0.02060085
## Comp.8 Comp.9 Comp.10 Comp.11 Comp.12 Comp.13 Comp.14
## 1 0.3959464 0.94290015 0.12343202 1.2973687 -1.1144888 -0.5400651 0.4448480
## 2 -0.3211145 0.14326492 -0.16456826 1.1503965 -0.6030569 -0.5564275 0.4588330
## 4 -0.1145871 0.73307136 0.22688617 0.9950439 -0.3226775 -0.8838823 0.1418477
## 5 0.2610294 0.93480728 -0.01095933 1.2940816 -0.9534551 -0.4143478 0.5171577
## 6 -0.6808286 0.09615133 -0.23330100 1.0924899 -0.7850568 -0.6512541 0.5683692
## 9 -0.3491976 0.92248707 0.48700651 0.8893789 -0.9004740 -0.4030082 0.5593710
## Comp.15 Comp.16 Comp.17
## 1 0.311046251 0.5245182 -0.19459022
## 2 0.253131861 0.2720660 -0.20499346
## 4 0.042184704 0.4077419 -0.49839602
## 5 0.035414769 0.5491942 0.06827722
## 6 0.369438746 0.2429720 -0.09429776
## 9 -0.004864729 0.3242670 -0.39399788
Ahora se muestra un gráfico de pares para las primeras 5 componentes del conjunto de datos:
Figura 3: Grafico de dispersion de las 5 CP
De esto se puede concluir que no existe algún tipo de relación entre las componentes evaluadas ya que la información no sigue algún patrón de linealidad.
Se determina la cantidad óptima de clúster probando con diferentes valores de K y se evalúan con el Método de Codo (el cual calcula la suma del cuadrado de los errores para cada clúster). Para esto se hace uso del método kproto.
Figura 4: Grafica de Codo para k optimo
Para la selección óptima de clústers se escogen dos K y, de la gráfica anterior, se compara cuál de estos da la mayor inclinación. En particular, se eligen 4 clústers ya que este es el que mejor muestra tal comportamiento. Luego, con este K óptimo, se construye el modelo de agrupamiento con el método KProto debido a que este permite el tratamiento de datos categóricos y numéricos a la vez.
Teniendo el agrupamiento, se proyectan las componentes 1 y 2 en este para observar cómo se distribuyen. Este es el resultado:
Figura 5: Comp 1 vs Copm 2 discriminado por su respectivo cluster
Adicionalmente, se puede calcular la importancia de cada variable en las componentes. Esto ayuda para la elección de los representantes de cada clúster. Esto se lleva todas las componentes y se hace uso del método melt:
Se realiza el cálculo de la importancia por cada componente, luego se ordena de manera ascendente, se seleccionan las primeras cuatro variables de cada componente, y se eliminan las duplicadas.
A continuación se presenta gráficamente la importancia de las variables para las primeras 3 componentes:
De manera general, en la componente 1 se muestran variables con porcentaje de padres cuyo nivel académico más alto es postscundaria o secundaria, porcentaje de estudiantes financieramente independientes y porcentaje de estudiantes de primera generación. En la componente 2 se observa que tanto las variables más importantes (DEBT_MDN, DEBT_MDN_SUPP, etc) como el resto tienen relación con deuda que tiene los estudiantes que aún estudian. Por ende, es un indicio que esta componente trata de describir la información relacionada con las deudas de los estudiantes actuales. Por otra parte, la componente 3 tiene también una relación con las deudas, sin embargo la información que contiene está asociada a los estudiantes ya graduados.
Las variables con mayor importancia por componente se unen con las categóricas para realizar un análisis conjunto. A este, además, se le agrega una columna que especifica a qué clúster pertenece cada registro. Esta columna se utiliza para agrupar los registros por clúster y calcular la media y la mediana de cada variable en cada uno de los clústers.
Se muestra el resumen de los datos con la métrica del promedio:
El análisis para las variable categóricas se hace por medio de los porcentajes de distribución de cada variable en los clúster, como se muestra a continuación
De acuerdo a las gráficas anteriores se puede realizar un análisis para las siguientes variables:
Como se observó previamente, esta es la proyección de la componente 1 y 2 sobre el modelo de agrupamiento:
Figura 6: Comp 1 vs Copm 2 discriminado por su respectivo cluster
Al tener un resumen general del significado de cada componente se puede dar una posible explicación a este agrupamiento en particular. Por ejemplo, se puede apreciar que la componente 1 tiene valores relativamente altos para el clúster 1, lo que significa que en este grupo de universidades se tiene un alto porcentaje de estudiantes de primera generación, como también que sus padres han recibido una educación igual o superior a la secundaria. Por otra parte, en el cluster 2 se tienen los valores más altos para la componente 2, lo que conlleva a que los estudiantes de estas universidades tienen un alto porcentaje de endudamiento con las entidades financieras. Otra observación es que los estudiantes del clúster 2 (los de mayor endeudamiento) hacen parte de universidades privadas con ánimo de lucro. Finalmente, se pueden mezclar las observaciones para obsevar que los estudiantes con menor endeudamiento vienen de familias en las cuales no tienen una preparación educativa alta, además que son dependientes financieramente de los padres.
El Sistema Nacional de Información de la Educación Superior (SNIES) se encarga de compilar y estructurar diferentes datos referentes a las diferentes instituciones de educación superior del país (IES) [4]. El objetivo de este sistema es generar información que permita orientar a las IES en la toma de decisiones que permitan mejorar la calidad del sistema educativo y generar también indicadores que permitan evaluarlas.
En las bases consolidadas del SNIES se pueden encontrar datos que permitan generar algún tipo de agrupamiento como el desarrollado en el presente documento, datos como:
En las consultas públicas se puede encontrar una base de datos con información sobre todas las ies oficiales del país con su localidad, sector, acreditacón y convenios, y de sus programas académicos se tiene el nivel, la modalidad y el reconocimiento del ministerio. [5]
Con estos datos se pueden generar algunos datos relevantes similares a los que se encontraron en el presente documento, como por ejemplo, tasas de admision, localidad, modalidad, campus principal, acreditación, nivel más alto, entre otros. También hay otros datos relevantes que no se han encontrado o no son de dominio público, por ejemplo, los créditos y becas otorgados a estudiantes, precio del programa y alumnos distinguiendo por etnia o condiciones físicas o mentales. Algunos de estos datos pueden ser encontrados en las encuestas de calidad de vida del DANE, pero es posible que no se tenga información de la ies asociada al encuestado.
La estructura del conjunto de datos dificultó que se pudiese hacer un análisis más detallado y preciso debido a que contenía muchos datos null, muchas características no tenían datos suficientes y eran relevantes para el análisis.
Tener las componentes principales facilitó ver las relaciones entre variables que, en principio, no se podían apreciar. Esto, además, ayudó a entrelazar significados de diferentes variables.
Se tuvo una interpretación más sencilla de las variables categóricas en los clúster en comparación con las numéricas. Esto puede ser porque las numéricas estaban representadas a través de componentes principales, lo cual hace más difícil su interpretación individual.
Realizar un estudio más detallado sobre cada variable del conjunto de datos para determinar cuáles de estas tienen mayor relevancia para el estudio o cuáles pueden ser eliminadas directamente.
En este trabajo no se tuvieron en cuenta los nombres de las instituciones, sin embargo se cree que al tenerlas se tiene una mejor interpretación de los clúster y puede dar mejores resultados para tomar decisiones.
[1] G. James, Et all, An Introduction to Statistical Learning with Applications in R. New York :Springer, 2013. [E-book].
[2] Klaudia. Bury, ‘Clustering on PCA results’, 2021. [Online]. Available: https://rpubs.com/Bury/ClusteringOnPcaResults. [Accessed: 11- Jun- 2022] [3] Luke. Hayden, ‘Principal Component Analysis in R Tutorial’, 2018. [Online]. Available: https://www.datacamp.com/tutorial/pca-analysis-r. [Accessed: 09- Jun- 2022] [4] Qué es el SNIES. Snies.mineducacion.gov.co. (2022). Retrieved 14 June 2022, from https://snies.mineducacion.gov.co/portal/EL-SNIES/Que-es-el-SNIES/.
[5] Información Poblacional - SNIES. Hecaa.mineducacion.gov.co. (2022). Retrieved 14 June 2022, from https://hecaa.mineducacion.gov.co/consultaspublicas/ies.