Agrupación de instituciónes de orden superior

Introducción

El clustering permite encontrar patrones en un conjunto de datos y agrupar los registros que comparten datos similares. Entender los grupos cuando podemos visualizarlos en un plano es fácil, pero cuando el conjunto de datos tiene muchas características se hace necesario reducirlas con el fin de optimizar los algoritmos de machine learning y mejorar el entendimiento e interpretación de resultados. En el trabajo actual se presenta un dataset con instituciones de educación superior de los estados unidos, el cual contiene muchas características por cada institución. Se desarrolla entonces un análisis de componentes principales (PCA) para reducir la dimensionalidad mediante la creación de componentes principales como combinaciones lineales de las variables originales. Posteriormente se realizó un agrupamiento de instituciones utilizando el algoritmo K-means y se categorizó cada grupo según las tres variables más importantes para construir cada componente principal. Por ultimo, se propone la extrapolación del conjunto de datos a nuestro contexto colombiano y como se podria recopilar información relevante.

Datos

Se utilizará información de un dataset suministrado por el profesor Juan David Ospina Arango en la asignatura Técnicas en Aprendizaje Estadístico para el primer semestre del año 2022. Este conjunto de datos contiene la información de instituciones de educación superior en los Estados Unidos. Se cuenta con un total de 7804 registros y 1725 variables entre las que resaltan el nombre de la institución, ubicación y segregación por tipo de estudiantes según género. A partir de estos datos se busca agrupar las instituciones, realizar un análisis sobre qué caracteriza cada grupo de instituciones y finalmente entender que hace de cada grupo una buena opción, además de proponer un modelo similar para el contexto Colombiano.

Presentación de resultados y desarrollo

Limpieza

De las 1725 caracteristicas, se identifican 1174 cuyos datos en su 100% estan vacios, por lo que se deciden eliminar del conjunto de datos. Esto nos deja con un total de 551 variables para continuar nuestro modelo. En la figura 1 se muestra un histograma de la cantidad de columnas con sus datos vacios.

HistoFalta

FIGURA 1
Histograma de columnas con datos faltantes

Se decide reemplazar el valor del string “PrivacySupressed”, presente en algunas columnas, por NaN (entendiendo estos datos como datos suprimidos por parámetros y leyes de privacidad), para facilitar la manipulación numérica en el modelo.

De las 551 variables restantes 7 son de tipo categorico. Se deciden eliminar estas variables pues se vio que haciendo algun tipo de encoder o transformación no aportaban al modelo. Estas variables categoricas son:

“INSTNM”, “CITY”, “STABBR”, “ZIP”, “AccredAgency”, “INSTURL”, “NPCURL”

PCA

Una vez identificadas las 544 variables numéricas de nuestro conjunto de datos, se realiza una estandarización de estas para la realización de un análisis de componentes principales.
Al realizar el PCA para 20 componentes obtenemos el gráfico observado en la figura 2, en donde se puede ver la varianza explicada por cada una de las componentes.

Varianza PCA

FIGURA 2
Varianza de componentes principales

Al seleccionar las 3 primeras componentes se puede explicar una varianza del 36.67%. Esta varianza es muy baja, sin embargo al ser un ejercicio con fines académicos puede servir para reducir la dimensionalidad del conjunto de datos. Se comprobó esta varianza con más componentes o añadiendo alguna de las 7 variables categóricas como dummie variables, pero la varianza explicada no aumentaba mucho o era necesario incluir muchos componentes para aumentarla.

Las componentes principales son construidas como combinaciones lineales de las variables originales. En la figura 3 se presentan las 3 variables más importantes dentro de la combinación lineal para cada una de las 3 primeras componentes principales.

PCA Variables

FIGURA 3
Componentes principales y sus caracteristicas mas relevantes

Definido esto, cada componente puede ser explicado en términos de estas variables de la siguiente manera:

PC0: Componente relacionado con el puntaje Carnegie y las tasas de reembolso de la institución.

PC1: Componente relacionado con la cantidad de estudiantes independientes que tienen una deuda media y el número de estudiantes con bajos ingresos.

PC2: Componente relacionado con los certificados obtenidos por la institución.

Agrupamiento o clustering

Luego de realizar el análisis de componentes principales y reducir la dimensionalidad del conjunto de datos, se decide agrupar utilizando el método de K-means. Para seleccionar el K óptimo, se utilizara la curva codo, la cual se puede observar en la figura 4.

Codo

FIGURA 4
Grafico de codo para selección de K

Con base en esta curva se puede concluir que el número óptimo de clusters es 4, el cual presenta una óptima distancia media de las observaciones de cada cluster a su centroide. Seguir aumentando el número de cluster nos disminuye esta distancia media, pero cada vez en menor medida, lo que aporta poco y aumenta la complejidad del algoritmo. Para apoyarnos en otro gráfico se utilizará el gráfico de siluetas, el cual se muestra en la figura 5.

FIGURA 5
Grafico de siluetas para selección de K

Al analizar este gráfico se puede observar que el gráfico de 4 clusters presenta tamaños de clusters muy desiguales y el score de silueta está muy cerca de dejar por fuera a algunos clusters. Por otro lado, al ver el gráfico de 5 clusters el tamaño de los grupos es mucho más uniforme y su score de silueta (línea roja punteada) está por debajo de cada cluster, lo que indica que es adecuado. Utilizando este análisis y contrastandolo con el de la curva de codo se prefiere utilizar 5 clusters en lugar de 4. La visualización de los clusters en los ejes de las componentes principales se puede ver en la figura 6.

FIGURA 6
Clusters o grupos de instituciones de educación superior

Para la categorización de cada uno de estos grupos, se seleccionó el registro más cercano al centroide de cada uno de los datos y se comprobaron las variables utilizadas para construir los componentes principales. El grafico de estos centroides se puede observar en la figura 7.

Centroides

FIGURA 7
Punto mas cercano a cada centroide. Mas representativo de cada cluster

Antes de realizar la categorización es importante aclarar las explicaciones que se le dieron a cada componente principal:

PC1: Componente relacionada con el puntaje Carnegie y las tasas de reembolso de la institución.

PC2: Componente relacionada con la cantidad de estudiantes independientes que tienen una deuda media y el numero de estudiantes con bajos ingresos.

PC3: Componente relacionada con los certificados obtenidos por la institución

Luego, la categorización o descripción de cada grupo es la siguiente:

Cluster amarillo: Las instituciones que estan en este cluster presentan las calificaciones mas altas en el puntaje carnegie, las tasas de reembolso mas altas y tienen el mayor numero de estudiantes con deudas medias y bajos ingresos.

Cluster naranja: Las instituciones que están en este cluster presentan en su mayoría una gran cantidad de certificados en ingenierías y artes.

Cluster rojo: Las instituciones que están en este cluster tienen la cantidad de certificaciones más baja de todas y tienen pocos estudiantes que tengan deudas medias y bajos ingresos.

Cluster morado: Las instituciones que están en este cluster suelen tener malas calificaciones en el puntaje carnegie y su cantidad de certificaciones es baja.

Cluster azul: Las instituciones que están en este cluster tienen pocos certificados en ingeniería y artes, pero cuentan con una calificación media en el puntaje carnegie y tienen un número medio de estudiantes con deudas y de bajos ingresos.

Datos en un contexto colombiano

Para construir un conjunto de datos útiles en el ámbito colombiano debemos entender las características principales que usa el modelo para la construcción de grupos a través de los resultados arrojados por el PCA. El puntaje Carnegie, tomado en el PC0 como una variable relevante para la construcción de esta componente, se define como el principal marco para reconocer y describir la diversidad institucional en la educación superior estadounidense durante las últimas cuatro décadas y media. (Carneige classification, 2019). Este puntaje puede ser reemplazado en el contexto colombiano por el puntaje Saber Tyt, un instrumento de evaluación estandarizada para la medición externa de la calidad de la educación superior que evalúa las competencias de los estudiantes que están próximos a culminar los distintos programas técnicos profesionales y tecnológicos (Icfes.gov.co, 2018). Como segundo se plantea el uso de los datos suministrados por la entidad Icetex, encargada del financiamiento estudiantil del 92% de los estudiantes de estratos 1,2 y 3 del país (La república Diario, 2022). Los datos del icetex pueden servir para sustituir variables como la cantidad de estudiantes de bajos recursos y que tienen deudas, variables utilizadas en la creación del PC1 pero con un contexto norteamericano. Por último los datos facilitados por el ministerio de educación en cuanto a logros obtenidos por las IES del país en conjunto con los datos brindados por la secretaría de educación departamental de cada sector del país permitiría brindarnos un amplio panorama sobre los logros, procesos y resultados obtenidos a lo largo de todo el periodo de existencia de cada Institución de educación superior, ya que estas entidades son las encargadas de la inscripción legal de tecnologías, patentes y demás logros y registros obtenidos por cada institución o sus procesos activos. Esto nos permitiría reemplazar variables que constituyen el tercer factor PC2 obtenido a partir del PCA.

Conclusiones

Debido a la masiva cantidad de características del conjunto de datos los componentes principales arrojados por el PCA explican poca varianza, haciendo necesario que se tomen muchos componentes para poder explicar un gran porcentaje de la varianza. Es recomendable disminuir el número de características, ya sea agrupandolas o eliminandolas.
La alta pérdida de información al seleccionar componentes principales que no explican una gran cantidad de la varianza de los datos, puede ocasionar que los grupos en los que fueron clasificados cada una de las instituciones no sean los correctos o se pierdan patrones de comportamiento de cada uno de los clusters.
Las instituciones ubicadas en el cluster amarillo se pueden considerar como aquellas mejores valoradas por el estado, mientras que las ubicadas en el cluster morado o purpura presentan las peores calificaciones en cuanto al puntaje carnegie se refiere. El cluster amarillo cuenta con pocos registros debido a que es mas comun ver instituciones con un puntaje estatal promedio que con uno bastante bueno.
De los 5 clusters creados, el grupo azul puede ser considerado como el de instituciones de educación superior promedio. La cantidad de certificados con la que cuentan es baja, su cantidad de estudiantes con deudas es media, tienen una calificación estandar en el puntaje carnegie y unas tasas de reembolso adecuadas.

Bibliografia

Carnegie. (n.d.). Carnegie Comission. Classification Description. Retrieved June 14, 2022, from https://carnegieclassifications.acenet.edu/classification_descriptions/basic.php

Icfes.gov.co. (n.d.). Icfes Saber Tyt. Icfes Saber Tyt. Retrieved June 14, 2022, from https://www2.icfes.gov.co/acerca-del-examen-saber-tyt

Diario la república. (2022, May 23). Programas financiados por icetex. La Republica. Retrieved June 14, 2022, from https://www.larepublica.co/economia/los-programas-de-ciencias-sociales-y-humanas-son-los-mas-financiados-por-el-icetex-3372830

Agrupación de instituciónes de orden superior | TAE 2022-1

Darwin Stiven Herrera Cartagena

Jhon Jairo Arenas Astier

Juan Manuel Trujillo Chacon

Mateo Martínez Palacio

2022-06-14