El clustering permite encontrar patrones en un conjunto de datos y agrupar los registros que comparten datos similares. Entender los grupos cuando podemos visualizarlos en un plano es fácil, pero cuando el conjunto de datos tiene muchas características se hace necesario reducirlas con el fin de optimizar los algoritmos de machine learning y mejorar el entendimiento e interpretación de resultados. En el trabajo actual se presenta un dataset con instituciones de educación superior de los estados unidos, el cual contiene muchas características por cada institución. Se desarrolla entonces un análisis de componentes principales (PCA) para reducir la dimensionalidad mediante la creación de componentes principales como combinaciones lineales de las variables originales. Posteriormente se realizó un agrupamiento de instituciones utilizando el algoritmo K-means y se categorizó cada grupo según las tres variables más importantes para construir cada componente principal. Por ultimo, se propone la extrapolación del conjunto de datos a nuestro contexto colombiano y como se podria recopilar información relevante.
Se utilizará información de un dataset suministrado por el profesor Juan David Ospina Arango en la asignatura Técnicas en Aprendizaje Estadístico para el primer semestre del año 2022. Este conjunto de datos contiene la información de instituciones de educación superior en los Estados Unidos. Se cuenta con un total de 7804 registros y 1725 variables entre las que resaltan el nombre de la institución, ubicación y segregación por tipo de estudiantes según género. A partir de estos datos se busca agrupar las instituciones, realizar un análisis sobre qué caracteriza cada grupo de instituciones y finalmente entender que hace de cada grupo una buena opción, además de proponer un modelo similar para el contexto Colombiano.
De las 1725 caracteristicas, se identifican 1174 cuyos datos en su 100% estan vacios, por lo que se deciden eliminar del conjunto de datos. Esto nos deja con un total de 551 variables para continuar nuestro modelo. En la figura 1 se muestra un histograma de la cantidad de columnas con sus datos vacios.
FIGURA 1
Histograma de columnas con datos
faltantes
Se decide reemplazar el valor del string “PrivacySupressed”, presente en algunas columnas, por NaN (entendiendo estos datos como datos suprimidos por parámetros y leyes de privacidad), para facilitar la manipulación numérica en el modelo.
De las 551 variables restantes 7 son de tipo categorico. Se deciden eliminar estas variables pues se vio que haciendo algun tipo de encoder o transformación no aportaban al modelo. Estas variables categoricas son:
“INSTNM”, “CITY”, “STABBR”, “ZIP”, “AccredAgency”, “INSTURL”, “NPCURL”
FIGURA 2
Varianza de componentes
principales
Al seleccionar las 3 primeras componentes se puede explicar una
varianza del 36.67%. Esta varianza es muy baja, sin
embargo al ser un ejercicio con fines académicos puede servir para
reducir la dimensionalidad del conjunto de datos. Se comprobó esta
varianza con más componentes o añadiendo alguna de las 7 variables
categóricas como dummie variables, pero la varianza explicada no
aumentaba mucho o era necesario incluir muchos componentes para
aumentarla.
Las componentes principales son construidas como combinaciones lineales de las variables originales. En la figura 3 se presentan las 3 variables más importantes dentro de la combinación lineal para cada una de las 3 primeras componentes principales.
FIGURA 3
Componentes principales y sus
caracteristicas mas relevantes
Definido esto, cada componente puede ser explicado en términos de estas variables de la siguiente manera:
PC0: Componente relacionado con el puntaje Carnegie y las tasas de reembolso de la institución.
PC1: Componente relacionado con la cantidad de estudiantes independientes que tienen una deuda media y el número de estudiantes con bajos ingresos.
PC2: Componente relacionado con los certificados obtenidos por la institución.
Luego de realizar el análisis de componentes principales y reducir la dimensionalidad del conjunto de datos, se decide agrupar utilizando el método de K-means. Para seleccionar el K óptimo, se utilizara la curva codo, la cual se puede observar en la figura 4.
FIGURA
4
Grafico de codo para selección de K
Con base en esta curva se puede concluir que el número óptimo de
clusters es 4, el cual presenta una óptima distancia media de las
observaciones de cada cluster a su centroide. Seguir aumentando el
número de cluster nos disminuye esta distancia media, pero cada vez en
menor medida, lo que aporta poco y aumenta la complejidad del algoritmo.
Para apoyarnos en otro gráfico se utilizará el gráfico de siluetas, el
cual se muestra en la figura 5.
FIGURA 5
Grafico de siluetas para
selección de K
Al analizar este gráfico se puede observar que el gráfico de 4
clusters presenta tamaños de clusters muy desiguales y el score de
silueta está muy cerca de dejar por fuera a algunos clusters. Por otro
lado, al ver el gráfico de 5 clusters el tamaño de los grupos es mucho
más uniforme y su score de silueta (línea roja punteada) está por debajo
de cada cluster, lo que indica que es adecuado. Utilizando este análisis
y contrastandolo con el de la curva de codo se prefiere utilizar 5
clusters en lugar de 4. La visualización de los clusters en los ejes de
las componentes principales se puede ver en la figura 6.
FIGURA 6
Clusters o grupos de
instituciones de educación superior
Para la categorización de cada uno de estos grupos, se seleccionó el registro más cercano al centroide de cada uno de los datos y se comprobaron las variables utilizadas para construir los componentes principales. El grafico de estos centroides se puede observar en la figura 7.
FIGURA 7
Punto mas cercano a cada
centroide. Mas representativo de cada cluster
Antes de realizar la categorización es importante aclarar las explicaciones que se le dieron a cada componente principal:
PC1: Componente relacionada con el puntaje Carnegie y las tasas de reembolso de la institución.
PC2: Componente relacionada con la cantidad de estudiantes independientes que tienen una deuda media y el numero de estudiantes con bajos ingresos.
PC3: Componente relacionada con los
certificados obtenidos por la institución
Luego, la
categorización o descripción de cada grupo es la siguiente:
Cluster amarillo: Las instituciones que estan en este cluster presentan las calificaciones mas altas en el puntaje carnegie, las tasas de reembolso mas altas y tienen el mayor numero de estudiantes con deudas medias y bajos ingresos.
Cluster naranja: Las instituciones que están en este cluster presentan en su mayoría una gran cantidad de certificados en ingenierías y artes.
Cluster rojo: Las instituciones que están en este cluster tienen la cantidad de certificaciones más baja de todas y tienen pocos estudiantes que tengan deudas medias y bajos ingresos.
Cluster morado: Las instituciones que están en este cluster suelen tener malas calificaciones en el puntaje carnegie y su cantidad de certificaciones es baja.
Cluster azul: Las instituciones que están en este cluster tienen pocos certificados en ingeniería y artes, pero cuentan con una calificación media en el puntaje carnegie y tienen un número medio de estudiantes con deudas y de bajos ingresos.
Para construir un conjunto de datos útiles en el ámbito colombiano debemos entender las características principales que usa el modelo para la construcción de grupos a través de los resultados arrojados por el PCA. El puntaje Carnegie, tomado en el PC0 como una variable relevante para la construcción de esta componente, se define como el principal marco para reconocer y describir la diversidad institucional en la educación superior estadounidense durante las últimas cuatro décadas y media. (Carneige classification, 2019). Este puntaje puede ser reemplazado en el contexto colombiano por el puntaje Saber Tyt, un instrumento de evaluación estandarizada para la medición externa de la calidad de la educación superior que evalúa las competencias de los estudiantes que están próximos a culminar los distintos programas técnicos profesionales y tecnológicos (Icfes.gov.co, 2018). Como segundo se plantea el uso de los datos suministrados por la entidad Icetex, encargada del financiamiento estudiantil del 92% de los estudiantes de estratos 1,2 y 3 del país (La república Diario, 2022). Los datos del icetex pueden servir para sustituir variables como la cantidad de estudiantes de bajos recursos y que tienen deudas, variables utilizadas en la creación del PC1 pero con un contexto norteamericano. Por último los datos facilitados por el ministerio de educación en cuanto a logros obtenidos por las IES del país en conjunto con los datos brindados por la secretaría de educación departamental de cada sector del país permitiría brindarnos un amplio panorama sobre los logros, procesos y resultados obtenidos a lo largo de todo el periodo de existencia de cada Institución de educación superior, ya que estas entidades son las encargadas de la inscripción legal de tecnologías, patentes y demás logros y registros obtenidos por cada institución o sus procesos activos. Esto nos permitiría reemplazar variables que constituyen el tercer factor PC2 obtenido a partir del PCA.
Debido a la masiva cantidad de características del conjunto de datos los componentes principales arrojados por el PCA explican poca varianza, haciendo necesario que se tomen muchos componentes para poder explicar un gran porcentaje de la varianza. Es recomendable disminuir el número de características, ya sea agrupandolas o eliminandolas.
La alta pérdida de información al seleccionar componentes principales que no explican una gran cantidad de la varianza de los datos, puede ocasionar que los grupos en los que fueron clasificados cada una de las instituciones no sean los correctos o se pierdan patrones de comportamiento de cada uno de los clusters.
Las instituciones ubicadas en el cluster amarillo se pueden considerar como aquellas mejores valoradas por el estado, mientras que las ubicadas en el cluster morado o purpura presentan las peores calificaciones en cuanto al puntaje carnegie se refiere. El cluster amarillo cuenta con pocos registros debido a que es mas comun ver instituciones con un puntaje estatal promedio que con uno bastante bueno.
De los 5 clusters creados, el grupo azul puede ser considerado como el de instituciones de educación superior promedio. La cantidad de certificados con la que cuentan es baja, su cantidad de estudiantes con deudas es media, tienen una calificación estandar en el puntaje carnegie y unas tasas de reembolso adecuadas.
Carnegie. (n.d.). Carnegie Comission. Classification Description. Retrieved June 14, 2022, from https://carnegieclassifications.acenet.edu/classification_descriptions/basic.php
Icfes.gov.co. (n.d.). Icfes Saber Tyt. Icfes Saber Tyt. Retrieved June 14, 2022, from https://www2.icfes.gov.co/acerca-del-examen-saber-tyt
Diario la república. (2022, May 23). Programas financiados por icetex. La Republica. Retrieved June 14, 2022, from https://www.larepublica.co/economia/los-programas-de-ciencias-sociales-y-humanas-son-los-mas-financiados-por-el-icetex-3372830