Problema a resolver

Como en muchos paises del mundo, las clases sociales hacen mucho la diferencia a la hora de obtener buenos resultados académicamente. Las clases sociales altas, las cuales tienen un mucho mejor poder adquisitivo a comparación de las clases sociales bajas, dado que con estos recursos, pueden acceder a herramientas que facilitan y ayudan en la educación como lo son los computadores. Esto se ve muy reflejado en Colombia dado que siempre los 100 primeros colegios en la prueba ICFES son colegios privados (dichos datos están a disposición pública) y no siendo la excepción Estados Unidos tiene problemas por las gran diferencias que hay en los resultados académicos de distrito a distrito. Para esto tenemos la base de datos CollegeScorecard.

Análisis descriptivo y lectura a la base de datos

Como se mencionó en el apartado anterior, nuestra base es proporcinada por los Estados Unidos, con lo cual teniendo en cuenta su política de que no es obligatorio responder todas las preguntas por privacidad, hay demasiadas universidades que por no responder la pregunta ponen “PrivacySuppresed”, con lo cual se va a tomar esta respuesta como si fuera nula para hacer más fácil el análisis de datos, además de que todos los espacios sin responder los llenaremos con NULL.

Tamaño de los datos

Tamaño de los datos
Filas Columnas
7804 1725

Se puede ver que tenemos una gran cantidad de observaciones y muchisimas columnas, esto se intentará reducir en un siguiente apartado.

Ubicación de los datos

Solo por hacernos una idea de cómo se ven los lugares en los que están las universidades, nos ayudamos de una librería de R llamada leaflet la cual nos gráfica dado que sabemos su posición geográfica. De esta forma, como tenemos 7804 datos, generaremos un vector al azar para graficar solo 500 de estas localizaciones.

Así, podemos notar que no solo hay universidades que están en territorio Estado Unidense, por lo cual también se decide sacar dichas universidades para que solo estén universidades dentro el territorio Estado Unidense.

Universidades fuera de Estados Unidos

Para saber qué universidades están fuera de su territorio, nos ayudamos de la variable región la cual categoriza la región en la cual está ubicada las universidades.

Con lo que podemos notar que hay universidades, en Puerto Rico y Oceanía, con lo cual hay un total de 162 universidades fuera de su territorio.

Cantidad de universidades por ciudad

Aquí, se muestra cuantas universidades hay por ciudad, dado que Estados Unidos tiene tantas ciudades, solamente se muestran las ciudades con mayor cantidad de universidades.

Tabla con las ciudades con más de 40 universidades
Atlanta 42
Brooklyn 50
Chicago 84
Columbus 45
Dallas 43
Houston 75
Jacksonville 43
Los Angeles 59
Miami 51
New York 92
Philadelphia 44
Phoenix 45
San Antonio 50
Springfield 43

Tipo de Universidad

Con la variable CONTROL la cual especifica el tipo de universidad, Publica, privada sin ánimo de lucro y privada con ánimo de lucro, esto es otra variable la cual podría ayudarnos.

Tipos de Universidades
Pública 2044
Privada sin ánimo de lucro 1911
Privada con ánimo de lucro 3687

Con esto también podemos notar que las Universidades son un gran negocio, dado que la gran mayoría son Privadas con ánimo de lucro.

Reducción de las dimensiones

Dado que tenemos demasiadas columnas las cuales muchas de ellas son innecesarias teniendo en cuenta que nuestro análisis y agrupación va a ir enfocado a la parte académica de las universidades por lo que todas las variables que tengan que ver con url,banderas,costos,reembolsos,egresados y entre otros, van a ser eliminadas con lo cual la base de datos quedará de la siguiente manera.

Además para esto, también hay que tener en cuenta una variable que es muy importante la cual tiene que ver con los resultados de la prueba SAT la cual es una prueba de respuesta múltiple la cual es análoga a los ICFES en Colombia, la cual la presentan los estudiantes del último año en Estados Unidos, dicha prueba es muy importante dado que con esto se mide la preparación secundaria que tuvieron los estudiantes para entrar a las Universidades.

Tamaño de los datos
Filas Columnas
7642 14

Así, redujimos de 1725 columnas a 14. Pero aquí hay un problema y es que mucha de dichas universidades no respondieron las preguntas con la prueba SAT por lo que se hace un análisis de cuantas preguntas están sin responder por cada Universidad y dejamos solo las universidades que si respondieron dichas preguntas.

Cantidad de vacios por columna
UNITID INSTNM CITY CONTROL LATITUDE LONGITUDE ADM_RATE SATVR25 SATVR75 SATMT25 SATMT75 SATVRMID SATMTMID SAT_AVG
0 0 0 0 8 8 0 14 14 0 0 14 0 0

De aquí primero que todo notamos que hay observaciones que no tienen su ubicación geográfica por lo cual se van a eliminar y también 14 universidades las cuales no respondieron las mismas 3 preguntas que son SATVR25,SATVR75,SATVRMID

Tamaño de los datos
Filas Columnas
1288 14

Base de datos para trabajar

De esta forma, nuestra base de datos ya depurada obtenemos 1288 diferentes universidades con 14 variables.

A continuación se muestra un resumen de la base de datos.

Variable Descripción
Tipo
UNITID ID de la institución Integer
INSTNM Nombre de la institución Character
CITY Ciudad
Character
CONTROL Tipo de institución
Integer
LATITUDE Latitud Float
LONGITUDE Longitud Float
ADM_RATE Puntaje de admisión Float
SATVR25 Percentil 25 de las pruebas SAT (Lectura crítica) Float
SATVR75 Percentil 75 de las pruebas SAT (Lectura crítica) Float
SATMT25 Percentil 25 de las pruebas SAT (Matemáticas) Float
SATMT75 Percentil 75 de las pruebas SAT (Matemáticas) Float
SATVRMID Punto medio de puntajes pruebas SAT (Lectura crítica) Float
SATMTMID Punto medio de puntajes pruebas SAT (Matemáticas) Float
SAT_AVG Promedio de las pruebas SAT
Float

Agrupación

Para la agrupación utilizaremos K means, la cual es una ténica que como objetivo tiene la partición de todo el conjunto de observaciones, dividirlos en k grupos, en el cual cada observación pertenece a un grupo cuyo valor medio es más cercano. Esto es computacionalmente complicado, por lo cual es tan importante reducir las dimensiones de la base de datos.

Busqueda del K óptimo

Teniendo en cuenta esto, primero debemos hallar en cuántos k grupos deberíamos dividir el conjunto de datos, esto se puede hacer mediante diferentes métodos en este caso se usará el método de el codo para detectar cual es nuestro K óptimo.

Método del codo

Si tenemos en cuenta el método del codo, el mejor candidato a ser un K óptimo es k=10 o k = 12 dado que representan un delta mucho más bajo en sus pendientes en comparación con su compañeros.

De esta manera decidimos tomar un k=12 dado el tamaño de los Estados Unidos y que tiene demasiadas ciudades con una gran cantidad de universidades.

K means

Tomando los 12 grupos, se puede notar en el siguiente mapa en cómo se agruparon. De esta forma, podemos comparar por cada grupo cual fue su puntaje promedio en las pruebas SAT. Así podremos saber en qué Zona o Estado estarían ubicadas las mejores universidades.

Así, nuestros datos quedarían como lo muestra la siguiente tabla:

Datos con su respectiva media grupal
ADM_RATE SATVR25 SATVR75 SATMT25 SATMT75 SATVRMID SATMTMID SAT_AVG media
78.9634 60624 73836 61280 74836 67234 68060 135268 67652.12
115.3675 93191 112318 95510 115225 102758 105370 208262 104093.67
84.9665 59556 73580 60575 74165 66572 67374 135098 67125.62
21.9807 19350 23520 19378 23497 21435 21439 43040 21460.12
50.4961 35642 44622 37085 45538 40134 41314 81650 40754.44
102.4309 73410 91152 75428 93036 82285 84238 168399 83506.30
32.8760 20549 25671 20870 25967 23112 23420 46543 23270.61
85.2358 64844 79859 66054 81192 72354 73627 146198 73026.65
41.7104 30533 37073 31440 38148 33804 34795 68801 34329.46
69.6894 46671 58890 47677 59392 52787 53543 109823 53606.59
46.5288 32393 41258 33464 42124 36828 37799 75597 37438.69
88.5192 65316 80393 65463 80143 72860 72809 147109 73022.69

Graficando estas medias por grupo para ver en dónde están las mejores Universidades del país. Podemos notar como el mejor puntaje del país está en el grupo 2, además teniendo no despreciables puntajes los grupos 6,8 y 12.

Para ayudarnos a ver mejor en dónde están ubicados estos grupos buscamos los centros de cada grupo y lo gráficamos en un mapa. De esta forma si ponemos el click encima de cada punto podemos notar a qué grupo pertenece.

En las siguientes tablas, se muestra la cantidad de universidades que tiene cada Estado. Con esto nos podremos hacer una idea de cuál sería los mejores estados para estudiar en Estados Unidos, en orden del mejor grupo al peor grupo.

Estados en el grupo 2
CT MA ME NH NJ NY RI VT
17 55 12 10 14 67 7 11
Estados en el grupo 6
IL IN KY MI MO OH WI
37 43 9 26 7 20 14
Estados en el grupo 8
AK CA HI ID NV OR WA
1 83 6 6 2 18 19
Estados en el grupo 12
AL FL GA KY NC SC TN VA
12 1 40 11 16 32 29 2

De esta forma para ejemplificar la ubicación de el grupo 2 que es el que obtuvo mejores resultados, utilizamos la librería USmap.

Conclusiones

Podríamos decir que el grupo con las mejores universidades en Estados Unidos es el 2, teniendo en cuenta su centro que se mostró anteriormente y el gráfico en el cual muestra todos los estados que incluye, podemos concluir que la mejor zona para estudiar en Estados Unidos sería la zona Noreste.

Propuesta

Para hacer este mismo proceso, análogamente aquí en Colombia, tendríamos que tener los datos que los puntajes que obtuvieron los estudiantes en las pruebas ICFES en las diferentes Universidades del país. Además, tener la ubicación geográfica de cada Universidad en Colombia para así poder hacer diferentes grupos alrededor de Colombia y clasificarlos respectivamente dependiendo a el promedio del puntaje sacado por sus estudiantes en las pruebas ICFES.

La información de los ICFES es de dominio público pero sin los documentos de los estudiantes, así que para poder obtener dichas bases, se necesitaría acceso a los datos de los estudiantes que ingresan a cada una de las universidades y que el ICFES otorgara los permisos para obtener los resultados con sus respectivos documentos de identidad.

Referencias

https://rpubs.com/juliasilge/219245

https://www.datacamp.com/tutorial/k-means-clustering-r

https://en.wikipedia.org/wiki/New_England

https://jtr13.github.io/cc19/different-ways-of-plotting-u-s-map-in-r.html