Como en muchos paises del mundo, las clases sociales hacen mucho la diferencia a la hora de obtener buenos resultados académicamente. Las clases sociales altas, las cuales tienen un mucho mejor poder adquisitivo a comparación de las clases sociales bajas, dado que con estos recursos, pueden acceder a herramientas que facilitan y ayudan en la educación como lo son los computadores. Esto se ve muy reflejado en Colombia dado que siempre los 100 primeros colegios en la prueba ICFES son colegios privados (dichos datos están a disposición pública) y no siendo la excepción Estados Unidos tiene problemas por las gran diferencias que hay en los resultados académicos de distrito a distrito. Para esto tenemos la base de datos CollegeScorecard.
Como se mencionó en el apartado anterior, nuestra base es proporcinada por los Estados Unidos, con lo cual teniendo en cuenta su política de que no es obligatorio responder todas las preguntas por privacidad, hay demasiadas universidades que por no responder la pregunta ponen “PrivacySuppresed”, con lo cual se va a tomar esta respuesta como si fuera nula para hacer más fácil el análisis de datos, además de que todos los espacios sin responder los llenaremos con NULL.
| Filas | Columnas |
|---|---|
| 7804 | 1725 |
Se puede ver que tenemos una gran cantidad de observaciones y muchisimas columnas, esto se intentará reducir en un siguiente apartado.
Solo por hacernos una idea de cómo se ven los lugares en los que están las universidades, nos ayudamos de una librería de R llamada leaflet la cual nos gráfica dado que sabemos su posición geográfica. De esta forma, como tenemos 7804 datos, generaremos un vector al azar para graficar solo 500 de estas localizaciones.
Así, podemos notar que no solo hay universidades que están en territorio Estado Unidense, por lo cual también se decide sacar dichas universidades para que solo estén universidades dentro el territorio Estado Unidense.
Con lo que podemos notar que hay universidades, en Puerto Rico y Oceanía, con lo cual hay un total de 162 universidades fuera de su territorio.
Aquí, se muestra cuantas universidades hay por ciudad, dado que Estados Unidos tiene tantas ciudades, solamente se muestran las ciudades con mayor cantidad de universidades.
| Atlanta | 42 |
| Brooklyn | 50 |
| Chicago | 84 |
| Columbus | 45 |
| Dallas | 43 |
| Houston | 75 |
| Jacksonville | 43 |
| Los Angeles | 59 |
| Miami | 51 |
| New York | 92 |
| Philadelphia | 44 |
| Phoenix | 45 |
| San Antonio | 50 |
| Springfield | 43 |
Con la variable CONTROL la cual especifica el tipo de universidad, Publica, privada sin ánimo de lucro y privada con ánimo de lucro, esto es otra variable la cual podría ayudarnos.
| Pública | 2044 |
| Privada sin ánimo de lucro | 1911 |
| Privada con ánimo de lucro | 3687 |
Con esto también podemos notar que las Universidades son un gran negocio, dado que la gran mayoría son Privadas con ánimo de lucro.
Dado que tenemos demasiadas columnas las cuales muchas de ellas son innecesarias teniendo en cuenta que nuestro análisis y agrupación va a ir enfocado a la parte académica de las universidades por lo que todas las variables que tengan que ver con url,banderas,costos,reembolsos,egresados y entre otros, van a ser eliminadas con lo cual la base de datos quedará de la siguiente manera.
Además para esto, también hay que tener en cuenta una variable que es muy importante la cual tiene que ver con los resultados de la prueba SAT la cual es una prueba de respuesta múltiple la cual es análoga a los ICFES en Colombia, la cual la presentan los estudiantes del último año en Estados Unidos, dicha prueba es muy importante dado que con esto se mide la preparación secundaria que tuvieron los estudiantes para entrar a las Universidades.
| Filas | Columnas |
|---|---|
| 7642 | 14 |
Así, redujimos de 1725 columnas a 14. Pero aquí hay un problema y es que mucha de dichas universidades no respondieron las preguntas con la prueba SAT por lo que se hace un análisis de cuantas preguntas están sin responder por cada Universidad y dejamos solo las universidades que si respondieron dichas preguntas.
| UNITID | INSTNM | CITY | CONTROL | LATITUDE | LONGITUDE | ADM_RATE | SATVR25 | SATVR75 | SATMT25 | SATMT75 | SATVRMID | SATMTMID | SAT_AVG |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0 | 0 | 0 | 0 | 8 | 8 | 0 | 14 | 14 | 0 | 0 | 14 | 0 | 0 |
De aquí primero que todo notamos que hay observaciones que no tienen su ubicación geográfica por lo cual se van a eliminar y también 14 universidades las cuales no respondieron las mismas 3 preguntas que son SATVR25,SATVR75,SATVRMID
| Filas | Columnas |
|---|---|
| 1288 | 14 |
De esta forma, nuestra base de datos ya depurada obtenemos 1288 diferentes universidades con 14 variables.
A continuación se muestra un resumen de la base de datos.
Para la agrupación utilizaremos K means, la cual es una ténica que como objetivo tiene la partición de todo el conjunto de observaciones, dividirlos en k grupos, en el cual cada observación pertenece a un grupo cuyo valor medio es más cercano. Esto es computacionalmente complicado, por lo cual es tan importante reducir las dimensiones de la base de datos.
Teniendo en cuenta esto, primero debemos hallar en cuántos k grupos deberíamos dividir el conjunto de datos, esto se puede hacer mediante diferentes métodos en este caso se usará el método de el codo para detectar cual es nuestro K óptimo.
Si tenemos en cuenta el método del codo, el mejor candidato a ser un K óptimo es k=10 o k = 12 dado que representan un delta mucho más bajo en sus pendientes en comparación con su compañeros.
De esta manera decidimos tomar un k=12 dado el tamaño de los Estados Unidos y que tiene demasiadas ciudades con una gran cantidad de universidades.
Tomando los 12 grupos, se puede notar en el siguiente mapa en cómo se agruparon. De esta forma, podemos comparar por cada grupo cual fue su puntaje promedio en las pruebas SAT. Así podremos saber en qué Zona o Estado estarían ubicadas las mejores universidades.
Así, nuestros datos quedarían como lo muestra la siguiente tabla:
| ADM_RATE | SATVR25 | SATVR75 | SATMT25 | SATMT75 | SATVRMID | SATMTMID | SAT_AVG | media |
|---|---|---|---|---|---|---|---|---|
| 78.9634 | 60624 | 73836 | 61280 | 74836 | 67234 | 68060 | 135268 | 67652.12 |
| 115.3675 | 93191 | 112318 | 95510 | 115225 | 102758 | 105370 | 208262 | 104093.67 |
| 84.9665 | 59556 | 73580 | 60575 | 74165 | 66572 | 67374 | 135098 | 67125.62 |
| 21.9807 | 19350 | 23520 | 19378 | 23497 | 21435 | 21439 | 43040 | 21460.12 |
| 50.4961 | 35642 | 44622 | 37085 | 45538 | 40134 | 41314 | 81650 | 40754.44 |
| 102.4309 | 73410 | 91152 | 75428 | 93036 | 82285 | 84238 | 168399 | 83506.30 |
| 32.8760 | 20549 | 25671 | 20870 | 25967 | 23112 | 23420 | 46543 | 23270.61 |
| 85.2358 | 64844 | 79859 | 66054 | 81192 | 72354 | 73627 | 146198 | 73026.65 |
| 41.7104 | 30533 | 37073 | 31440 | 38148 | 33804 | 34795 | 68801 | 34329.46 |
| 69.6894 | 46671 | 58890 | 47677 | 59392 | 52787 | 53543 | 109823 | 53606.59 |
| 46.5288 | 32393 | 41258 | 33464 | 42124 | 36828 | 37799 | 75597 | 37438.69 |
| 88.5192 | 65316 | 80393 | 65463 | 80143 | 72860 | 72809 | 147109 | 73022.69 |
Graficando estas medias por grupo para ver en dónde están las mejores Universidades del país. Podemos notar como el mejor puntaje del país está en el grupo 2, además teniendo no despreciables puntajes los grupos 6,8 y 12.
Para ayudarnos a ver mejor en dónde están ubicados estos grupos buscamos los centros de cada grupo y lo gráficamos en un mapa. De esta forma si ponemos el click encima de cada punto podemos notar a qué grupo pertenece.
En las siguientes tablas, se muestra la cantidad de universidades que tiene cada Estado. Con esto nos podremos hacer una idea de cuál sería los mejores estados para estudiar en Estados Unidos, en orden del mejor grupo al peor grupo.
| CT | MA | ME | NH | NJ | NY | RI | VT |
|---|---|---|---|---|---|---|---|
| 17 | 55 | 12 | 10 | 14 | 67 | 7 | 11 |
| IL | IN | KY | MI | MO | OH | WI |
|---|---|---|---|---|---|---|
| 37 | 43 | 9 | 26 | 7 | 20 | 14 |
| AK | CA | HI | ID | NV | OR | WA |
|---|---|---|---|---|---|---|
| 1 | 83 | 6 | 6 | 2 | 18 | 19 |
| AL | FL | GA | KY | NC | SC | TN | VA |
|---|---|---|---|---|---|---|---|
| 12 | 1 | 40 | 11 | 16 | 32 | 29 | 2 |
De esta forma para ejemplificar la ubicación de el grupo 2 que es el que obtuvo mejores resultados, utilizamos la librería USmap.
Podríamos decir que el grupo con las mejores universidades en Estados Unidos es el 2, teniendo en cuenta su centro que se mostró anteriormente y el gráfico en el cual muestra todos los estados que incluye, podemos concluir que la mejor zona para estudiar en Estados Unidos sería la zona Noreste.
Para hacer este mismo proceso, análogamente aquí en Colombia, tendríamos que tener los datos que los puntajes que obtuvieron los estudiantes en las pruebas ICFES en las diferentes Universidades del país. Además, tener la ubicación geográfica de cada Universidad en Colombia para así poder hacer diferentes grupos alrededor de Colombia y clasificarlos respectivamente dependiendo a el promedio del puntaje sacado por sus estudiantes en las pruebas ICFES.
La información de los ICFES es de dominio público pero sin los documentos de los estudiantes, así que para poder obtener dichas bases, se necesitaría acceso a los datos de los estudiantes que ingresan a cada una de las universidades y que el ICFES otorgara los permisos para obtener los resultados con sus respectivos documentos de identidad.
https://rpubs.com/juliasilge/219245
https://www.datacamp.com/tutorial/k-means-clustering-r
https://en.wikipedia.org/wiki/New_England
https://jtr13.github.io/cc19/different-ways-of-plotting-u-s-map-in-r.html