Segundo trabajo individual (Icfes + desempeño fiscal + mapa)

Objetivo general

Realizar un análisis descriptivo y exploratorio de la unión de variables de bases de datos de desempeño fiscal, resultados del icfes, población y uso de mapas por departamento de colombia para mostrar resultados.

Paquetes necesarios

Para continuar con los pasos siguientes primero se deben tener instalados y cargados los siguientes paquetes:

  • Tidyverse: El tidyverse es una colección de paquetes para el lenguaje de programación R, diseñada específicamente para las ciencias de datos. Todos los paquetes comparten una filosofía de diseño, gramática y estructuras de datos subyacentes. Fue introducido por Hadley Wickham y su equipo y es conocido por su filosofía de “datos ordenados”. Los paquetes del tidyverse se caracterizan por su uso extensivo de la evaluación no estándar y por fomentar el uso de tuberías (piping), lo que permite encadenar funciones de manera legible y eficiente.

  • DT: El paquete DT de R proporciona una interfaz a la biblioteca JavaScript DataTables. Esto permite que los objetos de datos en R, como matrices o data frames, se muestren como tablas en páginas HTML. DataTables añade funcionalidades avanzadas a estas tablas, como filtrado, paginación, ordenación, entre otras​.

  • ggthemes: El paquete ggthemes de R es una extensión para ggplot2 que proporciona una serie de temas, geoms y escalas adicionales. Está diseñado para permitir a los usuarios replicar el estilo visual de los gráficos creados por diversas fuentes y estilos reconocidos, tales como los de Edward Tufte, Stephen Few, ‘Fivethirtyeight’, ‘The Economist’, ‘Stata’, ‘Excel’ y ‘The Wall Street Journal’, entre otros​.

  • sf: El paquete sf en R proporciona soporte para ‘simple features’ (características simples), una forma estandarizada de codificar datos vectoriales espaciales. Este paquete se une a ‘GDAL’ para la lectura y escritura de datos, a ‘GEOS’ para operaciones geométricas, y a ‘PROJ’ para conversiones de proyecciones y transformaciones de datum.

  • ggrepel: El paquete ggrepel es una extensión para ggplot2 en R, una popular herramienta de visualización de datos. ggplot2 se utiliza para crear gráficos complejos y atractivos de una manera relativamente sencilla, pero tiene una limitación cuando se trata de la superposición de etiquetas de texto: pueden solaparse y hacerse ilegibles.

  • ggspatial: El paquete ggspatial es una extensión de ggplot2 en R diseñada para facilitar la interacción con datos espaciales. Proporciona un marco de trabajo para usar objetos del paquete sf, sp, y raster, y se apoya en funciones como geom_sf() y coord_sf() para manejar la transformación de coordenadas​​. Permite agregar anotaciones espaciales a los gráficos de ggplot2, como mapas base, capas de anotación que no alteran las escalas, y proyecciones automáticas de capas raster. Además, incluye herramientas para añadir barras de escala y flechas de norte que son conscientes del contexto espacial, lo que significa que se ajustan al mapa automáticamente.

Sobre las bases de datos

La base de datos seleccionada se ha compuesto a partir de tres fuentes principales: desempeño fiscal, resultados del ICFES y datos demográficos de los departamentos. Específicamente, se extraerá la calificación de gestión de la base de datos de desempeño fiscal, el puntaje promedio obtenido por cada municipio en los resultados del ICFES, y finalmente, la población total de cada departamento del año 2022 entre 15 y 19 años..

dando como resultado la base de datos siguiente:

Análisis descriptivo de los datos

Calificación gestión

En particular, el departamento de Guainía se caracteriza por una mediana de calificación de gestión más baja en comparación con la mayoría, como lo demuestra la línea central de su caja correspondiente. La propia caja, que refleja el rango intercuartílico, es de dimensiones reducidas, lo que implica una menor variación en las calificaciones de gestión dentro del departamento y sugiere una consistencia en su administración. La ausencia de valores atípicos indica que no hay calificaciones extremas que se desvíen notablemente de la norma. Estos hallazgos sugieren que la gestión en Guainía, si bien presenta una mediana inferior, mantiene un nivel de uniformidad en su desempeño.

Puntaje promedio icfes

Departamentos con bajos puntajes:

  • Departamentos como Chocó, Caquetá y Vichada muestran medianas que están entre las más bajas del gráfico. Estos departamentos también presentan rangos intercuartiles relativamente pequeños, lo que sugiere que las calificaciones de los estudiantes están bastante agrupadas alrededor de un valor bajo.

Departamentos con puntajes altos:

  • Por otro lado, departamentos como Bogotá, Antioquia y Santander tienen medianas que están entre las más altas, indicando un puntaje superior en comparación con otros departamentos.

  • Además, estos departamentos con altas calificaciones no solo tienen medianas altas, sino que también muestran rangos intercuartiles más amplios, lo que puede indicar una mayor variabilidad en los puntajes dentro del departamento. Sin embargo, esto también puede reflejar que, aunque hay variabilidad, hay un número significativo de puntajes que elevan la mediana.

Población por departamento

El departamento con la mayor población en este rango de edad parece ser ANTIOQUIA, seguido por BOGOTA y VALLE DEL CAUCA. En contraste, los departamentos como AMAZONAS, GUAINÍA y VAUPÉS tienen poblaciones significativamente más pequeñas. Esto podría darnos un indicio de que a mayores poblaciones los puntajes en las pruebas icfes son mayores.

Análisis exploratorio de los datos

Relación de la calificación de gestión y los puntajes icfes

Del gráfico siguiente podemos sacar las siguientes conclusiones:


Correlación: Hay una tendencia que sugiere una correlación positiva entre la gestión media y el puntaje promedio ICFES. Esto significa que a medida que aumenta la gestión media en los departamentos, también tiende a aumentar el puntaje promedio ICFES.

  1. Dispersión: Los departamentos están dispersos a lo largo del gráfico, pero muchos se agrupan en torno a la línea de ajuste, lo que indica que la tendencia es bastante representativa de los datos.

  2. Departamentos destacados:

    1. Bogotá: Se destaca por tener tanto una alta gestión media como un alto puntaje promedio ICFES.

    2. Guainía: Aparece como un punto atípico en el extremo inferior izquierdo, indicando una baja gestión media y un bajo puntaje promedio ICFES.

    El gráfico puede ser un indicador de que los esfuerzos de gestión en los departamentos están asociados con mejores resultados en los indicadores de calidad educativa, pero sería necesario un análisis más detallado para comprender completamente las dinámicas y los factores subyacentes.

  1. Departamentos notables:

    • Bogotá: Se destaca en la parte superior derecha, indicando que tiene tanto una población promedio alta como altos puntajes promedio IFCES.

    • Chocó y Amazonas: Estos departamentos tienen los valores más bajos tanto en población promedio como en puntaje IFCES, y están en la parte inferior izquierda del gráfico.

El uso de la escala logarítmica en el eje X es particularmente útil para datos de población, ya que a menudo hay un amplio rango de valores, y la transformación logarítmica permite una comparación más equitativa entre áreas con poblaciones pequeñas y grandes.

En general, la gráfica sugiere que los departamentos con mayores poblaciones en sus municipios podrían estar asociados con mejores resultados educativos, según lo medido por los puntajes IFCES. Sin embargo, hay una variabilidad considerable, y departamentos como Valle del Cauca y Atlántico se desvían de la tendencia general, lo que indica que otros factores además del tamaño de la población pueden influir en el puntaje IFCES.

Construcción del indice

  • Normalización de los Datos: Se inició normalizando las variables ‘Calificación Gestión’ y ‘Puntaje promedio icfes’ utilizando la función scale de R. Esta función centra y escala los datos, restando la media y dividiendo por la desviación estándar, permitiendo así que los datos de diferentes escalas sean comparables. En el caso de la variable ‘Población total’, se aplicó el logaritmo natural antes de escalar, con el fin de reducir la dispersión y mitigar el impacto de los valores atípicos.

  • Ponderación de los Indicadores: Se asignaron pesos a cada uno de los indicadores normalizados, basándose en su importancia relativa para el índice de eficiencia. Se otorgó el mayor peso a la ‘Calificación Gestión’ (0.5), seguido del ‘Puntaje promedio icfes’ (0.3), y el menor peso a la ‘Población total’ (0.2).

  • Cálculo del Índice: Se calculó el índice de eficiencia como un promedio ponderado de las variables normalizadas, dividiendo la suma ponderada por la suma total de los pesos, para mantener el índice dentro de un rango coherente.

  • Agregación por Departamento: Se empleó la función aggregate para calcular el promedio del índice de eficiencia por cada departamento, lo cual proporciona un índice medio de eficiencia que representa a cada departamento, y que puede ser útil para realizar comparaciones o análisis más amplios.

Gráfico del indice por departamento

Bogotá aparece con el índice más alto entre todos los departamentos mostrados. La longitud de su barra sugiere que supera significativamente el promedio en comparación con los demás departamentos. Esto podría interpretarse como que Bogotá tiene un mejor rendimiento o eficiencia en los criterios que componen el índice, como podrían ser medidas de gestión, resultados en pruebas estandarizadas y otros factores relacionados con la población.

Conclusión

Se concluye mostrando el resultado del indice, algunos departamentos como Boyaca y Antioquia aunque obtuvieron resultados promedio en el icfes significativamente mas altos, la calificación promedio de sus municipios redujo significativamente el resultado obtenido en el indice, por otro lado departamentos como Arauca y Cordoba aunque sus resultados en las pruebas icfes no son tan altos, superan a la calificación de la gestión de los departamentos antes mencionados.

Estos indicadores pueden sugerir una correlación entre una buena gestión y altos resultados académicos, aunque sería necesario un análisis estadístico más profundo para confirmar tales tendencias.

Recomendaciones

Para obtener una comprensión más integral de la relación entre la gestión política y el rendimiento académico, se sugiere la implementación de un estudio multidimensional. Este debería incluir una gama más amplia de indicadores socioeconómicos, como ingresos familiares, tasas de empleo y niveles de educación de los padres, que pueden influir en el rendimiento estudiantil. Es crucial focalizar la investigación en regiones específicas que muestren discrepancias notables entre los logros académicos y la calidad de la gestión gubernamental, ya que los datos preliminares sugieren que una gobernanza deficiente puede tener un impacto negativo en los resultados educativos de los estudiantes.

Además, es recomendable emplear un enfoque metodológico que permita desentrañar las causas y efectos subyacentes, utilizando técnicas estadísticas avanzadas como el análisis de regresión multivariable y modelos de ecuaciones estructurales. Este enfoque permitiría no solo confirmar la existencia de una correlación, sino también explorar la dirección y la fuerza de la relación entre la gestión política y el desempeño académico.

Bibliografia