Estudiante:
Zulay Nayiv Sánchez Castillo
Programa:
Maestría en Ciencia de Datos y Analítica
Curso:
Visualización para la Analítica de Datos
Tutor:
Sixyel Jeyson Castañeda Coronado
Universidad Nacional Abierta y a Distancia – UNAD
2026
El presente trabajo realiza un análisis del desempeño académico de estudiantes mediante técnicas de visualización de datos en R, utilizando para tal fin el dataset aportado y el archivo de coordenadas del mapa de Colombia; identificando patrones relevantes en variables como calificaciones, asistencias y distribución por institución.
Se realizan diversas visualizaciones graficas que permiten la interpretación de los datos y su comportamiento, con el fin de tener un mejor análisis de las situaciones académicas presentadas y de esta manera obtener estrategias que faciliten y optimicen los diferentes procesos educativos en las instituciones, a través de la toma de decisiones acertadas.
Analizar el comportamiento del desempeño académico utilizando herramientas de visualización de datos, utilizando el entorno de desarrollo integrado (IDE) para el lenguaje de programación R
Se dispone de un dataset que contiene información relacionada con instituciones educativas, calificaciones, niveles de asistencia y asignaturas. A partir de este, se llevó a cabo un proceso de estandarización de datos orientado a mejorar la calidad y consistencia de la información. Este proceso incluyó la normalización de texto mediante la corrección de mayúsculas y minúsculas, eliminación de espacios innecesarios y ajuste de caracteres especiales como tildes. Así mismo, se realizó la depuración de los nombres de las instituciones, dado que el dataset presentaba inconsistencias tales como “inst B”, “Instituci n A” y registros incompletos, lo cual dificultaba un análisis ordenado y preciso.
De manera similar, se aplicaron técnicas de limpieza sobre la variable correspondiente a las asignaturas, corrigiendo errores tipográficos y unificando criterios de nomenclatura. Adicionalmente, se eliminaron registros con valores nulos o vacíos, garantizando así la integridad del conjunto de datos, se seleccionaron las variables clave, se revisó el tamaño, tipo de datos, nombres de columnas del Dataset como parte de la exploración.
Una vez finalizado el proceso de limpieza y depuración, el dataset fue almacenado en un nuevo archivo denominado “data_limpio.csv”. Este archivo consolidado contiene información estructurada, consistente y lista para ser utilizada en las etapas posteriores de visualización y análisis, permitiendo obtener resultados más fiables y representativos.
Figura 1. Información Inicial
Fuente: Autoría propia.
Figura 2. Estandarización
Fuente: Autoría propia.
Figura 3. Transformación de campos
Fuente: Autoría propia.
Figura 4. Verificación
Fuente: Autoría propia.
La visualización de datos constituye una herramienta fundamental en el análisis exploratorio, ya que permite transformar información numérica en representaciones gráficas que facilitan la identificación de patrones, tendencias y relaciones entre variables
En esta sección se presentan diversas técnicas de visualización aplicadas al dataset académico, incluyendo histogramas, gráficos de barras, diagramas de dispersión, gráficos de líneas, boxplots, gráficos de radar, nubes de palabras y diagramas tipo waffle, cada uno de estos enfoques permite analizar el comportamiento de variables clave como las calificaciones, la asistencia y la distribución por asignatura e institución.
El propósito de estas visualizaciones, es facilitar la comprensión de la estructura de los datos, identificar posibles relaciones entre variables y detectar patrones relevantes que orienten el análisis. Así mismo, estas representaciones gráficas sirven como base para la interpretación de resultados y la formulación de conclusiones fundamentadas en evidencia empírica.
Se observa una distribución relativamente concentrada de las calificaciones, indicando que la mayoría de los estudiantes se agrupan en rangos medios.
Figura 5. Histograma Calificaciones
Fuente: Autoría propia.
Se observó que existen diferencias en la dispersión de las calificaciones entre asignaturas, lo que sugiere variabilidad en el rendimiento académico.
Figura 6. Calificaciones vs Asignaturas
Fuente: Autoría propia.
En el análisis, se evidencia una relación positiva entre la asistencia y las calificaciones, indicando que una mayor participación favorece el rendimiento.
Figura 7. Asistencia vs Calificaciones
Fuente: Autoría propia.
La tendencia de las calificaciones presenta fluctuaciones, sin una tendencia claramente creciente o decreciente, lo que indica variabilidad en el desempeño.
Figura 8. Tendencia Calificaciones
Fuente: Autoría propia.
Con el gráfico de barras se identifican diferencias en el promedio de calificaciones entre asignaturas, destacando algunas con mejor rendimiento académico, que otras. Sin embargo, la diferencia es mínima en cuanto a los resultados esperados.
Figura 9. Promedio Calificaciones y Asignaturas
Fuente: Autoría propia.
Se destacan aquellas asignaturas con mayor frecuencia, que son aquellas que tienen mayor representación en el dataset y de acuerdo al comportamiento de los datos.
Figura 10. Frecuencia de Asiganturas
Fuente: Autoría propia.
Este tipo de gráfico permite observar la proporción relativa de estudiantes por asignatura, representados por colores de acuerdo a la frecuencia de la asignatura.
Figura 11. Proporción Estudiantes por Asignatura
Fuente: Autoría propia.
Dentro del análisis es importante revisar y comparar el rendimiento entre asignaturas de manera multidimensional, en este caso particular se utiliza un gráfico tipo radar que nos ayuda a visualizar este tipo de resultado, en donde se observa que las asignaturas tienen un comportamiento muy similar y su diferencia es mínima entre una y otra.
Figura 12. Rendimiento Multidimensional
Fuente: Autoría propia.
El mapa muestra la distribución geográfica del desempeño académico, sin embargo, es preciso aclarar que, debido a la ausencia de coordenadas reales, se utilizaron datos simulados, para revisar, analizar y comparar el comportamiento de la información aportada en el dataset y ofrecer una visualización georreferenciada cercana a un comportamiento real.
Figura 13. Georreferenciación Calificaciones
Fuente: Autoría propia.
La aplicación desarrollada mediante el paquete Shiny permitió construir un entorno interactivo para la exploración dinámica de los datos académicos, este dashboard integra múltiples visualizaciones y funcionalidades que facilitan el análisis desde diferentes perspectivas. La aplicación se estructuró bajo el modelo clásico de Shiny, compuesto por dos elementos fundamentales:
• Interfaz de usuario (UI): define la disposición visual y los controles interactivos.
• Servidor (Server): contiene la lógica reactiva y la generación de gráficos.
Esta separación permite una adecuada organización del código y facilita la escalabilidad del sistema.
La interfaz fue construida utilizando fluidPage() y sidebarLayout(), lo que permitió organizar el dashboard en dos secciones principales:
• Filtros interactivos mediante selectInput() para:
o Institución
o Asignatura
o Ciudad
Estos controles permiten segmentar los datos de forma dinámica.
• Histograma
• Boxplot
• Dispersión
• Líneas
• Barras
• Mapa
Este tipo de diseño mejora la experiencia del usuario, al permitir navegar entre distintos tipos de análisis sin recargar la aplicación.
El dashboard integra múltiples tipos de gráficos desarrollados con ggplot2:
Histograma: Permite analizar la distribución de las calificaciones.
Boxplot: Facilita la identificación de la dispersión y valores atípicos por institución o asignatura.
Gráfico de dispersión: Permite evaluar la relación entre asistencia y rendimiento académico.
Gráfico de líneas: Muestra la variabilidad de las calificaciones a lo largo de las observaciones.
Gráfico de barras: Representa los promedios de calificación por asignatura.
Mapa geográfico: Se integró un mapa utilizando el paquete sf, mostrando el territorio de Colombia mediante shapefile y puntos que representan el desempeño académico. Dado que el dataset no contenía coordenadas reales, se implementó una simulación de latitud y longitud para ilustrar la distribución espacial.
Por otor lado, el uso de Shiny permitió:
• Actualización automática de gráficos sin recargar la página.
• Exploración personalizada de los datos.
• Navegación intuitiva mediante pestañas.
Así, se transforma un análisis estático, en una herramienta analítica interactiva para el usuario final.
El dashboard no solo cumple una función visual, sino que; facilita la identificación de patrones ocultos, permite comparar resultados entre diferentes segmentos, mejora la toma de decisiones basada en datos.
Figura 14. Dashboard Histograma
Fuente: Autoría propia.
Figura 15. Dashboard Boxplot
Fuente: Autoría propia.
Figura 16. Dashboard Dispersión
Fuente: Autoría propia.
Figura 17. Dashboard Gráfico Líneas
Fuente: Autoría propia.
Figura 18. Dashboard Gráfico Barras
Fuente: Autoría propia.
Figura 19. Dashboard Mapa
Fuente: Autoría propia.
La aplicación puede ejecutarse en un entorno local desde RStudio o ser desplegada en la web mediante servicios como shinyapps.io, facilitando el acceso remoto y la interacción con los datos. Para este caso, el dashboard creado fue desplegado en la plataforma shinyapps.io, permitiendo su acceso en línea a través del siguiente enlace:
Se realizó la Certificación IBM Cognitive “Data Visualization with R” como complemento en el dominio de las herramientas y técnicas avanzadas.
Figura 20. Curso IBM
Fuente: Autoría propia.
El análisis realizado evidencia que el desempeño académico presenta variaciones significativas entre las diferentes asignaturas, lo que sugiere la influencia de factores pedagógicos, metodológicos y contextuales en el aprendizaje.
Se identificó una relación positiva entre la asistencia y las calificaciones, lo cual refuerza la importancia de la participación activa en el proceso educativo. Este tipo de hallazgo coincide con enfoques teóricos que destacan la interacción como elemento clave en el aprendizaje significativo. Se observó que los gráficos de dispersión y boxplot muestran una variabilidad considerable en los resultados, indicando que el rendimiento académico no es homogéneo entre los estudiantes.
Por otro lado, desde una perspectiva geográfica, aunque con coordenadas utilizadas simuladas, se evidencia el potencial del análisis espacial para identificar patrones territoriales en el desempeño académico, lo cual podría fortalecerse en estudios futuros con datos georreferenciados reales.
Finalmente, la implementación del dashboard interactivo en Shiny permitió integrar múltiples visualizaciones en una sola herramienta, facilitando la exploración dinámica, flexible y centrada de los datos y mejorando la interpretación de los resultados.
Barrera, D. A. (2024). Guía para las Certificaciones en IBM Cognitive. [Objeto_virtual_de_Informacion_OVI]. Repositorio Institucional UNAD. https://repository.unad.edu.co/handle/10596/6…
López-Pernas, S., Misiejuk, K., Tikka, S., Kopra, J., Heinäniemi, M., & Saqr, M. (2024). Visualizing and reporting educational data with r. In Learning Analytics Methods and Tutorials: A Practical Guide Using R (pp. 151-194). Cham: Springer Nature Switzerland. https://doi-org.bibliotecavirtual.unad.edu.co/10.1007/978-3-031-54464-4_6
Tony Fischetti, Brett Lantz, Jaynal Abedin, Hrishi V. Mittal, Bater Makhabel, Edina Berlinger, Ferenc Illes, Milan Badics, Adam Banai, Gergely Daroczi, Barbara Domotor, Gergely Gabler, Daniel Havran, Peter Juhasz, Istvan Margitai, Balazs Markus, Peter Medvegyev, Julia Molnar, Balazs Arpad Szucs, … Agnes Vidovics-Dancs. (2016). R: Data Analysis and Visualization . Packt Publishing. https://research-ebsco-com.bibliotecavirtual.unad.edu.co/linkprocessor/plink?id=3eea7039-be8f-3d9a