Componente Práctico - Visualización de Datos con R

Estudiante:
Zulay Nayiv Sánchez Castillo

Programa:
Maestría en Ciencia de Datos y Analítica

Curso:
Visualización para la Analítica de Datos

Tutor:
Sixyel Jeyson Castañeda Coronado

Universidad Nacional Abierta y a Distancia – UNAD

2026

Introducción

El presente trabajo realiza un análisis del desempeño académico de estudiantes mediante técnicas de visualización de datos en R, utilizando para tal fin el dataset aportado y el archivo de coordenadas del mapa de Colombia; identificando patrones relevantes en variables como calificaciones, asistencias y distribución por institución.

Se realizan diversas visualizaciones graficas que permiten la interpretación de los datos y su comportamiento, con el fin de tener un mejor análisis de las situaciones académicas presentadas y de esta manera obtener estrategias que faciliten y optimicen los diferentes procesos educativos en las instituciones, a través de la toma de decisiones acertadas.

Objetivo General

Analizar el comportamiento del desempeño académico utilizando herramientas de visualización de datos, utilizando el entorno de desarrollo integrado (IDE) para el lenguaje de programación R

Objetivos Específicos

Explorar y limpiar el dataset para garantizar la calidad de la información.
Aplicar técnicas de visualización para identificar patrones en los datos.
Desarrollar un dashboard interactivo en Shiny para facilitar la exploración de la información.

Metodología

Actividad 1. Preparación del Dataset y Análisis Exploratorio de Datos

Se dispone de un dataset que contiene información relacionada con instituciones educativas, calificaciones, niveles de asistencia y asignaturas. A partir de este, se llevó a cabo un proceso de estandarización de datos orientado a mejorar la calidad y consistencia de la información. Este proceso incluyó la normalización de texto mediante la corrección de mayúsculas y minúsculas, eliminación de espacios innecesarios y ajuste de caracteres especiales como tildes. Así mismo, se realizó la depuración de los nombres de las instituciones, dado que el dataset presentaba inconsistencias tales como “inst B”, “Instituci n A” y registros incompletos, lo cual dificultaba un análisis ordenado y preciso.

De manera similar, se aplicaron técnicas de limpieza sobre la variable correspondiente a las asignaturas, corrigiendo errores tipográficos y unificando criterios de nomenclatura. Adicionalmente, se eliminaron registros con valores nulos o vacíos, garantizando así la integridad del conjunto de datos, se seleccionaron las variables clave, se revisó el tamaño, tipo de datos, nombres de columnas del Dataset como parte de la exploración.

Una vez finalizado el proceso de limpieza y depuración, el dataset fue almacenado en un nuevo archivo denominado “data_limpio.csv”. Este archivo consolidado contiene información estructurada, consistente y lista para ser utilizada en las etapas posteriores de visualización y análisis, permitiendo obtener resultados más fiables y representativos.

Figura 1. Información Inicial

Fuente: Autoría propia.

Figura 2. Estandarización

Fuente: Autoría propia.

Figura 3. Transformación de campos

Fuente: Autoría propia.

Figura 4. Verificación

Fuente: Autoría propia.

Actividad 2. Visualización de Datos con ggplot2

La visualización de datos constituye una herramienta fundamental en el análisis exploratorio, ya que permite transformar información numérica en representaciones gráficas que facilitan la identificación de patrones, tendencias y relaciones entre variables

En esta sección se presentan diversas técnicas de visualización aplicadas al dataset académico, incluyendo histogramas, gráficos de barras, diagramas de dispersión, gráficos de líneas, boxplots, gráficos de radar, nubes de palabras y diagramas tipo waffle, cada uno de estos enfoques permite analizar el comportamiento de variables clave como las calificaciones, la asistencia y la distribución por asignatura e institución.

El propósito de estas visualizaciones, es facilitar la comprensión de la estructura de los datos, identificar posibles relaciones entre variables y detectar patrones relevantes que orienten el análisis. Así mismo, estas representaciones gráficas sirven como base para la interpretación de resultados y la formulación de conclusiones fundamentadas en evidencia empírica.

Histograma

Se observa una distribución relativamente concentrada de las calificaciones, indicando que la mayoría de los estudiantes se agrupan en rangos medios.

Figura 5. Histograma Calificaciones

Fuente: Autoría propia.

Boxplot

Se observó que existen diferencias en la dispersión de las calificaciones entre asignaturas, lo que sugiere variabilidad en el rendimiento académico.

Figura 6. Calificaciones vs Asignaturas

Fuente: Autoría propia.

Dispersión

En el análisis, se evidencia una relación positiva entre la asistencia y las calificaciones, indicando que una mayor participación favorece el rendimiento.

Figura 7. Asistencia vs Calificaciones

Fuente: Autoría propia.

Gráfico de Líneas

La tendencia de las calificaciones presenta fluctuaciones, sin una tendencia claramente creciente o decreciente, lo que indica variabilidad en el desempeño.

Figura 8. Tendencia Calificaciones

Fuente: Autoría propia.

Gráfico de barras

Con el gráfico de barras se identifican diferencias en el promedio de calificaciones entre asignaturas, destacando algunas con mejor rendimiento académico, que otras. Sin embargo, la diferencia es mínima en cuanto a los resultados esperados.

Figura 9. Promedio Calificaciones y Asignaturas

Fuente: Autoría propia.

Nube de Palabras

Se destacan aquellas asignaturas con mayor frecuencia, que son aquellas que tienen mayor representación en el dataset y de acuerdo al comportamiento de los datos.

Figura 10. Frecuencia de Asiganturas

Fuente: Autoría propia.

Waffle

Este tipo de gráfico permite observar la proporción relativa de estudiantes por asignatura, representados por colores de acuerdo a la frecuencia de la asignatura.

Figura 11. Proporción Estudiantes por Asignatura

Fuente: Autoría propia.

Radar

Dentro del análisis es importante revisar y comparar el rendimiento entre asignaturas de manera multidimensional, en este caso particular se utiliza un gráfico tipo radar que nos ayuda a visualizar este tipo de resultado, en donde se observa que las asignaturas tienen un comportamiento muy similar y su diferencia es mínima entre una y otra.

Figura 12. Rendimiento Multidimensional

Fuente: Autoría propia.

Mapa Geográfico

El mapa muestra la distribución geográfica del desempeño académico, sin embargo, es preciso aclarar que, debido a la ausencia de coordenadas reales, se utilizaron datos simulados, para revisar, analizar y comparar el comportamiento de la información aportada en el dataset y ofrecer una visualización georreferenciada cercana a un comportamiento real.

Figura 13. Georreferenciación Calificaciones

Fuente: Autoría propia.

Actividad 3. Páginas Web Interactivas con Shiny

La aplicación desarrollada mediante el paquete Shiny permitió construir un entorno interactivo para la exploración dinámica de los datos académicos, este dashboard integra múltiples visualizaciones y funcionalidades que facilitan el análisis desde diferentes perspectivas. La aplicación se estructuró bajo el modelo clásico de Shiny, compuesto por dos elementos fundamentales:

• Interfaz de usuario (UI): define la disposición visual y los controles interactivos.

• Servidor (Server): contiene la lógica reactiva y la generación de gráficos.

Esta separación permite una adecuada organización del código y facilita la escalabilidad del sistema.

La interfaz fue construida utilizando fluidPage() y sidebarLayout(), lo que permitió organizar el dashboard en dos secciones principales:

Panel lateral (sidebarPanel):

• Filtros interactivos mediante selectInput() para:

o Institución

o Asignatura

o Ciudad

Estos controles permiten segmentar los datos de forma dinámica.

Panel principal (mainPanel): se utilizó tabsetPanel() para dividir el contenido en múltiples pestañas:

• Histograma

• Boxplot

• Dispersión

• Líneas

• Barras

• Mapa

Este tipo de diseño mejora la experiencia del usuario, al permitir navegar entre distintos tipos de análisis sin recargar la aplicación.

El dashboard integra múltiples tipos de gráficos desarrollados con ggplot2:

Histograma: Permite analizar la distribución de las calificaciones.
Boxplot: Facilita la identificación de la dispersión y valores atípicos por institución o asignatura.
Gráfico de dispersión: Permite evaluar la relación entre asistencia y rendimiento académico.
Gráfico de líneas: Muestra la variabilidad de las calificaciones a lo largo de las observaciones.
Gráfico de barras: Representa los promedios de calificación por asignatura.
Mapa geográfico: Se integró un mapa utilizando el paquete sf, mostrando el territorio de Colombia mediante shapefile y puntos que representan el desempeño académico. Dado que el dataset no contenía coordenadas reales, se implementó una simulación de latitud y longitud para ilustrar la distribución espacial.

Por otor lado, el uso de Shiny permitió:

• Actualización automática de gráficos sin recargar la página.

• Exploración personalizada de los datos.

• Navegación intuitiva mediante pestañas.

Así, se transforma un análisis estático, en una herramienta analítica interactiva para el usuario final.

El dashboard no solo cumple una función visual, sino que; facilita la identificación de patrones ocultos, permite comparar resultados entre diferentes segmentos, mejora la toma de decisiones basada en datos.

Figura 14. Dashboard Histograma

Fuente: Autoría propia.

Figura 15. Dashboard Boxplot

Fuente: Autoría propia.

Figura 16. Dashboard Dispersión

Fuente: Autoría propia.

Figura 17. Dashboard Gráfico Líneas

Fuente: Autoría propia.

Figura 18. Dashboard Gráfico Barras

Fuente: Autoría propia.

Figura 19. Dashboard Mapa

Fuente: Autoría propia.

La aplicación puede ejecutarse en un entorno local desde RStudio o ser desplegada en la web mediante servicios como shinyapps.io, facilitando el acceso remoto y la interacción con los datos. Para este caso, el dashboard creado fue desplegado en la plataforma shinyapps.io, permitiendo su acceso en línea a través del siguiente enlace:

https://zulaysanchez.shinyapps.io/mi_app/

Certificado Curso IBM

Se realizó la Certificación IBM Cognitive “Data Visualization with R” como complemento en el dominio de las herramientas y técnicas avanzadas.

Figura 20. Curso IBM

Fuente: Autoría propia.

Conclusiones

El análisis realizado evidencia que el desempeño académico presenta variaciones significativas entre las diferentes asignaturas, lo que sugiere la influencia de factores pedagógicos, metodológicos y contextuales en el aprendizaje.

Se identificó una relación positiva entre la asistencia y las calificaciones, lo cual refuerza la importancia de la participación activa en el proceso educativo. Este tipo de hallazgo coincide con enfoques teóricos que destacan la interacción como elemento clave en el aprendizaje significativo. Se observó que los gráficos de dispersión y boxplot muestran una variabilidad considerable en los resultados, indicando que el rendimiento académico no es homogéneo entre los estudiantes.

Por otro lado, desde una perspectiva geográfica, aunque con coordenadas utilizadas simuladas, se evidencia el potencial del análisis espacial para identificar patrones territoriales en el desempeño académico, lo cual podría fortalecerse en estudios futuros con datos georreferenciados reales.

Finalmente, la implementación del dashboard interactivo en Shiny permitió integrar múltiples visualizaciones en una sola herramienta, facilitando la exploración dinámica, flexible y centrada de los datos y mejorando la interpretación de los resultados.

Referencias

Barrera, D. A. (2024). Guía para las Certificaciones en IBM Cognitive. [Objeto_virtual_de_Informacion_OVI]. Repositorio Institucional UNAD. https://repository.unad.edu.co/handle/10596/6…

López-Pernas, S., Misiejuk, K., Tikka, S., Kopra, J., Heinäniemi, M., & Saqr, M. (2024). Visualizing and reporting educational data with r. In Learning Analytics Methods and Tutorials: A Practical Guide Using R (pp. 151-194). Cham: Springer Nature Switzerland. https://doi-org.bibliotecavirtual.unad.edu.co/10.1007/978-3-031-54464-4_6

Tony Fischetti, Brett Lantz, Jaynal Abedin, Hrishi V. Mittal, Bater Makhabel, Edina Berlinger, Ferenc Illes, Milan Badics, Adam Banai, Gergely Daroczi, Barbara Domotor, Gergely Gabler, Daniel Havran, Peter Juhasz, Istvan Margitai, Balazs Markus, Peter Medvegyev, Julia Molnar, Balazs Arpad Szucs, … Agnes Vidovics-Dancs. (2016). R: Data Analysis and Visualization . Packt Publishing. https://research-ebsco-com.bibliotecavirtual.unad.edu.co/linkprocessor/plink?id=3eea7039-be8f-3d9a

G4_Zulay_Sanchez_Fase3

Zulay Nayiv Sánchez Castillo

2026

Componente Práctico - Visualización de Datos con R

Introducción

Objetivo General

Objetivos Específicos

Metodología

Actividad 1. Preparación del Dataset y Análisis Exploratorio de Datos

Actividad 2. Visualización de Datos con ggplot2

Histograma

Boxplot

Dispersión

Gráfico de Líneas

Gráfico de barras

Nube de Palabras

Waffle

Radar

Mapa Geográfico

Actividad 3. Páginas Web Interactivas con Shiny

Certificado Curso IBM

Conclusiones

Referencias