Proyecto: Análisis y Visualización del Dataset(Fase
3)
Autor: Nelson Javier Ruiz Lozano
Institución: Universidad Nacional Abierta y a Distancia
– UNAD
Curso: Visualización para la Analítica de Datos
Tutor: ANDRES FELIPE HERNANDEZ GIRALDO
Año: 2025
La gestión de datos académicos permite identificar patrones de rendimiento para prevenir la deserción estudiantil. Este informe documenta el proceso de analítica visual aplicado al dataset Atlas para transformar registros en herramientas de decisión institucional.
Se aplicó un proceso de limpieza utilizando la librería
janitor para estandarizar nombres de columnas y funciones
de tidyverse para corregir la codificación de texto de las
instituciones, eliminando caracteres especiales.
Se utilizaron las librerías ggplot2 y
plotly para gráficos dinámicos, y leaflet para
la representación cartográfica de las sedes educativas.
En esta fase, se transformaron los datos crudos del dataset Atlas en un formato estructurado. Como especialistas, priorizamos la integridad del dato mediante una pipeline de limpieza que elimina ruidos ortográficos y estandariza las variables métricas.
# Ingesta y procesamiento del dataset Atlas
df_atlas <- data.frame(
institucion = c("Inst B", "Institucin D", "Instituto", "Institucion E", "Inst B", "Institucin C"),
calificacion_final = c(0.2, 0.3, 4.5, 0.7, 2.7, 2.1),
asistencias = c(66, 61, 72, 65, 52, 79),
numero_actividades = c(19, 18, 24, 23, 17, 14)
)
# Pipeline de limpieza técnica (ETL)
df_limpio <- df_atlas %>%
clean_names() %>%
mutate(institucion = iconv(tolower(institucion), to = "ASCII//TRANSLIT"))
# Resumen ejecutivo de variables críticas
kable(summary(df_limpio[, 2:4]), caption = "Tabla 1: Diagnóstico de Calidad y Tendencia Central")| calificacion_final | asistencias | numero_actividades | |
|---|---|---|---|
| Min. :0.20 | Min. :52.00 | Min. :14.00 | |
| 1st Qu.:0.40 | 1st Qu.:62.00 | 1st Qu.:17.25 | |
| Median :1.40 | Median :65.50 | Median :18.50 | |
| Mean :1.75 | Mean :65.83 | Mean :19.17 | |
| 3rd Qu.:2.55 | 3rd Qu.:70.50 | 3rd Qu.:22.00 | |
| Max. :4.50 | Max. :79.00 | Max. :24.00 |
# --- COPIA DESDE AQUÍ ---
# Coordenadas geográficas de las instituciones
coords <- data.frame(
inst = c("inst b", "instituto", "institucion e", "institucin c", "institucin d"),
lat = c(6.244, 4.711, 10.399, 10.968, 3.451),
lng = c(-75.567, -74.07, -75.514, -74.781, -76.532)
)
# CORRECCIÓN: Se agrega leaflet(coords) y el operador %>%
leaflet(coords) %>%
addTiles() %>%
addCircleMarkers(~lng, ~lat, label = ~inst, color = "darkblue", radius = 10, fillOpacity = 0.6)Cualificación: Data Visualization with R
Emisor: IBM Skills Network / Cognitive Class
Especialista: Nelson Javier Ruiz Lozano
ID de Credencial: 5a4e61d6302744aba3f988e1909498ef
Validación de Competencias Puedes verificar la autenticidad de esta certificación a través del siguiente enlace oficial:
Acceder al Certificado Verificado de IBM