1. Portada

Proyecto: Análisis y Visualización del Dataset(Fase 3)
Autor: Nelson Javier Ruiz Lozano
Institución: Universidad Nacional Abierta y a Distancia – UNAD
Curso: Visualización para la Analítica de Datos
Tutor: ANDRES FELIPE HERNANDEZ GIRALDO
Año: 2025


2. Introducción

2.1. Contextualización del Problema

La gestión de datos académicos permite identificar patrones de rendimiento para prevenir la deserción estudiantil. Este informe documenta el proceso de analítica visual aplicado al dataset Atlas para transformar registros en herramientas de decisión institucional.

2.2. Objetivos

  • Objetivo General: Implementar un sistema de analítica visual interactivo en R que permita diagnosticar el rendimiento académico.
  • Objetivos Específicos:
    1. Ejecutar procesos de limpieza técnica (ETL) y normalización de datos.
    2. Diseñar visualizaciones avanzadas de rendimiento y asistencia.
    3. Integrar los resultados en un formato interactivo reproducible mediante R Markdown y Shiny.

3. Metodología

3.1. Preparación y Limpieza (Actividad 1)

Se aplicó un proceso de limpieza utilizando la librería janitor para estandarizar nombres de columnas y funciones de tidyverse para corregir la codificación de texto de las instituciones, eliminando caracteres especiales.

3.2. Herramientas Aplicadas

Se utilizaron las librerías ggplot2 y plotly para gráficos dinámicos, y leaflet para la representación cartográfica de las sedes educativas.

4. Resultados y Análisis de Hallazgos

4.1. Análisis Exploratorio y Curaduría de Datos (Actividad 1)

En esta fase, se transformaron los datos crudos del dataset Atlas en un formato estructurado. Como especialistas, priorizamos la integridad del dato mediante una pipeline de limpieza que elimina ruidos ortográficos y estandariza las variables métricas.

# Ingesta y procesamiento del dataset Atlas
df_atlas <- data.frame(
  institucion = c("Inst B", "Institucin D", "Instituto", "Institucion E", "Inst B", "Institucin C"),
  calificacion_final = c(0.2, 0.3, 4.5, 0.7, 2.7, 2.1),
  asistencias = c(66, 61, 72, 65, 52, 79),
  numero_actividades = c(19, 18, 24, 23, 17, 14)
)

# Pipeline de limpieza técnica (ETL)
df_limpio <- df_atlas %>% 
  clean_names() %>%
  mutate(institucion = iconv(tolower(institucion), to = "ASCII//TRANSLIT"))

# Resumen ejecutivo de variables críticas
kable(summary(df_limpio[, 2:4]), caption = "Tabla 1: Diagnóstico de Calidad y Tendencia Central")
Tabla 1: Diagnóstico de Calidad y Tendencia Central
calificacion_final asistencias numero_actividades
Min. :0.20 Min. :52.00 Min. :14.00
1st Qu.:0.40 1st Qu.:62.00 1st Qu.:17.25
Median :1.40 Median :65.50 Median :18.50
Mean :1.75 Mean :65.83 Mean :19.17
3rd Qu.:2.55 3rd Qu.:70.50 3rd Qu.:22.00
Max. :4.50 Max. :79.00 Max. :24.00
# --- COPIA DESDE AQUÍ ---

# Coordenadas geográficas de las instituciones
coords <- data.frame(
  inst = c("inst b", "instituto", "institucion e", "institucin c", "institucin d"),
  lat = c(6.244, 4.711, 10.399, 10.968, 3.451),
  lng = c(-75.567, -74.07, -75.514, -74.781, -76.532)
)

# CORRECCIÓN: Se agrega leaflet(coords) y el operador %>%
leaflet(coords) %>% 
  addTiles() %>% 
  addCircleMarkers(~lng, ~lat, label = ~inst, color = "darkblue", radius = 10, fillOpacity = 0.6)

  1. Certificación IBM Como evidencia del fortalecimiento de competencias en Ciencia de Datos, se adjunta la certificación internacional obtenida. Esta credencial avala el dominio técnico en la arquitectura de visualizaciones avanzadas, el uso de la gramática de gráficos y el despliegue de informes reproducibles mediante el lenguaje R.

Cualificación: Data Visualization with R

Emisor: IBM Skills Network / Cognitive Class

Especialista: Nelson Javier Ruiz Lozano

ID de Credencial: 5a4e61d6302744aba3f988e1909498ef

Validación de Competencias Puedes verificar la autenticidad de esta certificación a través del siguiente enlace oficial:

Acceder al Certificado Verificado de IBM