Logo Universidad Católica de Colombia

UNIVERSIDAD CATÓLICA DE COLOMBIA

Big Data y Análisis de Datos

EXAMEN PARCIAL 2

DANNY ANDRÉS PULIDO ROZO – 3101349
MARTHA DEL PILAR BAUTISTA – 3600213

30 de octubre de 2025


ANÁLISIS DESCRIPTIVO CASOS REPORTADO

El presente trabajo tiene como propósito aplicar las herramientas y conceptos del Big Data y la analítica de datos para comprender de manera práctica cómo se pueden procesar, limpiar, analizar e interpretar conjuntos de datos reales. A través del uso de técnicas estadísticas y computacionales, se busca desarrollar una visión crítica sobre la importancia de la información como recurso estratégico y su impacto en la toma de decisiones basadas en datos.

Actividad 1- contextualización inicial

## La base de datos contiene 82101 registros y 31 variables.
##  [1] "PID"                    "reprt_creationdt_FALSE" "case_dob_FALSE"        
##  [4] "case_age"               "case_gender"            "case_race"             
##  [7] "case_eth"               "case_zip"               "Contact_id"            
## [10] "sym_startdt_FALSE"

La base de datos utilizada corresponde a registros de casos reportados de COVID-19. Está compuesta por 82.101 observaciones y 31 variables que incluyen información demográfica, clínica y administrativa. Entre las variables más relevantes se encuentran el identificador del caso (PID), la fecha de reporte (reprt_creationdt_FALSE), la edad (case_age), el género (case_gender), la raza (case_race), la etnicidad (case_eth), el código postal (case_zip) y la fecha de inicio de síntomas (sym_startdt_FALSE).

Este conjunto de datos permitirá realizar un análisis descriptivo inicial, explorando la distribución de los casos y la calidad de la información disponible

##     case_age      case_gender         case_race           case_eth        
##  Min.   :-20.00   Length:82101       Length:82101       Length:82101      
##  1st Qu.: 25.00   Class :character   Class :character   Class :character  
##  Median : 37.00   Mode  :character   Mode  :character   Mode  :character  
##  Mean   : 39.69                                                           
##  3rd Qu.: 53.00                                                           
##  Max.   :106.00                                                           
##  NA's   :48

Detectar variables con valores faltantes

De acuerdo con el análisis de valores faltantes, las variables con mayor proporción de datos ausentes corresponden principalmente a información clínica.

Las más afectadas son:

Estas variables presentan niveles muy altos de faltantes, lo cual puede limitar los análisis clínicos detallados. Sin embargo, variables clave como edad, género, raza, etnicidad y fecha de reporte mantienen buena completitud, lo que permite realizar un análisis descriptivo confiable de la población de estudio.

Limpieza y preparación de datos

Se corrigieron formatos, se eliminaron duplicados y se ajustaron variables. Aún existen faltantes en variables clínicas como died_dt_FALSE y hosp_dischdt_FALSE, pero las variables clave (edad, género, fecha de reporte) están completas para el análisis descriptivo.

Actividad 2 - Tablas Descriptivas

PERFIL DEMOGRAFICO

1.1 Distribución por género, raza y etnicidad

Tabla 1. Distribucion por genero
case_gender n Porcentaje
Femenino 43298 52.74
Masculino 38393 46.76
No especificado 409 0.50

Tabla 1. La distribución por género muestra una ligera mayoría de casos femeninos (52.7 %) frente a masculinos (46.8 %), con una proporción mínima de registros sin especificar.

Tabla 2. Distribucion por raza
case_race n Porcentaje
BLACK 35047 42.69
WHITE 31599 38.49
OTHER 5863 7.14
UNKNOWN 3723 4.53
ASIAN 3075 3.75
NA 2630 3.20
AMERICAN INDIAN/ALASKA NATIVE 84 0.10
NATIVE HAWAIIAN/PACIFIC ISLANDER 79 0.10

Tabla 2. La mayoría de los casos corresponden a personas identificadas como Black (42.7 %) y White (38.5 %), mientras que otras categorías raciales presentan proporciones menores.

Tabla 3. Distribucion por etnicidad
case_eth n Porcentaje
NON-HISPANIC/LATINO 62676 76.34
HISPANIC/LATINO 8625 10.51
NOT SPECIFIED 8225 10.02
NA 2574 3.14

Tabla 3. La mayoría de los casos corresponden a personas no hispanas o latinas (76.3 %), seguidas por el grupo hispano/latino (10.5 %), mientras que un 10 % no especificó su etnicidad.

1.2 Crear variable de grupos de edad (age_group)

Tabla 5. Distribucion por grupo de edad
age_group n Porcentaje
0-17 8009 9.76
18-29 20656 25.16
30-44 22685 27.63
45-64 21495 26.18
65+ 9207 11.21
NA 48 0.06

Tabla 4. La distribución por grupo de edad muestra mayor concentración de casos entre los 18 y 64 años, especialmente en los grupos de 30-44 (27.6 %) y 45-64 años (26.2 %), mientras que los menores de 18 representan una proporción menor (9.8 %).

1.3 Tabla cruzada: age_group × case_gender

Tabla 6. Distribucion cruzada por grupo de edad y genero
age_group case_gender n Porcentaje
0-17 Femenino 4014 50.12
0-17 Masculino 3948 49.29
0-17 No especificado 47 0.59
18-29 Femenino 11227 54.35
18-29 Masculino 9333 45.18
18-29 No especificado 96 0.46
30-44 Femenino 11935 52.61
30-44 Masculino 10639 46.90
30-44 No especificado 111 0.49
45-64 Femenino 10969 51.03
45-64 Masculino 10432 48.53
45-64 No especificado 94 0.44
65+ Femenino 5132 55.74
65+ Masculino 4026 43.73
65+ No especificado 49 0.53

Tabla 5. En todos los grupos de edad predomina ligeramente el género femenino, especialmente en mayores de 65 años (55.7 %), mientras que las diferencias entre hombres y mujeres son menores en los grupos más jóvenes.

Síntomas

2.1 Calcular proporción de respuestas “Yes” por síntoma

Tabla 7. Proporcion de respuestas ‘Sí’ por sintoma
Sintoma Casos_con_dato Casos_Si Proporcion_Si
Tos 50471 21943 43.48
Dolor de cabeza 50083 21675 43.28
Perdida del gusto/olfato 31377 12734 40.58
sym_myalgia 49964 19533 39.09
Fiebre 50524 15127 29.94
sym_subjfever 44193 12712 28.76
Dolor de garganta 49860 12516 25.10
sym_resolved 39807 0 0.00

El análisis de la Tabla 7 revela que la Tos (43.48%) y el Dolor de cabeza (43.28%) son los síntomas más prevalentes en los casos reportados, seguidos por la Pérdida del gusto/olfato y el Dolor muscular.

La Fiebre y el Dolor de garganta se encuentran entre los menos comunes, reportados en menos del 30% y 25.10% de los casos con dato conocido, respectivamente.

Finalmente, la proporción de síntomas resueltos (sym_resolved) es de 0.00%, indicando que la gran mayoría de los pacientes seguían sintomáticos al momento del reporte.

Resultados Clínicos

Aquí debemos calcular y presentar dos indicadores clave:

1.Tasa de hospitalización (% de casos con hospitalized == “Yes”).

2.Tasa de letalidad (CFR): % de died == “Yes” entre los confirmed_case == “Yes” con dato de fallecimiento conocido.

3.Presentar ambos por grupo de edad (age_group).

Tabla 8. Resultados clinicos por grupo de edad
age_group Tasa_hospitalizacion Tasa_letalidad
0-17 1.95 0.04
18-29 3.08 0.12
30-44 6.30 0.43
45-64 13.66 2.58
65+ 38.47 25.24
NA 16.67 0.00

La Tabla 8 muestra una correlación directa y exponencial entre la edad y la severidad de la enfermedad, siendo el grupo de 65 años o más el más afectado.

La Tasa de Hospitalización se dispara desde un mínimo del 1.95% (0-17 años) hasta un 38.47% (65+), mientras que la Tasa de Letalidad (CFR) se eleva dramáticamente de 0.04% a 25.24% en los extremos de edad.

Actividad 3 - Análisis gráfico

Casos diarios y Tendencia

Figura 1. El gráfico evidencia dos grandes periodos de aumento en los casos reportados, correspondientes a las olas de mediados de 2020 y principios de 2021. La línea de media móvil suaviza la tendencia y muestra una reducción sostenida posterior al segundo pico.

Distribuacion Demografica

Hospitalizacion y Letalidad

Figura 5. Las tasas de hospitalización y letalidad muestran un incremento progresivo con la edad. Los grupos mayores de 65 años presentan las proporciones más altas, lo que evidencia el impacto diferencial del COVID-19 en poblaciones de riesgo.

Evolución temporal de hospitalizaciones y muertes

Figura 4. La evolución temporal muestra dos picos principales de hospitalizaciones y fallecimientos, correspondientes a mediados de 2020 y comienzos de 2021. Las muertes siguen la misma tendencia que las hospitalizaciones, aunque con menor magnitud y un leve retraso temporal, reflejando el curso clínico de la enfermedad.

Sintomas Principales

Figura 6. Los síntomas más reportados en todos los grupos son fiebre, tos y dolor de cabeza. En adultos jóvenes se observa mayor frecuencia de pérdida del gusto u olfato, mientras que en mayores de 45 años predominan la fatiga y la dificultad respiratoria.