DANNY ANDRÉS PULIDO ROZO – 3101349
MARTHA
DEL PILAR BAUTISTA – 3600213
30 de octubre de
2025
El presente trabajo tiene como propósito aplicar las herramientas y conceptos del Big Data y la analítica de datos para comprender de manera práctica cómo se pueden procesar, limpiar, analizar e interpretar conjuntos de datos reales. A través del uso de técnicas estadísticas y computacionales, se busca desarrollar una visión crítica sobre la importancia de la información como recurso estratégico y su impacto en la toma de decisiones basadas en datos.
## La base de datos contiene 82101 registros y 31 variables.
## [1] "PID" "reprt_creationdt_FALSE" "case_dob_FALSE"
## [4] "case_age" "case_gender" "case_race"
## [7] "case_eth" "case_zip" "Contact_id"
## [10] "sym_startdt_FALSE"
La base de datos utilizada corresponde a registros de casos reportados de COVID-19. Está compuesta por 82.101 observaciones y 31 variables que incluyen información demográfica, clínica y administrativa. Entre las variables más relevantes se encuentran el identificador del caso (PID), la fecha de reporte (reprt_creationdt_FALSE), la edad (case_age), el género (case_gender), la raza (case_race), la etnicidad (case_eth), el código postal (case_zip) y la fecha de inicio de síntomas (sym_startdt_FALSE).
Este conjunto de datos permitirá realizar un análisis descriptivo inicial, explorando la distribución de los casos y la calidad de la información disponible
## case_age case_gender case_race case_eth
## Min. :-20.00 Length:82101 Length:82101 Length:82101
## 1st Qu.: 25.00 Class :character Class :character Class :character
## Median : 37.00 Mode :character Mode :character Mode :character
## Mean : 39.69
## 3rd Qu.: 53.00
## Max. :106.00
## NA's :48
De acuerdo con el análisis de valores faltantes, las variables con mayor proporción de datos ausentes corresponden principalmente a información clínica.
Las más afectadas son:
died_dt_FALSE (97.9%): fecha de fallecimiento.
hosp_dischdt_FALSE (95.7%) y hosp_admidt_FALSE (93.9%): fechas de alta y admisión hospitalaria.
sym_resolveddt_FALSE (80.1%): fecha de resolución de síntomas.
sym_losstastesmell (61.8%) y died_covid (51.5%): síntomas y confirmación de muerte por COVID.
sym_startdt_FALSE (45.6%): fecha de inicio de síntomas.
Estas variables presentan niveles muy altos de faltantes, lo cual puede limitar los análisis clínicos detallados. Sin embargo, variables clave como edad, género, raza, etnicidad y fecha de reporte mantienen buena completitud, lo que permite realizar un análisis descriptivo confiable de la población de estudio.
Se corrigieron formatos, se eliminaron duplicados y se ajustaron variables. Aún existen faltantes en variables clínicas como died_dt_FALSE y hosp_dischdt_FALSE, pero las variables clave (edad, género, fecha de reporte) están completas para el análisis descriptivo.
1.1 Distribución por género, raza y etnicidad
| case_gender | n | Porcentaje |
|---|---|---|
| Femenino | 43298 | 52.74 |
| Masculino | 38393 | 46.76 |
| No especificado | 409 | 0.50 |
Tabla 1. La distribución por género muestra una ligera mayoría de casos femeninos (52.7 %) frente a masculinos (46.8 %), con una proporción mínima de registros sin especificar.
| case_race | n | Porcentaje |
|---|---|---|
| BLACK | 35047 | 42.69 |
| WHITE | 31599 | 38.49 |
| OTHER | 5863 | 7.14 |
| UNKNOWN | 3723 | 4.53 |
| ASIAN | 3075 | 3.75 |
| NA | 2630 | 3.20 |
| AMERICAN INDIAN/ALASKA NATIVE | 84 | 0.10 |
| NATIVE HAWAIIAN/PACIFIC ISLANDER | 79 | 0.10 |
Tabla 2. La mayoría de los casos corresponden a personas identificadas como Black (42.7 %) y White (38.5 %), mientras que otras categorías raciales presentan proporciones menores.
| case_eth | n | Porcentaje |
|---|---|---|
| NON-HISPANIC/LATINO | 62676 | 76.34 |
| HISPANIC/LATINO | 8625 | 10.51 |
| NOT SPECIFIED | 8225 | 10.02 |
| NA | 2574 | 3.14 |
Tabla 3. La mayoría de los casos corresponden a personas no hispanas o latinas (76.3 %), seguidas por el grupo hispano/latino (10.5 %), mientras que un 10 % no especificó su etnicidad.
1.2 Crear variable de grupos de edad (age_group)
| age_group | n | Porcentaje |
|---|---|---|
| 0-17 | 8009 | 9.76 |
| 18-29 | 20656 | 25.16 |
| 30-44 | 22685 | 27.63 |
| 45-64 | 21495 | 26.18 |
| 65+ | 9207 | 11.21 |
| NA | 48 | 0.06 |
Tabla 4. La distribución por grupo de edad muestra mayor concentración de casos entre los 18 y 64 años, especialmente en los grupos de 30-44 (27.6 %) y 45-64 años (26.2 %), mientras que los menores de 18 representan una proporción menor (9.8 %).
1.3 Tabla cruzada: age_group × case_gender
| age_group | case_gender | n | Porcentaje |
|---|---|---|---|
| 0-17 | Femenino | 4014 | 50.12 |
| 0-17 | Masculino | 3948 | 49.29 |
| 0-17 | No especificado | 47 | 0.59 |
| 18-29 | Femenino | 11227 | 54.35 |
| 18-29 | Masculino | 9333 | 45.18 |
| 18-29 | No especificado | 96 | 0.46 |
| 30-44 | Femenino | 11935 | 52.61 |
| 30-44 | Masculino | 10639 | 46.90 |
| 30-44 | No especificado | 111 | 0.49 |
| 45-64 | Femenino | 10969 | 51.03 |
| 45-64 | Masculino | 10432 | 48.53 |
| 45-64 | No especificado | 94 | 0.44 |
| 65+ | Femenino | 5132 | 55.74 |
| 65+ | Masculino | 4026 | 43.73 |
| 65+ | No especificado | 49 | 0.53 |
Tabla 5. En todos los grupos de edad predomina ligeramente el género femenino, especialmente en mayores de 65 años (55.7 %), mientras que las diferencias entre hombres y mujeres son menores en los grupos más jóvenes.
2.1 Calcular proporción de respuestas “Yes” por síntoma
| Sintoma | Casos_con_dato | Casos_Si | Proporcion_Si |
|---|---|---|---|
| Tos | 50471 | 21943 | 43.48 |
| Dolor de cabeza | 50083 | 21675 | 43.28 |
| Perdida del gusto/olfato | 31377 | 12734 | 40.58 |
| sym_myalgia | 49964 | 19533 | 39.09 |
| Fiebre | 50524 | 15127 | 29.94 |
| sym_subjfever | 44193 | 12712 | 28.76 |
| Dolor de garganta | 49860 | 12516 | 25.10 |
| sym_resolved | 39807 | 0 | 0.00 |
El análisis de la Tabla 7 revela que la Tos (43.48%) y el Dolor de cabeza (43.28%) son los síntomas más prevalentes en los casos reportados, seguidos por la Pérdida del gusto/olfato y el Dolor muscular.
La Fiebre y el Dolor de garganta se encuentran entre los menos comunes, reportados en menos del 30% y 25.10% de los casos con dato conocido, respectivamente.
Finalmente, la proporción de síntomas resueltos (sym_resolved) es de 0.00%, indicando que la gran mayoría de los pacientes seguían sintomáticos al momento del reporte.
Aquí debemos calcular y presentar dos indicadores clave:
1.Tasa de hospitalización (% de casos con hospitalized == “Yes”).
2.Tasa de letalidad (CFR): % de died == “Yes” entre los confirmed_case == “Yes” con dato de fallecimiento conocido.
3.Presentar ambos por grupo de edad (age_group).
| age_group | Tasa_hospitalizacion | Tasa_letalidad |
|---|---|---|
| 0-17 | 1.95 | 0.04 |
| 18-29 | 3.08 | 0.12 |
| 30-44 | 6.30 | 0.43 |
| 45-64 | 13.66 | 2.58 |
| 65+ | 38.47 | 25.24 |
| NA | 16.67 | 0.00 |
La Tabla 8 muestra una correlación directa y exponencial entre la edad y la severidad de la enfermedad, siendo el grupo de 65 años o más el más afectado.
La Tasa de Hospitalización se dispara desde un mínimo del 1.95% (0-17 años) hasta un 38.47% (65+), mientras que la Tasa de Letalidad (CFR) se eleva dramáticamente de 0.04% a 25.24% en los extremos de edad.
Figura 1. El gráfico evidencia dos grandes periodos de aumento en los casos reportados, correspondientes a las olas de mediados de 2020 y principios de 2021. La línea de media móvil suaviza la tendencia y muestra una reducción sostenida posterior al segundo pico.
Figura 5. Las tasas de hospitalización y letalidad muestran un
incremento progresivo con la edad. Los grupos mayores de 65 años
presentan las proporciones más altas, lo que evidencia el impacto
diferencial del COVID-19 en poblaciones de riesgo.
Figura 4. La evolución temporal muestra dos picos principales de
hospitalizaciones y fallecimientos, correspondientes a mediados de 2020
y comienzos de 2021. Las muertes siguen la misma tendencia que las
hospitalizaciones, aunque con menor magnitud y un leve retraso temporal,
reflejando el curso clínico de la enfermedad.
Figura 6. Los síntomas más reportados en todos los grupos son fiebre, tos y dolor de cabeza. En adultos jóvenes se observa mayor frecuencia de pérdida del gusto u olfato, mientras que en mayores de 45 años predominan la fatiga y la dificultad respiratoria.