1. Carga y preparación de los datos

2.1 Carga del archivo

covid <- read_excel("C:/Users/bpena/Downloads/covid_2906.xlsx", sheet = "Hoja2")

2.2 Creación de las columnas GRUPO ETÁREO y REGIÓN GEOGRÁFICA

Con la función mutate se crean dos nuevas columnas a partir de las variables Edad y Codigo departamento:

  • GRUPO_ETAREO: clasifica cada caso según su edad en cinco grupos.
  • REGION_GEOGRAFICA: clasifica cada caso según el departamento en seis regiones geográficas de Colombia.
covid2 <- covid %>%
  mutate(
    GRUPO_ETAREO = case_when(
      Edad >= 0  & Edad <= 18 ~ "G1",
      Edad >= 19 & Edad <= 30 ~ "G2",
      Edad >= 31 & Edad <= 50 ~ "G3",
      Edad >= 51 & Edad <= 70 ~ "G4",
      Edad >= 71              ~ "G5"
    ),
    REGION_GEOGRAFICA = case_when(
      `Codigo departamento` == 11                   ~ "BOGOTA",
      `Codigo departamento` %in% c(5,15,17,25,41,
                                   54,63,66,68,73)  ~ "ANDINA",
      `Codigo departamento` %in% c(19,27,52,76,86)  ~ "PACIFICA",
      `Codigo departamento` %in% c(8,13,20,23,44,
                                   47,70,88)         ~ "CARIBE+INSULAR",
      `Codigo departamento` %in% c(18,91,94,95,97)  ~ "AMAZONIA",
      `Codigo departamento` %in% c(81,85,50,99)     ~ "ORINOQUIA"
    )
  )

La clasificación de grupos etáreos es la siguiente:

Grupo Rango de edad
G1 0 a 18 años
G2 19 a 30 años
G3 31 a 50 años
G4 51 a 70 años
G5 71 años o más

La clasificación de regiones geográficas es la siguiente:

Región Departamentos
BOGOTÁ Bogotá D.C.
ANDINA Antioquia, Boyacá, Caldas, Cundinamarca, Huila, Norte de Santander, Quindío, Risaralda, Santander, Tolima
PACÍFICA Cauca, Chocó, Nariño, Valle del Cauca, Buenaventura D.E.
CARIBE+INSULAR Atlántico, Bolívar, Cesar, Córdoba, La Guajira, Magdalena, Sucre, Barranquilla D.E., Cartagena D.T. y C., Santa Marta D.T. y C., San Andrés
AMAZONÍA Amazonas, Caquetá, Guainía, Guaviare, Vaupés
ORINOQUÍA Arauca, Casanare, Meta, Vichada

2.3 Verificación

# Verificar que no haya valores sin clasificar
cat("NAs en GRUPO_ETAREO:", sum(is.na(covid2$GRUPO_ETAREO)), "\n")
## NAs en GRUPO_ETAREO: 0
cat("NAs en REGION_GEOGRAFICA:", sum(is.na(covid2$REGION_GEOGRAFICA)), "\n")
## NAs en REGION_GEOGRAFICA: 0
# Distribución por grupo etáreo
table(covid2$GRUPO_ETAREO)
## 
##    G1    G2    G3    G4    G5 
##  9050 23964 34379 18380  5996
# Distribución por región geográfica
table(covid2$REGION_GEOGRAFICA)
## 
##       AMAZONIA         ANDINA         BOGOTA CARIBE+INSULAR      ORINOQUIA 
##           2373          10003          27927          35656           1363 
##       PACIFICA 
##          14447

Interpretación: Los 91.769 casos fueron clasificados correctamente sin ningún valor faltante. El grupo etáreo más frecuente es G3 (31-50 años) con 34.379 casos, y la región con más casos reportados es CARIBE+INSULAR con 35.656 casos, seguida de BOGOTÁ con 27.927 casos.


2. Tabla de contingencia

tabla <- table(covid2$REGION_GEOGRAFICA, covid2$GRUPO_ETAREO)
tabla
##                 
##                     G1    G2    G3    G4    G5
##   AMAZONIA         315   727   797   396   138
##   ANDINA          1011  2880  3735  1775   602
##   BOGOTA          3295  7193 10125  5657  1657
##   CARIBE+INSULAR  3058  8856 13798  7407  2537
##   ORINOQUIA         50   533   610   136    34
##   PACIFICA        1321  3775  5314  3009  1028

Interpretación: La tabla muestra la distribución de casos COVID-19 según región geográfica y grupo etáreo. Se observa que en todas las regiones el grupo G3 (31-50 años) concentra la mayor cantidad de casos, mientras que los grupos extremos G1 y G5 tienen menor frecuencia. CARIBE+INSULAR y BOGOTÁ dominan en términos de volumen de casos.


3. Prueba Chi-cuadrado

chisq.test(tabla)
## 
##  Pearson's Chi-squared test
## 
## data:  tabla
## X-squared = 673.55, df = 20, p-value < 2.2e-16

Interpretación: Con un estadístico \(\chi^2 = 673.55\) y un p-valor prácticamente igual a cero (< 2.2e-16), se rechaza la hipótesis nula de independencia entre el grupo etáreo y la región geográfica. Esto confirma que existe una asociación estadísticamente significativa entre estas dos variables, lo cual justifica la aplicación del Análisis de Correspondencias Simples.


4. Análisis de Correspondencias Simples

options(digits = 2)
acs_covid <- ca(tabla, nd = 2)
acs_covid
## 
##  Principal inertias (eigenvalues):
##            1        2        3        4      
## Value      0.003661 0.003382 0.000248 4.9e-05
## Percentage 49.88%   46.08%   3.38%    0.67%  
## 
## 
##  Rows:
##         AMAZONIA   ANDINA BOGOTA CARIBE+INSULAR ORINOQUIA PACIFICA
## Mass     0.02586  0.10900 0.3043         0.3885    0.0149  0.15743
## ChiDist  0.17325  0.07631 0.0694         0.0592    0.4395  0.03851
## Inertia  0.00078  0.00064 0.0015         0.0014    0.0029  0.00023
## Dim. 1  -1.20845 -1.14412 0.3086         0.3344   -7.0514  0.23419
## Dim. 2   2.55211  0.48778 1.1241        -0.9511   -1.6640 -0.42567
## 
## 
##  Columns:
##             G1      G2       G3      G4       G5
## Mass    0.0986  0.2611  0.37462  0.2003  0.06534
## ChiDist 0.1679  0.0811  0.04038  0.0819  0.11646
## Inertia 0.0028  0.0017  0.00061  0.0013  0.00089
## Dim. 1  0.8377 -1.2876 -0.26693  1.3115  1.39213
## Dim. 2  2.7499  0.3083 -0.58133 -0.2957 -1.14292

Interpretación de las inercias: Las dos primeras dimensiones explican el 95.96% de la varianza total (49.88% la Dimensión 1 y 46.08% la Dimensión 2), lo que indica que el mapa bidimensional captura casi toda la información relevante de la asociación entre las variables. Esto valida el uso de solo dos dimensiones para el análisis.

En cuanto a las filas (regiones), ORINOQUÍA presenta la mayor distancia Chi² (0.44), siendo la región más atípica respecto al perfil promedio nacional. AMAZONIA también muestra un alejamiento considerable (0.17). Por otro lado, PACÍFICA tiene la menor distancia (0.04), siendo la región más cercana al comportamiento promedio.

En cuanto a las columnas (grupos etáreos), G1 (0-18 años) y G5 (71+ años) presentan las mayores distancias Chi², siendo los grupos más atípicos. G3 (31-50 años) tiene la menor distancia (0.04), siendo el grupo más representativo del promedio nacional.


5. Gráficas

6.1 Perfiles Fila — Regiones Geográficas

plot(acs_covid, map = "rowprincipal",
     what = c("all", "none"),
     xlab = "Perfiles fila - Regiones")

Interpretación: El gráfico de perfiles fila muestra la posición de cada región geográfica en el espacio de dos dimensiones. ORINOQUÍA se ubica muy alejada a la izquierda, evidenciando un perfil etáreo muy diferente al del resto del país. AMAZONIA también se separa del grupo principal, ubicándose en la parte superior. En contraste, BOGOTÁ, PACÍFICA y CARIBE+INSULAR aparecen muy próximas entre sí a la derecha, indicando que estas tres regiones tienen distribuciones etáreas similares. ANDINA se ubica en una posición intermedia, representando un perfil más cercano al promedio nacional.


6.2 Perfiles Columna — Grupos Etáreos

plot(acs_covid, map = "colprincipal",
     what = c("none", "all"),
     xlab = "Perfiles columna - Grupos etareos")

Interpretación: El gráfico de perfiles columna muestra la posición de cada grupo etáreo. G1 (0-18 años) se ubica en la parte superior derecha, con un comportamiento claramente diferenciado del resto. G5 (71+ años) aparece en la parte inferior derecha, también alejado pero con un patrón distinto al de G1. G4 (51-70 años) y G5 son cercanos, sugiriendo comportamientos similares entre los grupos de mayor edad. G2 (19-30 años) se ubica a la izquierda, con un perfil diferente a los adultos mayores. G3 (31-50 años) permanece cerca del origen, confirmando que es el grupo más representativo del promedio.


6.3 Mapa Simétrico — Asociación conjunta

plot(acs_covid,
     map = "symmetric", what = c("all", "all"),
     xlab = "Proyeccion comun de ambos factores", cex = 0.8)

Interpretación: El mapa simétrico es la visualización más completa del ACS, ya que permite observar simultáneamente la posición de regiones y grupos etáreos. Las principales asociaciones identificadas son:

  • BOGOTÁ — G1: Bogotá presenta una mayor proporción relativa de casos en menores de 18 años en comparación con otras regiones.
  • CARIBE+INSULAR — G5: La región Caribe e Insular muestra mayor asociación con casos en adultos de 71 años o más.
  • PACÍFICA — G4: La región Pacífica se asocia relativamente más con el grupo de 51 a 70 años.
  • ANDINA — G2: La región Andina se relaciona más con casos en jóvenes de 19 a 30 años.
  • AMAZONIA — G1: La Amazonía también muestra cierta proximidad al grupo de menores de 18 años.
  • ORINOQUÍA: Es la región más alejada de todas, con un perfil etáreo completamente atípico respecto al resto del país, lo que sugiere una distribución de edades muy diferente en sus casos de COVID-19.
  • G3 (31-50 años): Al ubicarse cerca del origen, este grupo es el más homogéneo y representativo del comportamiento promedio en todas las regiones.

6. Conclusiones

  • El ACS confirma que existe una asociación estadísticamente significativa entre los grupos etáreos y las regiones geográficas en los casos de COVID-19 en Colombia (p-valor < 2.2e-16).
  • Las dos primeras dimensiones explican el 95.96% de la varianza total, lo que valida la representación bidimensional del análisis.
  • ORINOQUÍA es la región con el perfil etáreo más atípico del país, diferenciándose claramente de todas las demás regiones.
  • BOGOTÁ, PACÍFICA y CARIBE+INSULAR comparten perfiles etáreos similares, concentrando una distribución de casos más homogénea.
  • El grupo G3 (31-50 años) representa el perfil etáreo promedio nacional, siendo el grupo más frecuente en todas las regiones.
  • Los grupos extremos G1 (0-18 años) y G5 (71+ años) presentan los perfiles más atípicos, con asociaciones diferenciadas según la región geográfica.