Análisis Multivariado de Enfermedades Infecciosas y Factores Socioeconómicos en Países del Mundo

Intrducción

En el contexto actual de globalización e intercambio constante entre naciones, las enfermedades infecciosas continúan representando un desafío significativo para los sistemas de salud pública. Este estudio se centra en el análisis multivariado de un conjunto de datos que abarca distintos países y considera tanto variables epidemiológicas, como la incidencia de enfermedades infecciosas y muertes, como factores socioeconómicos, como el PIB per cápita, edad media y gasto en salud.

El objetivo principal es identificar patrones o agrupaciones de países con características similares en relación con la carga de enfermedades infecciosas y sus determinantes sociales, mediante la aplicación de técnicas estadísticas como el Análisis de Componentes Principales (ACP) y el análisis de conglomerados jerárquicos (clustering).

Estos métodos permiten reducir la dimensionalidad del conjunto de datos para facilitar la visualización e interpretación, y posteriormente clasificar los países en grupos homogéneos, proporcionando así información útil.

Metodología

El análisis se realizó sobre un conjunto de datos compuesto por variables cuantitativas recolectadas para una muestra de países del año 2021. Las variables incluidas son:

Muertes: Número total de muertes por enfermedades infecciosas.
Edad Media: Edad promedio de la población de cada país contagiadas con enfermedades infecciosas.
PIB per cápita: Producto Interno Bruto por habitante.
Gasto en salud per cápita: Inversión promedio en salud por persona.
Covid-19, Tuberculosis, VIH/SIDA, Sífilis, Gonorrea, Clamidia, Herpes genital, VPH y Tricomoniasis: Número de casos reportados por cada enfermedad en cada país.

Para explorar y sintetizar la información de múltiples variables, se empleó el Análisis de Componentes Principales (ACP). Esta técnica estadística reduce la dimensionalidad de los datos al transformar las variables originales en un conjunto más pequeño de variables no correlacionadas llamadas componentes principales, que retienen la mayor parte de la variabilidad de los datos.

Posteriormente, se utilizó un análisis de conglomerados jerárquico (clustering jerárquico) sobre los componentes principales para agrupar los países según sus similitudes en las variables consideradas. Se utilizó el método de enlace de Ward y la distancia euclidiana como medidas de similitud.

Resultados Descriptivos

Esta tabla representa el conjunto de datos que contiene 13 variables cuantitativas recolectadas para un conjunto de países en el año 2021 para aplicar técnicas de análisis multivariado como el Análisis de Componentes Principales, la clasificación en clusters y el agrupamiento jerárquico. La visualización interactiva permite explorar fácilmente los valores por país, facilitando la identificación de posibles patrones o valores atípicos antes de la modelación.

Resumen Estadístico

##     Muertes         Edad_Media   PIB_Per_Capita   Gasto_en_salud
##  Min.   :    20   Min.   : 7.0   Min.   :   272   Min.   :  18  
##  1st Qu.:  5000   1st Qu.:23.0   1st Qu.:  2500   1st Qu.: 100  
##  Median :  7900   Median :30.5   Median :  5600   Median : 323  
##  Mean   : 16484   Mean   :30.4   Mean   : 14590   Mean   :1218  
##  3rd Qu.: 12000   3rd Qu.:38.3   3rd Qu.: 18000   3rd Qu.:1108  
##  Max.   :254000   Max.   :48.4   Max.   :100000   Max.   :7055  
##     Covid_19         Tuberculosis         VIH           Sifilis      
##  Min.   :      20   Min.   :   1.0   Min.   :  250   Min.   :    50  
##  1st Qu.:   10000   1st Qu.:   8.0   1st Qu.: 2500   1st Qu.:   400  
##  Median :   40000   Median :  40.0   Median : 5500   Median :  2000  
##  Mean   :  954979   Mean   : 167.4   Mean   :14104   Mean   :  7115  
##  3rd Qu.:  300000   3rd Qu.: 290.0   3rd Qu.:16000   3rd Qu.:  3500  
##  Max.   :30000000   Max.   :1100.0   Max.   :83000   Max.   :180000  
##     Gonorrea         Clamidia          Herpes              VPH          
##  Min.   :   120   Min.   :   220   Min.   :    3000   Min.   :   10000  
##  1st Qu.:  1000   1st Qu.:  1800   1st Qu.:   22000   1st Qu.:   72000  
##  Median :  4200   Median :  7800   Median :   95000   Median :  310000  
##  Mean   : 16183   Mean   : 29572   Mean   :  458124   Mean   : 1472820  
##  3rd Qu.:  8200   3rd Qu.: 15200   3rd Qu.:  280000   3rd Qu.:  920000  
##  Max.   :420000   Max.   :780000   Max.   :11000000   Max.   :36000000  
##  Tricomoniasis     
##  Min.   :    4000  
##  1st Qu.:   28000  
##  Median :  120000  
##  Mean   :  573539  
##  3rd Qu.:  360000  
##  Max.   :14000000

El resumen estadístico presentado a través del comando summary ofrece una visión general de la distribución y escala de cada variable en el conjunto de datos, lo cual es fundamental para comprender su comportamiento antes de aplicar técnicas multivariadas.

Muertes: Se reportan desde 20 hasta 254.000 muertes. La media de 16.484 es más del doble de la mediana 7.900, indicando asimetría positiva.
Edad Media: Varía entre 7 y 48.4 años. La mediana es 30.5 años, lo que indica una distribución centrada en poblaciones jóvenes-adultas.
PIB per cápita: Hay gran dispersión, desde 272 hasta 100.000 dólares. La media de 14.590 es mucho mayor que la mediana de 5.600, lo que indica una fuerte asimetría positiva.
Gasto en salud per cápita: También presenta alta variabilidad de 18 a 7.055. La media 1.218 es superior a la mediana 323, lo cual sugiere nuevamente presencia de valores extremos hacia arriba.
Covid-19: Se observa una gran dispersión, con países que tienen hasta 30 millones de casos. La media es de 954.979, mucho mayor que la mediana 40.000.
Tuberculosis y VIH/SIDA: Aunque la mediana de tuberculosis es 40 casos, algunos países llegan a 1.100. Para VIH/SIDA, la mediana es 5.500, con máximos de hasta 83.000 casos.
ETS como Sífilis, Gonorrea, Clamidia, Herpes, VPH y Tricomoniasis: En general, estas variables muestran altas medias y máximos muy elevados, en especial VPH, hasta 36 millones de casos, y Herpes con 11 millones. Esto sugiere que ciertos países enfrentan altas cargas de enfermedades de transmisión sexual.

El gráfico de sedimentación presenta el porcentaje de varianza explicada por cada componente principal extraído del análisis de componentes principales (ACP). Se observa que el primer componente, explica aproximadamente el 58.5% de la varianza total, mientras que el segundo componente añade un 19.2% adicional. En conjunto, los dos primeros componentes explican cerca del 78% de la variabilidad presente en los datos originales.

A partir del tercer componente, con un aporte del 7.9%, la varianza explicada por cada nuevo componente disminuye considerablemente. Este patrón sugiere que los primeros dos o tres componentes contienen la mayor parte de la información relevante del conjunto de datos, lo que justifica su uso para representar los datos en un espacio reducido sin perder significativamente la estructura de la información original.

El gráfico muestra cómo se relacionan las variables dentro del plano formado por los dos primeros componentes principales, que explican el 77.7% de la varianza total.

Las variables Gasto en salud, Edad media y VIH están bien representadas, flechas largas y color intenso, lo que indica que contribuyen significativamente a la formación de los ejes principales.
Variables como Tuberculosis, Covid-19 y Muertes están menos representadas, flechas cortas y colores claros, por lo que influyen poco en este plano.
Las variables que apuntan en la misma dirección, como Gasto en salud y VIH, están positivamente correlacionadas entre sí.

El gráfico muestra la distribución de los individuos proyectados sobre los dos primeros componentes principales obtenidos a través del Análisis de Componentes Principales (ACP). El eje X representa la dimensión 1 (Dim 1) y el eje Y representa la dimensión 2 (Dim 2). Estos dos componentes explican la mayor parte de la varianza total del conjunto de datos, como se evidenció en el gráfico de sedimentación.

Cada punto representa un país, y el color indica el valor de cos² de la dimensión 1, que mide la calidad de la representación del individuo en ese componente. Valores más altos de cos² indican que el individuo está bien representado por la Dim 1, mientras que valores bajos indican una menor calidad de representación.

En el gráfico se observa que la mayoría de los países están agrupados cerca del origen, lo que sugiere similitudes en las variables consideradas. Algunos países se sitúan alejados del centro, indicando comportamientos atípicos o diferentes respecto a las variables originales. Los individuos más alejados y con colores más intensos son los que tienen mayor peso en la construcción del primer componente, por lo que resultan clave para la interpretación del ACP.

El gráfico muestra la proyección de las variables originales en el espacio definido por las dos primeras dimensiones principales del Análisis de Componentes Principales (ACP). El color de cada punto representa la contribución total de la variable a la formación de las dos primeras dimensiones. Las variables en tonos más cálidos tienen una mayor influencia en el modelo, mientras que las que están en azul claro tienen una menor participación.

Se observa que las variables “Gasto en salud”, “VIH” y “Edad media” tienen una fuerte influencia en la segunda dimensión, ya que se sitúan en la parte superior del gráfico con alta contribución.

La variable “PIB_per_capi” se encuentra más hacia la derecha, alineada con el eje Dim1, aunque con baja contribución total, lo que indica que no explica gran parte de la variabilidad en las dos primeras dimensiones.

Otras variables como “Muertes”, “Hepatitis”, “VPH”, “Covid_19” y “Tuberculosis” están agrupadas en la parte izquierda del gráfico, sugiriendo que están relacionadas entre sí y tienen una influencia moderada en la composición de la primera dimensión.

En general, la dirección y distancia desde el origen indican la correlación de cada variable con las dimensiones, cuanto más lejos del centro, mayor es su influencia.

Número óptimo de clusters

El gráfico representa la aplicación del método del codo para identificar el número óptimo de clústeres en un análisis de agrupamiento con el algoritmo k-means. En el eje Y se muestra la Suma de Cuadrados Intra-cluster (WSS), que mide la variabilidad interna de los clústeres, y en el eje X, el número de clústeres posibles k, desde 1 hasta 10.

La lógica del método del codo es encontrar el punto donde la reducción del WSS empieza a desacelerarse significativamente, es decir, donde agregar más clústeres ya no produce mejoras sustanciales en la compactación de los grupos.

A partir del gráfico, se observa un cambio abrupto en la pendiente entre k = 1 y k = 2, seguido de una disminución más suave hasta k = 5, punto a partir del cual la mejora se vuelve marginal. Este comportamiento indica que el “codo” se encuentra alrededor de k = 5, lo que sugiere que cinco clústeres es el número óptimo para segmentar los datos de manera eficiente, balanceando simplicidad del modelo y calidad de la agrupación.

El gráfico muestra la evaluación del número óptimo de clústeres utilizando el método de la silueta, el cual se basa en la anchura promedio de la silueta, una medida de la coherencia interna de los clústeres formados. Este valor varía entre -1 y 1, donde valores cercanos a 1 indican una mejor separación y cohesión de los grupos.

En el gráfico, el eje X representa el número de clústeres k, mientras que el eje Y muestra la anchura promedio correspondiente. Se observa que el valor máximo de la silueta se alcanza en k = 2, lo que indica que dividir los datos en dos clústeres proporciona la mejor estructura de agrupamiento según este criterio.

En conjunto con el resultado del método del codo, que sugería k = 5, se puede concluir que, k = 2 ofrece la solución más coherente y bien separada según la silueta. Y k = 5 presenta una estructura más segmentada que aún conserva una buena calidad de agrupamiento.

El gráfico representa los resultados de la agrupación con el algoritmo K-means para k = 2 clústeres, visualizados a través de un análisis de componentes principales (PCA). En este gráfico bidimensional, se proyectan los individuos sobre las dos primeras dimensiones, Dim 1 y Dim 2, que capturan la mayor parte de la variabilidad de los datos originales.

Cada punto representa un país y su color indica el clúster al que ha sido asignado. Las elipses punteadas indican la dispersión de cada grupo.

Se puede observar que el clúster 1 (en verde) concentra la gran mayoría de los países, agrupados alrededor del origen de los componentes. El clúster 2 (en naranja) está compuesto por pocos países que se encuentran notablemente alejados del centro, especialmente en la dirección de la dimensión 1, lo que sugiere que estos países tienen características marcadamente diferentes en relación con las variables originales.

Esta representación confirma que la división en dos clústeres no solo es coherente con el método de la silueta, sino que también permite identificar outliers o grupos extremos. La combinación del PCA con K-means es especialmente útil para visualizar la separación y cohesión entre grupos en un espacio reducido de dimensiones.

Si bien el método de la silueta sugiere que k = 2 es el número óptimo de clústeres debido a una mayor cohesión y separación entre grupos, el análisis con k = 5 basado en el método del codo permite explorar subgrupos dentro del conjunto principal. Sin embargo, la mayor superposición entre clústeres y la presencia de grupos pequeños sugiere que esta segmentación es menos robusta.

El dendrograma muestra la estructura jerárquica de agrupación entre los países en función de sus niveles de contagios. Utiliza el método de Ward.D2, que busca minimizar la varianza dentro de cada clúster, y la distancia euclidiana como métrica de similitud.

Distancia (Altura), es el eje vertical que representa la distancia entre los grupos fusionados. Una altura mayor implica una mayor diferencia entre los clústeres que se están uniendo.

La mayor parte de los países se agrupan en la parte baja del dendrograma, lo que sugiere que tienen niveles de contagio relativamente similares, mientras que unos pocos se separan a mayor altura, lo que confirma la presencia de casos extremos o clústeres bien diferenciados.

El clustering jerárquico proporciona una visualización detallada de las relaciones jerárquicas entre países y permite explorar tanto divisiones grandes como subestructuras más finas. A diferencia de K-means, no requiere definir el número de clústeres desde el inicio.

En este dendrograma, se ha realizado un corte del árbol en dos grupos principales (k = 2), representados por rectángulos de colores.

Dos clústeres bien definidos. El primer grupo, en rojo, contiene la gran mayoría de los países, lo cual indica que estos comparten niveles de contagio relativamente similares entre sí. El segundo, en verde, agrupa a un número muy reducido de países, lo que sugiere la presencia de valores extremos o países con niveles de contagios atípicamente respecto al resto.

La altura del corte (~8e+07) indica que hay una diferencia significativa entre los dos clústeres formados, lo cual respalda la elección de k = 2 como una partición razonable y significativa.

Contribución de las Variables a las Dimensiones Principales del ACP

##                       Dim.1        Dim.2        Dim.3      Dim.4        Dim.5
## Muertes         9.745539851 8.476585e-01  0.780956460  2.8944896  0.327146740
## Edad_Media      0.051364905 2.747246e+01  0.057152617  4.8967030 49.182154768
## PIB_Per_Capita  0.009414944 1.151884e-01 93.362429783  4.0044053  0.163772179
## Gasto_en_salud  0.058799298 3.482299e+01  0.264189856  3.4040853  9.326000071
## Covid_19        8.541481759 6.395352e-02  1.826182335  9.1530173 24.114281320
## Tuberculosis    4.688802373 1.670664e+00  2.933312113 70.1176558  1.613192243
## VIH             0.093717676 3.495843e+01  0.525027215  1.9822768  9.789438703
## Sifilis        12.958967815 6.261792e-05  0.031297947  1.1778498  0.157480671
## Gonorrea       13.046986820 1.306340e-05  0.009031916  0.8622212  0.002114525
## Clamidia       13.049050397 1.346434e-05  0.001750643  0.7073741  0.032082725
## Herpes         12.649585027 1.617945e-02  0.051004500  0.3061999  1.392490680
## VPH            12.567303280 1.634770e-02  0.077621545  0.2587456  1.886838587
## Tricomoniasis  12.538985855 1.604599e-02  0.080043071  0.2349763  2.013006786
##                       Dim.6       Dim.7        Dim.8        Dim.9       Dim.10
## Muertes         9.051636768 74.30416702 4.521812e-01  0.765686313 8.243999e-01
## Edad_Media     14.699476264  3.54783159 4.555217e-02  0.031073270 1.613459e-02
## PIB_Per_Capita  1.286097510  1.01013975 2.142717e-02  0.011215274 1.584673e-02
## Gasto_en_salud  2.675863785  0.07364755 4.935412e+01  0.010725930 9.362217e-03
## Covid_19       37.358665423  7.68472347 1.163263e-01 10.356589464 7.713930e-01
## Tuberculosis    8.488675296 10.46753996 1.600607e-03  0.018506969 3.147347e-06
## VIH             2.113443241  0.57255377 4.992485e+01  0.002387218 3.771400e-02
## Sifilis         0.003154035  0.77427839 9.914395e-03 47.513849606 1.912043e+01
## Gonorrea        0.033300809  0.13132557 2.762423e-02 12.929030835 9.492098e+00
## Clamidia        0.138022688  0.01148486 4.428925e-02  1.376304274 5.304466e+01
## Herpes          7.088150267  0.60191452 1.778639e-03  1.482677389 1.651794e+01
## VPH             8.297362591  0.42462052 3.334121e-04 12.187108597 1.085058e-01
## Tricomoniasis   8.766151323  0.39577303 2.183472e-06 13.314844862 4.151419e-02
##                      Dim.11       Dim.12       Dim.13
## Muertes        6.131833e-03 5.087198e-06 8.005891e-07
## Edad_Media     4.711982e-05 5.045336e-05 3.989021e-06
## PIB_Per_Capita 1.922137e-05 3.470946e-05 9.031067e-06
## Gasto_en_salud 1.193858e-05 7.955776e-05 1.228427e-04
## Covid_19       7.477592e-03 4.552915e-03 1.355535e-03
## Tuberculosis   2.800271e-05 1.697226e-05 2.473318e-06
## VIH            7.043419e-05 1.253824e-05 8.160228e-05
## Sifilis        9.145979e+00 2.903694e+00 6.203040e+00
## Gonorrea       3.406318e-01 2.429213e+01 3.883349e+01
## Clamidia       3.929660e+00 1.121580e+01 1.644950e+01
## Herpes         5.980135e+01 8.990114e-02 8.345734e-04
## VPH            1.487986e+01 2.870295e+01 2.059240e+01
## Tricomoniasis  1.188873e+01 3.279077e+01 1.791916e+01

A través del Análisis de Componentes Principales (ACP), se identificaron las dimensiones latentes que explican la variabilidad en los datos. La primera dimensión se asocia principalmente con la carga de enfermedades infecciosas, especialmente las de transmisión sexual, mientras que la segunda dimensión refleja factores estructurales como el gasto en salud y la edad media. La tercera dimensión se relaciona casi exclusivamente con el PIB per cápita, indicando una clara influencia económica. Estas dimensiones permiten visualizar la estructura subyacente de los datos y justificar la segmentación de los países en dos grandes clústeres, previamente obtenida mediante análisis jerárquico.

Resumen Estadístico de los Clústeres Formados

## # A tibble: 2 × 14
##   Cluster Muertes Edad_Media PIB_Per_Capita Gasto_en_salud Covid_19 Tuberculosis
##   <fct>     <dbl>      <dbl>          <dbl>          <dbl>    <dbl>        <dbl>
## 1 1        13196.       30.3         14815.          1237.   6.32e5         150.
## 2 2       159500        33.4          4802            386.   1.50e7         940 
## # ℹ 7 more variables: VIH <dbl>, Sifilis <dbl>, Gonorrea <dbl>, Clamidia <dbl>,
## #   Herpes <dbl>, VPH <dbl>, Tricomoniasis <dbl>

El análisis de conglomerados mediante K-means (k = 2) reveló dos grupos claramente diferenciados. El Clúster 1 está compuesto por países con mayor PIB per cápita, menor mortalidad, menor edad media y un gasto en salud significativamente más alto. En contraste, el Clúster 2 agrupa países con alta mortalidad, menor inversión en salud y un PIB más bajo, además de contar con poblaciones ligeramente más envejecidas. Estas diferencias sugieren disparidades importantes en términos de desarrollo económico y capacidad de respuesta sanitaria.

Conclusiones

El presente análisis multivariado ha permitido identificar patrones significativos en los datos relacionados con la incidencia de enfermedades infecciosas y factores socioeconómicos en diversos países durante el año 2021. Mediante el uso del Análisis de Componentes Principales (ACP), se logró reducir la dimensionalidad del conjunto de datos conservando cerca del 78% de la variabilidad total en los dos primeros componentes. Esta reducción facilitó la visualización de las relaciones entre variables y la identificación de correlaciones clave.
Se evidenció que variables como el gasto en salud, la edad media y la prevalencia de VIH/SIDA tienen un peso importante en la construcción de los primeros componentes, sugiriendo que estos factores están estrechamente relacionados en la caracterización de los países. Por otro lado, variables como muertes, Covid-19 y tuberculosis presentaron una menor contribución a los componentes principales, indicando menor influencia en las dimensiones principales del análisis.
El dendrograma generado por el clustering jerárquico reveló la existencia de al menos dos conglomerados bien diferenciados. Sin embargo, la visualización fue limitada por la gran cantidad de países, dificultando la identificación individual. Aun así, se evidencian agrupamientos basados en similitudes multivariadas en variables sanitarias y socioeconómicas.
Los países en el Clúster 2 parecen enfrentar mayores desafíos sanitarios, posiblemente relacionados con sistemas de salud más frágiles y poblaciones más envejecidas. En contraste, los países del Clúster 1 presentan condiciones más favorables tanto en términos de desarrollo como de control de enfermedades infecciosas.

Bibliografia

Joaqui Barandica, O. (s.f.). Data Visualization in R. https://www.joaquibarandica.com/post/datavizr/
Roser, M., Ritchie, H., & Ortiz-Ospina, E. (s.f.). Our World in Data. https://ourworldindata.org/
World Bank. (s.f.). World Development Indicators. https://databank.worldbank.org/source/world-development-indicators
OpenAI. (2025). ChatGPT (versión GPT-4) [Modelo de lenguaje de inteligencia artificial]. https://chat.openai.com

Modelo 3

Santiago Garcia Meneses - Sebastian Velasquez Mina - Nicolas Galeano Correa