1 Introducción

Para llevar a cabo un afianciamiento del contenido de la materia Estádistica Aplicada de la Pontificia Universidad Javeriana Cali en el periodo 2025-1 se lleva a cabo una implementación de dos métodos diferentes: clustering y regresión multilineal, cada uno para abordar un problema abierto a escogencia del equipo de trabajo.

Este documento tiene el objetivo de dar a conocer la etapa explorativa del proceso conformada por el entendimiento del problema, los datos, el entendimiento de los datos y la preparación d elos datos de acuerdo con la métodologia CRISP-DM (Cross-Industry Standard Process for Data Mining), seguido por su flexibilidad, fácil personalización, por el enfásis que hace en los aspectos fundamentales para el planteamiento y desarrollo de un proyecto y por recomendación del profesor.

2 Clustering para la Caracterización de Ciudades

2.1 Entendimiento del Problema

Colombia es un país caracterizado por una notable heterogeneidad entre sus ciudades. Diferencias en aspectos como la economía, el acceso a la salud, el nivel educativo, la infraestructura y el crecimiento demográfico hacen que una única política nacional rara vez sea eficiente para todos los territorios por igual. Por ello, entender cómo agrupar las ciudades en función de similitudes estructurales es clave para mejorar la efectividad de las intervenciones gubernamentales.

2.1.1 Objetivo del estudio

  • Reducir la complejidad del análisis nacional para el diseño de politicas públicas.

2.2 Datos

Se toma la base de datos del informe que evalúa el desempeño competitivo de las 32 ciudades capitales de departamento en Colombia realizado por la Cámara de Comercio de la ciudad de Bucaramanga, el Consejo Privado de Competitividad (CPC) y la Universidad del Rosario, llevado a cabo por ofrecer una herramienta clave para el análisis y la toma de decisiones en materia de desarrollo regional. También, de dicho informe se logra obtener el Índice de Competitividad de Ciudades (ICC) 2024.

## # A tibble: 6 × 139
##   Ciudad           Año `INS-1-1` `INS-1-2` `INS-1-3` `INS-1` `INS-2-1` `INS-2-2`
##   <chr>          <dbl>     <dbl>     <dbl>     <dbl>   <dbl>     <dbl>     <dbl>
## 1 Arauca          2019      3.28      3.71      1.31    2.77      2.06      1.35
## 2 Armenia         2019      7.98      8.52      5.33    7.28      4.84      4.42
## 3 Barranquilla …  2019      6.80      9.24      7.44    7.83      5.76      5.63
## 4 Bogotá D.C.     2019      7.49     10         9.97    9.15     10         6.12
## 5 Bucaramanga AM  2019      7.94      8.41      8.16    8.17      5.92      3.62
## 6 Cali AM         2019      5.82      8.95      8.14    7.64      7.34      4.41
## # ℹ 131 more variables: `INS-2-3` <dbl>, `INS-2` <dbl>, `INS-3-1` <dbl>,
## #   `INS-3-2` <dbl>, `INS-3` <dbl>, `INS-4-1` <dbl>, `INS-4-2` <dbl>,
## #   `INS-4-3` <dbl>, `INS-4-4` <dbl>, `INS-4-5` <dbl>, `INS-4-6` <dbl>,
## #   `INS-4` <dbl>, INS <dbl>, `INF-1-1` <dbl>, `INF-1-2` <chr>,
## #   `INF-1-3` <dbl>, `INF-1-4` <dbl>, `INF-1-5` <dbl>, `INF-1` <dbl>,
## #   `INF-2-1` <chr>, `INF-2-2` <chr>, `INF-2-3` <chr>, `INF-2-4` <chr>,
## #   `INF-2-5` <chr>, `INF-2` <dbl>, `INF-3-1` <dbl>, `INF-3-2` <dbl>, …

2.3 Entendimiento de los datos

Se usan los indicadores normalizados de los pilares con igual peso (7.69%) de la base de datos:

  • Pilar 1. Instituciones.

  • Pilar 2. Infraestructura y equipamiento.

  • Pilar 3. Adopción TIC.

  • Pilar 4. Sostenibilidad ambiental.

  • Pilar 5. Salud.

  • Pilar 6. Educación básica y media.

  • Pilar 7. Educación superior y formación para el trabajo.

  • Pilar 8. Entorno para los negocios.

  • Pilar 9. Mercado laboral.

  • Pilar 10. Sistema financiero.

  • Pilar 11. Tamaño del mercado.

  • Pilar 12. Sofisticación y diversificación.

  • Pilar 13. Innovación.

    Estos representan ampliamente la condiciones de las ciudades, sin considerar la poblaciones para poder llevar a cabo una comparación más sensata entre ellas.

    Todos los indicadores se han tomado anualmente en el periodo 2019-2024.

2.4 Preparación de los datos

Inicialmente no hay que hacer mucho en este sentido, ya que, se trata de una base de datos que ya ha procesado los datos brutos para la creación de indicadores normalizados de cada pilar.

3 Regresión Logística para Predicción en Salud

3.1 Entendimiento del Problema

La insuficiencia cardíaca es una de las principales causas de mortalidad en el mundo. Comprender qué factores influyen significativamente en el riesgo de muerte es esencial para apoyar la toma de decisiones médicas y prevenir desenlaces fatales. En este estudio, se utilizará un modelo de regresión logística para analizar una base de datos clínica con el objetivo de predecir la ocurrencia de un evento de muerte en pacientes con insuficiencia cardíaca. La variable de interés a predecir será DEATH_EVENT, que indica si el paciente murió durante el período de seguimiento.

3.1.1 Objetivos del estudio

  • Desarrollar un modelo de regresión para predecir la variable DEATH_EVENT.

  • Identificar las variables clínicas que tienen mayor correlación con el desenlace fatal.

  • Proveer una herramienta interpretativa que ayude a priorizar factores de riesgo en pacientes con insuficiencia cardíaca.

3.2 Datos

La base de datos contiene información de 299 pacientes con diferentes variables clínicas, como edad, niveles de creatinina, fracción de eyección, entre otras. A continuación, se presenta una matriz de correlación para observar qué variables presentan mayor relación con la variable DEATH_EVENT.

## # A tibble: 6 × 13
##     age anaemia creatinine_phosphokinase diabetes ejection_fraction
##   <dbl>   <dbl>                    <dbl>    <dbl>             <dbl>
## 1    75       0                      582        0                20
## 2    55       0                     7861        0                38
## 3    65       0                      146        0                20
## 4    50       1                      111        0                20
## 5    65       1                      160        1                20
## 6    90       1                       47        0                40
## # ℹ 8 more variables: high_blood_pressure <dbl>, platelets <dbl>,
## #   serum_creatinine <dbl>, serum_sodium <dbl>, sex <dbl>, smoking <dbl>,
## #   time <dbl>, DEATH_EVENT <dbl>

3.3 Entendimiento de los datos/Preparación de los datos

3.3.1 Análisis de la Matriz de Correlación

La matriz de correlación presentada muestra la relación lineal entre las variables clínicas y el evento de muerte (DEATH_EVENT). A partir del análisis visual y numérico, se destacan las siguientes observaciones:

  • Correlaciones Positivas con DEATH_EVENT:

    • serum_creatinine (≈ 0.29): Una mayor concentración de creatinina sérica se asocia con mayor probabilidad de muerte, lo cual es coherente con disfunción renal.

    • age (≈ 0.25): A mayor edad, mayor riesgo de fallecimiento.

    • high_blood_pressure (≈ 0.08) y anaemia (≈ 0.07): Aunque más débiles, también muestran una relación positiva.

  • Correlaciones Negativas con DEATH_EVENT:

    • time (≈ -0.53): El tiempo de seguimiento más largo se asocia con menor probabilidad de muerte, lo cual tiene sentido ya que los pacientes que sobreviven más tiempo no presentan el evento.

    • ejection_fraction (≈ -0.27): Una mayor fracción de eyección indica mejor funcionamiento cardíaco, por lo tanto, menor riesgo.

    • serum_sodium (≈ -0.20): Niveles bajos de sodio se han relacionado con peores desenlaces en pacientes con insuficiencia cardíaca.

  • Variables con poca o nula correlación:

    • sex, smoking, diabetes y platelets presentan correlaciones muy bajas con DEATH_EVENT, lo que sugiere que no son buenos predictores por sí solos en este contexto.

En conjunto, este análisis permite preseleccionar variables relevantes que podrían ser incluidas en un modelo de regresión para predecir la mortalidad, priorizando aquellas con mayor correlación absoluta con la variable objetivo.

4 Referencias

[1] Consejo Privado de Competitividad & Universidad del Rosario. (2024). Índice de Competitividad de Ciudades 2024. https://compite.com.co/indice-de-competitividad-de-ciudades/