Para llevar a cabo un afianciamiento del contenido de la materia Estádistica Aplicada de la Pontificia Universidad Javeriana Cali en el periodo 2025-1 se lleva a cabo una implementación de dos métodos diferentes: clustering y regresión multilineal, cada uno para abordar un problema abierto a escogencia del equipo de trabajo.
Este documento tiene el objetivo de dar a conocer la etapa explorativa del proceso conformada por el entendimiento del problema, los datos, el entendimiento de los datos y la preparación d elos datos de acuerdo con la métodologia CRISP-DM (Cross-Industry Standard Process for Data Mining), seguido por su flexibilidad, fácil personalización, por el enfásis que hace en los aspectos fundamentales para el planteamiento y desarrollo de un proyecto y por recomendación del profesor.
Colombia es un país caracterizado por una notable heterogeneidad entre sus ciudades. Diferencias en aspectos como la economía, el acceso a la salud, el nivel educativo, la infraestructura y el crecimiento demográfico hacen que una única política nacional rara vez sea eficiente para todos los territorios por igual. Por ello, entender cómo agrupar las ciudades en función de similitudes estructurales es clave para mejorar la efectividad de las intervenciones gubernamentales.
Se toma la base de datos del informe que evalúa el desempeño competitivo de las 32 ciudades capitales de departamento en Colombia realizado por la Cámara de Comercio de la ciudad de Bucaramanga, el Consejo Privado de Competitividad (CPC) y la Universidad del Rosario, llevado a cabo por ofrecer una herramienta clave para el análisis y la toma de decisiones en materia de desarrollo regional. También, de dicho informe se logra obtener el Índice de Competitividad de Ciudades (ICC) 2024.
## # A tibble: 6 × 139
## Ciudad Año `INS-1-1` `INS-1-2` `INS-1-3` `INS-1` `INS-2-1` `INS-2-2`
## <chr> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Arauca 2019 3.28 3.71 1.31 2.77 2.06 1.35
## 2 Armenia 2019 7.98 8.52 5.33 7.28 4.84 4.42
## 3 Barranquilla … 2019 6.80 9.24 7.44 7.83 5.76 5.63
## 4 Bogotá D.C. 2019 7.49 10 9.97 9.15 10 6.12
## 5 Bucaramanga AM 2019 7.94 8.41 8.16 8.17 5.92 3.62
## 6 Cali AM 2019 5.82 8.95 8.14 7.64 7.34 4.41
## # ℹ 131 more variables: `INS-2-3` <dbl>, `INS-2` <dbl>, `INS-3-1` <dbl>,
## # `INS-3-2` <dbl>, `INS-3` <dbl>, `INS-4-1` <dbl>, `INS-4-2` <dbl>,
## # `INS-4-3` <dbl>, `INS-4-4` <dbl>, `INS-4-5` <dbl>, `INS-4-6` <dbl>,
## # `INS-4` <dbl>, INS <dbl>, `INF-1-1` <dbl>, `INF-1-2` <chr>,
## # `INF-1-3` <dbl>, `INF-1-4` <dbl>, `INF-1-5` <dbl>, `INF-1` <dbl>,
## # `INF-2-1` <chr>, `INF-2-2` <chr>, `INF-2-3` <chr>, `INF-2-4` <chr>,
## # `INF-2-5` <chr>, `INF-2` <dbl>, `INF-3-1` <dbl>, `INF-3-2` <dbl>, …
Se usan los indicadores normalizados de los pilares con igual peso (7.69%) de la base de datos:
Pilar 1. Instituciones.
Pilar 2. Infraestructura y equipamiento.
Pilar 3. Adopción TIC.
Pilar 4. Sostenibilidad ambiental.
Pilar 5. Salud.
Pilar 6. Educación básica y media.
Pilar 7. Educación superior y formación para el trabajo.
Pilar 8. Entorno para los negocios.
Pilar 9. Mercado laboral.
Pilar 10. Sistema financiero.
Pilar 11. Tamaño del mercado.
Pilar 12. Sofisticación y diversificación.
Pilar 13. Innovación.
Estos representan ampliamente la condiciones de las ciudades, sin considerar la poblaciones para poder llevar a cabo una comparación más sensata entre ellas.
Todos los indicadores se han tomado anualmente en el periodo 2019-2024.
Inicialmente no hay que hacer mucho en este sentido, ya que, se trata de una base de datos que ya ha procesado los datos brutos para la creación de indicadores normalizados de cada pilar.
La insuficiencia cardíaca es una de las principales causas de
mortalidad en el mundo. Comprender qué factores influyen
significativamente en el riesgo de muerte es esencial para apoyar la
toma de decisiones médicas y prevenir desenlaces fatales. En este
estudio, se utilizará un modelo de regresión logística para analizar una
base de datos clínica con el objetivo de predecir la ocurrencia de un
evento de muerte en pacientes con insuficiencia cardíaca. La variable de
interés a predecir será DEATH_EVENT, que indica si el
paciente murió durante el período de seguimiento.
Desarrollar un modelo de regresión para predecir la variable
DEATH_EVENT.
Identificar las variables clínicas que tienen mayor correlación con el desenlace fatal.
Proveer una herramienta interpretativa que ayude a priorizar factores de riesgo en pacientes con insuficiencia cardíaca.
La base de datos contiene información de 299 pacientes con diferentes
variables clínicas, como edad, niveles de creatinina, fracción de
eyección, entre otras. A continuación, se presenta una matriz de
correlación para observar qué variables presentan mayor relación con la
variable DEATH_EVENT.
## # A tibble: 6 × 13
## age anaemia creatinine_phosphokinase diabetes ejection_fraction
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 75 0 582 0 20
## 2 55 0 7861 0 38
## 3 65 0 146 0 20
## 4 50 1 111 0 20
## 5 65 1 160 1 20
## 6 90 1 47 0 40
## # ℹ 8 more variables: high_blood_pressure <dbl>, platelets <dbl>,
## # serum_creatinine <dbl>, serum_sodium <dbl>, sex <dbl>, smoking <dbl>,
## # time <dbl>, DEATH_EVENT <dbl>
La matriz de correlación presentada muestra la relación lineal entre
las variables clínicas y el evento de muerte (DEATH_EVENT).
A partir del análisis visual y numérico, se destacan las siguientes
observaciones:
Correlaciones Positivas con
DEATH_EVENT:
serum_creatinine (≈ 0.29): Una mayor concentración
de creatinina sérica se asocia con mayor probabilidad de muerte, lo cual
es coherente con disfunción renal.
age (≈ 0.25): A mayor edad, mayor riesgo de
fallecimiento.
high_blood_pressure (≈ 0.08) y anaemia
(≈ 0.07): Aunque más débiles, también muestran una relación
positiva.
Correlaciones Negativas con
DEATH_EVENT:
time (≈ -0.53): El tiempo de seguimiento más largo
se asocia con menor probabilidad de muerte, lo cual tiene sentido ya que
los pacientes que sobreviven más tiempo no presentan el evento.
ejection_fraction (≈ -0.27): Una mayor fracción de
eyección indica mejor funcionamiento cardíaco, por lo tanto, menor
riesgo.
serum_sodium (≈ -0.20): Niveles bajos de sodio se
han relacionado con peores desenlaces en pacientes con insuficiencia
cardíaca.
Variables con poca o nula correlación:
sex, smoking, diabetes y
platelets presentan correlaciones muy bajas con
DEATH_EVENT, lo que sugiere que no son buenos predictores
por sí solos en este contexto.En conjunto, este análisis permite preseleccionar variables relevantes que podrían ser incluidas en un modelo de regresión para predecir la mortalidad, priorizando aquellas con mayor correlación absoluta con la variable objetivo.
[1] Consejo Privado de Competitividad & Universidad del Rosario. (2024). Índice de Competitividad de Ciudades 2024. https://compite.com.co/indice-de-competitividad-de-ciudades/