Clasificación de Hogares en Condición de Pobreza en Colombia

Introducción

Contexto y Problema

La medición de la pobreza monetaria constituye un componente clave en el análisis socioeconómico, ya que no solo es relevante desde el punto de vista conceptual, sino que también tiene un gran impacto en la construcción de indicadores de bienestar. En Colombia, el Departamento Administrativo Nacional de Estadística (DANE) define la línea de pobreza monetaria a partir de la estimación de una canasta básica de bienes y servicios, a través de encuestas representativas como la Gran Encuesta Integrada de Hogares (GEIH). Según los resultados de la encuesta de julio de 2025, un hogar se considera en condición de pobreza monetaria si su ingreso total mensual es inferior a $908.880 COP, un umbral que proviene de un ingreso per cápita de $227.220 COP para un hogar promedio de cuatro personas.

Este umbral permite transformar un fenómeno continuo —el ingreso del hogar— en una variable binaria observable (pobreza sí/no), lo que abre la posibilidad de abordar el problema mediante técnicas de clasificación supervisada. El objetivo principal de este ejercicio es modelar la condición de pobreza utilizando exclusivamente variables demográficas y de vivienda disponibles en los microdatos de la GEIH, sin recurrir directamente al ingreso como predictor. Este enfoque busca evaluar la capacidad de estas características para aproximar la condición de pobreza de un hogar.

En Colombia, la pobreza monetaria sigue siendo un desafío estructural que afecta a millones de hogares. De acuerdo con el DANE, para 2025, aproximadamente 1 de cada 4 colombianos no cuenta con los recursos suficientes para adquirir una canasta básica de bienes y servicios. Este problema se ha visto agravado por las crisis económicas recientes, lo que plantea un reto significativo para el diseño de políticas públicas eficaces.

El principal desafío que enfrentan las instituciones es la dificultad de identificar con precisión qué hogares se encuentran realmente en situación de pobreza. La pregunta central en este análisis es: ¿Podemos desarrollar un sistema de clasificación automática que identifique con alta precisión los hogares en situación de pobreza monetaria utilizando solo variables fácilmente observables?

Para responder a este interrogante se plantea la hipótesis de que existen patrones discernibles en las características demográficas, de vivienda y composición familiar que permiten predecir con significativa precisión la condición de pobreza de un hogar.

Estos patrones podrían manifestarse a través de: - Relaciones entre el número de personas y las habitaciones en la vivienda. - Características de la vivienda y su localización. - Composición demográfica del hogar. - Edad y otras características del jefe de hogar.

Objetivo del Estudio

El análisis se enfoca en comparar dos enfoques ampliamente utilizados en aprendizaje estadístico: - Regresión Logística, por su interpretabilidad y fundamento probabilístico. - K-Vecinos Más Cercanos (KNN), por su flexibilidad no paramétrica.

Ambos enfoques serán evaluados en términos de su desempeño predictivo, utilizando métricas estándar como exactitud, sensibilidad, especificidad y AUC (Área Bajo la Curva), con énfasis en la capacidad de identificar correctamente a los hogares en pobreza, dada la asimetría inherente al problema de clasificación.

Metodología: Construyendo el Diagnóstico de la Pobreza

El Mapa de Variables

La esencia de este modelo radica en transformar características observables de los hogares en un diagnóstico preciso de su situación económica. El objetivo es predecir la condición de pobreza monetaria de los hogares colombianos. Un hogar se considera pobre cuando sus ingresos totales no alcanzan para adquirir la canasta básica de bienes y servicios, establecida en $908.880 COP mensuales para un hogar promedio (cuatro personas).

Las variables predictoras se organizan en cuatro dimensiones fundamentales:

Dimensión económica: Captura la capacidad de generación de ingresos a través del ingreso total del hogar y su distribución per cápita.
Dimensión demográfica: Refleja la estructura familiar mediante variables como edad del jefe de hogar y número de integrantes.
Vivienda: Representa las condiciones materiales de vida, medida a través del número de habitaciones y el índice de hacinamiento.
Ubicación geográfica: Contextualiza estas características dentro de las realidades regionales específicas.

A continuación se presenta una tabla que describe el significado de cada variable utilizada en el análisis:

Descripción de las Variables

A continuación se presenta una tabla que describe el significado de cada variable utilizada en el análisis:

Variable	Tipo	Descripción
pobreza	Binaria	Variable dependiente. 1 si el hogar es pobre (ingreso < $908.880 COP), 0 si no lo es.
edad	Cuantitativa	Edad del jefe o jefa de hogar (en años).
personas	Cuantitativa	Número total de personas en el hogar.
habitaciones	Cuantitativa	Número de habitaciones en la vivienda del hogar.
vivienda	Categórica	Tipo de vivienda: Casa, Apartamento, Cuarto, Vivienda tradicional indígena, Otro.
departamento	Categórica	Departamento de residencia del hogar, utilizado para contextualizar la ubicación geográfica.

Para tener una visión más detallada de cómo se distribuyen estas variables, a continuación se presenta una vista interactiva de las primeras filas de la base de datos, que contiene información relevante sobre los hogares colombianos. Esta visualización nos permitirá explorar las primeras observaciones y comprender mejor cómo se estructuran los datos:

En cuanto a los modelos seleccionados:

La regresión logística se elige por su interpretabilidad, su robustez en muestras de tamaño moderado y su capacidad para estimar probabilidades de pertenencia a la clase “pobre”.

El KNN (k-Nearest Neighbors), en cambio, se incluye como contraparte no paramétrica que no asume una forma funcional específica entre las variables y la clase objetivo. Su ventaja radica en capturar relaciones locales y no lineales en los datos, lo cual puede ser útil en regiones con alta heterogeneidad socioeconómica.

Ambos modelos se evalúan mediante métricas que van más allá de la exactitud global. Dado que el costo social de no identificar un hogar pobre (falso negativo) es mucho mayor que el de clasificar erróneamente un hogar no pobre (falso positivo), se prioriza la sensibilidad como métrica clave. No obstante, también se reportan especificidad, exactitud y AUC-ROC para ofrecer una evaluación integral del desempeño.

Análisis de Datos

A continuación, se presentan las estadísticas descriptivas de las variables, incluyendo medidas de tendencia central y dispersión para las variables cuantitativas, y las frecuencias para las variables categóricas.

Estadísticas Descriptivas de Variables Cuantitativas

El análisis descriptivo permite caracterizar las diferencias estructurales entre hogares pobres y no pobres, utilizando variables cuantitativas observables: ingreso del hogar, edad del jefe/a de hogar, número de personas, número de habitaciones y el índice de hacinamiento (personas por habitación). La Tabla 1 presenta un resumen estadístico de estas variables agrupadas por la condición de pobreza.

Tabla 1. Estadísticas descriptivas por condición de pobreza

Condición	N	Ingreso promedio (COP)	Ingreso mediano (COP)	Edad promedio	Personas promedio	Habitaciones promedio	Hacinamiento promedio
no_pobre	3356	2748266	1750000	47.4	2.9	1.8	1.61
pobre	1643	517497	550000	49.5	2.3	1.5	1.59

Interpretación de los resultados

Los resultados obtenidos muestran diferencias significativas entre los hogares pobres y no pobres, tanto en términos de ingresos como en otras características socioeconómicas clave.

Ingresos del hogar:
Los hogares no pobres presentan un ingreso promedio de 2,748,266 COP, mientras que los hogares pobres tienen un ingreso promedio de 517,497 COP, lo cual refleja una brecha significativa. La mediana de ingresos también muestra esta disparidad, con 1,750,000 COP para los hogares no pobres y 550,000 COP para los hogares pobres. Esta diferencia es coherente con el umbral definido por el DANE ($908,880), ya que los hogares pobres están considerablemente por debajo de este valor, mientras que los hogares no pobres lo superan ampliamente.

Edad del jefe/a de hogar:
La edad promedio es ligeramente mayor entre los hogares pobres (49.5 años) que entre los hogares no pobres (47.4 años). Este dato podría sugerir que los hogares encabezados por personas mayores enfrentan mayores dificultades económicas, posiblemente debido a factores como la jubilación, disminución de oportunidades laborales y limitaciones de salud.

Tamaño del hogar y condiciones de vivienda:
En cuanto al tamaño del hogar, los hogares no pobres tienen un promedio de 2.9 personas, mientras que los hogares pobres tienen un promedio de 2.3 personas. Este hallazgo puede parecer contraintuitivo, pero sugiere que los hogares más pequeños pueden tener menos capacidad de generar ingresos combinados, especialmente si el único adulto está en situación de vulnerabilidad laboral. En términos de condiciones de vivienda, los hogares no pobres tienen un promedio de 1.8 habitaciones, mientras que los hogares pobres tienen solo 1.5 habitaciones, lo que indica peores condiciones materiales de vivienda para los hogares pobres.

Por último, el índice de hacinamiento es muy similar en ambos grupos (1.61 en los hogares no pobres frente a 1.59 en los hogares pobres), lo que sugiere que, aunque los hogares pobres tienen menos habitaciones, también tienen menos personas, compensando parcialmente la densidad de ocupación.

El gráfico muestra una clara brecha económica entre los hogares no pobres y pobres: los primeros reportan ingresos cercanos a los 40 millones de COP, mientras que los segundos apenas alcanzan alrededor de 10 millones de COP, evidenciando una diferencia significativa en sus condiciones económicas. El gráfico muestra que la edad del jefe de hogar es significativamente mayor en los hogares no pobres (cerca de 75 años) en comparación con los hogares pobres (alrededor de 25 años), lo que sugiere una clara diferencia generacional en la situación económica de los hogares.

El gráfico muestra que el nivel de hacinamiento es significativamente mayor en los hogares clasificados como pobres en comparación con los hogares no pobres, indicando una relación directa entre la situación de pobreza y las condiciones de vivienda más precarias.

Este análisis inicial confirma que las variables seleccionadas capturan dimensiones relevantes de la desigualdad socioeconómica y son adecuadas para alimentar modelos de clasificación supervisada. Las diferencias observadas en ingresos, edad, tamaño del hogar y condiciones de vivienda proporcionan una base sólida para predecir la condición de pobreza mediante técnicas estadísticas.

Resultados Descriptivos de la Proporción de Pobreza

En la siguiente tabla se presentan las estadísticas descriptivas de la pobreza a nivel nacional y por departamento. Los indicadores incluyen el total de hogares, hogares pobres, proporción de pobreza, desviación estándar y valores extremos de la proporción de pobreza. Los resultados muestran una notable desigualdad en la distribución de la pobreza a nivel departamental.

Indicadores nacionales de pobreza monetaria

Indicador	Valor
Total de hogares (nacional)	4,999.0000
Hogares pobres (nacional)	43,184.0000
Proporción de pobreza (nacional)	863.8%
Proporción promedio por depto	913.6%
Desviación estándar (proporción)	328.9%
Mediana (proporción)	875.3%
Proporción mínima	186.4%
Proporción máxima	1 872.8%

A nivel nacional, el 46.2% de los hogares se encuentran en condición de pobreza monetaria. La proporción promedio por departamento es de 48.1%, ligeramente superior a la nacional, lo que sugiere que algunos departamentos pequeños tienen tasas muy altas que elevan el promedio general.

La desviación estándar de 21.8 puntos porcentuales y el rango de 18.8% a 85.3% evidencian una alta heterogeneidad regional. Esto indica que la pobreza no está distribuida de manera uniforme en todo el país, sino que se concentra en ciertas zonas, destacándose algunas regiones con tasas de pobreza extremadamente altas.

Distribución de edad, ingresos y hacinamiento por condición de pobreza

Este conjunto de histogramas compara la distribución de tres variables clave, edad del jefe/a de hogar, ingreso total del hogar y hacinamiento (personas por habitación), entre hogares pobres y no pobres. Cada variable se grafica en dos paneles: uno para hogares pobres (azul) y otro para hogares no pobres (azul oscuro).

Este análisis gráfico ofrece una visión clara de las diferencias en las características demográficas y socioeconómicas entre los hogares pobres y no pobre

Mapa de la Proporción de Hogares Pobres por Departamento en Colombia

Este mapa interactivo visualiza la proporción de hogares pobres en los diferentes departamentos de Colombia. Los círculos representan cada departamento, con el tamaño de los círculos indicando la proporción de hogares en situación de pobreza. Los departamentos con mayor pobreza están representados por círculos de mayor tamaño y colores más amarillos a verdes, mientras que los departamentos con menos pobreza están representados por círculos más pequeños y de colores más claros.

Mapa Interactivo: Tamaño = Total Hogares, Color = Proporción de Pobreza

#Resultados del Modelo: Interpretación de los Resultados de KNN y Logit

El análisis predictivo se centró en estimar la probabilidad de que un hogar colombiano se encuentre en condición de pobreza monetaria, utilizando dos modelos de clasificación supervisada: K-Vecinos Más Cercanos (KNN) y Regresión Logística (Logit). Ambos modelos fueron entrenados sobre la base de microdatos de hogares del DANE, procesados previamente a partir de la Gran Encuesta Integrada de Hogares (GEIH), y evaluados mediante métricas estándar de desempeño como la exactitud (Accuracy), la sensibilidad (Recall), la especificidad, y el Área Bajo la Curva ROC (AUC).

#Modelo KNN (K-Vecinos Más Cercanos)

El modelo KNN se basó en la premisa de que la clase (pobre o no pobre) de un hogar puede inferirse a partir de la similitud con sus vecinos más cercanos en el espacio de variables explicativas. Para evitar sesgos por sobreajuste, se aplicó una validación cruzada de 5 pliegues, buscando el número óptimo de vecinos (k) que maximizara el rendimiento del modelo.

Los resultados indican que el modelo KNN logró una clasificación adecuada de los hogares, aunque con un ligero sesgo hacia la clase mayoritaria (“no pobre”).

Matriz de confusión: permitió observar la proporción de verdaderos positivos (hogares correctamente clasificados como pobres) y falsos negativos (hogares pobres mal clasificados como no pobres).

AUC (Área Bajo la Curva ROC): El modelo obtuvo un AUC de 0.74, lo que indica una capacidad razonable de discriminación entre hogares pobres y no pobres.

En general, el modelo muestra una buena precisión global, aunque su desempeño puede verse afectado por la densidad desigual de los datos en algunos rangos de ingreso.

#Modelo de Regresión Logística (Logit):

El modelo Logit utiliza un enfoque probabilístico basado en la función logística para estimar la probabilidad de que un hogar sea pobre. A diferencia del KNN, este modelo permite interpretar directamente el efecto de cada variable independiente sobre la probabilidad de pobreza, lo que lo convierte en una herramienta útil tanto para la predicción como para la inferencia social.

Los resultados muestran que el modelo Logit logró un rendimiento estable:

Matriz de confusión: evidenció un equilibrio entre sensibilidad y especificidad, lo que indica que el modelo es capaz de identificar correctamente tanto hogares pobres como no pobres.

AUC (Área Bajo la Curva ROC): alcanzó un valor de 0.98, lo que representa una capacidad discriminante ligeramente superior a la del modelo KNN.

Además, el modelo Logit tiende a ser más interpretable, lo que permite analizar la influencia de factores como el número de personas en el hogar, las condiciones de vivienda y la edad del jefe/a del hogar sobre la probabilidad de pobreza.

##Comparación entre KNN y Logit

La imagen muestra una tabla comparando el desempeño de los modelos K-Vecinos más Cercanos (KNN) y Regresión Logística (Logit), con las siguientes métricas clave: ## Resultados: Comparación de Modelos

##   k
## 2 7

El desempeño de los modelos fue evaluado a través de cuatro métricas clave: Exactitud (Accuracy), Sensibilidad, Especificidad y AUC (Área Bajo la Curva ROC). La Tabla 1 resume los resultados obtenidos en el conjunto de prueba, mostrando cómo cada modelo se comportó en relación con estas métricas.

Tabla 1. Desempeño comparado de los modelos

Modelo	Accuracy	Sensibilidad	Especificidad	AUC
KNN	0.723	0.512	0.826	0.740
Logit	0.994	0.998	0.993	0.998

Interpretación de las Métricas

La exactitud indica el porcentaje de clasificaciones correctas realizadas por el modelo. El modelo de regresión logística (Logit) alcanza una exactitud del 99.4%, lo que refleja que casi todos los hogares fueron clasificados correctamente. Por otro lado, el modelo KNN obtiene una exactitud del 72.3%, significativamente menor. Este desempeño sugiere que KNN no logra capturar adecuadamente la relación entre las variables predictoras y la condición de pobreza. En este contexto, la alta exactitud de Logit refleja un ajuste muy bueno al modelo. Sin embargo, es importante destacar que la exactitud debe ser interpretada con cautela en problemas de clasificación desbalanceada, como es el caso de la pobreza, donde la proporción de hogares pobres es generalmente baja.

La sensibilidad mide la capacidad del modelo para identificar correctamente a los hogares pobres (la clase positiva). El modelo Logit logra una sensibilidad de 99.8%, lo que indica que prácticamente todos los hogares pobres fueron detectados correctamente. En comparación, el modelo KNN presenta una sensibilidad de apenas 51.2%, lo que significa que casi la mitad de los hogares pobres no fueron identificados correctamente por este modelo. La sensibilidad es una métrica crucial, especialmente en este contexto, donde el costo de un falso negativo (no detectar un hogar pobre) es mucho mayor que el de un falso positivo. Aquí, el modelo Logit muestra un desempeño claramente superior al modelo KNN.

La especificidad mide la capacidad del modelo para identificar correctamente a los hogares no pobres. Ambos modelos muestran un buen desempeño en esta métrica: Logit alcanza un 99.3%, y KNN un 82.6%. Esto sugiere que ambos modelos son efectivos para identificar hogares no pobres, aunque Logit lo hace con mayor precisión.

El AUC mide el desempeño global de un modelo, independientemente del umbral de clasificación. El modelo Logit presenta un AUC de 0.998, lo que indica un poder de clasificación casi perfecto. En contraste, el modelo KNN obtiene un AUC de 0.740, lo que es considerado aceptable, pero está lejos de ser óptimo. Un AUC superior a 0.90 se considera excelente, mientras que valores menores a 0.70 indican un modelo débil. Un AUC superior a 0.90 es indicativo de un modelo excelente, mientras que un AUC de 0.740 muestra que KNN tiene un desempeño moderado.

Conclusión

En resumen, el modelo de regresión logística (Logit) supera de manera significativa al modelo KNN en todas las métricas clave evaluadas, especialmente en sensibilidad y AUC, que son las más relevantes para la clasificación de pobreza. El modelo Logit es también más interpretable, permitiendo entender cómo las variables como la edad, el tamaño del hogar, y el tipo de vivienda afectan la probabilidad de pobreza.

El modelo KNN, aunque útil en contextos donde no se asume linealidad entre las variables, muestra un desempeño inferior en este caso, especialmente en la capacidad para detectar correctamente los hogares pobres. Esto podría deberse a la naturaleza no paramétrica de KNN, que no captura eficientemente las relaciones complejas entre las variables en el contexto de la pobreza.

En términos de políticas públicas y estrategias de asistencia social, el modelo Logit es el más adecuado, ya que no solo presenta un rendimiento superior, sino que también facilita la interpretación de los factores que influyen en la pobreza, lo que puede ser crucial para el diseño de intervenciones dirigidas.

Bibliografía

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: with applications in R. Springer.
Kuhn, M., & Johnson, K. (2013). Applied predictive modeling. Springer.
Venables, W. N., & Ripley, B. D. (2002). Modern Applied Statistics with S. Springer.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer.
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16, 321-357.
Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), 861-874.
Iglewicz, B., & Hoaglin, D. C. (1993). How to detect and handle outliers. Sage Publications.
Breiman, L., Friedman, J. H., Olshen, R. A., & Stone, C. J. (1986). Classification and regression trees. Wadsworth & Brooks/Cole.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … & Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12, 2825-2830.
Zhang, H. (2004). The optimality of naive Bayes. AAAI 2004 Spring Symposium on Challenges in Learning from Imbalanced Data Sets, 1–6.