Análisis de la pobreza en Colombia a través de series de tiempo

Introducción

La pobreza es una problemática estructural que ha afectado históricamente a millones de personas en Colombia. A lo largo de las últimas décadas, el país ha experimentado transformaciones económicas, sociales y educativas que han influido directamente en los niveles de bienestar de la población. Este trabajo busca analizar la evolución de la pobreza en Colombia desde 1990 hasta 2021, con el objetivo de entender su relación con diferentes factores determinantes.

A través del análisis de series de tiempo, se estudian seis variables clave que podrían estar asociadas a los niveles de pobreza: el gasto en educación como porcentaje del PIB, la matrícula escolar en educación primaria, el índice de Gini como medida de desigualdad, la tasa de desempleo, el PIB per cápita y la propia tasa de pobreza.

El análisis se realiza mediante un modelo de regresión lineal aplicado a series de tiempo, con el fin de estimar el impacto de cada variable sobre la pobreza y evaluar su comportamiento a lo largo del tiempo. Este enfoque permite no solo observar las tendencias históricas, sino también realizar pronósticos sobre la evolución futura de la pobreza bajo ciertos supuestos.

Metodología

En este trabajo se utiliza el análisis de series de tiempo para estudiar la relación entre la pobreza y diversas variables socioeconómicas en Colombia durante el periodo 1990–2021.

Una serie de tiempo es un conjunto de observaciones ordenadas cronológicamente, normalmente recolectadas en intervalos regulares, anuales, mensuales, trimestrales, etc. Su principal característica es que el orden temporal importa, las observaciones están relacionadas entre sí por su posición en el tiempo.

Para el análisis, se emplea un modelo de regresión lineal adaptado a series temporales, usando la función tslm(). Este modelo permite estimar la relación lineal entre la variable dependiente (tasa de pobreza) y múltiples variables explicativas (gasto en educación, matrícula primaria, índice de Gini, desempleo y PIB per cápita), teniendo en cuenta la naturaleza temporal de los datos.

Sin embargo, al aplicar modelos lineales a series de tiempo, es importante verificar ciertos supuestos que deben cumplirse para garantizar la validez del modelo:

Linealidad: Se asume una relación lineal entre las variables explicativas y la variable dependiente.
Independencia de los errores: Los residuos, errores del modelo, no deben presentar autocorrelación. La autocorrelación ocurre cuando los errores están correlacionados entre sí en el tiempo, lo que puede invalidar las inferencias del modelo.
Normalidad de los errores: Los residuos deben tener una distribución normal.
Homoscedasticidad: La varianza de los errores debe ser constante a lo largo del tiempo.
Estacionariedad: Algunas técnicas requieren que las series sean estacionarias, es decir, que sus propiedades estadísticas (media, varianza, etc.) no cambien con el tiempo.

Para comprobar estos supuestos, especialmente la autocorrelación, se analiza la función de autocorrelación de los residuos (ggAcf()), se realiza un gráfico de residuos (checkresiduals()) y se interpreta la distribución de los valores predichos frente a los reales.

Variables

En este análisis se estudia la evolución de la pobreza en Colombia a lo largo de 32 años (1990–2021), y cómo esta se relaciona con diferentes factores sociales y económicos. Las variables seleccionadas fueron elegidas por su relevancia en el contexto del desarrollo humano y las políticas públicas en Colombia.

A continuación se describen las variables utilizadas en el modelo:

Tasa de pobreza (%): Proporción de la población colombiana que vive por debajo de la línea de pobreza nacional. Esta ha mostrado una tendencia decreciente en las últimas décadas, con algunos retrocesos durante crisis económicas o sociales, por ejemplo, en los años 1999, 2008 y 2020.
Gasto en educación (%): Representa la inversión pública destinada al sector educativo en relación con el Producto Interno Bruto. Aumentos en este indicador suelen estar asociados con políticas de ampliación de cobertura y calidad educativa.
Matrícula primaria (%): Mide el porcentaje de niños inscritos en la educación primaria, en relación con la población en edad correspondiente. Aunque Colombia ha alcanzado coberturas altas, es importante analizar su relación con la pobreza estructural.
Índice de Gini (%): Es un indicador de desigualdad del ingreso, donde valores más altos indican mayor desigualdad. Colombia ha sido históricamente uno de los países más desiguales de América Latina, aunque ha mostrado leves mejoras en los últimos años.
Desempleo (%): Indica la proporción de personas que buscan empleo activamente y no lo encuentran. La informalidad y el desempleo estructural han sido problemas persistentes en Colombia, especialmente en periodos de recesión.
PIB per cápita: Refleja el nivel de ingreso promedio por persona en la economía, ajustado por inflación. Aunque el PIB per cápita ha crecido en general, su impacto sobre la pobreza depende también de cómo se distribuye ese ingreso.

Resultados Principales

La base de datos utilizada en este trabajo reúne información anual desde 1990 hasta 2021 sobre seis variables socioeconómicas fundamentales en Colombia. Estas variables fueron seleccionadas por su estrecha relación con las condiciones sociales y económicas que pueden influir en los niveles de pobreza en el país.

El objetivo principal de esta base es explorar y modelar cómo estos factores han incidido en la evolución de la pobreza en Colombia a lo largo del tiempo. Para ello, se realizará un análisis de series de tiempo que permita identificar patrones, tendencias y posibles relaciones causales entre las variables explicativas y la variable objetivo (tasa de pobreza).

La base de datos cumple una función central en el análisis, es la fuente empírica que respalda el estudio de la pobreza desde una perspectiva temporal y multivariable.

Grafica de las variables

El gráfico presenta la evolución temporal de los seis indicadores socioeconómicos claves en Colombia durante el periodo 1990–2021. A continuación, se destacan las principales tendencias observadas:

Tasa de desempleo: Exhibe altibajos marcados, con picos cercanos al 20% en la primera mitad de los años 2000 y en 2020, crisis sanitaria. Aun así, después de los picos, la tasa tiende a bajar, con fluctuaciones.
Gasto en educación (%): Muestra una tendencia creciente hasta 2012, alcanzando su punto máximo alrededor de ese año. Posteriormente, hay una leve reducción, aunque el gasto se mantiene por encima del nivel de los años 90.
Índice de Gini: Aunque presenta cierta variabilidad, en general muestra una tendencia decreciente, indicando una leve mejora en la equidad del ingreso a lo largo del tiempo. Sin embargo, desde 2019 se evidencia un aumento.
Matrícula primaria: Esta variable sigue una forma, con un incremento sostenido hasta principios de los 2000, seguido de una disminución progresiva. Esto puede reflejar cambios en la población infantil o en el sistema educativo.
PIB per cápita: Muestra una clara tendencia creciente, reflejando un crecimiento económico sostenido en el país, con interrupciones temporales durante periodos de crisis como en 2020.
Tasa de pobreza: Se aprecia una disminución constante desde los años 1999, pasando de niveles superiores al 50% hacia valores cercanos al 27% antes de 2020. Sin embargo, se observa un repunte abrupto en 2019–2020, posiblemente asociado al impacto económico de la pandemia por COVID-19.

Este conjunto de gráficos facilita la visualización comparativa de las dinámicas socioeconómicas que serán analizadas y modeladas para comprender su relación con los niveles de pobreza en Colombia.

Modelo de regresión lineal con series de tiempo

## 
## Call:
## tslm(formula = Pobreza ~ GastoEduc + MatPrimaria + indice_gini + 
##     Desempleo + pib_per_capita, data = data_ts)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.9686 -1.6441 -0.0137  1.4856  4.5230 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    -77.028670  36.044714  -2.137 0.042171 *  
## GastoEduc        2.528747   1.690132   1.496 0.146647    
## MatPrimaria      0.044008   0.173587   0.254 0.801860    
## indice_gini      2.306032   0.539597   4.274 0.000228 ***
## Desempleo        0.387777   0.222778   1.741 0.093571 .  
## pib_per_capita  -0.003490   0.001111  -3.142 0.004157 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.348 on 26 degrees of freedom
## Multiple R-squared:  0.9482, Adjusted R-squared:  0.9383 
## F-statistic: 95.23 on 5 and 26 DF,  p-value: 7.223e-16

El modelo presenta un R-cuadrado ajustado de 0.9383, lo cual indica que aproximadamente el 93.8% de la variabilidad en la tasa de pobreza se explica por las variables independientes incluidas.

El valor del estadístico F (95.23) y su correspondiente p-valor (< 0.001) muestran que el modelo en conjunto es altamente significativo.

Intercepto (-77.03), aunque tiene una interpretación limitada por sí solo, representa el valor esperado de la pobreza si todas las variables independientes fueran cero (lo cual no es realista en este contexto).

Índice de Gini (coef: 2.31, p < 0.001), es altamente significativo. Un aumento de 1 punto en el índice de Gini, mayor desigualdad, se asocia con un aumento de aproximadamente 2.3 puntos en la tasa de pobreza, manteniendo constantes las demás variables.

PIB per cápita (coef: -0.0035, p = 0.004), también es significativo. Un aumento de 1000 USD en el PIB per cápita se asocia con una disminución de 3.5 puntos porcentuales en la pobreza, lo que muestra una relación inversa esperada.

Desempleo (coef: 0.39, p ≈ 0.09), tiene una relación positiva con la pobreza, aunque su significancia es marginal (p < 0.10), lo que sugiere que podría tener cierto impacto.

Gasto en educación y matrícula primaria, no resultaron estadísticamente significativas, lo que puede deberse a su efecto indirecto o a la multicolinealidad.

Los residuos presentan una dispersión aceptable, error estándar residual: 2.35, lo que sugiere que el modelo ajusta bien los datos.

La mediana de los residuos es cercana a cero, lo que indica ausencia de sesgo sistemático.

Diagnóstico del modelo

Residuales

## 
##  Breusch-Godfrey test for serial correlation of order up to 9
## 
## data:  Residuals from Linear regression model
## LM test = 20.934, df = 9, p-value = 0.01295

Serie temporal de residuos: Muestra cómo se comportan los residuos a lo largo del tiempo.
- Los residuos oscilan alrededor de cero, lo cual es un buen indicio.
- No se observa un patrón claro o sistemático, lo que sugiere que el modelo capta bien la tendencia general.
- Sin embargo, algunos años muestran picos o caídas bruscas, lo que podría deberse a eventos externos no considerados en el modelo.
ACF (Autocorrelation Function) de los residuos: Evalúa si los residuos están correlacionados en el tiempo.
- La mayoría de los rezagos están dentro del intervalo de confianza, lo cual indica que no hay autocorrelación significativa.
- Esto cumple uno de los supuestos clave de la regresión para series de tiempo, residuos independientes.
Histograma con curva normal: Evalúa la distribución de los residuos.
- La forma del histograma es aproximadamente simétrica y cercana a una curva normal.
- Esto sugiere que los residuos se distribuyen normalmente, otro supuesto importante de los modelos de regresión.

Comparación valores reales vs ajustados

La línea azul representa los valores reales de la tasa de pobreza observados en cada año.La roja punteada representa los valores predichos por el modelo, es decir, el ajuste que el modelo hace sobre los datos reales.

En general, el modelo logra capturar la tendencia descendente de la pobreza desde principios de los 2000 hasta aproximadamente 2018.

Sin embargo, se observan algunas diferencias importantes en ciertos períodos, como entre 1999 y 2002, y especialmente a partir de 2020, donde el modelo subestima el aumento abrupto de la pobreza, probablemente relacionado con eventos externos como la pandemia del COVID-19.

Esto indica que, aunque el modelo tiene buen ajuste en general, no capta adecuadamente eventos inesperados o choques externos.

Dispersión real vs predicho

Cada punto verde representa un año entre 1990 y 2021, comparando el valor real (eje X) con el ajustado por el modelo (eje Y).

La línea azul discontinua representa el caso ideal en el que el modelo predice exactamente el valor observado, es decir, donde pobreza real = pobreza ajustada.

La mayoría de los puntos se alinean bastante bien con la línea, lo que indica que el modelo tiene un buen poder predictivo y logra ajustarse correctamente a los datos históricos.

Sin embargo, hay algunos puntos que se desvían más de la línea, lo que muestra los errores de predicción en ciertos años. Esto es esperable y puede estar relacionado con eventos no capturados por las variables incluidas en el modelo.

Autocorrelación

Este gráfico representa la autocorrelación de los residuales del modelo de regresión aplicado a la tasa de pobreza en Colombia.

El eje X muestra los rezagos (lags), es decir, el número de años de separación entre observaciones. El eje Y muestra el coeficiente de autocorrelación (ACF) para cada rezago.

Las líneas rojas horizontales indican los límites de significancia, aproximadamente ±0.25; si una barra azul supera estos límites, significa que hay autocorrelación estadísticamente significativa para ese rezago.

En el gráfico de autocorrelación de los residuales se observa que los rezagos 1 y 2 superan los límites de significancia, lo que sugiere una leve autocorrelación en los errores a corto plazo. Aunque esto indica una posible dependencia temporal no explicada por el modelo, la mayoría de los rezagos se mantienen dentro de los límites, lo cual sugiere que el modelo aún ofrece un ajuste razonable. Esta situación no invalida los resultados.

Matriz de correlación

La matriz muestra las correlaciones empíricas entre la tasa de pobreza y otras variables clave. Las correlaciones están acompañadas de asteriscos que indican significancia estadística.

Pobreza e Índice de Gini: Existe una fuerte correlación positiva (0.948), lo que indica que a mayor desigualdad en la distribución del ingreso, mayor es la pobreza.
Pobreza y PIB per cápita: Se observa una correlación negativa fuerte (-0.874), lo que sugiere que a mayor ingreso por habitante, menor es la tasa de pobreza.
Pobreza y Gasto en Educación: También se relacionan de forma negativa (-0.676), indicando que un mayor gasto estatal en educación se asocia con menores niveles de pobreza.
Pobreza y Matrícula Primaria: La correlación positiva (0.698) es interesante y podría interpretarse como un aumento de cobertura educativa en respuesta a mayores niveles de pobreza, aunque no implica causalidad directa.
Pobreza y Desempleo: Presentan una correlación moderada (0.573), coherente con la idea de que el desempleo puede agravar la pobreza.
PIB per cápita tiene alta correlación negativa con el índice de Gini (-0.84) y la pobreza (-0.87), indicando que el crecimiento económico puede ir acompañado de mejoras sociales.
Gasto en educación y PIB per cápita muestran correlación positiva fuerte (0.866), lo cual sugiere que el desarrollo económico puede facilitar mayor inversión educativa.

Gráfico de pronóstico

El gráfico presenta tres componentes principales:

Serie histórica: En negro se muestra la evolución de la tasa de pobreza en Colombia desde 1990 hasta 2018, período de entrenamiento del modelo. Se observa una tendencia descendente sostenida, con una leve recuperación en los últimos años previos a 2018.
Pronóstico 2019–2021: En azul aparece el pronóstico realizado por el modelo para los siguientes cuatro años. La línea azul representa los valores ajustados, mientras que las bandas en tonos azules más claros indican los intervalos de confianza del 80% y 95%, lo que muestra el rango de incertidumbre en las predicciones.
Datos reales (rojo): Se incluyen los valores reales observados para los años 2019–2021, permitiendo comparar el desempeño del modelo. Aunque hay cierta discrepancia, especialmente por los efectos de la pandemia en 2020, el modelo logra capturar adecuadamente la tendencia general, aunque subestima el repunte en pobreza generado por eventos atípicos.

El modelo de regresión logra realizar una proyección razonable del comportamiento de la pobreza en ausencia de choques exógenos fuertes. Sin embargo, la diferencia entre los datos reales y las predicciones en los últimos años resalta la importancia de incorporar variables adicionales o ajustar el modelo para considerar eventos inesperados como crisis económicas o sanitarias.

Conclusiones

Este análisis permitió comprender la evolución de la pobreza en Colombia entre 1990 y 2021, explorando su relación con variables socioeconómicas clave como el gasto en educación, la matrícula escolar, el índice de Gini, la tasa de desempleo y el PIB per cápita. A través de un enfoque de regresión lineal sobre series de tiempo, se identificaron patrones importantes que explican la dinámica de la pobreza en el país.

Los resultados muestran que la desigualdad (índice de Gini) y el crecimiento económico (PIB per cápita) son los principales determinantes estadísticamente significativos de la pobreza. En particular, un aumento en el índice de Gini se asocia con mayores niveles de pobreza, mientras que un incremento en el ingreso per cápita contribuye a su reducción. Estos hallazgos refuerzan la idea de que, más allá del crecimiento económico, es fundamental asegurar una distribución equitativa del ingreso.

Si bien el modelo presenta un buen ajuste general (R² ajustado de 0.9383), no logra capturar plenamente los efectos de eventos inesperados, como la pandemia del COVID-19, lo que resalta la importancia de incluir variables adicionales o aplicar enfoques más complejos.

Los resultados sugieren que políticas enfocadas en reducir la desigualdad y fomentar el crecimiento inclusivo podrían tener un efecto importante en la reducción de la pobreza en Colombia

Finalmente, se destaca que el análisis de series de tiempo es una herramienta útil no solo para entender fenómenos históricos, sino también para proyectar escenarios futuros.

Bibliografia

Joaqui Barandica, O. (s.f.). Data Visualization in R. https://www.joaquibarandica.com/post/datavizr/
Roser, M., Ritchie, H., & Ortiz-Ospina, E. (s.f.). Our World in Data. https://ourworldindata.org/
World Bank. (s.f.). World Development Indicators. https://databank.worldbank.org/source/world-development-indicators
DANE. (s.f.). Departamento Administrativo Nacional de Estadística. Gobierno de Colombia. https://www.dane.gov.co
OpenAI. (2025). ChatGPT (versión GPT-4) [Modelo de lenguaje de inteligencia artificial]. https://chat.openai.com

Modelo 4

Santiago Garcia Meneses - Sebastian Velasquez Mina - Nicolas Galeano Correa