La pobreza es un problema que afefcta a muchas personas en todo el mundo. No se trata solamente de dinero, sino también de la ausencia de acceso a servicios básicos como una buena educación, servicios de salud, una vivienda digna o un trabajo estable. Vivir en condiciones de pobreza dificulta tener una buena calidad de vida y limita las oportunidades que una persona tiene para salir adelante.
En Colombia, la pobreza ha sido una realidad constante durante muchos años. Aunque en algunos periodos ha disminuido, también ha habido momentos difíciles que han provocado aumentos en los niveles de pobreza. Factores como las crisis económicas, los conflictos armados, la desigualdad entre regiones o la falta de acceso a servicios como la electricidad y la educación han influido notablemente en su evolución.
Este trabajo tiene como objetivo analizar cómo ha variado el porcentaje de pobreza en Colombia desde el año 1990 hasta el año 2020. Para ello, se emplean herramientas estadísticas que permiten estudiar el comportamiento de la pobreza a lo largo del tiempo, así como construir un modelo de series de tiempo que facilite hacer un pronóstico sobre su posible evolución futura. Para lograrlo, se incluyen variables que reflejan aspectos clave del desarrollo del país.
Además, se revisan algunos supuestos estadísticos que ayudan a determinar si los resultados del modelo son confiables. No se trata solamente de predecir lo que puede pasar, sino de comprobar si el modelo realmente representa bien lo que ha ocurrido en la historia del país. Con esto, se busca obtener una visión más clara y basada en datos sobre la evolución de la pobreza en Colombia, y cómo podría comportarse en los próximos años.
Primeramente, se inició el trabajo realizando una busqueda de un nuevo grupo de variables, las cuales pudieran dar explicación a la variable dependiente del estudio. En un principio, se consideró utilizar la variable relacionada a la esperanza de vida como variable objetivo del estudio, sin embargo, más adelante se tomó la decisión de utilizar la variable referente a la pobreza como la Y de la investigación, principalmente porque esta tenia un mejor comportamiento y se consideró que tenia un mejor nivel de explicación que la variable anterior luego de haber realizado una serie de pruebas. En el apartado de base de datos se mostrarás las variables seleccionadas para componer la tabla final.
De igual manera, se seleccionó el intervalo de tiempo para la obtención de datos utilizando principalmente dos criterios: Que todas las variables tuvieran registro de datos en dicho periodo y que las variables no tuvieran datos faltantes (NA) en los años seleccionados. En ese orden de ideas, el intervalo de tiempo que cumple esas restricciones corresponde al periodo entre 1990 y 2020. Se utilizó la plataforma Our World in Data para extraer las bases de datos que se utilizarían en el estudio de series de tiempo.
En el estudio se utilizaron preliminarmente 9 variables incluyendo la dependiente. Los datos de las variables se tomaron en Colombia, dado que se consideró que este país tiene diferentes aristas desde donde se puede tratar el tema de la pobreza en la población, además de que los registros en la plataforma utilizada estaban completos.
Luego de analizar las variables que se utilizarian, se decidió retirar la variable correspondiente al idh, puesto que se pensó que esta variable se puede considerar como un resumen explicativo de algunas de las variables utilizadas en el trabajo. De igual manera, en un momento se pensaba incluir una variable correspondiente a porcen_aguapotable, pero dado que esta contaba en sus registros con valores NA, no se pudo tomar en cuenta en la base de datos final a pesar de considerarse significativa para la explicación de la dependiente.
Finalmente, se consolidó en una misma tabla la información de las 8 variables finales escogidas para la investigación, asegurandose de que no contuvieran datos faltantes ni incongruencias en la transcripción de datos desde la pagina.
A contunuación, se presenta la base de datos final utilizada en el estudio de series de tiempo. Los datos de las 8 variables referenciadas en Colombia se encuentran ordenados por año, desde 1990 hasta el 2020.
Las 8 variables que se utilizaron en el presente estudio son:
Es un conjunto de datos ordenados en orden cronológico, los cuales son recolectados generalmente en intervalos regulares, es decir, pueden ser diarios, mensuales, trimestrales, anuales, etc. Tienen como función principal representar gráficamente una variable a lo largo del tiempo. Es bastante útil para hallar patrones en los datos que nos ayudan a predecir su futuro comportamiento y detectar algunas anomalías.
Las series de tiempo cuentan con cuatro tipos de patrones:
Para analizar la evolución de la pobreza extrema en Colombia (la variable Y) y su relación con factores estructurales, se empleó un modelo de regresión lineal que relaciona esta variable con un conjunto de indicadores sociales y económicos (las variables X). Dado que los datos corresponden a una serie temporal medida anualmente desde 1990 hasta 2020, el modelo se ajustó utilizando técnicas para series de tiempo, asegurando que se respeten los supuestos que se mencionarán en el siguiente apartado.
La ecuación del modelo se formuló de la siguiente manera:
\[\begin{align*} \text{porcen_pobreza}_t =\ & \beta_0 + \beta_1 \cdot \text{pib_percapita}_t + \beta_2 \cdot \text{expectativa_vida}_t \\ & + \beta_3 \cdot \text{porcen_electricidad}_t + \beta_4 \cdot \text{porcen_educacion}_t \\ & + \beta_5 \cdot \text{coeficiente_desigualdad}_t + \beta_6 \cdot \text{terrorismo}_t \\ & + \beta_7 \cdot \text{emisiones_percapita}_t + \varepsilon_t \end{align*}\]
En la ecuación anterior:
\(\text{porcen_pobreza}_t\) representa la variable dependiente del modelo, es decir, el porcentaje de la población colombiana que vive en condiciones de pobreza extrema durante el año \(t\). Esta es la variable que se desea explicar a partir de los demás factores incluidos en el modelo.
\(\beta_0\) es el intercepto del modelo, o el valor estimado de la pobreza extrema cuando todas las variables explicativas toman el valor cero. Aunque este valor no tiene una interpretación directa en la vida real (pues no es posible que PIB, educación o electricidad sean cero), sirve como punto de partida para el ajuste del modelo.
\(\text{pib_percapita}_t\) representa el producto interno bruto per cápita en dólares corrientes en el año \(t\), y su coeficiente \(\beta_1\) indica cuánto cambia, en promedio, el porcentaje de pobreza extrema por cada unidad de aumento en el ingreso promedio por habitante. Se espera que este coeficiente sea negativo, ya que un mayor ingreso suele estar asociado con menores niveles de pobreza.
\(\text{expectativa_vida}_t\) es la esperanza de vida al nacer en el año \(t\). Su coeficiente \(\beta_2\) refleja el efecto de la salud pública general sobre la pobreza: a mayor esperanza de vida, menor pobreza, presumiblemente por mejores condiciones sanitarias y de acceso a servicios básicos.
\(\text{porcen_electricidad}_t\) indica el porcentaje de la población con acceso a electricidad. El coeficiente \(\beta_3\) captura el impacto del acceso a servicios básicos sobre la pobreza: se espera que una mayor cobertura eléctrica esté relacionada con menores niveles de pobreza.
\(\text{porcen_educacion}_t\) representa el gasto público en educación como porcentaje del PIB. El coeficiente \(\beta_4\) mide cómo influye la inversión gubernamental en educación sobre la pobreza: si es negativo, indica que una mayor inversión educativa contribuye a reducir la pobreza extrema.
\(\text{coeficiente_desigualdad}_t\) es el coeficiente de Gini, un índice de desigualdad del ingreso entre 0 y 1. Su coeficiente \(\beta_5\) muestra la relación entre desigualdad y pobreza: un valor positivo implicaría que, a mayor desigualdad, mayor es la pobreza extrema.
\(\text{terrorismo}_t\) representa el número de ataques terroristas registrados en el año \(t\). El coeficiente \(\beta_6\) mide el efecto de la violencia política sobre la pobreza. Si este coeficiente es positivo, sugiere que la inestabilidad y el conflicto armado agravan las condiciones socioeconómicas de la población más vulnerable.
\(\text{emisiones_percapita}_t\) indica las emisiones de dióxido de carbono por persona. El coeficiente \(\beta_7\) puede tener diferentes interpretaciones según el contexto: un valor positivo podría indicar que el crecimiento económico asociado al aumento de emisiones no se ha traducido en una mejora en las condiciones de vida para los más pobres; un valor negativo podría sugerir que el desarrollo industrial trae consigo cierto alivio económico.
\(\varepsilon_t\) representa el término de error, es decir, las variaciones en la pobreza extrema que no son explicadas por las variables incluidas en el modelo. Se asume que este error es aleatorio, con media cero y sin autocorrelación.
Este modelo parte del supuesto de que existe una relación lineal entre la pobreza y los factores seleccionados, y que los residuos del modelo se comportan como ruido blanco (es decir, sin autocorrelación significativa).
Al trabajar modelos desde un enfoque lineal, es decir, modelos que buscan explicar una variable dependiente Y mediante una combinación lineal de variables independientes x, es necesario verificar algunos supuestos estadísticos, los cuales ayudan a garantizar que el modelo produzca estimaciones confiables y útiles. Estos son:
Estacionariedad: Implica que si una serie no es estacionaria, modelos como ARIMA o VAR no funcionarán de la mejor forma. La serie es estacionaria si su media, varianza y covarianza no cambian con el tiempo. De igual forma, se puede añadir estacionariedad a una serie de tiempo al diferenciarla una o más veces. Se puede verificar con el Test de Dickey-Fuller.
Homocedasticidad: Establece que la varianza de los errores debe mantenerse constante a lo largo del tiempo. Si hay varianza cambiante (es decir, heteroscedasticidad), se podrían distorsionar los intervalos de confianza, por consiguiente, se tendría una falsa significancia. Se puede verificar con el Test de Breusch-Pagan.
Ausencia de Multicolinealidad: Nos dice que las variables independientes no deben estar fuertemente correlacionadas entre sí, ya que los coeficientes podrían ser insignificantes y difíciles de interpretar en caso contrario. Se puede verificar con el Test VIF.
Ausencia de Autocorrelación: Establece que los errores (o también llamados residuos) del modelo deben ser independientes entre sí, es decir, un error no debe guardar relación con otro error cometido, ya sea antes o después. Si hay autocorrelación, significa que hay información en la serie que el modelo no pudo capturar. Se puede verificar con el Test de Breusch-Godfrey o Test de Ljung-Box.
Normalidad: Se refiere a que los errores de un modelo lineal sigan una distribución normal. Este último supuesto no es necesario, pero ayuda a que los p-valores y niveles de significancia sean confiables. Se puede verificar con el Test de Shapiro-Wilk.
El modelo ARIMA (por sus siglas, AutoRegressive Integrated Moving Average), se utiliza para modelar y predecir series de tiempo que tienen tendencia o autocorrelación. Este cuenta con dos variantes:
La notación estándar de ARIMA lleva las letras (p,d,q), donde los valores de cada parámetro son reemplazados por un valor entero para el tipo de modelo ARIMA utilizado, de esta forma:
En este apartado se analizaron por medio de tablas y gráficos las variables seleccionadas en el estudio de series de tiempo.
A continuación, se presenta la tabla de los estadisticos descriptivos de las variables de la investigación. Estos permiten observar el comportamiento de las variables en los rangos que se encuentran. Para esto, se trabajó un resumen que muestra los estadisficos referentes a: La media, la mediana, la desviación estandar y el rango.
Porcentaje de población en pobreza extrema (porcen_pobreza)
La variable objetivo de la investigación muestra qué proporción de colombianos vive con menos de $1.90 dolares por día. Con media de 11.25% y mediana de 9.6%, la asimetría positiva de esta distribución evidencia picos de crisis, los cuales pueden llegar hasta 21.35%, que a su vez arrastran la media; mientras que periodos de mejora social la reducen hasta 4.34%. La desviación estándar de 5.31 y el amplio rango se pueden relacionar con una fuerte dependencia de factores económicos y de seguridad. Principalmente, se pueden asociar las caídas bruscas de pobreza a la implementación de programas sociales intensivos que ayudan a las personas en condiciones dificiles.
Expectativa de vida al nacer (expectativa_vida)
La variable como su nombre lo indica mide los años promedio que viviría un recién nacido en condiciones actuales. Su media de 72.88 años y mediana de 73.2 años, junto con una desviación estándar de 2.73 años, indican un progreso constante en aspectos de salud sin retrocesos drásticos. La casi simetría de la distribución sugiere que las mejoras en salud pública, saneamiento y lucha contra enfermedades han sido eficaces y sostenibles a lo largo del tiempo.
Porcentaje de población con acceso a electricidad (porcen_electricidad)
Este porcentaje mide la proporción de hogares conectados a la red eléctrica nacional. Con una media de 95.62 % y mediana de 96.0%, Colombia logra una cobertura casi completa, aunque en 1990 partía de un 89.9%. La desviación estándar de 2.58 y un rango de 89.90% a 99.70% indican una distribución sesgada a la izquierda, donde la mayor parte de los años se concentran en valores muy altos.
PIB per cápita (pib_percapita)
El PIB per cápita mide el ingreso promedio por habitante en Colombia durante 1990–2020. Con una media de $13332 dolares y una mediana de $12218, vemos que, en términos generales, el nivel de vida económico ha ido en ascenso, aunque la mediana inferior a la media indica una asimetría positiva. La dispersión teniendo en cuenta el rango de valores y la desviación indican que factores externos como puede ser precios internacionales del petróleo y el café tuvieron un impacto desigual sobre la economia en el país
Emisiones de C02 per cápita (emisiones_percapita)
Las emisiones de CO2 expresan la huella de carbono anual por colombiano. La media de 1.68t y la mediana de 1.70t junto a una desviación estándar baja de 0.21, sugieren un incremento gradual y uniforme en las emisiones: de 1.315t en 1990 a 2.088t en 2020. El rango no tan amplio implica que no hubo cambios repentinos de contaminación, sino un crecimiento sostenido que puede asociarse al aumento del transporte motorizado y la actividad industrial ligera en el territorio.
Número de ataques terroristas (terrorismo)
Esta variable representa un conteo anual que refleja la violencia política dentro del país. Con una media de 190.6 y una mediana de 137, la cola derecha de la distribución deja claro que hubo años de extrema violencia (casi 600 ataques en los picos de conflicto) que elevan la media por encima de lo que ocurre en años donde se podria intuir que fueron etapas de treguas o tratados de paz (mínimos de 30). La gran desviación estándar de 141.6 ratifica esta alta variabilidad, lo que sugiere fuertes oscilaciones ligadas a negociaciones de paz y rupturas de acuerdos entre el estado y los grupos armados nacionales principalmente.
Gasto público en educación como porcentaje del PIB (porcen_educacion)
Este indicador refleja la prioridad que el Estado colombiano otorga a la educación. La media de 4.09% y la mediana de 4.10% señalan que, en promedio, casi el 4% del PIB se reinvierte en educación pública. La cercanía entre la media y la mediana, junto con una desviación estándar moderada, y un rango entre 2.71% y 5.26%, reflejan una distribución casi simétrica, es decir, que los años de mayor y menor inversión no se desvían drásticamente del promedio. Los picos de casi 5.3% podrían corresponder a reformas educativas llevadas a cabo en los años cercanos al 2000.
Coeficiente de Gini (coeficiente_desigualdad)
Este índice mide la desigualdad del ingreso, donde 0 es igualdad perfecta y 1 desigualdad total. Con media de 0.54, mediana de 0.50 y desviación de 0.03, la ligera cola derecha revela un aumento paulatino de la desigualdad, aunque dentro de márgenes moderados (0.50–0.59). La baja dispersión y la cercanía entre media y mediana permiten modelarlo como variable continua normal, pero su leve sesgo al alza sugiere que años de mayor pobreza extrema y crisis económicas aumentan la brecha de ingresos, respaldando la hipótesis de que la pobreza y la desigualdad se refuerzan mutuamente en momentos de choque socioeconómico.
Entre 1990 y 2020, Colombia experimentó importantes transformaciones sociales, económicas y políticas que se reflejan en estas variables.
Terrorismo: Durante los años noventa, Colombia vivía un contexto de conflicto armado interno muy intenso, con la presencia de guerrillas (FARC, ELN), grupos paramilitares y crimen organizado. Esto se reflejaba en altos niveles de violencia y terrorismo, incluyendo atentados, secuestros y desplazamiento forzado de millones de personas. El Estado lanzó estrategias de seguridad, y en los 2000 se implementaron políticas como la “Seguridad Democrática”, que lograron reducir gradualmente la intensidad del conflicto. Hacia 2016, se firmó el Acuerdo de Paz con las FARC, aunque persistieron otros focos de violencia.
Desigualdad (Gini): Colombia fue uno de los países más desiguales de América Latina en este período. El coeficiente de Gini rondó valores altos (aprox. 0.55), con reducciones lentas y limitadas. La desigualdad se alimentaba de diferencias en ingresos, educación, salud y acceso a servicios entre regiones y entre áreas urbanas y rurales.
Educación: El acceso a la educación mejoró significativamente. Las tasas de escolaridad secundaria y superior aumentaron debido a políticas de ampliación de cobertura, gratuidad progresiva y subsidios para estudiantes de bajos recursos. No obstante, persistieron retos en calidad educativa y en la equidad territorial.
Expectativa de vida: Mejoró como reflejo de avances en salud pública, expansión de coberturas de seguridad social, vacunación y atención materno-infantil. Aunque la violencia afectaba la esperanza de vida en ciertas regiones, la tendencia general fue de aumento sostenido.
Emisiones de CO₂ per cápita: Aumentaron moderadamente en línea con la expansión económica, la urbanización y el crecimiento del parque automotor. Si bien Colombia tiene un sector energético relativamente limpio (alto componente hidroeléctrico), el crecimiento del transporte, la industria y la extracción de hidrocarburos impulsaron el alza de emisiones.
Acceso a electricidad: Aumentó de forma sostenida, especialmente con programas de electrificación rural. En 1990 aún había zonas significativas sin cobertura, pero hacia 2020 el acceso superaba el 95 %, reduciendo brechas y habilitando mejoras en calidad de vida, educación y productividad.
Pobreza: A partir de 2002, Colombia implementó políticas sociales más agresivas (Red de Apoyo Social, Familias en Acción), logrando reducir la pobreza de más del 50 % a cerca del 27 % en 2017. Sin embargo, se mantuvieron brechas marcadas entre zonas urbanas y rurales, y episodios de crisis económicas o la pandemia (a partir de 2020) amenazaron con revertir estos logros.
Teniendo en cuenta como ha sido el comportamiento de las variables a lo largo del tiempo en este periodo, se puede decir que en Colombia se evidencia un proceso de modernización y recimiento economico acompañado de mejoras importantes en temas sociales, sin embargo, a lo largo del tiempo se han vivido desafios en temas de desigualdad, violencia y desarrollo territorial equilibrado. A pesar de que Colombia no es un país top comparado por ejemplo con países europeos, o aun asi, con países americanos, este ha sido un país que progresivamente ha ido mejorando en muchos aspectos, principalmente luego del año 2000 en adelante.
A continuación, se abordaran los resultados obtenidos posterior a la ejecución de los modelos. Se trabajaran los resultados arrojados en los supuestos y un estudio a la serie de tiempo resultante para la variable dependiente porcen_pobreza.
Se construyó un modelo de regresión lineal para analizar cómo diferentes factores han influido en los cambios del porcentaje de pobreza en Colombia entre 1990 y 2020. La idea principal era ver si variables relacionadas con el desarrollo del país, como la expectativa de vida, el acceso a servicios, la economía y la desigualdad, puede ayudar a entender cómo ha variado la pobreza a lo largo del tiempo.
El modelo mostró un resultado bastante bueno: el R cuadrado fue de 0.9591, lo que indica que casi el 96% de los cambios en la pobreza se pueden explicar con las variables usadas. Además, el valor p del modelo fue muy bajo (1.89e-14), lo que significa que, en conjunto, las variables sí aportan información valiosa al modelo.
Al observar cada variable por separado, se encontró que tres resultaron significativas. La expectativa_vida tuvo un impacto negativo en la pobreza, lo que quiere decir que, cuando mejora la salud y las personas viven más, la pobreza tiende a bajar. Por otro lado, el coeficiente_desigualdad (medido con el índice de Gini) tuvo un efecto positivo, indicando que cuando hay más desigualdad, también hay más pobreza. El porcen_electriciidad también salió como significativo, aunque su relación positiva con la pobreza podría deberse a que está muy relacionada con otras variables, y eso puede confundir la interpretación.
Las demás variables, como el pib_percapita, las emisiones_percapita, el terrorismo y porcen_educación, no resultaron significativas en este modelo. Una posible razón es que muchas de estas variables han cambiado juntas a lo largo del tiempo, lo cual hace que sea difícil para el modelo identificar cuál tuvo más impacto.
En general, el modelo si funciona bien para describir cómo ha cambiado la pobreza en el tiempo. Sin embargo, debido a la alta relación entre las variables, no se podría usar para decir con seguridad qué causó esos cambios. Aun así, es una herramienta útil para observar tendencias y hacer pronósticos confiables hacia el futuro.
En la siguiente gráfica se puede apreciar los resultados de la serie de tiempo para la variable Y. Se puede observar el comportamiento real versus el pronostico arrojado por el modelo. El análisis de la gráfica se abordará a continuación.
El gráfico que se observa presenta la evolución del porcentaje de pobreza en Colombia entre 1990 y 2020. En él, la línea roja representa la pobreza real observada, mientras que la línea azul es una serie de pronóstico generada por un modelo. Esta serie azul es especialmente interesante porque, aunque es una estimación, logra capturar de manera notable las tendencias y los momentos clave que ha vivido el país en relación con la pobreza. Si se la mira bien, se puede dividir en tres etapas importantes o grandes momentos.
La Década de los 90: Aumento y estabilización en niveles altos durante los años 90, el modelo muestra un aumento y luego una estabilización de la pobreza, lo cual es coherente con la realidad del país en esa década. En 1999, Colombia enfrentó una profunda crisis económica con una contracción del PIB del -4.2% y un desempleo cercano al 20% (Banco de la República, 2000). Además, el conflicto armado interno y los desplazamientos forzados afectaron gravemente el desarrollo rural y el empleo informal (CODHES, 2002). Estas condiciones explican los niveles altos que el modelo predice en ese periodo.
Los años 2000 y comienzos de 2010: una caída constante Desde inicios de los 2000 hasta 2014, se observa una caída progresiva en la pobreza estimada. Esto coincide con un período de crecimiento económico sostenido, aumento del gasto social y reducción de la violencia. Por ejemplo, entre 2002 y 2010, el PIB creció en promedio 4.6% anual, y la pobreza bajó del 49.7% al 37.2% (DANE, 2010). También se expandieron programas sociales como Familias en Acción, lo que ayudó a estabilizar los ingresos de los hogares más pobres.
Finales de los 2010 y el 2020: se mantiene estable y luego sube de sorpresa En el tramo final, entre 2015 y 2019, el modelo muestra niveles bajos y estables, este periodo estuvo marcado con la firma del Acuerdo de Paz con las FARC en 2016 y una mayor inversión social. Sin embargo, en 2020 la curva estimada muestra un aumento, aunque más leve que en los datos reales. Esto refleja el impacto de la pandemia del COVID-19, que llevó a un incremento real de la pobreza monetaria del 35.7% al 42.5% en un solo año (DANE, 2021). La pandemia provocó una contracción económica significativa y un aumento de la pobreza y la desigualdad en Colombia.
Cuando se trabaja con modelos en series de tiempo, no solo se busca predecir el comportamiento futuro de una variable, sino también asegurarse de que el modelo utilizado sea confiable. Para lograrlo, se llevó a cabo, una revisión de los supuestos estadísticos ya mencionados, los cuales permiten evaluar si el modelo está bien construido y sus resultados son considerados confiables.
Estacionariedad
Como se mencionó anteriormente, para que una serie de tiempo sea estacionaria se deben de cumplir que la media, varianza y covarianza no varíen con el tiempo.
La prueba de Dickey-Fuller establece que, si el p-value es menor a 0.05, la serie es estacionaria. De lo contrario, no lo es. En el caso de nuestro modelo, se obtuvo un p-value = 0.4123, lo cual indica que no es estacionaria. Sin embargo, no es necesario que la serie de tiempo sea estacionaria, ya que se puede diferenciar cuantas veces sea necesario y modelar en base al número de diferenciaciones.
Homocedasticidad
Este test permite saber si el modelo se comporta de manera estable a lo largo del tiempo. Es decir, si logra explicar la pobreza con la misma precisión tanto en épocas difíciles, como los años 90, como en momentos más tranquilos, como la década de 2010. El resultado obtenido (p-value = 0.2828) indica que los errores del modelo no aumentan ni disminuyen de forma clara con el paso de los años.
Esto es una buena señal. Muestra que el modelo no pierde precisión en ciertos periodos. No se confunde más en unos años que en otros. Su nivel de error se mantiene constante, lo que permite confiar en que el pronóstico representa bien la evolución de la pobreza entre 1990 y 2020, sin importar en qué año se mire.
Ausencia de multicolinealidad
En Colombia, entre 1990 y 2020, muchas cosas mejoraron al mismo tiempo: el PIB, la educación, la electricidad, la salud… Por eso, todas esas variables están muy relacionadas entre sí. El resultado del test VIF (GVIF = 382.94 e infinito) confirma que están tan conectadas que el modelo no puede distinguir cuál influye más en la pobreza. Esto significa dos cosas:
En resumen, aunque el modelo no sirve del todo para explicar qué causó los cambios en la pobreza, sí es útil para lo que estamos haciendo, que es pronosticar su comportamiento. Por eso, esta alta multicolinealidad no representa un problema en este caso.
Normalidad
Cuando se hace un modelo para predecir cómo cambia la pobreza con el tiempo, siempre habrá diferencias entre lo que pasó realmente y lo que el modelo dice. A esas diferencias se les llama “errores” o “residuos”. Con el test de normalidad de Shapiro-Wilk, se revisó si esos errores seguían algún patrón extraño o si simplemente eran aleatorios. El resultado (p-valor = 0.3278) mostró que los errores no siguen ningún patrón raro, sino que parecen aleatorios, como si fueran ruido.
Esto es una buena señal. Significa que el modelo no está cometiendo errores de manera constante en ciertos momentos, como en años de elecciones, crisis económicas etc. Los errores que tiene son normales y no siguen un patrón. Eso quiere decir que el modelo está haciendo bien su trabajo al mostrar la tendencia de cómo ha cambiado la pobreza a lo largo del tiempo. Las pequeñas diferencias entre el modelo y la realidad no representan un problema grave.
Ausencia de autocorrelación
El gráfico ACF mide la correlación de los datos de una serie de tiempo. Esta lo mide por lags, los cuales están representados por barras saliendo del eje X. Los lags son comparaciones de un valor con el anterior, luego, el valor siguiente con sus dos valores anteriores y así sucesivamente.
El eje Y representa el coeficiente de autocorrelación con valores de -1 a 1, y las líneas azules un intervalo de confianza del 95%. Si una barra sobrepasa la línea azul, quiere decir que la autocorrelación es significativa, lo que indica dependencia temporal. En este caso, interesa que las barras no sobrepasen estas líneas azules, o al menos no la mayoría de ellas, ya que para construir modelos como ARIMA queremos que no haya autocorrelación.
Se puede apreciar que no hay autocorrelación significativa en el modelo, ya que la única barra que sobrepasa la línea azul es el Lag 0. Esto quiere decir que los errores (residuos) del modelo tienen comportamiento similar a una serie con ruido blanco, lo cual es ideal para el planteamiento del modelo ARIMA. Para corroborar aún más la no correlación, se realizó el gráfico PACF.
Este gráfico PACF es similar al anterior, pero con algunas diferencias. PACF mide la relación directa entre un valor de la serie de tiempo y su propio pasado, controlando por los efectos de los lags intermedios. Como se puede ver, no existe autocorrelación parcial significativa en los residuos del modelo, ya que todas las barras están dentro de las líneas azules, por tanto, no hay dependencia directa.
Al ajustar el modelo ARIMA es necesario evaluar si cumple con los supuestos estadísticos necesarios para que sus predicciones sean confiables. Para esto se realiza un diagnóstico de los residuos, el cual permite verificar si estos se comportan como “ruido blanco”, es decir, que no presenten estructura ni patrones.
Gráfico de residuos estandarizados (Standardized Residuals)
Este gráfico permite observar la evolución de los residuos a lo largo del tiempo. Idealmente, estos deben fluctuar de manera aleatoria en torno a cero, sin mostrar tendencias, ciclos ni varianza no constante (heterocedasticidad).
En el gráfico observado, los residuos estandarizados se distribuyen de forma aleatoria, con una media cercana a cero. No se detectan patrones, ni presencia de outliers importantes. Esto sugiere que el modelo ARIMA logró captar adecuadamente la estructura de la serie temporal.
Función de autocorrelación de los residuos (ACF of Residuals)
El segundo gráfico muestra la función de autocorrelación (ACF) de los residuos, la cual sirve para identificar si los errores del modelo están correlacionados con sus propios rezagos (valores pasados). Si los residuos están autocorrelacionados, significa que el modelo no logró capturar toda la dependencia temporal de la serie.
En este caso, casi todas las barras se encuentran dentro de las bandas de confianza (líneas azules), lo cual indica que las autocorrelaciones no son estadísticamente significativas. Solo en el primer rezago (lag 1) hay una leve superación de la banda, pero no parece crítica. En general, esto es una buena señal, ya que confirma que los errores son independientes entre sí.
Valores-p del test de Ljung-Box (p-values for Ljung-Box statistic)
Este test evalúa formalmente si los residuos presentan autocorrelación global. Se espera que los valores-p (p-values) sean mayores a 0.05 para confirmar que los residuos se comportan como ruido blanco.
En el gráfico presentado, todos los valores-p correspondientes a los distintos rezagos se encuentran por encima del umbral de 0.05. Esto indica que no existe evidencia estadística suficiente para rechazar la hipótesis nula de independencia de los errores, lo cual refuerza la validez del modelo ARIMA ajustado.
Los tres análisis coinciden en que el modelo ARIMA seleccionado cumple con los supuestos clave: los residuos no presentan autocorrelación significativa, están distribuidos aleatoriamente en torno a cero y no muestran patrones sistemáticos. Por lo tanto, el modelo puede considerarse estadísticamente adecuado para representar y predecir la serie temporal analizada.
A continuación se presenta un conjunto de gráficos arrojados por el modelo arima, en donde se evalua con diferentes factores para poder ver como se comporta a lo largo de los años.
Modelo arima (solo variable Y)
El gráfico muestra la comparación entre los datos históricos en la variable porcentaje de pobreza (línea negra) y las predicciones del modelo ARIMA (línea azul), junto con los intervalos de confianza (área azul claro). En el eje Y se representa el porcentaje de pobreza a lo largo del tiempo. Se observa que la pobreza aumentó fuertemente hasta cerca del año 2000, luego presentó una tendencia general a la baja con algunas fluctuaciones.
El modelo ARIMA se ajustó a esos datos históricos para capturar su estructura temporal y proyectar valores futuros. La línea azul en la parte más reciente muestra la predicción puntual del porcentaje de pobreza, mientras que las áreas sombreadas indican el rango de valores plausibles (intervalos de confianza).
El ARIMA proyecta un leve aumento en la pobreza en el corto plazo, aunque el intervalo de confianza se ensancha hacia el futuro, mostrando mayor incertidumbre. Aunque la proyección central indica que la pobreza podría incrementarse moderadamente, el modelo reconoce que existe una variabilidad considerable en las estimaciones: los valores reales futuros podrían estar dentro del rango sombreado.
El área de azul claro representa el intervalo de confianza, que aumenta su amplitud con el tiempo. Esto es normal en modelos de series temporales: a mayor horizonte de predicción, mayor incertidumbre. Este rango permite a los analistas evaluar el riesgo de escenarios más altos o más bajos de pobreza, ofreciendo una visión más completa que solo la proyección puntual.
El modelo logra capturar adecuadamente la tendencia y las variaciones históricas de la pobreza, como se observa en el ajuste razonablemente bueno en la parte no sombreada del gráfico. Sumado al diagnóstico de residuos (que mostró ausencia de correlación significativa), esto sugiere que el modelo es adecuado para describir la dinámica de la serie temporal y realizar predicciones fundamentadas.
En conclusión, el modelo ARIMA aplicado a la serie de pobreza permite anticipar su posible evolución futura, ofreciendo una estimación puntual (línea azul) y un rango de incertidumbre (área azul claro). Estos resultados son valiosos para la planificación de políticas públicas, ya que ayudan a prever escenarios potenciales y diseñar estrategias de mitigación.
Modelo arima (sin datos reales de 2021-2023)
El gráfico muestra la evolución histórica y el pronóstico del porcentaje de pobreza a lo largo del tiempo, utilizando un modelo ARIMAX (ARIMA con variables externas).
Se observa que la pobreza aumentó fuertemente a fines de los 90, alcanzando valores superiores al 20%, y luego mostró una tendencia decreciente hasta cerca de 2018. En 2020 se ve un repunte, probablemente relacionado con shocks económicos o crisis. El modelo ARIMAX utiliza además de los datos históricos de pobreza, variables externas (exógenas) para mejorar la predicción. En la zona sombreada (a la derecha del gráfico):
El pronóstico sugiere un leve descenso de la pobreza en los próximos años, aunque el rango de posibles valores es bastante amplio. Esto refleja la incertidumbre en el comportamiento futuro, considerando tanto la dinámica pasada como el efecto de las variables exógenas. El área azul claro se ensancha hacia el futuro. Esto es normal en predicciones de series temporales, dado que la incertidumbre crece con el horizonte de proyección.
Estos intervalos permiten visualizar distintos escenarios:
Un escenario más optimista (banda inferior) con una caída más marcada de la pobreza, un escenario más pesimista (banda superior) con un descenso más leve o incluso estabilidad.
El modelo ARIMAX aplicado a la serie de pobreza logra capturar las tendencias pasadas y proyectar su posible evolución futura incorporando información exógena. La predicción indica una tendencia leve a la baja en el corto plazo, pero con alta incertidumbre reflejada en los intervalos de confianza. Esta herramienta es valiosa para la planificación de políticas públicas, ya que permite anticipar distintos escenarios y diseñar estrategias de intervención.
Modelo arima (con datos reales de 2021-2023)
El gráfico muestra la evolución del porcentaje de pobreza a lo largo del tiempo y las predicciones generadas con un modelo ARIMA (modelo autorregresivo integrado de medias móviles).
En los datos reales se observa:
Un fuerte aumento de la pobreza hacia fines de los 90, con valores superiores al 20%, luego, una tendencia decreciente que llega a valores cercanos al 5% hacia 2018, un repunte en 2020, posiblemente asociado a crisis o choques económicos.
El modelo ARIMA realiza la proyección únicamente con la estructura temporal de la serie (sin variables externas):
El modelo sugiere una leve tendencia descendente o de estabilización en el corto plazo. Sin embargo, el área sombreada se va ampliando, indicando mayor incertidumbre a medida que se proyecta más al futuro. En comparación con el modelo ARIMAX (que incluye variables exógenas): El modelo ARIMA suele tener predicciones más simples, porque solo considera el pasado de la pobreza.
ARIMAX puede capturar mejor cambios estructurales o efectos de otras variables, reduciendo potencialmente la incertidumbre. El modelo ARIMA ofrece una proyección de la pobreza basada exclusivamente en la evolución histórica de la serie, mostrando un posible descenso leve en el corto plazo. Las bandas de confianza reflejan la incertidumbre inherente al pronóstico, que aumenta con el horizonte temporal. Esta herramienta puede ser útil para planificar escenarios, aunque sus resultados deben interpretarse con precaución dado que no incorpora factores externos que podrían influir en la dinámica de la pobreza.
A continuación, se presentan las principales conclusiones obtenidas luego de analizar y estudiar los modelos y los respectivos resultados:
Se identificó un aumento marcado de la pobreza en los años 90, luego una caida progresiva hacia los 2000, y finalmente un repunte reciente. Se puede intuir que este comportamiento esta ligado a crisis economicas vividas en el país, además de la intervención que ha tenido el estado para equilibrar esto, observando que en unas épocas han habido mejorias, y no mucho tiempo vuelve a recaer, justificando asi en parte la fluctuación de los datos.
El modelo ARIMA se ajustó bien, los residuos se comportaron como ruido blanco, sin correlación ni varianza no constante, validando estadisticamente el modelo y los resultados obtenidos.
El modelo ARIMAX mejora las predicciones al incluir variables exógenas, captando efectos externos y ofreciendo proyecciones más realistas a futuro, ajustandose a los datos reales proporcionados en la base de datos.
La comparación de predicciones con datos recientes mostró buena capacidad de anticipación, pero resalta la necesidad de actualizar el modelo, aunque en términos generales es aceptable los resultados obtenidos.
Estos modelos ayudan a anticipar escenarios de pobreza, resultando útiles para planificar políticas públicas más informadas y adaptables para poder mitigar la pobreza en el país, o al menos la mayor parte de ella. El análisis con modelos ARIMA y ARIMAX permitió describir la evolución histórica de la pobreza y generar predicciones fundamentadas. Ambos modelos mostraron buen ajuste estadístico y utilidad para anticipar escenarios futuros, siendo ARIMAX especialmente valioso al incorporar factores externos. En términos generales, los modelos tuvieron un comportamiento bueno acorde a lo que se podria esperar preliminarmente.