1 Introducción:

El Producto Interno Bruto (PIB) es el principal indicador que se usa para medir el crecimiento económico y el bienestar de un país. Estudiar cómo ha cambiado a lo largo del tiempo nos ayuda a entender la historia económica de una nación, reconociendo sus etapas de crecimiento, sus crisis y el impacto de grandes cambios o reformas.

El objetivo principal de este proyecto es analizar y crear un modelo que explique cómo ha evolucionado el PIB de Colombia entre 1982 y 2023. Para lograrlo, vamos a usar un modelo de regresión lineal para series de tiempo, con el propósito de observar cómo el PIB se ha relacionado con otras variables importantes que reflejan diferentes aspectos sociales, económicos y ambientales del país.

La variable principal que queremos predecir es el PIB anual de Colombia. Para explicar su comportamiento, hemos escogido cinco variables influyentes, como lo son, el Índice de Precios al Consumo (IPC), que nos indica cómo cambian los precios y la inflación, y la Tasa de Desempleo, que es un claro reflejo de la situación del mercado laboral. También incluimos factores sociales y demográficos: la Esperanza de Vida, que da una idea del bienestar y la calidad de vida de la población, y la Tasa de Natalidad, que generalmente disminuye a medida que un país se desarrolla. Finalmente, añadimos las Emisiones de CO₂ para tener en cuenta el impacto ambiental que produce la actividad industrial y económica. Para conocer la estructura subyacente de estas variables se da lugar a un análisis descriptivo en el que predomina el cálculo de las medidas de tendencia central, histogramas y diagramas de dispersión.

Al construir el modelo de regresión se usan los datos de 1982 a 2018. Después, pondremos a prueba el modelo mediante un pronóstico para ver qué tan bien funciona, usando los datos más recientes, de 2019 a 2023. Para esto, compararemos los valores que el modelo predice con los datos reales que se observaron y se estudian las métrica que lanza ese pronóstico. Así, no solo veremos qué relación hubo entre las variables en el pasado, sino que también sabremos si el modelo es útil para hacer pronósticos, además se da un análisis de los coeficientes de las variables, su significancia, el R² ajustado y los supuestos de un modelo lineal.

Entender cómo se relacionan estas variables socioeconómicas es muy importante para entender la influencia de factores externos e internos en el desarrollo o avance de un país. Un buen modelo puede ser una herramienta útil para anticipar tendencias futuras, planificar mejor los presupuestos y evaluar el posible efecto de diferentes factores en la economía de un país.

2 Metodología:

2.1 Descripción de las variables:

Para esta investigación todas las variables fueron cuantitativas.

PIB (PIB): El Producto Interior Bruto (PIB) mide el valor monetario de la producción de bienes y servicios finales de un país durante un año. El PIB también se define como el conjunto de todos los bienes y servicios finales producidos en un país durante un año. El PIB se utiliza habitualmente como medida del grado de bienestar de la población de un país. Otra forma de entender qué es el PIB es fijarse en su fórmula: PIB = C+I+G+X-M. Para esta investigación su valor está expresado en millones de dólares.

Emisiones de CO2 (EmisCO2): Hace referencia a las cantidades en toneladas de dióxido de carbono producidas por actividades como las industriales, transporte y producción de energía que se realizan en los diferentes países. Se relaciona con el nivel de desarrollo económico ya que a mayor crecimiento económico, mayores emisiones de CO₂, debido al aumento en la actividad industrial, el uso de combustibles fósiles, el transporte y la generación de energía. Esto se observa especialmente en países que se industrializaron tempranamente (como EE. UU., Alemania o China).

Tasa de natalidad (TasaNatalidad): Es el número de nacidos vivos por cada 1000 habitantes en un año. Es un indicador demográfico que da cuenta de la fecundidad de una población, o sea la capacidad de tener hijos de un país. Esta variable está relacionada con el nivel de desarrollo económico ya que las estadísticas demuestran que a mayor nivel de desarrollo la tasa de natalidad disminuye ya que las personas tienen mejor acceso a la planificación familiar, las mujeres tienen mejor acceso al empleo y posponen la maternidad.

Esperanza de vida (EsperanzaVida): Es la duración en promedio de vida de los nacidos vivos en un periodo específico tomando como referencias las tasas de mortalidad del mismo periodo. En otras palabras es un tipo de dato predictivo de cuanto años pueden llegar a vivir las personas de determinado país teniendo en cuenta las tasas de mortalidad. Es un indicador de bienestar y calidad de vida, su relación es estrecha con el nivel de desarrollo de un país, ya que los países con mejores ingresos invierten más en salud, en saneamiento ambiental y la población con sus ingresos pueden acceder a una mejor alimentación, entretenimiento, y mejores estilos de vida.

IPC (IPC): El IPC es el Índice de Precios al Consumo, este índice mide la evolución del conjunto de precios de los bienes y servicios que consume la población de un país o una región. El IPC es una estimación estadística, es decir se construye con los precios de una muestra de artículos representativos cuyos precios se recogen periódicamente. El IPC, permite conocer cuánto se ha encarecido (inflación) o abaratado el precio del conjunto de artículos que constituyen el consumo familiar. Este estudio se realiza sobre un conjunto de productos (cesta) relacionados con la alimentación, el transporte, la educación, prendas de vestir, etc

Tasa de desempleo (TasaDesempleo): Desempleo es sinónimo de paro. Desempleado o parado es aquel trabajador que no tiene empleo. Por lo tanto, los desempleados de un país son aquellos que tienen edad, capacidad y deseo de trabajar (población activa) pero carecen de un puesto de trabajo. El número de desempleados de un territorio suele expresarse en función de la población activa del mismo y se denomina tasa de desempleo. La tasa de desempleo es el cociente entre el total de parados y el total de activos y se expresa en porcentaje.

2.2 Implementación del modelo:

La ecuación general de un modelo de regresión lineal para series temporales viene siendo la siguiente:

\[ Y_t= \beta_0 + \beta_1 x_1,_t+\beta_2 x_2,_t+...+\beta_k x_k,_t+\epsilon_t \] \(Y_t\): es la variables respuesta a modelar.

\(X_k,_t:\)Variable predictora que se asume se conoce para tiempos pasados y futuros.

\(\beta_0:\)También conocido como intercepto, es el valor que asume la variable dependiente cuando las variables predictoras son iguales a cero.Miden efectos marginales.

\(\beta_k:\)El cambio de la variable dependiente \(y_t\) por cada unidad que varia la predictora \(x_k,_t\).

\(\epsilon_t:\)Termino de error de ruido blanco.

La ecuación del modelo a tratar en esta investigación viene siendo:

\[ PIB = \beta_0+\beta_1IPC+\beta_2TasaDesempleo+\beta_3EmisCO2+\beta_4TasaNatalidad+\beta_5EsperanzaVida+\epsilon \]

2.3 ¿Qué es una serie de tiempo?:

Una serie de tiempo es un conjunto de datos que se han recopilado y organizado de manera cronológica, en las cuales cada elemento refleja el valor de una variable en un instante específico en el tiempo. Estas series se utilizan para examinar cómo una variable varía a lo largo del tiempo y para llevar a cabo pronósticos acerca de su comportamiento futuro. Los datos pueden ser obtenidos en distintos intervalos temporales, tal como minutos, horas, días, meses o años, dependiendo del contexto y el objetivo del análisis. El análisis de series temporales es fundamental en estadística y ciencia de datos, con usos prácticos en diversos sectores, tales como economía, meteorología, finanzas, ciencias sociales y tecnología. Su principal objetivo es entender los patrones que existen dentro de los datos y aplicarlos para hacer proyecciones o detectar anomalías.

Una serie de tiempo suele descomponerse en diversos componentes para su análisis:

Tendencia:Representa el cambio a largo plazo en los datos. Esta indica un crecimiento, decrecimiento o estabilidad general en la variable a analizar.

Estacionalidad:Abarca las oscilaciones periódicas regulares que ocurren en intervalos de tiempo determinados, como los picos de ventas en temporadas festivas o las variaciones climáticas anuales.

Ciclos:Son fluctuaciones recurrentes que no tienen una periodicidad definida, son frecuentemente relacionadas a factores económicos y sociales.

Ruido:Se refiere a la variabilidad aleatoria en los datos que no presenta ningún patrón reconocible.

2.4 Supuestos de la modelación lineal:

Normalidad: El supuesto de normalidad establece que los errores de la regresión deben seguir una distribución normal. Cuando este supuesto se cumple, las pruebas de hipótesis y los intervalos de confianza pueden interpretarse con mayor precisión. Si la normalidad no se cumple, los intervalos de confianza y las pruebas de hipótesis pueden verse afectados, lo que puede conducir a conclusiones erróneas.

Homocedasticidad: Este supuesto implica que la varianza de los errores debe ser constante en todos los niveles de las variables predictoras. Cuando se viola este supuesto, se produce heterocedasticidad, lo que significa que la dispersión de los errores varía en diferentes rangos de las variables predictoras. La presencia de heterocedasticidad puede distorsionar los intervalos de confianza y los valores p-value, lo que puede afectar la precisión de las pruebas de hipótesis.

Ausencia de multicolinealidad: La multicolinealidad se produce cuando dos o más variables independientes en el modelo de regresión lineal están altamente correlacionadas, lo que dificulta establecer el efecto preciso de cada variable sobre la variable dependiente. La multicolinealidad puede generar estimaciones inestables, errores estándar inflados y dificultad para interpretar los coeficientes. Puede utilizar el factor de inflación de la varianza (VIF) o la matriz de correlación para detectar la multicolinealidad. Si hay multicolinealidad, se recomienda eliminar una de las variables correlacionadas, combinar las variables correlacionadas o utilizar técnicas como análisis de componentes principales (PCA) o regresión de cresta.

No autocorrelación: La autocorrelación es un problema importante en la econometría de series temporales , que puede afectar considerablemente la precisión y la fiabilidad de los modelos econométricos. En pocas palabras, la autocorrelación se produce cuando los residuos (errores) de un modelo de regresión se correlacionan entre sí a lo largo del tiempo. Este es un problema común en los datos de series temporales porque, a diferencia de los datos transversales, las observaciones realizadas en diferentes momentos suelen estar influenciadas por observaciones previas. Por lo tanto, detectar y corregir la autocorrelación es esencial para obtener estimaciones fiables y válidas en los modelos de series temporales.

2.5 Contexto histórico y análisis de la serie:

Los análisis estadísticos realizados sobre el Producto Interno Bruto (PIB) de Colombia, con base en datos comprendidos entre los años 1982 y 2023, evidencian una tendencia general al crecimiento sostenido. Esta evolución positiva del PIB sugiere que, a lo largo de las últimas décadas, han existido condiciones estructurales y coyunturales que han favorecido el desarrollo económico del país.

Entre los principales factores que han impulsado este crecimiento se destacan el proceso de industrialización iniciado en el siglo XX, que permitió diversificar la producción y modernizar sectores clave de la economía. Asimismo, el incremento en los niveles de escolarización de la población ha contribuido a mejorar el capital humano disponible, generando una fuerza laboral más calificada y productiva.

Otro factor determinante ha sido el auge del cultivo y la exportación del café, que durante varias décadas representó uno de los principales motores de la economía nacional, favoreciendo el ingreso de divisas y el desarrollo de infraestructura comercial. La apertura económica y la firma de tratados de libre comercio en las últimas décadas también han incidido en la expansión de los mercados, facilitando el ingreso de productos colombianos al exterior.

No obstante, en el gráfico se observa una caída abrupta del PIB en el año 2020, atribuible a los efectos de la pandemia por COVID-19. Las restricciones a la movilidad, el cierre temporal de numerosos sectores económicos y la disminución en la capacidad adquisitiva de los hogares generaron un impacto significativo en la actividad productiva nacional, rompiendo temporalmente la tendencia creciente del PIB.

Este comportamiento evidencia cómo, a pesar de los avances estructurales, la economía sigue siendo vulnerable a eventos extraordinarios que afectan tanto el contexto interno como el internacional. Por ello, resulta crucial seguir fortaleciendo los fundamentos económicos y la resiliencia del país ante posibles crisis futuras.

A continuación se explica de forma detallada lo que se percibe en la serie, es decir los factores que promovieron las subidas y bajadas del PIB a lo largo de ese tiempo:

Durante los 80 se da una desaceleración económica, lo cual se explica gracias a un estancamiento estructural debido a una pérdida sostenida de la autonomía tecnológica y por la escalada de violencia relacionada con el crecimiento acelerado del narcotráfico, la escalada de la violencia y la expansión de los grupos irregulares (guerrilla, paramilitares y delincuencia común). A finales de los 70 se pasó de un modelo de sustitución de importaciones (Altamente proteccionista) a un modelo mixto que combinaba protección y promoción de exportaciones. El país se orientó progresivamente hacia la integración comercial y financiera con el resto del mundo. También hubo un cambio progresivo en el papel del Estado: de ser intervencionista y abiertamente industrialista, en la década de los setenta se pasó a un modelo de neutralidad estatal que ha venido eliminando la intervención directa y ha situado la estabilidad macroeconómica de corto plazo en el primer nivel de la agenda del Estado, siendo un un modelo en el que era más importante el control de la inflación que la generación de empleo y el fomento industrial. Con todo esto el país optó progresivamente por el resto del mundo como proveedor de materias primas elaboradas, maquinaria y equipo, así perdió autonomía tecnológica y se estancó desde el punto de vista de la transformación industrial.

Ya en los primeros años de la década del 90 se inició el proceso de recuperación económica y la brecha entre el producto observado y el potencial disminuyó y desde 1993 hasta los primeros meses de 1996 la economía colombiana experimentó un ciclo de expansión económica; en efecto, en 1993 el PIB creció en 5.4% mientras que durante 1994 y 1995 creció a tasas superiores a la del pleno empleo situándose en 5.8% aproximadamente. La expansión indujo a grandes incrementos en la demanda laboral, y por supuesto, a una declinación fuerte en la tasa de desempleo; en promedio, entre 1993-1995, el desempleo fue del 8%, la tasa más baja durante toda la década de los 90. La inflación alcanzó un 32.4% en 1990, inició un proceso de reducción gracias a un mayor control sobre los medios de pago, el cambio en la formación de expectativas de inflación a partir de 1991 y las reformas impositivas, como el IVA, que frenan el gasto.

Para 1996-1999 el PIB entra en una senda decreciente que persiste durante el resto de la década; de un crecimiento del 5.8% en 1995, se pasó a -5% en 1999; en promedio, entre 1996 y 1999, el producto creció a un ritmo del 0.2% y la pérdida total en crecimiento es cerca de 10 puntos porcentuales. El desempleo aumentó notoriamente, pues de una tasa del 8% de 1995 pasó al 21% aproximadamente a finales de 1999. Consecuentemente, la tasa de inflación cayó desde un 19.5% hasta el 9.2% en el mismo lapso; el descenso se debió a la crisis de demanda agregada, a expectativas de inflación a la baja, que como meta a lograr, es una señal dirigida por el Banco de la República a los agentes y a menores ritmos de crecimiento de la oferta monetaria. Los detonantes de esta situación fueron las altas tasas de interés, el impacto del terremoto en el Eje Cafetero, el recrudecimiento del conflicto armado, el deterioro de los precios de los productos de exportación y la reducción de los precios del petróleo.

Entrando ya en la década del 2000 sobresale el lapso de 2004-2007, pues el PIB creció en promedio 5.8%, los principales impulsores fueron la inversión privada y las exportaciones, en específico el aumento en la inversión se dió gracias a la recuperación de las obras civiles, el consumo aumentaría gracias a la mejora del mercado laboral (Reducción del desempleo) y el dinamismo de las regiones cafeteras, las tasas de interés se mantuvieron estables y en niveles bajos, también la liquidez y disponibilidad de crédito en el mercado fueron adecuadas, se dió un dinamismo en la demanda mundial, la recuperación de la República Bolivariana de Venezuela, el aumento de los precios de los bienes básicos y el ascenso de las entradas de capital, todo este contexto internacional favoreció la actividad económica. Se puede ver una bajada del PIB desde 2007 a 2008, lo cual se dió gracias a la crisis hipotecaria de EEUU, la cual fue un colapso del mercado hipotecario subprime desencadenando una crisis económica en los mercados financieros globales, en específico los bancos y las instituciones financieras entraron en quiebra o necesitaron rescates dando paso a una gran recesión mundial, esto generó en Colombia una caída en la demanda externa, la disminución en los precios de materias primas y una merma en la inversión extranjera directa. Seguido a esto en lo que compete al 2009-10 se dió una recuperación económica, en este proceso de recuperación predominó lo que fue el excelente momento del sector minero, en especial lo relacionado con hidrocarburos y carbón, el buen comportamiento de las obras civiles, que tuvieron un crecimiento del 44.7%, el buen desempeño de servicios sociales: Principalmente gobierno, educación y salud, se dio una recuperación del sector comercio, restaurante, hoteles con un aumento del 3.6% y la recuperación de la agricultura después de largos periodos de verano en periodos anteriores.

Se siguió presentando una dinámica de buen transcurrir en términos de materia económica similar a la recuperación económica después de la crisis hipotecaria del 2008 para lo que compete al lapso de 2010-2014 siendo determinantes innumerables factores, ya que en 2011 los sectores de minas y canteras presentaron un crecimiento del 14.3%, en 2012 los sectores financieros e inmobiliarios presentaron un crecimiento del 5.5% y el crecimiento del consumo de los hogares fue del 4.4%, en 2013 el sector agropecuario tuvo un crecimiento del 5.2% y en 2014 el sector de la construcción se dió un crecimiento del 9.9% gracias al aumento de edificaciones y obras civiles. Para 2014-15 se dio una bajada debido a una caída del 0.2% en explotación de minas y canteras gracias a una disminución en el valor agregado de minerales metálicos en un 8.4% y petróleo crudo y gas natural en 1.4%. Esa disminución se ocasionó gracias a las caídas en la producción de gas crudo en 1.6%, producción de oro en 13.9%, de níquel en 3.5%, etc. luego se ve una recuperación económica en el lapso comprendido entre 2016-19.

Finalmente se ve una caída del PIB en 2019-20 producto de la contingencia por la pandemia del Covid-19, se dió una caída del 6.8%, siendo esta la peor caída del PIB en toda la historia de Colombia desde 1975, respecto a los sectores de explotación de minas y canteras, industrias manufactureras, construcción, comercio y actividades artísticas también registraron los datos más bajos de crecimiento en la historia registrando caídas de 15.7%, 7.7%, 27.7%, 15.1% y 11.7%, respectivamente, por otro lado se vió una disminución del -5.8% en el gasto de consumo final de los hogares. Para 2021 se da el proceso de recuperación económica dandose un crecimiento del 10.6% jalonado principalmente por el comportamiento de la industria, la gran rama del comercio y el consumo privado, esto se dió en gran parte a que el sector financiero fue resiliente ante el golpe de la pandemia, pues este en 2020 tuvo un crecimiento del 2.1%, lo cual ayudo a impulsar recuperación económica del año posterior con la ayuda de una mayor colocación de créditos. Esta senda de prosperidad económica se prolongó para los dos años siguientes (2022 y 2023), siendo de gran relevancia 2022 teniendo en positivo a todas las actividades económicas a excepción de la agricultura, en específico el sector que más contribuyó fue el de comercio, transporte y alojamiento con un aporte de 2.1 puntos porcentuales al resultado total, luego están la industria manufacturera con un crecimiento de 9.8% y 1.2 puntos de aporte, actividades artísticas y de entretenimiento (37.9% y 1.2 puntos), administración pública (4.9% y 0.8 puntos)y las actividades profesionales científicas y técnicas (8.3% y 0.6 puntos porcentuales).

De forma enfática, se puede ver que la serie presenta una tendencia creciente a lo largo del tiempo como ya se dijo de forma inicial, al darse la presencia de esta tendencia creciente se infiere que no hay estacionariedad, pues la tendencia promueve un cambio en la media y la varianza a lo largo del tiempo que va contrario a la estacionariedad, no se observa un patrón estacional, es decir que no hay evidencia de patrones repetitivos o constantes en intervalos regulares, lo cual se agudiza aún más al tratarse de una serie anual, ya que la presencia de estacionalidad es mucho más fecuente en series mensuales o trimestrales, además el PIB suele tener más ciclos estructurales o de largo plazo. Se dió la identificación de algunos ciclos económicos como lo fue en el caso de la crisis hipotecaria del 2008 que causó una crisis financiera global y la caída económica del 2020 debido a la pandemia, los cuales se caracterizan que luego de una crisis económica tiende a darse un proceso de recuperación. En cuanto al ruido, este es de un nivel muy bajo, pues la tendencia y la presencia de fluctuaciones se asocian a eventos socioeconómicos concretos entendiendo que la serie esta explicada por componentes estructurales. (Las variables predictoras aparecen visualmente como líneas rectas debido a la diferencia significativa en la escala de magnitudes frente al PIB, esta diferencia quizá pueda repercutir más adelante en los resultados y generar efectos importantes o determinantes)

3 Análisis Descriptivo:

A continuación se muestra una tabla que posee el cálculo de los principales indicadores de tendencia central para cada variable:

A continuación se muestran gráficos descriptivos en los cuales se evidencian relaciones entre las variables predictoras y la variable respuesta junto con la estructura subyacente de algunas variables:

El histograma de la esperanza de vida muestra que durante la mayoría de los años entre 1982 y 2023 los valores se han concentrado en la parte alta entre los 72 y 78 años. Esto significa que en general, las personas en Colombia han vivido más tiempo especialmente en los últimos años de la serie.

Se nota que los valores más bajos están al comienzo del periodo, cerca de 66 años, lo que refleja una época en la que las condiciones de vida no eran tan buenas como ahora. Sin embargo, con el paso del tiempo esa esperanza de vida fue aumentando y hoy en día la mayoría de los datos se agrupan en rangos altos.

La forma del histograma está un poco inclinada hacia la izquierda, lo que quiere decir que los años con esperanza de vida más baja fueron pocos y ocurrieron principalmente en las décadas pasadas. Esto también muestra que ha habido una mejora continua en salud, alimentación y calidad de vida, lo cual ha hecho que cada vez se viva más tiempo en el país.

El histograma deja ver una evolución positiva en la esperanza de vida de los colombianos, con pocos años en la parte baja y la mayoría muy por encima del promedio.

El histograma de las emisiones de CO₂ muestra que, en la mayoría de los años los valores se concentran entre 55 y 65 toneladas, lo que refleja un nivel relativamente alto de emisiones en Colombia durante el período 1982–2023.

También se observa que hay algunos años con emisiones más altas, especialmente cercanas al rango de 80 a 100 toneladas, aunque estos son pocos. Estos valores más altos podrían corresponder a años con mayor actividad industrial y un mayor consumo de energía fósil.

El histograma refleja una tendencia al aumento de las emisiones, donde los valores más bajos (cerca de 60 toneladas) han quedado atrás en el tiempo, mientras que los niveles actuales se ubican en rangos más altos, en una menor medida, acompañando el proceso de crecimiento y modernización del país.

El gráfico evidencia que existe una relación inversa entre el Producto Interno Bruto (PIB) y la tasa de desempleo. Lo cual indica que a medida que la tasa de desempleo disminuye, el PIB tiende a incrementarse. Este comportamiento puede interpretarse desde teorías de la macroeconomía que sugieren que un mayor nivel de empleo está asociado a una mayor actividad productiva y, por ende, a un crecimiento económico sostenido.

Sin embargo, también se observa una alta dispersión en los datos, lo que indica que esta relación no es perfectamente lineal ni constante a lo largo del tiempo. En otras palabras, aunque puede percibirse una tendencia general, no existe una correlación fuerte ni determinante entre ambas variables durante el periodo analizado. Es decir, hay años en los que el PIB crece a pesar de niveles relativamente altos de desempleo, y otros en los que el desempleo se reduce sin que ello implique un crecimiento significativo del PIB.

La dispersión de los datos en el gráfico indica que no existe una correlación fuerte ni directa entre el IPC y la tasa de desempleo. Es decir, no se observa un patrón uniforme que permita afirmar que los cambios en una de estas variables generan una respuesta proporcional en la otra.

Sin embargo, se puede identificar una leve tendencia a que el IPC aumente cuando la tasa de desempleo disminuye. Este comportamiento puede interpretarse gracias a la teoría de la curva de Phillips, la cual propone que existe una relación inversa entre la inflación (representada por el IPC) y la tasa de desempleo. Cuando el desempleo es bajo, existe una mayor demanda.

En el gráfico se puede evidenciar que existe una relación inversa entre la tasa de natalidad y el Producto Interno Bruto (PIB), lo cual indica que, a medida que la tasa de natalidad disminuye, el PIB tiende a incrementarse. Esta relación también puede interpretarse en sentido contrario: conforme el PIB aumenta y las economías se desarrollan, la tasa de natalidad tiende a reducirse.

Esta tendencia se puede evidenciar mayormente en países en proceso de desarrollo o ya industrializados, y puede explicarse por diversos factores asociados al crecimiento económico. Uno de los más relevantes es que los jóvenes y adultos en edad productiva suelen postergar decisiones relacionadas con la paternidad o maternidad debido a cambios en sus prioridades y estilos de vida. El acceso a mayores niveles de educación, la inserción de la mujer en el mercado laboral, y la búsqueda de estabilidad económica. Es importante destacar que aunque el PIB crezca existe un aumento en los costos de crianza que también es un factor que influye directamente en esta tendencia.

En resumen, el gráfico sugiere que el crecimiento del PIB y la disminución de la tasa de natalidad están vinculados a procesos de modernización económica, social y cultural, que modifican profundamente los patrones demográficos de una sociedad.

4 Análisis de resultados:

4.1 Análisis de los coeficientes de las variables y su significancia:

## 
## Call:
## tslm(formula = y_train ~ IPC + TasaDesempleo + EmisCO2 + TasaNatalidad + 
##     EsperanzaVida, data = xreg_train)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -87253 -18429  -2538  17589  69734 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept)    1942969     581811   3.340  0.00220 **
## IPC              -3870       1905  -2.031  0.05087 . 
## TasaDesempleo    -5771       2666  -2.165  0.03821 * 
## EmisCO2           3442       1333   2.582  0.01478 * 
## TasaNatalidad   -18149       6078  -2.986  0.00548 **
## EsperanzaVida   -20314       6688  -3.038  0.00481 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 37690 on 31 degrees of freedom
## Multiple R-squared:  0.9101, Adjusted R-squared:  0.8956 
## F-statistic: 62.74 on 5 and 31 DF,  p-value: 2.76e-15

Intercepto(β0):Este es el valor que toma la variable dependiente en tal caso que se presente una ausencia por el lado de las variables independientes, si esto se llega a presentar el PIB tomaría un valor de 1942969, es decir que el PIB en promedio tendría un valor de 1942969 millones de doláres, esto no tiene mucho sentido, pues es un poco salido de la realidad que el PIB de Colombia adquiera dicho valor sabiendo de que por ejemplo la tasa de natalidad es igual a cero, pues es obvio que no hay ningún país que tenga una tasa de natalidad igual a cero.

IPC: La evaluación del coeficiente asociado al Índice de Precios al Consumidor (IPC) en el modelo de regresión revela una relación negativa con el Producto Interno Bruto (PIB). Específicamente, se estima que por cada unidad adicional en el IPC, el PIB disminuye en aproximadamente 3.870 millones de dólares, manteniendo constantes las demás variables del modelo. Esta relación sugiere que el aumento en los niveles de precios podría estar asociado a una contracción en la actividad económica, posiblemente debido a la pérdida del poder adquisitivo o a la desaceleración del consumo interno.

Sin embargo, al analizar la significancia estadística de este coeficiente, se observa un valor p de 0.05087, el cual es mayor a 0.05. Esto implica que no existe evidencia estadística de un efecto del IPC sobre el PIB.

Tasa de desempleo: El análisis del coeficiente asociado a la tasa de desempleo evidencia una relación negativa con el Producto Interno Bruto (PIB). En concreto, el modelo estima que por cada punto porcentual adicional en la tasa de desempleo, el PIB se reduce en aproximadamente 5.771 millones de dólares, manteniendo constantes las demás variables explicativas. Esta relación es consistente con la teoría económica, ya que un mayor desempleo implica una menor utilización del capital humano, lo que reduce la producción de bienes y servicios en la economía.

En cuanto a la significancia estadística, el valor p correspondiente a esta variable es 0.03821, el cual es menor al 0.05. Esto respalda la validez del efecto estimado y sugiere que la tasa de desempleo tiene una influencia importante y confiable sobre el comportamiento del PIB dentro del modelo planteado.

Emisiones de CO2 en toneladas: El análisis del coeficiente estimado para la variable emisiones de CO₂ muestra una relación positiva con el Producto Interno Bruto (PIB). Específicamente, por cada tonelada adicional en las emisiones de dióxido de carbono, el modelo predice un aumento de aproximadamente 3.442 millones de dólares en el PIB, manteniendo constantes las demás variables. Este resultado sugiere que existe una asociación directa entre el crecimiento económico y el incremento en las emisiones contaminantes.

Desde una perspectiva interpretativa, esta relación puede explicarse por el hecho de que las actividades industriales, que impulsan el crecimiento económico, suelen estar asociadas a procesos productivos intensivos en energía y generadores de emisiones. Es decir, a mayor nivel de producción y desarrollo industrial, mayores niveles de emisiones, lo cual se traduce en un incremento del PIB, pero también en un mayor impacto ambiental.

Además, el valor p de esta variable es 0.01478, lo que indica que es menor al 0.05, otorgándole una alta confiabilidad al efecto estimado.

Tasa de natalidad: El análisis del modelo indica que un incremento de un recien nacido por cada 1000 habitantes se asocia con una disminución de aproximadamente 18.149 millones de dólares en el PIB, manteniendo constantes las demás variables. Esta relación negativa sugiere que un aumento en la natalidad podría estar vinculado a una mayor presión sobre los recursos públicos, un aumento en la dependencia económica y una posible reducción en la participación de la fuerza laboral activa a corto plazo.

El valor p asociado a esta variable es 0.00548, lo que la convierte en estadísticamente significativa. Esto significa que existe una alta confianza en la validez del efecto estimado, y que la tasa de natalidad representa un factor importante dentro del comportamiento del PIB en el modelo propuesto.

Esperanza de vida: El coeficiente asociado a la esperanza de vida muestra que, por cada año adicional de vida promedio, el PIB tiende a disminuir en aproximadamente 20.314 millones de dólares, manteniendo las demás variables constantes. Aunque este resultado puede parecer contraintuitivo, podría estar reflejando el costo económico asociado al envejecimiento de la población, como el aumento en los gastos en salud y pensiones, así como una posible disminución en la productividad laboral.

El valor p de esta variable es 0.00481, lo que la hace altamente significativa (p < 0.05) dentro del modelo. Esto indica que su efecto es consistente y confiable, y debe ser considerado con atención al analizar los determinantes del crecimiento económico.

R² ajustado: El valor de R² ajustado (0.8956) indica que el modelo posee una alta capacidad explicativa, ya que aproximadamente el 89.56% de la variabilidad observada en la variable dependiente respecto a las variables independientes incluidas en el análisis. Este resultado sugiere que el modelo se ajusta adecuadamente a los datos y que las variables seleccionadas capturan gran parte de los factores que inciden en el comportamiento del PIB.

4.2 Análisis de los supuestos:

Normalidad:

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(fit.train)
## W = 0.96509, p-value = 0.2915

Para verificar el supuesto de normalidad de los residuos del modelo de regresión lineal, se realizó la prueba de Shapiro-Wilk. El resultado obtenido fue un valor W=0.96509 y un P−valor=0.2907. Dado que el P−valor es mayor al nivel de significancia habitual (a=0,05), no se tiene evidencia suficiente para rechazar la hipótesis nula de normalidad. Es decir, se concluye que los residuos del modelo siguen aproximadamente una distribución normal, lo cual permite validar este supuesto fundamental del análisis de regresión lineal.

Este resultado respalda la validez del modelo desde el punto de vista de la normalidad de los errores, lo cual es un paso adelante para la realización de inferencias estadísticas válidas sobre la relación entre las variables.

Homocedasticidad:

## 
##  studentized Breusch-Pagan test
## 
## data:  fit.train
## BP = 14.388, df = 5, p-value = 0.01333

Para evaluar la homocedasticidad de los residuos (igualdad de varianza), se aplicó la prueba de Breusch-Pagan. El resultado arrojó un estadístico BP=16.448 con un P−valor=0.01333.

Dado que el P−valor es menor al nivel de significancia (α = 0.05), se rechaza la hipótesis nula de homocedasticidad. Por lo tanto, se concluye que el modelo presenta heterocedasticidad, es decir, no presenta una varianza constante

Esto implica que no se cumple el supuesto de homocedasticidad, lo cual dificulta la eficiencia de las estimaciones y la validez de las inferencias estadísticas.

Ausencia de multicolinealidad:

##                   GVIF Df GVIF^(1/(2*Df))
## IPC           62.12522  0             Inf
## TasaDesempleo 62.12522  0             Inf
## EmisCO2       62.12522  0             Inf
## TasaNatalidad 62.12522  0             Inf
## EsperanzaVida 62.12522  0             Inf

El GVIF muestra valores extremadamente altos (62.12) y un grado de libertad igual a 0, lo que lleva a GVIF^(1/(2*Df)) infinito. Esto indica la presencia de una multicolinealidad severa o incluso perfecta entre las variables independientes del modelo, lo cual hace que no se cumpla este supuesto. Por lo tanto es aquí donde se refleja la importancia de revisar la base de datos para eliminar variables redundantes o combinar las que estén altamente correlacionadas y de esa forma se vuelve a ver comprometido lo que respecta a la realización de inferencias estadísticas.

No autocorrelación:

Respecto al cumplimiento de este supuesto, lo que se busca es una ausencia de autocorrelación serial en los residuos **(es decir, que los errores no estén correlacionados entre sí a lo largo del tiempo)*.** Se observa que algunas barras del gráfico ACF se aproximan a los límites de confianza, lo que sugiere una posible dependencia débil en algunos rezagos. Sin embargo, la mayoría de las autocorrelaciones se encuentran dentro del intervalo de confianza, por lo que no pueden considerarse estadísticamente distintas de cero, y ninguna presenta una magnitud suficientemente significativa como para evidenciar autocorrelación sistemática. Por tanto, se considera que por el momento el supuesto de independencia de los residuos se cumple adecuadamente.

Para tener una mayor seguridad de lo dicho anteriormente, se procede a realizar la prueba de Breusch-Godfrey con 4 rezagos considerando que se tienen 42 observaciones temporales, lo cual es adecuado dado esa magnitud de muestra y el posible retardo en la estructura temporal de los datos, pues si se sigue aumentando este número de rezagos se consumen grados de libertad, lo que conlleva una pérdida de potencia estadística y la aparición de patrones que en realidad son ruido (Falsos positivos)

## 
##  Breusch-Godfrey test for serial correlation of order up to 4
## 
## data:  fit.train
## LM test = 3.8099, df = 4, p-value = 0.4323

El resultado fue un p-valor mayor a 0.05, lo cual indica que no se encontró evidencia estadísticamente significativa de autocorrelación de orden 1 a 4 en los residuos del modelo, siendo contrario a lo que muestra el ACF, por lo tanto para tener un mayor apoyo se procede a la realización del gráfico de PACF.

Se ve que casi todas las barras del gráfico PACF de los residuos se encuentran dentro del intervalo de confianza, lo que indica que no existe autocorrelación parcial estadísticamente significativa en ninguno de los rezagos analizados. Al no superarse ese umbral se asume que las autocorrelaciones parciales no son significativamente distintas de cero, por lo tanto no se puede afirmar la existencia de una dependencia estructural en los residuos, por lo que se considera que el supuesto de independencia de los residuos se cumple reafirmando aún más los resultados vistos en el gráfico ACF y en la prueba de Breusch-Godfrey.

Con el cumplimiento del supuesto de independencia de los errores son los factores clave que permiten considerar al modelo adecuado para hacer predicciones confiables, pues en cuanto a la independencia de los residuos (No autocorrelación) se garantiza que los errores no perduren desde un año a otro, es decir que los errores futuros no dependen de los errores pasados.En cuanto al cumplimiento de la normalidad se pueden obtener intervalos de confianza más exactos dándose un ejercicio de inferencia estadística con una mayor solidez.En cuanto a la heterocedasticidad se puede decir que al no haber una varianza constante el modelo podría estar generando distintos errores de distinta magnitud en distintos rangos de las variables, lo cual puede afectar la eficiencia de las estimaciones. Por último, en cuanto a la multicolinealidad esto da a entender que dos o más variables independientes están altamente correlacionadas entre sí, lo que hace complejo el análisis de su efecto sobre la variable dependiente, dando lugar a coeficientes inestables y deficiencias en la significancia de algunas estimaciones, puede que la multicolinealidad no afecte la capacidad de predicción del modelo ni da lugar a sesgos, pero si tergiversa una interpretación correcta de los resultados.

4.3 Pronóstico:

El área gris que rodea la línea azul representa el intervalo de predicción, es decir, el rango dentro del cual el modelo espera que se encuentren los valores reales del PIB con un nivel de confianza, los cuales usualmente son del 80% y el 95%. Este intervalo se amplía conforme se avanza en el tiempo, lo que refleja una mayor incertidumbre en las proyecciones a futuro. Teniendo en cuenta que el lapso de tiempo correspondiente a 2019-2023 es aquel que se determinó para realizar la comparativa entre los datos pronosticados con los datos reales se procedió a hacer el siguiente gráfico en el que se evidencia de forma visual esa comparativa.

Según los datos pronosticados (Línea azul), el modelo pronostica un PIB constante entre 2019-2020, esto es un poco raro, pues se sabe que en el 2020 lo que llevó consigo la pandemia del Covid-19 fue el detonante para una caída económica, cosa que es obvia en los datos reales, luego se ve en 2020-21 una subida abrupta del PIB, esto hizo que se alcanzará un pico bastante alto, que se traduce en una recuperación muy rápida y fuerte de la economía, también es un poco cuestionable, ya que si bien es cierto que después de la pandemia hubo una recuperación (Reapertura de sectores económicos, avances en la vacunación y estímulos fiscales y monetarios), es ilógico que esta se diese de una forma acelerada y abrupta teniendo en cuenta el estallido social del 2021 aunado con los efectos que dejo la pandemia en contextos como el empleo, la inversión, el consumo, el comercio internacional, etc,lo cual si se ve en los datos reales con una recuperación económica de una forma gradual, seguidamente se pronostica una caída progresiva desde 2021 hasta 2023, lo cual también es incorrecto, pues ese proceso de recuperación se siguió prolongando hasta 2023, es decir que se anticipaba una desaceleración posterior a la subida abrupta, por lo tanto el modelo sobrestimó la recuperación inicial y luego subestimó la capacidad de crecimiento continuo de la economía colombiana en el mediano plazo, es decir que el pronóstico que lanza el modelo lo que hace es “llevar la contraria” a la realidad socioeconómica que se vió en el lapso de tiempo correspondiente al conjunto de testeo. Este comportamiento de “irse hacia los extremos” por llamarlo de algún modo puede deberse a que el modelo fue entrenado con datos temporales que no tienen eventos tan disruptivos como lo fue la pandemia, lo cual hace que adquiera una incapacidad para pronosticar la caída económica tan fuerte que se dió en 2020 y la naturaleza del proceso de recuperación económica en 2021, otra de las razones puede ser que las variables predictoras o independientes que se usaron no tienen un verdadero poder determinístico en un contexto socioeconómico, lo cual hace que el modelo se vea obligado a hacer pronósticos incorrectos a partir del azar, pues asume que el futuro se comportará de forma parecida al pasado, sin considerar posibles cambios bruscos, eventos atípicos o nuevas condiciones económicas en el que pudieron haber influido esas variables.

Para argumentar aún más la deficiencia predictiva debido al proceso de recuperación económica en 2021, se generaron los valores pronosticados con una confianza del 80% y el 95%, encontrando que el valor real del PIB para 2021 no esta ni siquiera dentro del intervalo de confianza al 95%. La primera tabla muestra los límites inferiores del pronóstico y la segunda los límite superiores. En específico para el 2021 el PIB colombiano fue de 318525 millones de doláres, efectivamente no esta contenido en ese intervalo y además es menor a los valores del intervalo, reafirmandose de esta forma la tendencia sobrestimativa del modelo, siendo esto una clara evidencia de lo que se ha venido expresando con anterioridad.

Limites inferiores del pronóstico
Año 80% 95%
2019 285513.0 256327.2
2020 276296.9 241079.1
2021 358301.1 318779.2
2022 328310.3 296916.0
2023 270487.7 234275.5
Límites superiores del pronóstico
Año 80% 95%
2019 390211.9 419387.6
2020 402634.6 437621.4
2021 500872.0 589600.0
2022 440932.0 472528.0
2023 403022.5 436845.5

En la tabla que viene a continuación se muestran los valores reales del PIB, claramente se puede observar que los valores correspondientes a 2019, 2020, 2022 y 2023 se encuentran tanto en el intervalo de confianza al 80% como en el de 95%, lo cual podría interpretarse como un indicio positivo, ya que sugiere que el modelo es capaz de captar el comportamiento general del PIB dentro de un rango de incertidumbre razonable, incluso esto se da en el intervalo al 80% considerandose como el más estrecho y exigente, lo cual indica que las estimaciones del modelo no se desvían considerablemente del valor observado. Esa inclusión de los valores reales en los intervalos probablemente puede ser por el hecho de que el modelo incorpora un nivel de incertidumbre suficiente para cubrirlos , lo cual se da debido a que el modelo no se limita a entregar una predicción, sino que calcula la incertidumbre de que tan lejos puede estar del valor real, ese cálculo se da con ayuda de evidencia estadística (Errores pasados, variabilidad de los datos, supuestos del modelo, comportamientos en periodos pasados),pero esto se contradice a la hora de ver el gráfico, pues se da un comportamiento inconsistente de los valores pronosticados frente a los valores reales, pues claramente se ve que el PIB pronosticado es constante cuando en realidad se dió una caida o también se ve que baja cuando el valor real del PIB esta subiendo, con lo cual se entiende que si bien hay una cercanía en las predicciones, el modelo no logra capturar adecuadamente la forma ni la dirección del comportamiento real debido a que no basta solamente con considerar la magnitud de los intervalos para considerar confiable al modelo, ya que también debe haber una coherencia en la trayectoria temporal de los datos, por lo tanto es sumamente pertinente e indispensable realizar el análisis minuciosos de las métricas que arroja la función de pronóstico, siendo el que vendrá seguidamente.

4.4 Métricas del pronóstico:

##                         ME     RMSE      MAE        MPE     MAPE     MASE
## Training set -5.899425e-13 34503.48 25368.24  -3.557115 20.77775 1.297695
## Test set     -4.055011e+04 62794.78 52890.80 -13.551599 16.92068 2.705593
##                   ACF1 Theil's U
## Training set 0.2625326        NA
## Test set     0.1105127  1.848265

ME: Este es el promedio de los errores (Predicción-Valor real). En cuanto al conjunto de entrenamiento el valor es -0.00000000000059, este valor es muy cercano a 0, lo cual da a entender que el modelo no tiene sesgo sistemático, es decir que está bien ajustado, no comete errores de forma consistente en ninguna dirección durante la etapa de entrenamiento, es decir que no sobrestima ni subestima los valores del PIB en promedio. En cuanto al conjunto de testeo el modelo subestima al PIB en promedio por más de 40 mil unidades, lo cual indica un sesgo negativo fuera de muestra. Este comportamiento en ambos conjuntos indica que aunque el modelo aprende bien de los datos conocidos, presenta limitaciones para capturar la tendencia del PIB en el futuro, lo cual compromete su poder de predicción.

RMSE: Es la raíz del error cuadrático medio, es decir que el promedio de los errores al cuadrado, penaliza más los errores grandes. En cuanto al conjunto de entrenamiento se tiene un error medio de 34503.48, el cual es un error moderado. En cuanto al conjunto de testeo se tiene un error medio de 62794,78, es decir que fuera de muestra el error crece drásticamente, lo que indica pérdida de precisión y un sobreajuste. Claramente se ve que el RMSE es considerablemente más bajo en entrenamiento que en testeo, lo cual da a entender que el modelo se ajusta de forma correcta a los datos de entrenamiento, pero tiene una deficiencia respecto al aplicarse a datos nuevos, siendo esto un indicio de sobreajuste, con esto se entiende que el modelo aprendió tan bien los patrones del conjunto de entrenamiento (Incluyendo el ruido) hasta el punto de reducir su capacidad de generalizar correctamente respecto a datos futuros.

MAE: Se refiere al error absoluto medio, es decir el promedio del valor absoluto del error (Sin importar dirección). Por el lado del conjunto de entrenamiento, se tiene como resultado 25368.24, en promedio,

el modelo se equivoca en 25 mil unidades aproximadamente del PIB en entrenamiento, en cuanto al conjunto de testeo el modelo se equivoca en 52 mil unidades aproximadamente del PIB, es decir que este error promedio se duplica, lo cual indica una deficiencia en la capacidad de predicción. Se concluye que el modelo se adapta correctamente a los datos de entrenamiento, con un error promedio moderado. Sin embargo, al aplicarlo a los datos del conjunto de testeo, el MAE se duplica, lo que indica que el modelo pierde poder de predicción por fuera de la muestra. Este incremento en el error sugiere que el modelo puede estar sobreajustado , lo cual le dificulta detectar pertinentemente diversas dinámicas respecto al comportamiento del PIB, siendo esto un limitante a la hora de hacer pronósticos.

MPE: Se refiere al promedio del error expresado en porcentaje con signo, se debe tener en cuenta que:

MPE > 0: El modelo tiende a subestimar (Predice por debajo)

MPE < 0: El modelo tiende a sobreestimar (Predice por encima)

MPE = 0: El modelo no tiene sesgo porcentual sistemático.

En cuanto al entrenamiento el error es de -3.56%, por lo tanto el modelo subestima levemente al PIB en entrenamiento, mientras que por el lado del conjunto de prueba el entrenamiento del error es -13.55%, por lo tanto el modelo subestima considerablemente el PIB fuera de muestra, pues predice 13.5% menos en promedio de lo que debería. Se puede decir que se da una subestimación del PIB tanto en los datos de entrenamiento como en los datos de prueba, pero en el caso del conjunto de prueba se incrementa de una manera considerable, lo cual da a entender que el modelo no está captando correctamente la magnitud del PIB en períodos no vistos.

MAPE: Es el error porcentual absoluto medio. Por el lado del conjunto de entrenamiento dio 20.78%, es decir que el modelo se equivoca un 20.7% de valor real, mientras que en el conjunto de testeo dio 16.92%, claramente es un porcentaje menor al que dió en el de entrenamiento, lo cual se puede deber a que los valores reales del PIB en el conjunto de testeo son mayores, y los errores se ven menores en proporción.Esta mejora en el error porcentual es muy atípica, ya que otras métricas como el MAE y el RMSE aumentan significativamente en el conjunto de testeo, lo cual indica una desmejora en el poder de predicción, por lo tanto, aunque haya una disminución en el MAPE, esto no implica necesariamente un mejor poder predictivo, sino que el valor del PIB en el conjunto de testeo podría estar “ocultando” errores. De forma conclusa, aunque el MAPE sugiere una mejora del comportamiento del modelo a la hora de predecir, en última instancia el modelo no logra generalizar correctamente, pues el MAE y el RMSE muestran todo lo contrario.

MASE: Es el error absoluto escalado medio, lo que hace es comparar el MAE del modelo con el de un modelo que no fue entrenado o que no pasó por un proceso de aprendizaje, por lo cual predice que el próximo valor será igual al último observado (naive). Se debe tener en cuenta que:

MASE < 1: El modelo es mejor que el naive.

MASE = 1: El modelo es igual de bueno o malo que el naive.

MASE > 1: El modelo es peor que el naive (comete más error)

En cuanto al conjunto de entrenamiento dió como resultado 1.297695, es decir que el modelo es 30% peor que un modelo ingenuo al predecir el PIB en entrenamiento, por lo cual el modelo basado en los datos que ya conoce es menos útil que una simple proyección basada en el valor anterior. Ya por el lado del conjunto de testeo dio 2.71, lo cual da a entender que el modelo es 171% peor que el naive, lo cual es un panorama muy preocupante, pues tras de que el modelo no generaliza bien, lo hace peor que una predicción trivial. Con todo lo visto en cuanto a esta métrica se puede decir que el modelo no logra capturar adecuadamente la dinámica de la serie y necesita una revisión profunda o reestructuración completa

ACF1: Se encarga de evaluar la autocorrelación de primer orden de los residuos, es decir, si los errores de predicción de un periodo están relacionados con los del periodo anterior, si este valor es 0 o muy cercano a 0 quiere decir que no hay autocorrelación, lo cual es indicio de un buen modelo, mientras que cuando el ACF1 es alto, hay estructura no capturada, por lo tanto el modelo deja residuos correlacionados. En el conjunto de entrenamiento el ACF1 fue de 0.2625, lo cual indica una posible dependencia temporal en los errores, por lo cual el modelo no aprovecha la información temporal que se le brinda, sino que asume un comportamiento que proviene de los errores de los otros periodos, mientras que en el conjunto de testeo dio como resultado 0.1105, lo cual es un valor relativamente bajo que indica que los errores fuera de muestra no presentan una dependencia temporal significativa, es decir que no hay una autocorrelación. El hecho de que en el conjunto de prueba haya una mejora ocasionada por la baja autocorrelación no implica que haya una precisión en el poder predictivo del modelo, sino que comete errores grandes de forma aleatoria, pues métricas como el MAE y el MASE ya muestran que los errores en testeo son altos, por lo tanto esta métrica reafirma el hecho de que el modelo no es bueno para tratar la dinámica temporal del PIB.

Theil’s U: También conocido como Coeficiente de Theil de desigualdad, es una métrica de evaluación de pronósticos que compara la precisión de un modelo con la de un modelo naive. Solo se calcula para el conjunto de testeo, pues su función principal es evaluar el poder de predicción del modelo frente a datos no vistos en el conjunto de entrenamiento, esto para conocer si el modelo tiene una verdadera capacidad de generalización. Se debe tener en cuenta que:

U<1: El modelo es mejor que el naive (mejor que repetir el último valor)

U=1: El modelo es igual al naive (No aporta mejora)

U>1: El modelo no es mejor que el naive (Peor que hacer predicciones sin haber pasado por un proceso de entrenamiento)

En el conjunto de testeo el coeficiente de Theil fue de 1.85, lo que indica que el modelo de predicción del PIB es 85% menos preciso que hacer predicciones teniendo en cuenta que el próximo valor será igual al último observado o dicho de otra forma este modelo es menos preciso que un modelo que actúa de forma trivial sin haberse entrenado, lo cual vuelve a reafirmar ese panorama preocupante, el cual radica que se está frente a un modelo no adecuado para realizar pronósticos confiables.

En conjunto, las métricas evidencian una deficiencia tanto en ajuste como en predicción. El sesgo en entrenamiento fue prácticamente nulo, es decir que el modelo pasó por un buen proceso de entrenamiento, pero pese a esto mostró una clara tendencia a subestimar el PIB al tratar con el conjunto de testeo, cometiendo errores grandes en magnitud y superando al modelo naïve en las métricas que se relacionan con este. El error absoluto promedio aumentó significativamente en el conjunto de testeo , además un coeficiente de Theil superior a 1 y un MASE mayor a 2, indica que el modelo no logra generalizar adecuadamente y pierde poder predictivo al enfrentarse a datos nuevos. Por otro lado, la presencia de autocorrelación en los residuos de entrenamiento sugiere que no se ha captado correctamente la estructura temporal de la serie. año .Con esto visto en las métricas se entiende que el modelo comete errores importantes, lo cual esta aunado con la tendencia incorrecta de las predicciones vistas de forma gráfica, por lo tanto la inclusión de los valores reales dentro de los intervalos se debe más a la amplitud de los mismos o dicho de otra forma al reconocimiento estadístico de la propia incetidumbre del modelo que a un verdadero poder predictivo. Con esto se entiende que el modelo no es confiable para hacer pronósticos del PIB.

5 Conclusiones:

En el contexto de los modelos de regresión lineal aplicados a series temporales entra mucho en juego lo que es una selección minuciosa y extremadamente cuidadosa de las variables, pues a pesar de que todas resultaron siendo significativas, en última instancia está característica no contribuyó a una mejora en la capacidad predictora del modelo, lo cual da a entender que la existencia de una evidencia estadística no garantiza que este vaya a resultar siendo útil e incluso si se da una búsqueda exhaustiva en la literatura para tener un panorama claro de las variables que influyen en el PIB también pueden haber problemas, pues hay variables que se relacionan con esta y ya por sí solas tienen la capacidad de explicar el PIB a pesar de que no hacen parte de su fórmula, por lo tanto se entiende que tanto lo que es una evidencia histórica tanto una evidencia estadística no se traduce en que todo vaya a marchar bien en lo que respecta a la implementación de un modelo de este tipo. En específico respecto a esta investigación en el contexto de las variables independientes en primera instancia se usaron variables que explicaban por sí mismas el PIB, pues hacían parte de su fórmula, resultando siendo así las únicas significativas, luego finalmente se seleccionaron las variables que se describieron arriba y todas resultaron ser significativas, pero esto no promovió un buen desempeño del modelo, ya que si bien realizaba un buen proceso de entrenamiento fallaba enormemente a la hora de realizar pronósticos en el conjunto de testeo. Por otro lado, es importante también tener presente lo que compete a la escala de las variables, puede ser que debido a esa diferencia que se mencionó al hacer el análisis de la serie influyo en el comportarmiento deficiente del modelo y la serie pronosticada, siendo recomendable para estas investigaciones una tranformación de las variables a escalas comparables.

Se puede decir que los efectos de los supuestos de la modelación lineal son tan fuertes hasta el punto de opacar las “buenas” condiciones de la serie de tiempo en cuestiones de supuestos(No autocorrelación), pues hay normalidad, pero no hay homocedasticidad y no multicolinealidad, lo cual da a entender que el no cumplimiento de esos dos supuestos conlleva a una deficiencia muy grande en el modelo, esto se dice debido a que la no autocorrelación se traduce en un buen manejo de la temporalidad de los datos hasta el punto de pensar que gracias a esta condición el modelo va a resultar teniendo un buen desempeño, pero como se pudo ver en los resultados de las métricas del pronóstico y en el comportamiento de la serie pronosticada sucedió todo lo contrario, siendo de esta forma otro tema al que se le debe prestar gran atención es a los supuestos de no multicolinealidad y homocedasticidad.

Otro factor sumamente importante es el manejo de las observaciones temporales que se van a usar para entrenamiento y para testeo, pues como ya se dijo en el análisis, el modelo al no haberse entrenado con periodos de crisis como fue la pandemia hizo que a la hora de hacer el pronóstico recurriese a sobrestimaciones y subestimaciones, el conjunto de entrenamiento fue desde 1982 hasta 2018, es lógico que en este lapso de tiempo no se dieron periodos de crisis socioeconómicas muy fuertes generando el problema ya mencionado, quizás si se hubiesen elegido dos años más de entrenamiento para abordar lo que sucedió en la pandemia no se hubiese dado esa deficiencia predictiva.

Por último, respecto a la economía colombiana a rasgos generales ha presentado diversos altibajos como lo fueron las crisis a finales del 90, 2008 y 2020 gracias a factores tanto internos como externos, ante esta situación ha demostrado una alta capacidad de recuperación, especialmente cuando se apoya en sectores como la minería, construcción, servicios y consumo interno, por lo tanto este panorama sugiere fortalecer la diversificación productiva, la autonomía tecnológica y la capacidad industrial con el objetivo de reducir la dependencia a factores externos y aumentar la resiliencia económica para de esta forma procurar un país con mejores condiciones a futuro.

6 Bibliografía:

1.Castro, A. (s.f.). Regresión lineal: Supuestos. RPubs. https://rpubs.com/acastro/regresion_lineal_supuestos

2.Statistics Easily. (s.f.). Supuestos en regresión lineal. https://es.statisticseasily.com/supuestos-en-regresi%C3%B3n-lineal/#google_vignette

3.MAS Economics. (2023, mayo 11). Understanding and dealing with autocorrelation in time series econometrics. https://maseconomics.com/understanding-and-dealing-with-autocorrelation-in-time-series-econometrics/

4.Joaqui Barandica, O. (s.f.) Sitio web personal. Recuperado de: https://www.joaquibarandica.com/

5.Téllez, J. (3 de marzo de 2022). Colombia|Recuperación económica y perspectivas 2022–2023. Foro Colcob. BBVA Research. Recuperado de https://www.bbvaresearch.com/publicaciones/colombia-recuperacion-economica-y-perspectivas-2022-2023-foro-colcob-2/

6.Ministerio de Hacienda y Crédito Público. (2022, julio). El proceso de reactivación consolidó a Colombia como uno de los países con mayor crecimiento económico en 2021. Recuperado de https://www.minhacienda.gov.co/w/el-proceso-de-reactivacion-consolido-a-colombia-como-uno-de-los-paises-con-mayor-crecimiento-economico-en-2021

7.Salazar Sierra, C. (16 de febrero de 2021). La caída de 6,8 % del Producto Interno Bruto de 2020 fue la peor de la historia del país. La República. Recuperado de https://www.larepublica.co/economia/la-caida-de-6-8-del-producto-interno-bruto-de-2020-fue-la-peor-de-la-historia-del-pais-3125632.

8.Swissinfo.ch (Agencia EFE). (15 de febrero de 2021). La economía colombiana cayó un 6,8 % en 2020 por la pandemia del coronavirus. Recuperado de https://www.swissinfo.ch/spa/la-econom%C3%ADa-colombiana-cay%C3%B3-un-6-8-en-2020-por-la-pandemia-del-coronavirus/46372842.

9,Vélez Giraldo, R. E. (2015). Efectos de la política monetaria sobre el PIB. Semestre Económico, 6(11). Universidad de Medellín. Recuperado de https://revistas.udem.edu.co/index.php/economico/article/view/1401/1458

10. Naciones Unidas Comisión Económica para América Latina y el Caribe. (s. f.). Estudio económico de América Latina y el Caribe 2004-05. Recuperado de https://repositorio.cepal.org/server/api/core/bitstreams/70a60c79-bdf2-4c52-9b85-94acceae20d8/content

11 Juárez, L., Sánchez Daza, A., & Zurita González, J. (2015). La crisis financiera internacional de 2008 y algunos de sus efectos económicos sobre México. Contaduría y Administración, 60(supl. 2). Scielo México. Recuperado de https://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S0186-10422015000600128

12. Presidencia de la República de Colombia. (2010, 25 de marzo). Crecimiento económico en 2009 y perspectivas 2010 [PDF]. Presidencia. Recuperado de https://historico.presidencia.gov.co/sp/2010/marzo/25/pib.pdf

13.Pirabán, G. (s. f.). Crecimiento económico de Colombia 2010‑2019. LinkedIn. Recuperado de https://es.linkedin.com/pulse/crecimiento-econ%C3%B3mico-de-colombia-2010-2019-guillermo-pirab%C3%A1n

14. Semana. (2014). Caída del PIB minero en Colombia durante 2014. Semana.com. Recuperado de https://www.semana.com/caida-del-pib-minero-colombia-durante-2014/206996/

15.La República. (2021). La caída de 6,8% del producto interno bruto de 2020 fue la peor de la historia del país. LaRepublica.co. Recuperado de https://www.larepublica.co/economia/la-caida-de-6-8-del-producto-interno-bruto-de-2020-fue-la-peor-de-la-historia-del-pais-3125632

16. Ministerio de Hacienda y Crédito Público. (s. f.). El proceso de reactivación consolidó a Colombia como uno de los países con mayor crecimiento económico en 2021. Recuperado de https://www.minhacienda.gov.co/w/el-proceso-de-reactivacion-consolido-a-colombia-como-uno-de-los-paises-con-mayor-crecimiento-economico-en-2021

17.La República. (2023). El PIB creció 7,5% en 2022, impulsado por el dinamismo del comercio y la industria. LaRepublica.co. Recuperado de https://www.larepublica.co/economia/el-pib-crecio-7-5-en-2022-impulsado-por-el-dinamismo-del-comercio-y-la-industria-3546295