Para analizar la relación entre la complejidad económica y el PIB a nivel departamental en Colombia entre los años 2005 y 2020, se han considerado diferentes modelos econométricos. Estos consideraron factores como la población, las exportaciones, la participación de cada departamento en las exportaciones, la fuerza promedio de los productos exportados en la red de co-exportaciones, el total de exportaciones por sector, la cantidad de socios comerciales, los eventos de conflictos armado, las patentes, la distancia al centro del país, la apertura económica, así como los vuelos recibidos y la diversificación económica, entre otras.
Sin embargo, los mejores modelos estimados se obtuvieron en modelos de panel de datos que estimaron el PIB per cápita en función de un índice de complejidad como el EXPY, así como los rezagos de ambas variables. Esto, sin mencionar la consideración de efectos fijos presentes en los agentes como a lo largo del tiempo
Antes de presentar los resultados de la estimación, vale la pena considerar el comportamiento de las variables de interés, tanto a nivel de departamentos como a lo largo del tiempo:
Entre 2005 y 2020, Casanare, Bogotá, Meta y Santander alcanzaron los promedios más altos de PIB per cápita en Colombia. Mientras que, Vichada, Vaupés y Chocó presentaron los más bajos.
El promedio del ICE entre 2005 y 2020 presenta poca variabilidad entre el conjunto de departamentos. Esto se debe a que el indicador calculado para Bogotá presenta una brecha alta en comparación a los demás. Este comportamiento, como se verá más adelante, resulta ser un impedimento para observar una relación clara con el PIB per cápita
En este caso, en una escala positiva, el mayor indicador promedio lo presentan Bogotá (30), seguido por Antioquia (2) y Cundinamarca (0.18)
El EXPY es el promedio del PRODY. Este se calcula como el promedio ponderado de los PIB per cápita de las economías que exportan un producto. El ponderador está definido por la ventaja comparativa revelada de exportación
El índice de perspectivas económicas señala la capacidad que tienen las economías de aumentar su complejidad en el futuro. Este mide la distancia a la que se encuentran los productos que no son exportados por cada uno de los departamentos, por lo que entre menos sea dicha distancia en términos de vínculos de co-exportación, más posibilidades se tiene de ampliar la diversificación y la canasta exportadora
En este caso, 3 departamentos presentan los mayores índices promedio a lo largo del periodo de análisis: Antioquia, Cundinamarca y Valle del Cauca
La diversificación es calculada como el conteo de productos que son exportados de forma competitiva por parte de los departamentos del país. Es así como, entre 2005 y 2020, Bogotá tuvo un promedio de 2.646 bienes. Este fue seguido por Antioquia (1.531), Valle del Cauca (995) y Cundinamarca (897), los cuales se ubican en la Región Andina. Por su parte, los departamentos con menor diversificación se ubican las regiones Amazonía y Orinoquía como son Caquetá (5), Guainía (4), Casanare (3), Vichada (3) y Putumayo (2).
Como se mencionó anteriormente, no se presenta una relación clara entre el ICE y el PIB per cápita a lo largo del tiempo. Esto obedece principalmente a la distancia que presenta el indicador para el caso de Bogotá con respecto al comportamiento de los demás departamentos.
| Dependent variable: | |
| log_PIB_pc | |
| ICE | 0.028*** |
| (0.004) | |
| Constant | 16.221*** |
| (0.021) | |
| Observations | 512 |
| R2 | 0.097 |
| Adjusted R2 | 0.095 |
| Residual Std. Error | 0.457 (df = 510) |
| F Statistic | 54.668*** (df = 1; 510) |
| Note: | p<0.1; p<0.05; p<0.01 |
Por su parte, el EXPY presenta una relación lineal más clara con respecto a la variable de interés. La interpretación de esta relación podría presentarse como el siguiente razonamiento:
El PRODY de los bienes se incrementa en la medida que los departamentos que los exportan tienen un mayor PIB per cápita y presentan mayores ventajas comparativas para exportarlos. Esto indica que los bienes con mayor PRODY tienden a ser más complejos en comparación a los que tienen un menor indicador.
Por lo anterior, dado que el EXPY de una economía es el promedio del PRODY de los bienes que exporta de forma competitiva, es posible señalar que entre más alto sea el primer indicador más compleja será su canasta exportadora. Es así como, de acuerdo con la siguiente figura, los departamentos con estructura productiva más compleja tienden a presentar mayores niveles de PIB per cápita.
Al comparar las regresiones lineales simples entre la variable de interés y el ICE, y la variable de interés y el EXPY se encuentra que un aumento de 1 punto en el ICE puede generar un incremento promedio de 0.028% en el PIB per cápita. Por su parte, al utilizar este tipo de regresión lineal, un incremento de 1% en el EXPY puede generar un aumento del 1.14% en la variable de interés
| Dependent variable: | |
| log_PIB_pc | |
| log_EXPY | 1.140*** |
| (0.029) | |
| Constant | -2.330*** |
| (0.476) | |
| Observations | 500 |
| R2 | 0.754 |
| Adjusted R2 | 0.753 |
| Residual Std. Error | 0.238 (df = 498) |
| F Statistic | 1,526.099*** (df = 1; 498) |
| Note: | p<0.1; p<0.05; p<0.01 |
| Dependent variable: | |
| log_PIB_pc | |
| log_Div0 | 0.070*** |
| (0.009) | |
| Constant | 15.999*** |
| (0.041) | |
| Observations | 500 |
| R2 | 0.099 |
| Adjusted R2 | 0.097 |
| Residual Std. Error | 0.455 (df = 498) |
| F Statistic | 54.421*** (df = 1; 498) |
| Note: | p<0.1; p<0.05; p<0.01 |
La fuerza promedio indica la probabilidad promedio de co-exportación que tienen los bienes exportados por un departamento considerando su volumen. Entre más fuerza presenten mejor conectados están con los demás productos.
Dada la cantidad de variables explicativas potenciales disponibles, el primer problema a resolver es la selección de estas, junto con la forma funcional y método de estimación del modelo econométrico. Para la selección de variables se empleóun modelo de Regresión del Ángulo Mínimo (LARS) coherente con un método de operador de selección y contracción mínima absoluta (LASSO).
El modelo LARS, en términos coloquiales, permite la definición de una variable dependiente en función de un conjunto de variables explicativas que son linealmente independientes. Este algoritmo sigue los siguientes pasos:
1. Llevar a cero los coeficientes explicativos de las variables independientes 2. Introducir en el modelo la variable más correlacionada con la variable explicativa. 3. Llevar el coeficiente de la variable seleccionada a su valor de mínimos cuadrados. 4. Introducir secuencialmente las variables teniendo en cuenta su correlación con los errores del modelo previo.
5. Todas las variables explicativas son introducidas en el modelo y todas ellas dejan de contar con la restricción inicial (coeficientes en cero).
Para aplicar el método anterior, se llevaron a cabo 2 pasos previos:
1. Se generaron las correlaciones entre todas las variables
disponibles.
2. Se seleccionaron las variables con mayor correlación con la
variable dependiente que en conjunto fueron linealmente
independientes.
Considerando lo anterior, se seleccionaron las correlaciones con un valor absoluto superior a 0.1. Por ello, se escogieron las siguientes 13 variables con el fin de emplearlas en el método Lasso para la definición del modelo de panel de datos:
El método Lasso incorpora variables a través de varias etapas: Tras identificar las variables anteriores, se aplicó el modelo LARS con una especificación lineal. Por esto, en la siguiente figura se muestra la trayectoria de los coeficientes de las variables involucradas desde cero hasta su valor de mínimos cuadrados. El inicio del movimiento de cada una refleja la iteración en la que cada variable es involucrada dentro de la especificación
En este caso, el índice EXPY es la quinta variable en ser involucrada en el modelo, después del logaritmo del total de patentes presentadas, el logaritmo de exportaciones del sector primario, el logaritmo de la distancia euclidiana al centro del país y el logaritmo del total de conexiones aéreas de los departamentos del país
En este caso se presenta una opción de modelación definida por el conjunto de variables que permiten minimizar el error cuadrático medio del ajuste de la variable dependiente (log (λ) = 0.001460962), las cuales son las siguientes:
## 14 x 1 sparse Matrix of class "dgCMatrix"
## s1
## (Intercept) -2.895740e-16
## log_EXPY 1.452088e-01
## log_Total_patentes_pres 4.792919e-01
## log_Expo_primario 2.002880e-01
## log_Origenes 1.954507e-01
## log_Socios_comp -1.725335e-01
## IPE -9.907469e-02
## Div0 .
## fuerza_prom -8.121631e-02
## Valor_indicador_IDF 9.427487e-02
## ICE -2.227767e-01
## Ind_aper 1.058077e-01
## log_dist_km -3.529554e-01
## UB_1 2.115513e-02
En el ejercicio anterior, la variable de complejidad parece no tomar un papel destacado en la forma funcional del modelo. Sin embargo, la presente investigación requiere estimar el efecto de las variables de complejidad considerándolas como variables principales.
Así pues, se plantean otros ejercicios de panel de datos que relacionan la variable de interés y el índice EXPY, que se presenta como un indicador alternativo al ICE para explicar el comportamiento de la complejidad de las economías
A continuación se presentan los ejercicios resultantes:
1. Comparativo de modelos de panel de regresión simple OLS y con efectos fijos
2. Modelos de panel regresión lineal incorporando rezagos de la variable de interés y de la variable explicativa. Esto se propone debido a que presentan un mejor comportamiento en comparación a la incorporación de variables adicionales como las observadas en el modelo que empleó el método de Lasso.
Al analizar las regresiones lineales de los modelos de panel de datos, es posible identificar que, aunque el EXPY resulta ser significativa, el modelo con efecto fijos individuales y de tiempo presenta un mejor valor en el criterio de AIC
Por lo anterior, se selecciona el modelo mencionado. Además, al aplicar una prueba F para compararlo con el modelo OLS, se elige el primero, ya que no se descarta la presencia de dichos efectos.
| Dependent variable: | ||||
| log_PIB_pc | ||||
| OLS | FE - individuales | FE - tiempo | FE - individuales y tiempo | |
| log_EXPY | 1.140*** | 0.513*** | 1.157*** | 0.305*** |
| (0.089) | (0.090) | (0.086) | (0.079) | |
| Constant | -2.330 | |||
| (1.426) | ||||
| AIC | -13.8 | -920.5 | -20.2 | -1101.9 |
| VIF | 4.06 | 1.77 | 3.8 | 1.18 |
| Jarque-Bera Test | 0 | 0 | 0 | 0 |
| Box-Pierce test | 0 | 0 | 0 | 0 |
| Breusch-Pagan Test | 0 | 0 | 0 | 0 |
| Breusch–Godfrey Test | 0 | 0 | 0 | 0 |
| Observations | 500 | 500 | 500 | 500 |
| R2 | 0.754 | 0.471 | 0.745 | 0.233 |
| Adjusted R2 | 0.753 | 0.435 | 0.737 | 0.153 |
| F Statistic | 1,526.099*** (df = 1; 498) | 416.625*** (df = 1; 467) | 1,412.798*** (df = 1; 483) | 136.936*** (df = 1; 452) |
| Note: | p<0.1; p<0.05; p<0.01 | |||
##
## F test for twoways effects
##
## data: log_PIB_pc ~ log_EXPY
## F = 76.422, df1 = 46, df2 = 452, p-value < 2.2e-16
## alternative hypothesis: significant effects
Al incorporar los rezagos, tanto de la variable de interés como el log EXPY, es posible identificar los siguientes resultados: - El modelo 2 presenta el mejor AIC - El modelo 5 presenta un mejor comportamiento.
El modelo 5 involucra el log de EXPY, así como dos rezagos de esta variable, e incorpora también dos rezagos del log del PIB per cápita. Este modelo indica que un incremento del 10% en el EXPY puede provocar un incremento promedio del 0.6% en el PIB per cápita de los departamentos de Colombia. Sin embargo, al considerar plazos superiores a un año, los efectos dejan de ser positivos, como lo señalan los coeficientes de sus rezagos.
Por su parte, el primer rezago del PIB per cápita genera un efecto de escala sobre el valor del indicador presente. Es así como un incremento del 1% de este indicador conduce a un aumento promedio de 1.14% en el siguiente periodo.
En este modelo, como se observa en los p-valores de la parte inferior, no hay evidencia de multicolinealidad, y no se rechaza la hipótesis de no autocorrelación serial ni de homocedasticidad entre los residuos del modelo. Sin embargo, cabe aclarar que en todos los modelos analizados los residuos no presentan normalidad, lo cual puede ser un aspecto menor en un análisis de datos de panel.
| Dependent variable: | |||||
| log_PIB_pc | |||||
| 1 | 2 | 3 | 4 | 5 | |
| log_EXPY | 0.305*** | 0.039** | 0.069*** | 0.064*** | 0.060*** |
| (0.079) | (0.019) | (0.021) | (0.019) | (0.017) | |
| lag(log_EXPY, 1) | -0.063** | -0.048*** | -0.038** | ||
| (0.025) | (0.018) | (0.018) | |||
| lag(log_EXPY, 2) | -0.017 | ||||
| (0.012) | |||||
| lag(log_PIB_pc, 1) | 0.859*** | 0.888*** | 1.149*** | 1.142*** | |
| (0.031) | (0.027) | (0.067) | (0.066) | ||
| lag(log_PIB_pc, 2) | -0.296*** | -0.276*** | |||
| (0.063) | (0.066) | ||||
| AIC | -1101.9 | -1793.6 | -1787.4 | -1699 | -1700 |
| VIF | 1.18 | 5.39 | 5.51 | 5.29 | 5.43 |
| Jarque-Bera Test | 0 | 0 | 0 | 0 | 0 |
| Box-Pierce test | 0 | 0 | 0 | 0.9 | 0.82 |
| Breusch-Pagan Test | 0 | 0.802 | 0.618 | 0.194 | 0.29 |
| Breusch–Godfrey Test | 0 | 0 | 0 | 0.805 | 0.603 |
| Observations | 500 | 468 | 463 | 431 | 429 |
| R2 | 0.233 | 0.833 | 0.837 | 0.832 | 0.837 |
| Adjusted R2 | 0.153 | 0.814 | 0.818 | 0.811 | 0.816 |
| F Statistic | 136.936*** (df = 1; 452) | 1,048.491*** (df = 2; 420) | 710.347*** (df = 3; 414) | 472.690*** (df = 4; 382) | 388.908*** (df = 5; 379) |
| Note: | p<0.1; p<0.05; p<0.01 | ||||
Al aplicar el test de causalidad de Granger para datos de panel, se encontró que, para al menos uno de los departamentos hay una relación causal entre las variables de Log PIB per cápita y Log EXPY. Esto se observa debido a que se rechaza la hipótesis nula de no presencia de relación causal entre las variables considerando dos rezagos de la variable independiente.
##
## Panel Granger (Non-)Causality Test (Dumitrescu/Hurlin (2012))
##
## data: log_PIB_pc ~ log_EXPY
## Ztilde = 8.619, p-value < 2.2e-16
## alternative hypothesis: Granger causality for at least one individual
Al considerar el comportamiento del modelo seleccionado, se evidencia un ajuste alto entre la variable de interés y el valor estimado por el modelo de esta:
A continuación, se presenta una regresión de los residuos del modelo seleccionado con respecto a las variables involucradas para probar la hipótesis de exogeneidad estricta. En este ejercicio se encuentra que ninguna de las variables, ni el estadístico F, resultan ser significativos, lo cual indica independecia lineal en esta regresión.
Por lo anterior, considerando que no existe evidencia de autocorrelación serial ni de heterocedasticidad, y se presenta una exogeneidad estricta entre las variables explicativas y los residuos, no hay evidencia de endogeneidad en el actual planteamiento.
| Dependent variable: | ||
| residuals | ||
| 1 - Efectos fijos | 2 - OLS | |
| log_EXPY | 0.000 | 0.000 |
| (0.017) | (0.015) | |
| lag1_log_EXPY | 0.000 | -0.000 |
| (0.018) | (0.018) | |
| lag2_log_EXPY | -0.000 | -0.000 |
| (0.012) | (0.011) | |
| lag1_log_PIB_pc | -0.000 | 0.000 |
| (0.066) | (0.048) | |
| lag2_log_PIB_pc | 0.000 | -0.000 |
| (0.066) | (0.049) | |
| Constant | 0.000 | |
| (0.055) | ||
| Observations | 429 | 429 |
| R2 | 0.000 | 0.000 |
| Adjusted R2 | -0.129 | -0.012 |
| F Statistic | 0.000 (df = 5; 379) | 0.000 (df = 5; 423) |
| Note: | p<0.1; p<0.05; p<0.01 | |
Tras lo anterior, se realizó una validación cruzada para verificar la consistencia de los coeficientes de las variables explicativas. Esto consiste en lo siguiente:
1. Se seleccionaron 20 muestras de la base de datos de forma iterativa
2. Se estimó el modelo seleccionado para cada una de las muestras seleccionadas
3. Se utilizó el resto de la base de datos en cada iteración como test de la base de datos de entrenamiento.
4. Se calcularon medidas de calidad de ajuste del modelo como el Error Cuadrático Medio (MSE), así como la distancia cuadrática mínima (RMSE) entre el PIB per cápita observado y el estimado.
5. Se generaron los coeficientes para cada una de las regresiones realizadas y se analizó su comportamiento
En cuanto a las medidas de calidad, se encontró que, los indicadores de MSE y RSME fueron inferiores a 1 por lo que la distancia entre la variable observada y predicha en el conjunto de modelos fue cercana:
## [1] "Average MSE: 0.16568643101415"
## [1] "Average RMSE: 0.300770195920276"
## [1] "Average Desv Y: 0.480364366176301"
Al considerar las 20 submuestras, es posible identificar que el valor medio de los coeficientes es de 0.06, tal como se presenta en el modelo seleccionado, con una desviación estándar de 0.01
Para analizar la utilidad del modelo para la generación de predicciones, se utilizó el PIB a precios constantes de 2021 y 2022, así como la población estimada a nivel departamental para el cálculo del PIB per cápita de las economías. A su vez, se emplearon las exportaciones de los años mencionados para calcular el indicador de complejidad bajo análisis
De esta forma, se generó la predicción de 2 años de del PIB per cápita a partir de la información actualizada, la cual se contrastó con la realidad observada.
En primer lugar, es posible destacar que tanto el RMSE como el MSE son inferiores a 1. Esto sugiere que las series de pronóstico y observada presentan tendencias similares.
Para el análisis de redes se tuvieron en cuenta principalmente 4 años de interés: el inicio del periodo de análisis (2005), el periodo de quiebre de las exportaciones nacionales como resultado de la caída de los precios del petroleo (2014), el año pre-pandemia de COVID-19 y sus efectos iniciales (2019 y 2020)