Análisis preliminar
Modelación
- 5. Modelación inicial: relación entre PIB per cápita y EXPY
- 6. Inclusión de Rezagos en el modelo de efectos fijos de individuos y tiempo
Test de modelo seleccionado
- 7. Análisis de modelo con mejor ajuste
Análisis de redes
Cierre de avance

Análisis preliminar

Para analizar la relación entre la complejidad económica y el PIB a nivel departamental en Colombia entre los años 2005 y 2020, se han considerado diferentes modelos econométricos. Estos consideraron factores como la población, las exportaciones, la participación de cada departamento en las exportaciones, la fuerza promedio de los productos exportados en la red de co-exportaciones, el total de exportaciones por sector, la cantidad de socios comerciales, los eventos de conflictos armado, las patentes, la distancia al centro del país, la apertura económica, así como los vuelos recibidos y la diversificación económica, entre otras.

Sin embargo, los mejores modelos estimados se obtuvieron en modelos de panel de datos que estimaron el PIB per cápita en función de un índice de complejidad como el EXPY, así como los rezagos de ambas variables. Esto, sin mencionar la consideración de efectos fijos presentes en los agentes como a lo largo del tiempo

Antes de presentar los resultados de la estimación, vale la pena considerar el comportamiento de las variables de interés, tanto a nivel de departamentos como a lo largo del tiempo:

1. Comportamiento medio del Logaritmo del PIB entre 2005 y 2020

Comportamiento del Logartimo del PIB per cápita de los departamentos de Colombia

Entre 2005 y 2020, Casanare, Bogotá, Meta y Santander alcanzaron los promedios más altos de PIB per cápita en Colombia. Mientras que, Vichada, Vaupés y Chocó presentaron los más bajos.

Comportamiento medio del Indice de Complejidad económica ICE

El promedio del ICE entre 2005 y 2020 presenta poca variabilidad entre el conjunto de departamentos. Esto se debe a que el indicador calculado para Bogotá presenta una brecha alta en comparación a los demás. Este comportamiento, como se verá más adelante, resulta ser un impedimento para observar una relación clara con el PIB per cápita

En este caso, en una escala positiva, el mayor indicador promedio lo presentan Bogotá (30), seguido por Antioquia (2) y Cundinamarca (0.18)

Comportamiento medio del EXPY

El EXPY es el promedio del PRODY. Este se calcula como el promedio ponderado de los PIB per cápita de las economías que exportan un producto. El ponderador está definido por la ventaja comparativa revelada de exportación

Comportamiento medio del Índice de perspectivas económicas IPE

El índice de perspectivas económicas señala la capacidad que tienen las economías de aumentar su complejidad en el futuro. Este mide la distancia a la que se encuentran los productos que no son exportados por cada uno de los departamentos, por lo que entre menos sea dicha distancia en términos de vínculos de co-exportación, más posibilidades se tiene de ampliar la diversificación y la canasta exportadora

En este caso, 3 departamentos presentan los mayores índices promedio a lo largo del periodo de análisis: Antioquia, Cundinamarca y Valle del Cauca

Comportamiento medio del indicador de Diversificación económica

La diversificación es calculada como el conteo de productos que son exportados de forma competitiva por parte de los departamentos del país. Es así como, entre 2005 y 2020, Bogotá tuvo un promedio de 2.646 bienes. Este fue seguido por Antioquia (1.531), Valle del Cauca (995) y Cundinamarca (897), los cuales se ubican en la Región Andina. Por su parte, los departamentos con menor diversificación se ubican las regiones Amazonía y Orinoquía como son Caquetá (5), Guainía (4), Casanare (3), Vichada (3) y Putumayo (2).

Comportamiento medio del indicador de patentes presentadas

2. Comportamiento de las variables en el tiempo

Comportamiento del logaritmo del PIB per cápita en el tiempo

Comportamiento del ICE en el tiempo

Comportamiento del EXPY en el tiempo

Comportamiento del IPE en el tiempo

Comportamiento de la Diversificación en el tiempo

Comportamiento de las patentes presentadas en el tiempo

3. Exploración de relaciones iniciales

Relación entre ICE y PIBpc

Como se mencionó anteriormente, no se presenta una relación clara entre el ICE y el PIB per cápita a lo largo del tiempo. Esto obedece principalmente a la distancia que presenta el indicador para el caso de Bogotá con respecto al comportamiento de los demás departamentos.

**Regresión lineal entre ICE y Log PIB pc**

	Dependent variable:

	log_PIB_pc

ICE	0.028^***
	(0.004)

Constant	16.221^***
	(0.021)


Observations	512
R²	0.097
Adjusted R²	0.095
Residual Std. Error	0.457 (df = 510)
F Statistic	54.668^*** (df = 1; 510)

Note:	p<0.1; p<0.05; p<0.01

Relación entre EXPY y PIBpc

Por su parte, el EXPY presenta una relación lineal más clara con respecto a la variable de interés. La interpretación de esta relación podría presentarse como el siguiente razonamiento:

El PRODY de los bienes se incrementa en la medida que los departamentos que los exportan tienen un mayor PIB per cápita y presentan mayores ventajas comparativas para exportarlos. Esto indica que los bienes con mayor PRODY tienden a ser más complejos en comparación a los que tienen un menor indicador.

Por lo anterior, dado que el EXPY de una economía es el promedio del PRODY de los bienes que exporta de forma competitiva, es posible señalar que entre más alto sea el primer indicador más compleja será su canasta exportadora. Es así como, de acuerdo con la siguiente figura, los departamentos con estructura productiva más compleja tienden a presentar mayores niveles de PIB per cápita.

Al comparar las regresiones lineales simples entre la variable de interés y el ICE, y la variable de interés y el EXPY se encuentra que un aumento de 1 punto en el ICE puede generar un incremento promedio de 0.028% en el PIB per cápita. Por su parte, al utilizar este tipo de regresión lineal, un incremento de 1% en el EXPY puede generar un aumento del 1.14% en la variable de interés

**Regresión lineal entre Log EXPY y Log PIB pc**

	Dependent variable:

	log_PIB_pc

log_EXPY	1.140^***
	(0.029)

Constant	-2.330^***
	(0.476)


Observations	500
R²	0.754
Adjusted R²	0.753
Residual Std. Error	0.238 (df = 498)
F Statistic	1,526.099^*** (df = 1; 498)

Note:	p<0.1; p<0.05; p<0.01

Relación entre Diversificación y PIBpc

**Regresión lineal entre Log Diversificación y Log PIB pc**

	Dependent variable:

	log_PIB_pc

log_Div0	0.070^***
	(0.009)

Constant	15.999^***
	(0.041)


Observations	500
R²	0.099
Adjusted R²	0.097
Residual Std. Error	0.455 (df = 498)
F Statistic	54.421^*** (df = 1; 498)

Note:	p<0.1; p<0.05; p<0.01

Relación entre Fuerza promedio de productos exportados y PIBpc

La fuerza promedio indica la probabilidad promedio de co-exportación que tienen los bienes exportados por un departamento considerando su volumen. Entre más fuerza presenten mejor conectados están con los demás productos.

Relación entre el IPE y PIBpc

Relación entre el total de socios comerciales de productos competitivos y PIBpc

4. Correlaciones y Método Lasso

Dada la cantidad de variables explicativas potenciales disponibles, el primer problema a resolver es la selección de estas, junto con la forma funcional y método de estimación del modelo econométrico. Para la selección de variables se empleóun modelo de Regresión del Ángulo Mínimo (LARS) coherente con un método de operador de selección y contracción mínima absoluta (LASSO).

El modelo LARS, en términos coloquiales, permite la definición de una variable dependiente en función de un conjunto de variables explicativas que son linealmente independientes. Este algoritmo sigue los siguientes pasos:

1. Llevar a cero los coeficientes explicativos de las variables independientes 2. Introducir en el modelo la variable más correlacionada con la variable explicativa. 3. Llevar el coeficiente de la variable seleccionada a su valor de mínimos cuadrados. 4. Introducir secuencialmente las variables teniendo en cuenta su correlación con los errores del modelo previo.

5. Todas las variables explicativas son introducidas en el modelo y todas ellas dejan de contar con la restricción inicial (coeficientes en cero).

Para aplicar el método anterior, se llevaron a cabo 2 pasos previos:

1. Se generaron las correlaciones entre todas las variables disponibles.
2. Se seleccionaron las variables con mayor correlación con la variable dependiente que en conjunto fueron linealmente independientes.

Correlacion entre el Log PIB Pc y variables disponibles

Considerando lo anterior, se seleccionaron las correlaciones con un valor absoluto superior a 0.1. Por ello, se escogieron las siguientes 13 variables con el fin de emplearlas en el método Lasso para la definición del modelo de panel de datos:

Modelo de regresión de Panel OLS a través de método Lasso

El método Lasso incorpora variables a través de varias etapas: Tras identificar las variables anteriores, se aplicó el modelo LARS con una especificación lineal. Por esto, en la siguiente figura se muestra la trayectoria de los coeficientes de las variables involucradas desde cero hasta su valor de mínimos cuadrados. El inicio del movimiento de cada una refleja la iteración en la que cada variable es involucrada dentro de la especificación

En este caso, el índice EXPY es la quinta variable en ser involucrada en el modelo, después del logaritmo del total de patentes presentadas, el logaritmo de exportaciones del sector primario, el logaritmo de la distancia euclidiana al centro del país y el logaritmo del total de conexiones aéreas de los departamentos del país

En este caso se presenta una opción de modelación definida por el conjunto de variables que permiten minimizar el error cuadrático medio del ajuste de la variable dependiente (log (λ) = 0.001460962), las cuales son las siguientes:

## 14 x 1 sparse Matrix of class "dgCMatrix"
##                                    s1
## (Intercept)             -2.895740e-16
## log_EXPY                 1.452088e-01
## log_Total_patentes_pres  4.792919e-01
## log_Expo_primario        2.002880e-01
## log_Origenes             1.954507e-01
## log_Socios_comp         -1.725335e-01
## IPE                     -9.907469e-02
## Div0                     .           
## fuerza_prom             -8.121631e-02
## Valor_indicador_IDF      9.427487e-02
## ICE                     -2.227767e-01
## Ind_aper                 1.058077e-01
## log_dist_km             -3.529554e-01
## UB_1                     2.115513e-02

Modelación

5. Modelación inicial: relación entre PIB per cápita y EXPY

En el ejercicio anterior, la variable de complejidad parece no tomar un papel destacado en la forma funcional del modelo. Sin embargo, la presente investigación requiere estimar el efecto de las variables de complejidad considerándolas como variables principales.

Así pues, se plantean otros ejercicios de panel de datos que relacionan la variable de interés y el índice EXPY, que se presenta como un indicador alternativo al ICE para explicar el comportamiento de la complejidad de las economías

A continuación se presentan los ejercicios resultantes:

1. Comparativo de modelos de panel de regresión simple OLS y con efectos fijos

2. Modelos de panel regresión lineal incorporando rezagos de la variable de interés y de la variable explicativa. Esto se propone debido a que presentan un mejor comportamiento en comparación a la incorporación de variables adicionales como las observadas en el modelo que empleó el método de Lasso.

Modelos de panel de una variable: OLS vs efectos fijos (individuales, tiempo y mixtos)

Al analizar las regresiones lineales de los modelos de panel de datos, es posible identificar que, aunque el EXPY resulta ser significativa, el modelo con efecto fijos individuales y de tiempo presenta un mejor valor en el criterio de AIC

Por lo anterior, se selecciona el modelo mencionado. Además, al aplicar una prueba F para compararlo con el modelo OLS, se elige el primero, ya que no se descarta la presencia de dichos efectos.

**Modelo de regresión lineal de panel de Log Pib pc**

	Dependent variable:

	log_PIB_pc
	OLS	FE - individuales	FE - tiempo	FE - individuales y tiempo

log_EXPY	1.140^***	0.513^***	1.157^***	0.305^***
	(0.089)	(0.090)	(0.086)	(0.079)
Constant	-2.330
	(1.426)

AIC	-13.8	-920.5	-20.2	-1101.9
VIF	4.06	1.77	3.8	1.18
Jarque-Bera Test	0	0	0	0
Box-Pierce test	0	0	0	0
Breusch-Pagan Test	0	0	0	0
Breusch–Godfrey Test	0	0	0	0
Observations	500	500	500	500
R²	0.754	0.471	0.745	0.233
Adjusted R²	0.753	0.435	0.737	0.153
F Statistic	1,526.099^*** (df = 1; 498)	416.625^*** (df = 1; 467)	1,412.798^*** (df = 1; 483)	136.936^*** (df = 1; 452)

Note:	p<0.1; p<0.05; p<0.01

Prueba F para la selección de modelo OLS o de efectos fijos.

## 
##  F test for twoways effects
## 
## data:  log_PIB_pc ~ log_EXPY
## F = 76.422, df1 = 46, df2 = 452, p-value < 2.2e-16
## alternative hypothesis: significant effects

6. Inclusión de Rezagos en el modelo de efectos fijos de individuos y tiempo

Modelos de panel con efectos fijos de individuos y tiempo - incorporando rezagos

Al incorporar los rezagos, tanto de la variable de interés como el log EXPY, es posible identificar los siguientes resultados: - El modelo 2 presenta el mejor AIC - El modelo 5 presenta un mejor comportamiento.

El modelo 5 involucra el log de EXPY, así como dos rezagos de esta variable, e incorpora también dos rezagos del log del PIB per cápita. Este modelo indica que un incremento del 10% en el EXPY puede provocar un incremento promedio del 0.6% en el PIB per cápita de los departamentos de Colombia. Sin embargo, al considerar plazos superiores a un año, los efectos dejan de ser positivos, como lo señalan los coeficientes de sus rezagos.

Por su parte, el primer rezago del PIB per cápita genera un efecto de escala sobre el valor del indicador presente. Es así como un incremento del 1% de este indicador conduce a un aumento promedio de 1.14% en el siguiente periodo.

En este modelo, como se observa en los p-valores de la parte inferior, no hay evidencia de multicolinealidad, y no se rechaza la hipótesis de no autocorrelación serial ni de homocedasticidad entre los residuos del modelo. Sin embargo, cabe aclarar que en todos los modelos analizados los residuos no presentan normalidad, lo cual puede ser un aspecto menor en un análisis de datos de panel.

**Linear Panel Regression Models of Log Pib pc - Fixed effects**

	Dependent variable:

	log_PIB_pc
	1	2	3	4	5

log_EXPY	0.305^***	0.039^**	0.069^***	0.064^***	0.060^***
	(0.079)	(0.019)	(0.021)	(0.019)	(0.017)
lag(log_EXPY, 1)			-0.063^**	-0.048^***	-0.038^**
			(0.025)	(0.018)	(0.018)
lag(log_EXPY, 2)					-0.017
					(0.012)
lag(log_PIB_pc, 1)		0.859^***	0.888^***	1.149^***	1.142^***
		(0.031)	(0.027)	(0.067)	(0.066)
lag(log_PIB_pc, 2)				-0.296^***	-0.276^***
				(0.063)	(0.066)

AIC	-1101.9	-1793.6	-1787.4	-1699	-1700
VIF	1.18	5.39	5.51	5.29	5.43
Jarque-Bera Test	0	0	0	0	0
Box-Pierce test	0	0	0	0.9	0.82
Breusch-Pagan Test	0	0.802	0.618	0.194	0.29
Breusch–Godfrey Test	0	0	0	0.805	0.603
Observations	500	468	463	431	429
R²	0.233	0.833	0.837	0.832	0.837
Adjusted R²	0.153	0.814	0.818	0.811	0.816
F Statistic	136.936^*** (df = 1; 452)	1,048.491^*** (df = 2; 420)	710.347^*** (df = 3; 414)	472.690^*** (df = 4; 382)	388.908^*** (df = 5; 379)

Note:	p<0.1; p<0.05; p<0.01

Test de modelo seleccionado

7. Análisis de modelo con mejor ajuste

Causalidad

Al aplicar el test de causalidad de Granger para datos de panel, se encontró que, para al menos uno de los departamentos hay una relación causal entre las variables de Log PIB per cápita y Log EXPY. Esto se observa debido a que se rechaza la hipótesis nula de no presencia de relación causal entre las variables considerando dos rezagos de la variable independiente.

## 
##  Panel Granger (Non-)Causality Test (Dumitrescu/Hurlin (2012))
## 
## data:  log_PIB_pc ~ log_EXPY
## Ztilde = 8.619, p-value < 2.2e-16
## alternative hypothesis: Granger causality for at least one individual

Al considerar el comportamiento del modelo seleccionado, se evidencia un ajuste alto entre la variable de interés y el valor estimado por el modelo de esta:

Exogeneidad estricta y endogeneidad

A continuación, se presenta una regresión de los residuos del modelo seleccionado con respecto a las variables involucradas para probar la hipótesis de exogeneidad estricta. En este ejercicio se encuentra que ninguna de las variables, ni el estadístico F, resultan ser significativos, lo cual indica independecia lineal en esta regresión.

Por lo anterior, considerando que no existe evidencia de autocorrelación serial ni de heterocedasticidad, y se presenta una exogeneidad estricta entre las variables explicativas y los residuos, no hay evidencia de endogeneidad en el actual planteamiento.

**Linear Panel Regression Models of Residuals**

	Dependent variable:

	residuals
	1 - Efectos fijos	2 - OLS

log_EXPY	0.000	0.000
	(0.017)	(0.015)
lag1_log_EXPY	0.000	-0.000
	(0.018)	(0.018)
lag2_log_EXPY	-0.000	-0.000
	(0.012)	(0.011)
lag1_log_PIB_pc	-0.000	0.000
	(0.066)	(0.048)
lag2_log_PIB_pc	0.000	-0.000
	(0.066)	(0.049)
Constant		0.000
		(0.055)

Observations	429	429
R²	0.000	0.000
Adjusted R²	-0.129	-0.012
F Statistic	0.000 (df = 5; 379)	0.000 (df = 5; 423)

Note:	p<0.1; p<0.05; p<0.01

Validación cruzada - coeficiente del indicador EXPY

Tras lo anterior, se realizó una validación cruzada para verificar la consistencia de los coeficientes de las variables explicativas. Esto consiste en lo siguiente:

1. Se seleccionaron 20 muestras de la base de datos de forma iterativa

2. Se estimó el modelo seleccionado para cada una de las muestras seleccionadas

3. Se utilizó el resto de la base de datos en cada iteración como test de la base de datos de entrenamiento.

4. Se calcularon medidas de calidad de ajuste del modelo como el Error Cuadrático Medio (MSE), así como la distancia cuadrática mínima (RMSE) entre el PIB per cápita observado y el estimado.

5. Se generaron los coeficientes para cada una de las regresiones realizadas y se analizó su comportamiento

En cuanto a las medidas de calidad, se encontró que, los indicadores de MSE y RSME fueron inferiores a 1 por lo que la distancia entre la variable observada y predicha en el conjunto de modelos fue cercana:

## [1] "Average MSE: 0.16568643101415"

## [1] "Average RMSE: 0.300770195920276"

## [1] "Average Desv Y: 0.480364366176301"

Al considerar las 20 submuestras, es posible identificar que el valor medio de los coeficientes es de 0.06, tal como se presenta en el modelo seleccionado, con una desviación estándar de 0.01

Predicción de PIB con variables actualizadas (Años 2021 y 2022)

Para analizar la utilidad del modelo para la generación de predicciones, se utilizó el PIB a precios constantes de 2021 y 2022, así como la población estimada a nivel departamental para el cálculo del PIB per cápita de las economías. A su vez, se emplearon las exportaciones de los años mencionados para calcular el indicador de complejidad bajo análisis

De esta forma, se generó la predicción de 2 años de del PIB per cápita a partir de la información actualizada, la cual se contrastó con la realidad observada.

En primer lugar, es posible destacar que tanto el RMSE como el MSE son inferiores a 1. Esto sugiere que las series de pronóstico y observada presentan tendencias similares.

Comparativo entre valor predicho y observado del PIB per cápita: caso de Antioquia

Comparativo entre valor predicho y observado del PIB - Promedio de departamentos

Análisis de redes

Para el análisis de redes se tuvieron en cuenta principalmente 4 años de interés: el inicio del periodo de análisis (2005), el periodo de quiebre de las exportaciones nacionales como resultado de la caída de los precios del petroleo (2014), el año pre-pandemia de COVID-19 y sus efectos iniciales (2019 y 2020)

Avance de resultados - Tesis: Crecimiento económico y complejidad económica

Juan Camilo Escandón

Fecha entrega: 12/06/2024