Introducción

Este reporte analiza la relación entre el PIB de Colombia y varias variables de producción como azúcar, cemento, acero y vehículos ensamblados. Se estima un modelo de regresión lineal múltiple para identificar los factores que más impactan el PIB.

# Cargar los datos (asegúrate de cambiar la ruta si es necesario)
data_PIB <- read_xlsx("data_3.xlsx")

# Ver las primeras filas
head(data_PIB)
periodo azucar cemento acero carbon vehiculos pib
2000 199271.5 595277.5 23871.7 1535.8 4213.7 208531
2001 186796.8 564625.0 27632.3 1617.1 5424.3 225851
2002 210944.3 552714.8 26238.4 1295.3 5719.7 245323
2003 220525.5 597365.5 24320.6 1836.9 5058.0 272345
2004 228398.0 637159.6 30025.3 1978.1 7471.3 307762
2005 223604.8 820783.8 32048.3 2163.9 8906.4 340156

Para darnos una idea cuáles variables tienen mayor impacto en el PIB, gráficamos cada una de las variables vs el PIB.

# Normalizar las variables dividiéndolas por su máximo
data_PIB_norm <- data_PIB %>%
  mutate(across(c(azucar, cemento, acero, carbon, vehiculos), ~ . / max(.)))

# Convertir a formato largo
data_long <- data_PIB_norm %>%
  pivot_longer(cols = c(azucar, cemento, acero, carbon, vehiculos), 
               names_to = "Variable", values_to = "Valor")

# Graficar
ggplot(data_long, aes(x = Valor, y = pib)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", color = "red", se = FALSE) +
  facet_wrap(~ Variable, scales = "free_x") + 
  labs(title = "Relación de PIB con Variables de Producción (Normalizado)",
       x = "Valor Normalizado",
       y = "PIB (Miles de millones de pesos)") +
  theme_minimal()

Modelo de regresión lineal múltiple

El modelo de regresión estimado es el siguiente:

\[ PIB = \beta_0 + \beta_1 (\text{Azúcar}) + \beta_2 (\text{Cemento}) + \beta_3 (\text{Acero}) + \beta_4 (\text{Vehículos}) + \epsilon \]

Donde cada coeficiente \(\beta_i\) representa el impacto de la variable independiente en el PIB y \(\epsilon\) el error de la estimación.

Coeficientes de Regresión

# Ajustar el modelo
modelo <- lm(pib ~ azucar + cemento + acero + vehiculos, data = data_PIB)
coeficientes <- summary(modelo)$coefficients
# Resumen del modelo
kable(coeficientes, caption = "Coeficientes del modelo de regresión")
Coeficientes del modelo de regresión
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.236648e+05 3.454070e+05 1.2265667 0.2548586
azucar -7.276238e-01 1.144817e+00 -0.6355811 0.5427985
cemento 8.411019e-01 3.738969e-01 2.2495557 0.0546051
acero -2.494244e+01 9.027060e+00 -2.7630744 0.0245579
vehiculos 2.685073e+01 1.825964e+01 1.4704962 0.1796304

Interpretación de los Coeficientes de Regresión

  • Intercepto (4.2366475^{5}):
    Representa el PIB estimado cuando todas las variables independientes son cero. Sin embargo, dado que esto no es realista, su interpretación aislada tiene poca utilidad práctica.

  • Azúcar (-0.7276):
    Un aumento de una tonelada en la producción de azúcar está asociado con un cambio de -0.7276 unidades en el PIB, manteniendo las demás variables constantes.
    Dado su p-valor (0.5428), este efecto no es estadísticamente significativo.

  • Cemento (0.8411):
    Un aumento de una tonelada en la producción de cemento está asociado con un aumento de 0.8411 en el PIB, manteniendo las demás variables constantes.
    Con un p-valor de 0.0546, la variable es moderadamente significativa al nivel del 10%.

  • Acero (-24.9424):
    Un aumento de una tonelada en la producción de acero está asociado con una disminución de -24.9424 unidades en el PIB.
    Esto sugiere que la producción de acero podría estar correlacionada negativamente con el PIB.
    Su p-valor (0.0246) indica que es significativa al 5%.

  • Vehículos ensamblados (26.8507):
    Un aumento de una unidad en la producción de vehículos ensamblados está asociado con un aumento de 26.8507 en el PIB.
    Sin embargo, su p-valor (0.1796) sugiere que no es estadísticamente significativo.

Los coeficientes de regresión encontrados sugieren que la producción de cemento y acero tiene un impacto significativo en el PIB de Colombia, mientras que la producción de azúcar y vehículos ensamblados no muestra una relación estadísticamente significativa con el PIB.

Coeficiente de Correlación Múltiple

El coeficiente de correlación múltiple (\(R\)) mide la fuerza de la relación entre la variable dependiente \(Y\) (En este caso el PIB) y el conjunto de variables independientes \(X_1, X_2, \dots, X_n\). Se define como:

\[ R = \sqrt{R^2} \]

donde \(R^2\) es el coeficiente de determinación, que indica qué proporción de la variabilidad de \(Y\) es explicada por el modelo.

Dado que nuestro modelo tiene un coeficiente de determinación

\[ R^2 = 0.8649 \] El coeficiente de correlación múltiple está dado por

\[ R = \sqrt{0.8649} = 0.93 \]

Interpretación del Coeficiente de Correlación Múltiple

  • R = 0.93 indica una alta correlación entre las variables predictoras (azúcar, cemento, acero y vehículos ensamblados) y la variable respuesta (PIB).
  • Cuanto más cercano esté R de 1, más fuerte será la relación entre las variables independientes y el PIB.
  • En este caso, el modelo tiene un buen poder predictivo, ya que R es bastante alto.

Esto sugiere que el modelo es útil para explicar la variabilidad del PIB en función de estas variables.

Coeficiente de Determinación

\[ R^2 = 0.8649 \]

  • R² = 0.8649 indica que el 86.49% de la variabilidad del PIB es explicada por las variables independientes (azúcar, cemento, acero y vehículos ensamblados).
  • Cuanto más alto es , mejor explica el modelo la variabilidad del PIB.
  • El R² ajustado (0.7974) es ligeramente menor, lo que sugiere que algunas variables pueden no estar aportando significativamente al modelo (como la producción de azucar y el número de vehículos ensamblados).

Significancia de las variables

Para evaluar la significancia de cada variable en el modelo estimado, utilizamos la prueba t de Student.

Hipótesis de la prueba t

Para cada variable \(X_i\), se plantea la prueba de hipótesis:

  • Hipótesis nula (\(H_0\)): \(\beta_i = 0\) (la variable \(X_i\) no tiene efecto significativo sobre \(Y\)).
  • Hipótesis alternativa (\(H_a\)): \(\beta_i \neq 0\) (la variable \(X_i\) tiene un efecto significativo).

El estadístico de prueba se calcula como:

\[ t_i = \frac{\hat{\beta}_i}{SE(\hat{\beta}_i)} \]

donde:

  • \(\hat{\beta}_i\) es la estimación del coeficiente de \(X_i\).
  • \(SE(\hat{\beta}_i)\) es el error estándar de \(\hat{\beta}_i\).

Este valor \(t_i\) se compara con la distribución t de Student para determinar el p-value.

Interpretación del p-value

  • Si \(p < \alpha = 0.10\) \(\implies\) Se rechaza \(H_0\), lo que indica que la variable \(X_i\) es significativa.
  • Si \(p \geq \alpha = 0.10\) \(\implies\) No hay suficiente evidencia para concluir que \(X_i\) es significativa.
Resultados de la Prueba de Significancia
Variable Coeficiente p.valor Significancia
(Intercept) (Intercept) 423664.7524 0.2549 ❌ No significativa
azucar azucar -0.7276 0.5428 ❌ No significativa
cemento cemento 0.8411 0.0546 ✅ Significativa
acero acero -24.9424 0.0246 ✅ Significativa
vehiculos vehiculos 26.8507 0.1796 ❌ No significativa

Estos resultados sugieren que:

  • Las variables cemento y acero son significativas al nivel del 10% y tienen un impacto en el PIB.
  • Las variables azúcar y vehículos ensamblados no son significativas, por lo que su impacto en el PIB no es concluyente. Se podría considerar eliminarlas del modelo para evaluar si mejora la precisión.

Nuevo modelo

Teniendo en cuenta los resultados del modelo con todas las variables, creamos un nuevo modelo usando únicamente las variables que tienen significancia con respecto al PIB.

# Normalizar las variables dividiéndolas por su máximo
data_PIB_norm <- data_PIB %>%
  mutate(across(c(cemento, acero), ~ . / max(.)))

# Convertir a formato largo
data_long <- data_PIB_norm %>%
  pivot_longer(cols = c(cemento, acero), 
               names_to = "Variable", values_to = "Valor")

# Graficar
ggplot(data_long, aes(x = Valor, y = pib)) +
  geom_point(alpha = 0.6) +
  geom_smooth(method = "lm", color = "red", se = FALSE) +
  facet_wrap(~ Variable, scales = "free_x") + 
  labs(title = "Relación de PIB con Variables de Producción (Normalizado)",
       x = "Valor Normalizado",
       y = "PIB (Miles de millones de pesos)") +
  theme_minimal()

Coeficientes de Regresión

# Ajustar el modelo solo con las variables significativas
modelo_reducido <- lm(pib ~ cemento + acero, data = data_PIB)
summary(modelo_reducido)
## 
## Call:
## lm(formula = pib ~ cemento + acero, data = data_PIB)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -106520  -35672    7926   39681   83318 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.281e+04  1.721e+05   0.074 0.942111    
## cemento      1.335e+00  2.224e-01   6.001 0.000132 ***
## acero       -2.065e+01  8.604e+00  -2.400 0.037341 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 70920 on 10 degrees of freedom
## Multiple R-squared:  0.8195, Adjusted R-squared:  0.7833 
## F-statistic: 22.69 on 2 and 10 DF,  p-value: 0.0001918
# Extraer coeficientes y p-valores
coeficientes_reducido <- summary(modelo_reducido)$coefficients
  • Intercepto (1.2812^{4}):
    No es significativo (\(p = 0.9421\)), lo que indica que su interpretación aislada no es relevante en este contexto.

  • Cemento (1.335):
    Un aumento de una tonelada de cemento está asociado con un incremento de 1.335 unidades en el PIB, manteniendo constante la producción de acero.
    Esta variable es altamente significativa (\(p = 1.32\times 10^{-4}\)).

  • Acero (-20.65):
    Un aumento de una tonelada de acero está asociado con una reducción de -20.65 unidades en el PIB, manteniendo constante la producción de cemento.
    Aunque el signo negativo puede ser contraintuitivo, esta variable es significativa (\(p = 0.0373\)).

Coeficiente de Correlación Múltiple (R)

  • \(R = 0.905\) indica una alta correlación entre las variables predictoras (cemento y acero) y la variable respuesta (PIB).
  • En este caso, el modelo sigue mostrando un buen poder predictivo con un \(R\) elevado.

Coeficiente de Determinación (\(R^2\))

  • \(R^2 = 0.8195\) indica que 81.95% de la variabilidad del PIB es explicada por las variables independientes (cemento y acero).
  • \(R^2\) ajustado (0.7833) es ligeramente menor, lo que sugiere que el modelo se ajusta bien.

Significancia

Resultados de la Prueba de Significancia
Variable Coeficiente p.valor Significancia
(Intercept) (Intercept) 12812.4753 0.9421 ❌ No significativa
cemento cemento 1.3347 0.0001 ✅ Significativa
acero acero -20.6458 0.0373 ✅ Significativa

Conclusión General

En este análisis, construimos y evaluamos modelos de regresión lineal múltiple para explicar la relación entre el PIB y diferentes variables de producción en Colombia.

Resumen de los Modelos Analizados

  1. Modelo Inicial:
    • Se incluyeron todas las variables disponibles: azúcar, cemento, acero y vehículos ensamblados.
    • El coeficiente de correlación múltiple fue R = 0.930, indicando una fuerte relación entre las variables explicativas y el PIB.
    • El coeficiente de determinación R² = 0.8649 mostró que el 86.49% de la variabilidad del PIB fue explicada por el modelo.
    • Al analizar la significancia estadística (α = 0.10), se encontró que cemento y acero fueron variables relevantes, mientras que azúcar y vehículos ensamblados no fueron significativos.
  2. Modelo Reducido:
    • Se ajustó un nuevo modelo incluyendo únicamente las variables cemento y acero, eliminando las variables no significativas.
    • Se obtuvo R² = 0.8195, lo que indica que el modelo sigue explicando una alta proporción de la variabilidad del PIB.
    • Ambas variables resultaron estadísticamente significativas (p < 0.05).

Interpretación de los Resultados

  • Cemento: Un aumento de una tonelada de cemento está asociado con un incremento de 1.335 unidades en el PIB. Esta variable es altamente significativa (p = 0.000132).
  • Acero: Un aumento de una tonelada de acero está asociado con una disminución de 20.65 unidades en el PIB. Esta relación negativa puede deberse a factores económicos o estructurales en la producción (p = 0.0373).
  • Intercepto: No es significativo (p = 0.942), por lo que su interpretación aislada no es relevante.

Conclusión Final

El modelo reducido con cemento y acero es más confiable en la medida que todas las variables que se tienen en cuenta tienen alta significancia. Sin embargo, notamos que el modelo inicial tiene coeficientes de determinación y correlación ligeramente más altos en comparación con el modelo reducido. Si tenemos en cuenta que la significancia de la producción de vehículos fue la más alta en comparación con las demás variables excluidas, podría tenerse en cuenta para un modelo futuro con un \(\alpha\) más alto (por ejemplo \(\alpha = 0.20\)).