Este reporte analiza la relación entre el PIB de Colombia y varias variables de producción como azúcar, cemento, acero y vehículos ensamblados. Se estima un modelo de regresión lineal múltiple para identificar los factores que más impactan el PIB.
# Cargar los datos (asegúrate de cambiar la ruta si es necesario)
data_PIB <- read_xlsx("data_3.xlsx")
# Ver las primeras filas
head(data_PIB)
| periodo | azucar | cemento | acero | carbon | vehiculos | pib |
|---|---|---|---|---|---|---|
| 2000 | 199271.5 | 595277.5 | 23871.7 | 1535.8 | 4213.7 | 208531 |
| 2001 | 186796.8 | 564625.0 | 27632.3 | 1617.1 | 5424.3 | 225851 |
| 2002 | 210944.3 | 552714.8 | 26238.4 | 1295.3 | 5719.7 | 245323 |
| 2003 | 220525.5 | 597365.5 | 24320.6 | 1836.9 | 5058.0 | 272345 |
| 2004 | 228398.0 | 637159.6 | 30025.3 | 1978.1 | 7471.3 | 307762 |
| 2005 | 223604.8 | 820783.8 | 32048.3 | 2163.9 | 8906.4 | 340156 |
Para darnos una idea cuáles variables tienen mayor impacto en el PIB, gráficamos cada una de las variables vs el PIB.
# Normalizar las variables dividiéndolas por su máximo
data_PIB_norm <- data_PIB %>%
mutate(across(c(azucar, cemento, acero, carbon, vehiculos), ~ . / max(.)))
# Convertir a formato largo
data_long <- data_PIB_norm %>%
pivot_longer(cols = c(azucar, cemento, acero, carbon, vehiculos),
names_to = "Variable", values_to = "Valor")
# Graficar
ggplot(data_long, aes(x = Valor, y = pib)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "lm", color = "red", se = FALSE) +
facet_wrap(~ Variable, scales = "free_x") +
labs(title = "Relación de PIB con Variables de Producción (Normalizado)",
x = "Valor Normalizado",
y = "PIB (Miles de millones de pesos)") +
theme_minimal()
El modelo de regresión estimado es el siguiente:
\[ PIB = \beta_0 + \beta_1 (\text{Azúcar}) + \beta_2 (\text{Cemento}) + \beta_3 (\text{Acero}) + \beta_4 (\text{Vehículos}) + \epsilon \]
Donde cada coeficiente \(\beta_i\) representa el impacto de la variable independiente en el PIB y \(\epsilon\) el error de la estimación.
# Ajustar el modelo
modelo <- lm(pib ~ azucar + cemento + acero + vehiculos, data = data_PIB)
coeficientes <- summary(modelo)$coefficients
# Resumen del modelo
kable(coeficientes, caption = "Coeficientes del modelo de regresión")
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 4.236648e+05 | 3.454070e+05 | 1.2265667 | 0.2548586 |
| azucar | -7.276238e-01 | 1.144817e+00 | -0.6355811 | 0.5427985 |
| cemento | 8.411019e-01 | 3.738969e-01 | 2.2495557 | 0.0546051 |
| acero | -2.494244e+01 | 9.027060e+00 | -2.7630744 | 0.0245579 |
| vehiculos | 2.685073e+01 | 1.825964e+01 | 1.4704962 | 0.1796304 |
Intercepto (4.2366475^{5}):
Representa el PIB estimado cuando todas las variables independientes son
cero. Sin embargo, dado que esto no es realista, su interpretación
aislada tiene poca utilidad práctica.
Azúcar (-0.7276):
Un aumento de una tonelada en la producción de azúcar está asociado con
un cambio de -0.7276 unidades en el PIB, manteniendo las demás variables
constantes.
Dado su p-valor (0.5428), este efecto no es estadísticamente
significativo.
Cemento (0.8411):
Un aumento de una tonelada en la producción de cemento está asociado con
un aumento de 0.8411 en el PIB, manteniendo las demás variables
constantes.
Con un p-valor de 0.0546, la variable es moderadamente significativa al
nivel del 10%.
Acero (-24.9424):
Un aumento de una tonelada en la producción de acero está asociado con
una disminución de -24.9424 unidades en el PIB.
Esto sugiere que la producción de acero podría estar correlacionada
negativamente con el PIB.
Su p-valor (0.0246) indica que es significativa al 5%.
Vehículos ensamblados (26.8507):
Un aumento de una unidad en la producción de vehículos ensamblados está
asociado con un aumento de 26.8507 en el PIB.
Sin embargo, su p-valor (0.1796) sugiere que no es estadísticamente
significativo.
Los coeficientes de regresión encontrados sugieren que la producción de cemento y acero tiene un impacto significativo en el PIB de Colombia, mientras que la producción de azúcar y vehículos ensamblados no muestra una relación estadísticamente significativa con el PIB.
El coeficiente de correlación múltiple (\(R\)) mide la fuerza de la relación entre la variable dependiente \(Y\) (En este caso el PIB) y el conjunto de variables independientes \(X_1, X_2, \dots, X_n\). Se define como:
\[ R = \sqrt{R^2} \]
donde \(R^2\) es el coeficiente de determinación, que indica qué proporción de la variabilidad de \(Y\) es explicada por el modelo.
Dado que nuestro modelo tiene un coeficiente de determinación
\[ R^2 = 0.8649 \] El coeficiente de correlación múltiple está dado por
\[ R = \sqrt{0.8649} = 0.93 \]
Esto sugiere que el modelo es útil para explicar la variabilidad del PIB en función de estas variables.
\[ R^2 = 0.8649 \]
Para evaluar la significancia de cada variable en el modelo estimado, utilizamos la prueba t de Student.
Para cada variable \(X_i\), se plantea la prueba de hipótesis:
El estadístico de prueba se calcula como:
\[ t_i = \frac{\hat{\beta}_i}{SE(\hat{\beta}_i)} \]
donde:
Este valor \(t_i\) se compara con la distribución t de Student para determinar el p-value.
| Variable | Coeficiente | p.valor | Significancia | |
|---|---|---|---|---|
| (Intercept) | (Intercept) | 423664.7524 | 0.2549 | ❌ No significativa |
| azucar | azucar | -0.7276 | 0.5428 | ❌ No significativa |
| cemento | cemento | 0.8411 | 0.0546 | ✅ Significativa |
| acero | acero | -24.9424 | 0.0246 | ✅ Significativa |
| vehiculos | vehiculos | 26.8507 | 0.1796 | ❌ No significativa |
Estos resultados sugieren que:
Teniendo en cuenta los resultados del modelo con todas las variables, creamos un nuevo modelo usando únicamente las variables que tienen significancia con respecto al PIB.
# Normalizar las variables dividiéndolas por su máximo
data_PIB_norm <- data_PIB %>%
mutate(across(c(cemento, acero), ~ . / max(.)))
# Convertir a formato largo
data_long <- data_PIB_norm %>%
pivot_longer(cols = c(cemento, acero),
names_to = "Variable", values_to = "Valor")
# Graficar
ggplot(data_long, aes(x = Valor, y = pib)) +
geom_point(alpha = 0.6) +
geom_smooth(method = "lm", color = "red", se = FALSE) +
facet_wrap(~ Variable, scales = "free_x") +
labs(title = "Relación de PIB con Variables de Producción (Normalizado)",
x = "Valor Normalizado",
y = "PIB (Miles de millones de pesos)") +
theme_minimal()
# Ajustar el modelo solo con las variables significativas
modelo_reducido <- lm(pib ~ cemento + acero, data = data_PIB)
summary(modelo_reducido)
##
## Call:
## lm(formula = pib ~ cemento + acero, data = data_PIB)
##
## Residuals:
## Min 1Q Median 3Q Max
## -106520 -35672 7926 39681 83318
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.281e+04 1.721e+05 0.074 0.942111
## cemento 1.335e+00 2.224e-01 6.001 0.000132 ***
## acero -2.065e+01 8.604e+00 -2.400 0.037341 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 70920 on 10 degrees of freedom
## Multiple R-squared: 0.8195, Adjusted R-squared: 0.7833
## F-statistic: 22.69 on 2 and 10 DF, p-value: 0.0001918
# Extraer coeficientes y p-valores
coeficientes_reducido <- summary(modelo_reducido)$coefficients
Intercepto (1.2812^{4}):
No es significativo (\(p = 0.9421\)),
lo que indica que su interpretación aislada no es relevante en este
contexto.
Cemento (1.335):
Un aumento de una tonelada de cemento está asociado con
un incremento de 1.335 unidades en el PIB, manteniendo
constante la producción de acero.
Esta variable es altamente significativa (\(p = 1.32\times 10^{-4}\)).
Acero (-20.65):
Un aumento de una tonelada de acero está asociado con
una reducción de -20.65 unidades en el PIB, manteniendo
constante la producción de cemento.
Aunque el signo negativo puede ser contraintuitivo, esta variable es
significativa (\(p =
0.0373\)).
| Variable | Coeficiente | p.valor | Significancia | |
|---|---|---|---|---|
| (Intercept) | (Intercept) | 12812.4753 | 0.9421 | ❌ No significativa |
| cemento | cemento | 1.3347 | 0.0001 | ✅ Significativa |
| acero | acero | -20.6458 | 0.0373 | ✅ Significativa |
En este análisis, construimos y evaluamos modelos de regresión lineal múltiple para explicar la relación entre el PIB y diferentes variables de producción en Colombia.
El modelo reducido con cemento y acero es más confiable en la medida que todas las variables que se tienen en cuenta tienen alta significancia. Sin embargo, notamos que el modelo inicial tiene coeficientes de determinación y correlación ligeramente más altos en comparación con el modelo reducido. Si tenemos en cuenta que la significancia de la producción de vehículos fue la más alta en comparación con las demás variables excluidas, podría tenerse en cuenta para un modelo futuro con un \(\alpha\) más alto (por ejemplo \(\alpha = 0.20\)).