Introducción
El Producto Interno Bruto (PIB) es el valor total de todos los
bienes y servicios finales producidos dentro de un país en un período
determinado. Esta es la medida más utilizada para evaluar el tamaño y el
crecimiento de una economía. Es por esto que en el siguiente estudio se
realizará un análisis acerca del comportamiento del PIB en 76 países
alrededor del mundo, principalmente de 4 continentes. Además, se
examinarán los factores asociados a este indicador de la actividad
económica y cómo influye su interacción.
Variables categóricas:
- Continente.
- Nivel de desarrollo.
Indicadores numéricos:
- Esperanza de vida.
- Importaciones de bienes y servicios.
- Exportaciones de bienes y servicios.
- Capital Bruto.
En vista del crecimiento económico desigual entre países, se
plantean algunos factores que contribuyen a las diferencias en el PIB.
Este análisis busca identificar relaciones estadísticamente
significativas entre estas variables, con el objetivo de comprender el
impacto que tienen.
Metodología
En este estudio se aplicó un modelo de regresión lineal múltiple con
el fin de analizar cómo diferentes factores económicos y sociales
influyen sobre el PIB (Producto Interno Bruto) de distintos países.
La regresión lineal múltiple permite observar el efecto individual
de cada variable independiente sobre el PIB, mientras se controlan las
demás. Es decir, nos ayuda a entender qué tanto cambia el PIB cuando una
variable específica aumenta o disminuye, manteniendo las demás
constantes.
Para este modelo se incluyeron las siguientes variables como:
Variable dependiente:
PIB, valor representado en millones de dólares.
Variables independientes:
Países: seleccionados aleatoriamente de una base de datos que
recopila información para diversas áreas.
Esperanza de vida, un promedio de los años de vida que tienden a
alcanzar las personas de cada país.
Exportaciones e importaciones de bienes y servicios: expresado
también en dólares para cada país
Capital bruto: se refiere al valor total de los activos físicos que
una economía, empresa o sector ha acumulado para producir bienes y
servicios.
Nivel de desarrollo: (si es país desarrollado o no).
Continente: al que pertenece cada país país.
Matriz de correlaciones

Gracias a esta gráfica podemos establecer descendentemente el orden
de las correlaciones de cada variable independiente con nuestra variable
dependiente (PIB): 1- Gross Capital (0.90), 2- Importaciones ByS (0.68),
3- Exports ByS (0.64), 4- Esperanza vida (0.24); se hizo uso únicamente
las variables numéricas del ejercicio, ya que la matriz de correlaciones
solo trabaja con valores numéricos.
Adicional a eso, nuestra matriz muestra que el PIB se relaciona
fuertemente con la formación bruta de capital y moderadamente con
importaciones y exportaciones, indicando que la inversión y el comercio
impulsan la economía. La esperanza de vida tiene una correlación débil
(0.24), sugiriendo una relación menos directa con el crecimiento
económico.
La fórmula general del modelo se define así:
PIB = β₀ + β1(Esperanza.vida) + β2(Exports.ByS) +
β3(Importaciones.ByS) + β4(Gross.capital) + β5(Desarrollado)+
β6(Continentes)
Donde β₀ es el intercepto o valor base del PIB cuando todas las
variables son cer, las βᵢ representan el efecto que tiene cada variable
sobre el PIB y el error (ϵ) es el término de error aleatorio.
PIB = 798.400.000.000 - 11.690.000.000(Esperanza.vida) +
0,7698(Exports.ByS) - 2,590(Importaciones.ByS) + 7,865(Gross.capital) -
716.000.000.000(Desarrollado) + 28.520.000.000(América) +
558.700.000.000(Asia) + 593.600.000.000(Europa)
Interpretación de los coeficientes:
β0 = valor base del PIB cuando todas las variables son cero.
β1 = es un valor relevante y no significativo para nuestro modelo,
sin embargo, influye negativamente en el valor del PIB 11.690.000.000
unidades (inversamente proporcional).
β2 = variable con coeficiente positivo de aproximadamente 0,7698
unidades, lo que sugiere que un aumento en las exportaciones se asocia
con un incremento del PIB. Sin embargo, su valor p indica que no es
estadísticamente significativo.
β3 = valor que actúa negativamente en el modelo, disminuyendo el PIB
en aproximadamente 2,590 unidades pero según los valores de p obtenidos
no es relevante, por lo tanto, no podemos afirmar con certeza que este
efecto negativo sea real o importante en el modelo.
β4 = es la variable con mayor peso positivo, esto indica que por
cada punto que aumente el capital bruto, el PIB aumentará 7,865 unidades
(directamente proporcional).
β5 = variable categórica binaria (1 = país desarrollado, 0 = no
desarrollado). Contrario a lo que podría esperarse, este modelo estima
que pertenecer al grupo de países desarrollados está asociado con una
disminución del PIB de716.000.000.000 unidades, lo cual podría estar
reflejando efectos de colinealidad.
β6 = variable categórica nominal (0 = África, 1 = América, 2 = Asia,
3 = Europa), en este caso, se toma África como categoría base. Por un
lado, América influye en28.520.000.000 unidades más que África en el
PIB. De igual manera, Asia influye 558.700.000.000 unidades en
comparación a la influencia de África en el PIB. Finalmente, Europa
actúa positivamente con 593.600.000.000 unidades al PIB en comparación
con la categoría base.
Estadísticas descriptivas
A continuación, se presentan las estadísticas descriptivas de las
variables numéricas y categóricas del estudio. Para las variables
numéricas se calcularon medidas de tendencia central y dispersión
(media, mediana, moda y desviación estándar), lo cual permite entender
el comportamiento general de los datos. En el caso de las variables
categóricas, se muestran las frecuencias absolutas y relativas, útiles
para conocer la distribución de los países según continente y nivel de
desarrollo.
Tabla de estadísticas descriptivas numericas
## # A tibble: 5 × 5
## Variable Media Mediana Moda Desviacion
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 PIB_GDP 6.45e11 1.29e11 1682077000 1.47e12
## 2 Esperanza_vida 7.21e 1 7.41e 1 54.5 7.55e 0
## 3 Exports_ByS 1.44e11 1.95e10 142583535 2.86e11
## 4 Importaciones_ByS 1.40e11 2.49e10 364657062 2.70e11
## 5 Gross_capital 1.08e11 1.76e10 161051872. 2.28e11
Tabla de estadísticas descriptivas categóricas
##
## Africa America Asia Europa
## 31 11 21 12
##
## Africa America Asia Europa
## 0.4133333 0.1466667 0.2800000 0.1600000
##
## No Si
## 58 17
##
## No Si
## 0.7733333 0.2266667
Análisis de relaciones
A continuación, se planteará gráficamente la correlación entre
nuestra variable dependiente (PIB_GDP) en función de las variables
numéricas y categóricas establecidas previamente, con el fin de
apoyarnos gráficamente de la relación que existe entre ellas a la hora
de calificar o establecer el PIB del país, procurando encontrar su
relevancia en el cálculo de este.
En el gráfico se observa la relación entre la esperanza de vida y el
Producto Interno Bruto (PIB) de diferentes países. La línea azul
representa la tendencia general: a mayor esperanza de vida, suele haber
un PIB más alto. Sin embargo, hay un punto que se aleja bastante de esa
tendencia. Este punto muestra un país con una esperanza de vida promedio
(alrededor de 71 años) pero con un PIB extremadamente alto. Esto indica
que, aunque su esperanza de vida no es la más alta, su economía es muy
poderosa, ya sea por factores como desarrollo tecnológico o tamaño de la
economía (importaciones/exportaciones).
Aunque el gráfico muestra que algunos países con mayores niveles de
exportaciones también tienen un PIB elevado, la relación no es
totalmente directa ni creciente. Por ejemplo, un país asiático con
exportaciones a nivel medio tiene un PIB mucho mayor que otros con
exportaciones altas o muy altas, es decir, el PIB de un país no depende
únicamente de sus exportaciones.
Este gráfico de cajas lo que nos está indicando es que la
categorización de desarrollo y no desarrollo no siempre es determinada
por el PIB de un país, pues como se puede evidenciar, hay países con un
PIB significativamente alto y que a su vez no son desarrollados; esto
nos indica que debemos tener en cuenta otros factores (variables)
determinantes.
Este gráfico de dispersión nos indica que hay una relación positiva
entre el capital bruto y el PIB, ya que en el gráfico se nota que a
mayor Capital bruto mayor es el PIB de un país al menos en la gran
mayoría de países. Sin embargo, la mayoría de países se encuentran en la
parte inferior izquierda del gráfico, lo que indica niveles
relativamente bajos de PIB y Capital bruto, siendo muy posiblemente los
países no desarrollados.
En este gráfico de dispersión se observa que los países con mayor
PIB tienden también a registrar mayores niveles de importaciones, lo que
sugiere una relación positiva entre ambas variables. A pesar de esta
tendencia general, la mayoría de los países se agrupan en el cuadrante
inferior izquierdo, lo que indica que muchas economías tienen tanto un
PIB como importaciones relativamente bajos.
El gráfico muestra la distribución del PIB en cada continente,
incluyendo la mediana, el rango de valores más comunes y los posibles
valores atípicos. Cada caja representa cómo se comportan los datos
dentro de un continente, permitiendo ver cuál tiene PIB más alto, más
bajo o más variado.
Planteamiento del modelo
##
## Call:
## lm(formula = PIB_GDP ~ Esperanza_vida + Exports_ByS + Importaciones_ByS +
## Gross_capital + Desarrollado + Continentes, data = basesita)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.348e+12 -1.288e+11 -1.845e+10 1.321e+11 1.602e+12
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.142e+11 7.650e+11 1.195 0.236445
## Esperanza_vida -1.394e+10 1.165e+10 -1.197 0.235623
## Exports_BySMedio -3.813e+11 3.954e+11 -0.964 0.338518
## Exports_BySAlto -2.679e+12 6.612e+11 -4.051 0.000140 ***
## Exports_BySMuy alto -3.528e+12 1.059e+12 -3.331 0.001442 **
## Importaciones_ByS 1.091e-01 7.582e-01 0.144 0.886003
## Gross_capital 8.051e+00 4.728e-01 17.028 < 2e-16 ***
## DesarrolladoSi -7.030e+11 1.975e+11 -3.560 0.000706 ***
## ContinentesAmerica -6.778e+10 1.760e+11 -0.385 0.701371
## ContinentesAsia 3.461e+11 1.687e+11 2.051 0.044358 *
## ContinentesEuropa 4.678e+11 2.229e+11 2.099 0.039797 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 4.085e+11 on 64 degrees of freedom
## Multiple R-squared: 0.9333, Adjusted R-squared: 0.9229
## F-statistic: 89.57 on 10 and 64 DF, p-value: < 2.2e-16
Interpretaciones de los resultados NO significativos del modelo
Esperanza_vida: El modelo no muestra que esta variable tenga un
efecto importante en el PIB. Esto podría ser porque si la esperanza de
vida fuera cero (lo cual no ocurre en la realidad), sería como hablar de
un país inexistente. Además, es posible que esta variable no influya
directamente en el PIB, sino que sea más bien un reflejo del nivel de
desarrollo económico, una consecuencia en lugar de una causa.
Exports_ByS: Tampoco se encontró un efecto importante de esta
variable en el PIB. Una posible razón es que no todos los países que
exportan mucho distribuyen esa riqueza internamente. Por eso, tener
muchas exportaciones no garantiza un PIB más alto.
Imports_ByS: Al igual que con las exportaciones, las importaciones
no muestran un impacto claro sobre el PIB. Esto puede explicarse porque
importar mucho puede significar que un país tiene una economía activa y
productiva, o también que es muy dependiente del exterior. En resumen,
el efecto de las importaciones no es directo ni predecible.
América (continente): En este continente hay países con economías
muy grandes, como EE.UU., y otros con economías más pequeñas o en
desarrollo. Esta mezcla tan grande hace que, en promedio, no se vea un
efecto claro del continente sobre el PIB en el modelo.
Intercepto: El intercepto no tiene mucha importancia práctica, ya
que representa el PIB cuando todas las variables están en cero, algo que
no ocurre en la realidad. Por eso, no influye en la interpretación del
modelo.
Interpretaciones de los resultados SÍ significativos del modelo
Gross_capital: Esta es la variable más importante del modelo. A
medida que un país invierte más en capital bruto (como maquinaria,
edificios o infraestructura), su PIB tiende a crecer. Esto tiene mucho
sentido, porque ese tipo de inversión impulsa la producción, mejora la
infraestructura y genera empleo. En resumen, los países que invierten
más, suelen tener economías más fuertes.
Desarrollado (Sí): El modelo muestra que ser un país desarrollado se
asocia con un PIB más bajo, lo cual puede parecer contradictorio. Sin
embargo, puede tener varias explicaciones. Por ejemplo, los países
desarrollados suelen tener economías estables pero con menor crecimiento
bruto, mientras que los países en desarrollo pueden tener PIB más altos
por población o recursos naturales. También puede ser que esta variable
esté relacionada con otras que ya explican el efecto, como el capital
bruto o el continente.
Continente (Asia): Pertenecer a Asia se relaciona con un aumento
considerable del PIB en comparación con África. Esto refleja el peso
económico de países como China, India o Japón, que han crecido mucho en
las últimas décadas gracias a la industria, la tecnología y el
comercio.
Continente (Europa): Al igual que Asia, ser parte de Europa también
se relaciona con un PIB mayor respecto a África. Esto tiene sentido, ya
que muchas economías europeas son sólidas, tienen alto nivel educativo,
buena infraestructura y participan activamente en el comercio mundial.
Aunque no crezcan tan rápido como algunos países asiáticos, su base
económica es fuerte.
Explicación Adjusted R-squared: 0.8827
El valor ajustado de R² es de 0.8827, lo que significa que el modelo
logra explicar casi el 88% de las diferencias en el PIB entre los
países. Este valor es una buena señal, porque además tiene en cuenta
cuántas variables usamos, ya que si el modelo tuviera muchas variables
innecesarias, este número sería más bajo. Por eso, se considera que el
modelo está bien hecho y que las variables elegidas ayudan a entender
bastante bien cómo varía el PIB.
Sin embargo, aunque este resultado es bastante bueno, no todas las
variables del modelo están aportando mucho. Esto quiere decir que
probablemente podríamos quitar algunas sin afectar demasiado la calidad
de las predicciones. En resumen, el modelo es sólido, pero todavía se
puede mejorar un poco haciéndolo más simple.
Explicación de los residuals del modelo
Los errores del modelo al predecir el PIB varían mucho entre países.
En el peor de los casos, el modelo puede equivocarse subestimando el PIB
en unos 2.13 billones, o sobreestimando en unos 2.61 billones. Esto
significa que, aunque el modelo acierta en promedio, puede fallar
bastante en algunos países.
La mayoría de los errores están más cerca del cero (la mediana es de
unos -8.8 mil millones), lo que indica que el modelo no tiende a
equivocarse siempre para un mismo lado. Sin embargo, como hay tanta
diferencia entre el menor y el mayor error, es probable que haya países
con características muy distintas al resto, lo que hace que el modelo no
funcione tan bien para ellos.
Incluso si miramos solo los errores más comunes, es decir, los que
están dentro del rango intermedio, siguen siendo bastante grandes: van
desde unos -81 mil millones hasta +102 mil millones. En resumen, el
modelo sirve para tener una idea general del PIB, pero puede ser poco
preciso en algunos casos, especialmente si se quiere analizar país por
país.
Evaluación de los supuestos
Al momento de realizar un modelo de regresión, debemos tener en
cuenta el cumplimiento de ciertos supuestos y no confiar únicamente en
los resultados. Para esto, tuvimos en cuenta la linealidad, normalidad y
varianza constante, de manera gráfica para ver si hay datos que afectan
demasiado el modelo, si los errores son constantes, si siguen una
distribución normal y si el modelo realmente toma bien la relación entre
las variables. A continuación, se presentan los gráficos obtenidos.
Supuesto de normalidad de los residuos
##
## Shapiro-Wilk normality test
##
## data: modelo1$residuals
## W = 0.85118, p-value = 3.56e-07
##
## Lilliefors (Kolmogorov-Smirnov) normality test
##
## data: modelo1$residuals
## D = 0.17023, p-value = 1.243e-05

Al analizar los valores de p nos damos cuenta que al ser muchísimo
menores a 0.05 se rechaza la hipótesis nula para ambos tests, rechazando
entonces la hipótesis de normalidad, por lo que los residuos no siguen
una distribución normal, lo cual puede afectar los supuestos del modelo
de regresión lineal, como la validez de inferencias y tests
estadísticos.
Qué estaba mal con la evaluación de este supuesto? El PIB es una
variable económica que suele tener una distribución sesgada a la derecha
(muchos países con PIB bajo y pocos con PIB muy alto), este sesgo se
transmite a los residuos, que rompen el supuesto de normalidad.
Al aplicar una transformación logarítmica, cambiamos las escalas de
los valores, por ejemplo: Sin transformación: un país con PIB de 1000 y
otro con 10,000 tienen una diferencia de 9000, mientras que con
logaritmo: log(1000) ≈ 6.9 y log(10000) ≈ 9.2, la diferencia es solo
~2.3; esto ayuda a reducir la dispersión, especialmente cuando hay
países con PIBs muy grandes que distorsionan el análisis.
Ahora bien, al aplicar la transformación logarítmica al PIB, se
realizaron nuevamente las pruebas de normalidad Shapiro-Wilk y
Lilliefors sobre los residuos del modelo ajustado. En ambos casos, los
resultados arrojaron p-valores mayores a 0.05 (0.5634 y 0.9754
respectivamente), lo que indica que no se puede rechazar la hipótesis
nula de normalidad. Por tanto, se concluye que los residuos del modelo
con el logaritmo del PIB se distribuyen aproximadamente de forma normal,
cumpliendo así con el supuesto fundamental de normalidad para los
modelos de regresión lineal. Esto valida estadísticamente la
transformación realizada y mejora la fiabilidad del modelo.
Supuesto de linealidad

El gráfico de residuos vs. valores ajustados muestra una patrón
curvo y una tendencia no aleatoria en la distribución de los residuos.
Esto indica que el supuesto de linealidad no se cumple completamente. En
un modelo que cumple con este supuesto, se esperaría ver una nube de
puntos dispersos de forma aleatoria alrededor de la línea horizontal (en
cero), sin formar estructuras o patrones. En cambio, aquí los residuos
tienden a seguir una curva (lo que se ve reflejado también en la línea
roja suavizada), lo que sugiere que la relación entre las variables
independientes y la variable dependiente no es completamente
lineal.
Nuevamente trabajar con una transformación logarítmica influye
positivamente en la evaluación e interpretación de los supuestos, en
este caso de linealidad; observamos que los residuos se distribuyen de
forma más centrada alrededor de la línea horizontal en cero y sin una
tendencia clara o patrón curvo dominante. Aunque todavía hay cierta
dispersión, la línea roja suavizada (loess) es más plana en comparación
con el modelo anterior, lo que sugiere una mejora en la linealidad. Por
tanto, la transformación logarítmica del PIB ayudó a aproximar mejor el
supuesto de linealidad, haciéndolo más razonable para continuar con la
interpretación del modelo de regresión.
Supuesto de varianza constante

Este gráfico permite ver si los errores del modelo se comportan de
manera constante. En este caso, se ve que los errores aumentan a medida
que los valores crecen, lo que indica que la variabilidad no es
constante (hay heterocedasticidad).
##
## Call:
## lm(formula = log(PIB_GDP) ~ Esperanza_vida + Exports_ByS + Importaciones_ByS +
## Gross_capital + Desarrollado + Continentes, data = basesita)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.01217 -0.75630 -0.01962 0.73289 2.10964
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.964e+01 2.199e+00 8.929 7.51e-13 ***
## Esperanza_vida 6.940e-02 3.348e-02 2.073 0.042225 *
## Exports_BySMedio -2.790e+00 1.137e+00 -2.454 0.016855 *
## Exports_BySAlto -5.935e+00 1.901e+00 -3.122 0.002695 **
## Exports_BySMuy alto -1.027e+01 3.045e+00 -3.373 0.001265 **
## Importaciones_ByS 7.886e-12 2.180e-12 3.618 0.000587 ***
## Gross_capital 2.907e-12 1.359e-12 2.139 0.036281 *
## DesarrolladoSi -7.940e-01 5.678e-01 -1.398 0.166864
## ContinentesAmerica 2.374e-01 5.059e-01 0.469 0.640498
## ContinentesAsia 6.072e-01 4.851e-01 1.252 0.215247
## ContinentesEuropa 1.051e-01 6.409e-01 0.164 0.870312
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.174 on 64 degrees of freedom
## Multiple R-squared: 0.6825, Adjusted R-squared: 0.6329
## F-statistic: 13.76 on 10 and 64 DF, p-value: 1.533e-12
Al momento de plantear un nuevo modelo pero con el PIB transformado
logarítmamente se evidencia un cambio prudente en los resultados de
este, variables que pierden significancia y otras ganándola, cambios en
los residuals y en el R ajustado, cambiando así la interpretación de
cada apartado.
Conclusiones
El análisis de regresión lineal múltiple realizado sobre los datos
de 75 países permitió identificar variables clave que se asocian
significativamente con el Producto Interno Bruto (PIB). Sin embargo, no
todas las variables explicativas resultaron significativas por separado.
Las variables Gross_capital, Desarrollado, ContinentesAsia y
ContinentesEuropa tienen un efecto significativo sobre la variable
dependiente, ya que sus valores p son menores a 0.05. Esto quiere decir
que estas variables aportan información útil para explicar los cambios
en la variable objetivo.
En cambio, variables como Esperanza_Vida, Exports_ByS,
Importaciones_ByS y ContinentesAmerica no mostraron una influencia
significativa en el modelo, lo cual sugiere que podrían eliminarse o
revisarse en futuros análisis.
Aplicar una transformación logarítmica al PIB permitió mejorar
notablemente el modelo de regresión. Esta transformación ayudó a que los
errores del modelo se comportaran de manera más adecuada, especialmente
en cuanto a su distribución. Antes, los errores no seguían una forma
normal, lo cual podría afectar la validez de los resultados. Después del
ajuste, los errores mostraron un comportamiento mucho más apropiado, lo
que da mayor confianza en las conclusiones del modelo.
Además de mejorar la distribución de los errores, el cambio en la
escala del PIB también hizo que la relación entre las variables fuera
más clara y estable. El nuevo modelo mostró una distribución más
equilibrada de los residuos, lo que sugiere que ahora se representa
mejor la relación entre las variables estudiadas. También se redujo el
problema de que los errores aumentaban con los valores, lo cual mejora
la interpretación y confiabilidad del modelo final.