Introducción

El Producto Interno Bruto (PIB) es el valor total de todos los bienes y servicios finales producidos dentro de un país en un período determinado. Esta es la medida más utilizada para evaluar el tamaño y el crecimiento de una economía. Es por esto que en el siguiente estudio se realizará un análisis acerca del comportamiento del PIB en 76 países alrededor del mundo, principalmente de 4 continentes. Además, se examinarán los factores asociados a este indicador de la actividad económica y cómo influye su interacción.

Variables categóricas:

- Continente.

- Nivel de desarrollo.

Indicadores numéricos:

- Esperanza de vida.

- Importaciones de bienes y servicios.

- Exportaciones de bienes y servicios.

- Capital Bruto.

En vista del crecimiento económico desigual entre países, se plantean algunos factores que contribuyen a las diferencias en el PIB. Este análisis busca identificar relaciones estadísticamente significativas entre estas variables, con el objetivo de comprender el impacto que tienen.

Metodología

En este estudio se aplicó un modelo de regresión lineal múltiple con el fin de analizar cómo diferentes factores económicos y sociales influyen sobre el PIB (Producto Interno Bruto) de distintos países.

La regresión lineal múltiple permite observar el efecto individual de cada variable independiente sobre el PIB, mientras se controlan las demás. Es decir, nos ayuda a entender qué tanto cambia el PIB cuando una variable específica aumenta o disminuye, manteniendo las demás constantes.

Para este modelo se incluyeron las siguientes variables como:

Variable dependiente:

PIB, valor representado en millones de dólares.

Variables independientes:

Países: seleccionados aleatoriamente de una base de datos que recopila información para diversas áreas.

Esperanza de vida, un promedio de los años de vida que tienden a alcanzar las personas de cada país.

Exportaciones e importaciones de bienes y servicios: expresado también en dólares para cada país

Capital bruto: se refiere al valor total de los activos físicos que una economía, empresa o sector ha acumulado para producir bienes y servicios.

Nivel de desarrollo: (si es país desarrollado o no).

Continente: al que pertenece cada país país.

Matriz de correlaciones

Gracias a esta gráfica podemos establecer descendentemente el orden de las correlaciones de cada variable independiente con nuestra variable dependiente (PIB): 1- Gross Capital (0.90), 2- Importaciones ByS (0.68), 3- Exports ByS (0.64), 4- Esperanza vida (0.24); se hizo uso únicamente las variables numéricas del ejercicio, ya que la matriz de correlaciones solo trabaja con valores numéricos.

Adicional a eso, nuestra matriz muestra que el PIB se relaciona fuertemente con la formación bruta de capital y moderadamente con importaciones y exportaciones, indicando que la inversión y el comercio impulsan la economía. La esperanza de vida tiene una correlación débil (0.24), sugiriendo una relación menos directa con el crecimiento económico.

La fórmula general del modelo se define así:

PIB = β₀ + β1(Esperanza.vida) + β2(Exports.ByS) + β3(Importaciones.ByS) + β4(Gross.capital) + β5(Desarrollado)+ β6(Continentes)

Donde β₀ es el intercepto o valor base del PIB cuando todas las variables son cer, las βᵢ representan el efecto que tiene cada variable sobre el PIB y el error (ϵ) es el término de error aleatorio.

PIB = 798.400.000.000 - 11.690.000.000(Esperanza.vida) + 0,7698(Exports.ByS) - 2,590(Importaciones.ByS) + 7,865(Gross.capital) - 716.000.000.000(Desarrollado) + 28.520.000.000(América) + 558.700.000.000(Asia) + 593.600.000.000(Europa)

Interpretación de los coeficientes:

β0 = valor base del PIB cuando todas las variables son cero.

β1 = es un valor relevante y no significativo para nuestro modelo, sin embargo, influye negativamente en el valor del PIB 11.690.000.000 unidades (inversamente proporcional).

β2 = variable con coeficiente positivo de aproximadamente 0,7698 unidades, lo que sugiere que un aumento en las exportaciones se asocia con un incremento del PIB. Sin embargo, su valor p indica que no es estadísticamente significativo.

β3 = valor que actúa negativamente en el modelo, disminuyendo el PIB en aproximadamente 2,590 unidades pero según los valores de p obtenidos no es relevante, por lo tanto, no podemos afirmar con certeza que este efecto negativo sea real o importante en el modelo.

β4 = es la variable con mayor peso positivo, esto indica que por cada punto que aumente el capital bruto, el PIB aumentará 7,865 unidades (directamente proporcional).

β5 = variable categórica binaria (1 = país desarrollado, 0 = no desarrollado). Contrario a lo que podría esperarse, este modelo estima que pertenecer al grupo de países desarrollados está asociado con una disminución del PIB de716.000.000.000 unidades, lo cual podría estar reflejando efectos de colinealidad.

β6 = variable categórica nominal (0 = África, 1 = América, 2 = Asia, 3 = Europa), en este caso, se toma África como categoría base. Por un lado, América influye en28.520.000.000 unidades más que África en el PIB. De igual manera, Asia influye 558.700.000.000 unidades en comparación a la influencia de África en el PIB. Finalmente, Europa actúa positivamente con 593.600.000.000 unidades al PIB en comparación con la categoría base.

Estadísticas descriptivas

A continuación, se presentan las estadísticas descriptivas de las variables numéricas y categóricas del estudio. Para las variables numéricas se calcularon medidas de tendencia central y dispersión (media, mediana, moda y desviación estándar), lo cual permite entender el comportamiento general de los datos. En el caso de las variables categóricas, se muestran las frecuencias absolutas y relativas, útiles para conocer la distribución de los países según continente y nivel de desarrollo.

Tabla de estadísticas descriptivas numericas

## # A tibble: 5 × 5
##   Variable            Media Mediana         Moda Desviacion
##   <chr>               <dbl>   <dbl>        <dbl>      <dbl>
## 1 PIB_GDP           6.45e11 1.29e11 1682077000      1.47e12
## 2 Esperanza_vida    7.21e 1 7.41e 1         54.5    7.55e 0
## 3 Exports_ByS       1.44e11 1.95e10  142583535      2.86e11
## 4 Importaciones_ByS 1.40e11 2.49e10  364657062      2.70e11
## 5 Gross_capital     1.08e11 1.76e10  161051872.     2.28e11

Tabla de estadísticas descriptivas categóricas

## 
##  Africa America    Asia  Europa 
##      31      11      21      12
## 
##    Africa   America      Asia    Europa 
## 0.4133333 0.1466667 0.2800000 0.1600000
## 
## No Si 
## 58 17
## 
##        No        Si 
## 0.7733333 0.2266667

Análisis de relaciones

A continuación, se planteará gráficamente la correlación entre nuestra variable dependiente (PIB_GDP) en función de las variables numéricas y categóricas establecidas previamente, con el fin de apoyarnos gráficamente de la relación que existe entre ellas a la hora de calificar o establecer el PIB del país, procurando encontrar su relevancia en el cálculo de este.

En el gráfico se observa la relación entre la esperanza de vida y el Producto Interno Bruto (PIB) de diferentes países. La línea azul representa la tendencia general: a mayor esperanza de vida, suele haber un PIB más alto. Sin embargo, hay un punto que se aleja bastante de esa tendencia. Este punto muestra un país con una esperanza de vida promedio (alrededor de 71 años) pero con un PIB extremadamente alto. Esto indica que, aunque su esperanza de vida no es la más alta, su economía es muy poderosa, ya sea por factores como desarrollo tecnológico o tamaño de la economía (importaciones/exportaciones).

Aunque el gráfico muestra que algunos países con mayores niveles de exportaciones también tienen un PIB elevado, la relación no es totalmente directa ni creciente. Por ejemplo, un país asiático con exportaciones a nivel medio tiene un PIB mucho mayor que otros con exportaciones altas o muy altas, es decir, el PIB de un país no depende únicamente de sus exportaciones.

Este gráfico de cajas lo que nos está indicando es que la categorización de desarrollo y no desarrollo no siempre es determinada por el PIB de un país, pues como se puede evidenciar, hay países con un PIB significativamente alto y que a su vez no son desarrollados; esto nos indica que debemos tener en cuenta otros factores (variables) determinantes.

Este gráfico de dispersión nos indica que hay una relación positiva entre el capital bruto y el PIB, ya que en el gráfico se nota que a mayor Capital bruto mayor es el PIB de un país al menos en la gran mayoría de países. Sin embargo, la mayoría de países se encuentran en la parte inferior izquierda del gráfico, lo que indica niveles relativamente bajos de PIB y Capital bruto, siendo muy posiblemente los países no desarrollados.

En este gráfico de dispersión se observa que los países con mayor PIB tienden también a registrar mayores niveles de importaciones, lo que sugiere una relación positiva entre ambas variables. A pesar de esta tendencia general, la mayoría de los países se agrupan en el cuadrante inferior izquierdo, lo que indica que muchas economías tienen tanto un PIB como importaciones relativamente bajos.

El gráfico muestra la distribución del PIB en cada continente, incluyendo la mediana, el rango de valores más comunes y los posibles valores atípicos. Cada caja representa cómo se comportan los datos dentro de un continente, permitiendo ver cuál tiene PIB más alto, más bajo o más variado.

Planteamiento del modelo

## 
## Call:
## lm(formula = PIB_GDP ~ Esperanza_vida + Exports_ByS + Importaciones_ByS + 
##     Gross_capital + Desarrollado + Continentes, data = basesita)
## 
## Residuals:
##        Min         1Q     Median         3Q        Max 
## -1.348e+12 -1.288e+11 -1.845e+10  1.321e+11  1.602e+12 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          9.142e+11  7.650e+11   1.195 0.236445    
## Esperanza_vida      -1.394e+10  1.165e+10  -1.197 0.235623    
## Exports_BySMedio    -3.813e+11  3.954e+11  -0.964 0.338518    
## Exports_BySAlto     -2.679e+12  6.612e+11  -4.051 0.000140 ***
## Exports_BySMuy alto -3.528e+12  1.059e+12  -3.331 0.001442 ** 
## Importaciones_ByS    1.091e-01  7.582e-01   0.144 0.886003    
## Gross_capital        8.051e+00  4.728e-01  17.028  < 2e-16 ***
## DesarrolladoSi      -7.030e+11  1.975e+11  -3.560 0.000706 ***
## ContinentesAmerica  -6.778e+10  1.760e+11  -0.385 0.701371    
## ContinentesAsia      3.461e+11  1.687e+11   2.051 0.044358 *  
## ContinentesEuropa    4.678e+11  2.229e+11   2.099 0.039797 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4.085e+11 on 64 degrees of freedom
## Multiple R-squared:  0.9333, Adjusted R-squared:  0.9229 
## F-statistic: 89.57 on 10 and 64 DF,  p-value: < 2.2e-16

Interpretaciones de los resultados NO significativos del modelo

Esperanza_vida: El modelo no muestra que esta variable tenga un efecto importante en el PIB. Esto podría ser porque si la esperanza de vida fuera cero (lo cual no ocurre en la realidad), sería como hablar de un país inexistente. Además, es posible que esta variable no influya directamente en el PIB, sino que sea más bien un reflejo del nivel de desarrollo económico, una consecuencia en lugar de una causa.

Exports_ByS: Tampoco se encontró un efecto importante de esta variable en el PIB. Una posible razón es que no todos los países que exportan mucho distribuyen esa riqueza internamente. Por eso, tener muchas exportaciones no garantiza un PIB más alto.

Imports_ByS: Al igual que con las exportaciones, las importaciones no muestran un impacto claro sobre el PIB. Esto puede explicarse porque importar mucho puede significar que un país tiene una economía activa y productiva, o también que es muy dependiente del exterior. En resumen, el efecto de las importaciones no es directo ni predecible.

América (continente): En este continente hay países con economías muy grandes, como EE.UU., y otros con economías más pequeñas o en desarrollo. Esta mezcla tan grande hace que, en promedio, no se vea un efecto claro del continente sobre el PIB en el modelo.

Intercepto: El intercepto no tiene mucha importancia práctica, ya que representa el PIB cuando todas las variables están en cero, algo que no ocurre en la realidad. Por eso, no influye en la interpretación del modelo.

Interpretaciones de los resultados SÍ significativos del modelo

Gross_capital: Esta es la variable más importante del modelo. A medida que un país invierte más en capital bruto (como maquinaria, edificios o infraestructura), su PIB tiende a crecer. Esto tiene mucho sentido, porque ese tipo de inversión impulsa la producción, mejora la infraestructura y genera empleo. En resumen, los países que invierten más, suelen tener economías más fuertes.

Desarrollado (Sí): El modelo muestra que ser un país desarrollado se asocia con un PIB más bajo, lo cual puede parecer contradictorio. Sin embargo, puede tener varias explicaciones. Por ejemplo, los países desarrollados suelen tener economías estables pero con menor crecimiento bruto, mientras que los países en desarrollo pueden tener PIB más altos por población o recursos naturales. También puede ser que esta variable esté relacionada con otras que ya explican el efecto, como el capital bruto o el continente.

Continente (Asia): Pertenecer a Asia se relaciona con un aumento considerable del PIB en comparación con África. Esto refleja el peso económico de países como China, India o Japón, que han crecido mucho en las últimas décadas gracias a la industria, la tecnología y el comercio.

Continente (Europa): Al igual que Asia, ser parte de Europa también se relaciona con un PIB mayor respecto a África. Esto tiene sentido, ya que muchas economías europeas son sólidas, tienen alto nivel educativo, buena infraestructura y participan activamente en el comercio mundial. Aunque no crezcan tan rápido como algunos países asiáticos, su base económica es fuerte.

Explicación Adjusted R-squared: 0.8827

El valor ajustado de R² es de 0.8827, lo que significa que el modelo logra explicar casi el 88% de las diferencias en el PIB entre los países. Este valor es una buena señal, porque además tiene en cuenta cuántas variables usamos, ya que si el modelo tuviera muchas variables innecesarias, este número sería más bajo. Por eso, se considera que el modelo está bien hecho y que las variables elegidas ayudan a entender bastante bien cómo varía el PIB.

Sin embargo, aunque este resultado es bastante bueno, no todas las variables del modelo están aportando mucho. Esto quiere decir que probablemente podríamos quitar algunas sin afectar demasiado la calidad de las predicciones. En resumen, el modelo es sólido, pero todavía se puede mejorar un poco haciéndolo más simple.

Explicación de los residuals del modelo

Los errores del modelo al predecir el PIB varían mucho entre países. En el peor de los casos, el modelo puede equivocarse subestimando el PIB en unos 2.13 billones, o sobreestimando en unos 2.61 billones. Esto significa que, aunque el modelo acierta en promedio, puede fallar bastante en algunos países.

La mayoría de los errores están más cerca del cero (la mediana es de unos -8.8 mil millones), lo que indica que el modelo no tiende a equivocarse siempre para un mismo lado. Sin embargo, como hay tanta diferencia entre el menor y el mayor error, es probable que haya países con características muy distintas al resto, lo que hace que el modelo no funcione tan bien para ellos.

Incluso si miramos solo los errores más comunes, es decir, los que están dentro del rango intermedio, siguen siendo bastante grandes: van desde unos -81 mil millones hasta +102 mil millones. En resumen, el modelo sirve para tener una idea general del PIB, pero puede ser poco preciso en algunos casos, especialmente si se quiere analizar país por país.

Evaluación de los supuestos

Al momento de realizar un modelo de regresión, debemos tener en cuenta el cumplimiento de ciertos supuestos y no confiar únicamente en los resultados. Para esto, tuvimos en cuenta la linealidad, normalidad y varianza constante, de manera gráfica para ver si hay datos que afectan demasiado el modelo, si los errores son constantes, si siguen una distribución normal y si el modelo realmente toma bien la relación entre las variables. A continuación, se presentan los gráficos obtenidos.

Supuesto de normalidad de los residuos

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo1$residuals
## W = 0.85118, p-value = 3.56e-07
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo1$residuals
## D = 0.17023, p-value = 1.243e-05

Al analizar los valores de p nos damos cuenta que al ser muchísimo menores a 0.05 se rechaza la hipótesis nula para ambos tests, rechazando entonces la hipótesis de normalidad, por lo que los residuos no siguen una distribución normal, lo cual puede afectar los supuestos del modelo de regresión lineal, como la validez de inferencias y tests estadísticos.

Qué estaba mal con la evaluación de este supuesto? El PIB es una variable económica que suele tener una distribución sesgada a la derecha (muchos países con PIB bajo y pocos con PIB muy alto), este sesgo se transmite a los residuos, que rompen el supuesto de normalidad.

A continuación, mediante estudios externos para solucionar este error, se aplicó una transformación logarítmica, con qué fin? corregir el sesgo hacia la derecha que presentaba esta variable, afectando la normalidad de los residuos.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuos_log
## W = 0.98572, p-value = 0.5634
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  residuos_log
## D = 0.043917, p-value = 0.9754

Al aplicar una transformación logarítmica, cambiamos las escalas de los valores, por ejemplo: Sin transformación: un país con PIB de 1000 y otro con 10,000 tienen una diferencia de 9000, mientras que con logaritmo: log(1000) ≈ 6.9 y log(10000) ≈ 9.2, la diferencia es solo ~2.3; esto ayuda a reducir la dispersión, especialmente cuando hay países con PIBs muy grandes que distorsionan el análisis.

Ahora bien, al aplicar la transformación logarítmica al PIB, se realizaron nuevamente las pruebas de normalidad Shapiro-Wilk y Lilliefors sobre los residuos del modelo ajustado. En ambos casos, los resultados arrojaron p-valores mayores a 0.05 (0.5634 y 0.9754 respectivamente), lo que indica que no se puede rechazar la hipótesis nula de normalidad. Por tanto, se concluye que los residuos del modelo con el logaritmo del PIB se distribuyen aproximadamente de forma normal, cumpliendo así con el supuesto fundamental de normalidad para los modelos de regresión lineal. Esto valida estadísticamente la transformación realizada y mejora la fiabilidad del modelo.

Supuesto de linealidad

El gráfico de residuos vs. valores ajustados muestra una patrón curvo y una tendencia no aleatoria en la distribución de los residuos. Esto indica que el supuesto de linealidad no se cumple completamente. En un modelo que cumple con este supuesto, se esperaría ver una nube de puntos dispersos de forma aleatoria alrededor de la línea horizontal (en cero), sin formar estructuras o patrones. En cambio, aquí los residuos tienden a seguir una curva (lo que se ve reflejado también en la línea roja suavizada), lo que sugiere que la relación entre las variables independientes y la variable dependiente no es completamente lineal.

A continuación, plantearemos el supuesto pero esta vez trabajado con el modelo transformado, para intentar solucionar este problema de linealidad haciendo un cambio de escalas:

Nuevamente trabajar con una transformación logarítmica influye positivamente en la evaluación e interpretación de los supuestos, en este caso de linealidad; observamos que los residuos se distribuyen de forma más centrada alrededor de la línea horizontal en cero y sin una tendencia clara o patrón curvo dominante. Aunque todavía hay cierta dispersión, la línea roja suavizada (loess) es más plana en comparación con el modelo anterior, lo que sugiere una mejora en la linealidad. Por tanto, la transformación logarítmica del PIB ayudó a aproximar mejor el supuesto de linealidad, haciéndolo más razonable para continuar con la interpretación del modelo de regresión.

Supuesto de varianza constante

Este gráfico permite ver si los errores del modelo se comportan de manera constante. En este caso, se ve que los errores aumentan a medida que los valores crecen, lo que indica que la variabilidad no es constante (hay heterocedasticidad).

## 
## Call:
## lm(formula = log(PIB_GDP) ~ Esperanza_vida + Exports_ByS + Importaciones_ByS + 
##     Gross_capital + Desarrollado + Continentes, data = basesita)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -3.01217 -0.75630 -0.01962  0.73289  2.10964 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          1.964e+01  2.199e+00   8.929 7.51e-13 ***
## Esperanza_vida       6.940e-02  3.348e-02   2.073 0.042225 *  
## Exports_BySMedio    -2.790e+00  1.137e+00  -2.454 0.016855 *  
## Exports_BySAlto     -5.935e+00  1.901e+00  -3.122 0.002695 ** 
## Exports_BySMuy alto -1.027e+01  3.045e+00  -3.373 0.001265 ** 
## Importaciones_ByS    7.886e-12  2.180e-12   3.618 0.000587 ***
## Gross_capital        2.907e-12  1.359e-12   2.139 0.036281 *  
## DesarrolladoSi      -7.940e-01  5.678e-01  -1.398 0.166864    
## ContinentesAmerica   2.374e-01  5.059e-01   0.469 0.640498    
## ContinentesAsia      6.072e-01  4.851e-01   1.252 0.215247    
## ContinentesEuropa    1.051e-01  6.409e-01   0.164 0.870312    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.174 on 64 degrees of freedom
## Multiple R-squared:  0.6825, Adjusted R-squared:  0.6329 
## F-statistic: 13.76 on 10 and 64 DF,  p-value: 1.533e-12

Al momento de plantear un nuevo modelo pero con el PIB transformado logarítmamente se evidencia un cambio prudente en los resultados de este, variables que pierden significancia y otras ganándola, cambios en los residuals y en el R ajustado, cambiando así la interpretación de cada apartado.

Conclusiones

El análisis de regresión lineal múltiple realizado sobre los datos de 75 países permitió identificar variables clave que se asocian significativamente con el Producto Interno Bruto (PIB). Sin embargo, no todas las variables explicativas resultaron significativas por separado. Las variables Gross_capital, Desarrollado, ContinentesAsia y ContinentesEuropa tienen un efecto significativo sobre la variable dependiente, ya que sus valores p son menores a 0.05. Esto quiere decir que estas variables aportan información útil para explicar los cambios en la variable objetivo.

En cambio, variables como Esperanza_Vida, Exports_ByS, Importaciones_ByS y ContinentesAmerica no mostraron una influencia significativa en el modelo, lo cual sugiere que podrían eliminarse o revisarse en futuros análisis.

Aplicar una transformación logarítmica al PIB permitió mejorar notablemente el modelo de regresión. Esta transformación ayudó a que los errores del modelo se comportaran de manera más adecuada, especialmente en cuanto a su distribución. Antes, los errores no seguían una forma normal, lo cual podría afectar la validez de los resultados. Después del ajuste, los errores mostraron un comportamiento mucho más apropiado, lo que da mayor confianza en las conclusiones del modelo.

Además de mejorar la distribución de los errores, el cambio en la escala del PIB también hizo que la relación entre las variables fuera más clara y estable. El nuevo modelo mostró una distribución más equilibrada de los residuos, lo que sugiere que ahora se representa mejor la relación entre las variables estudiadas. También se redujo el problema de que los errores aumentaban con los valores, lo cual mejora la interpretación y confiabilidad del modelo final.

Bibliografía

Barandica, O. J. (s. f.). Orlando Joaqui Barandica. Orlando Joaqui Barandica. https://www.joaquibarandica.com/

Education spending as a share of total government expenditure. (2025, 15 enero). Our World In Data. https://ourworldindata.org/grapher/share-of-education-in-government-expenditure?tab=table&time=2021..2022

World Development Indicators | DataBank. (s. f.). https://databank.worldbank.org/source/world-development-indicators#