Fandiño Herran Isabela; Goyes Chaves Santiago; Gonzalez Acevedo Dilan; Mondragon Alejandra.
En este trabajo se emplea un enfoque macroeconómico integral para analizar las diferencias en el desempeño económico entre 193 países en el año 2018, utilizando técnicas de aprendizaje supervisado aplicadas a variables clave como el PIB per cápita, la esperanza de vida, el IDH, la productividad laboral, la apertura comercial y la intensidad energética. El análisis se fundamenta en los principios de la teoría macroeconómica, que examina cómo interactúan los factores productivos, las instituciones y las políticas públicas para determinar los resultados económicos.
Mediante el uso del algoritmo KNN y árboles de decisión, el modelo busca identificar patrones y relaciones entre estas variables macroeconómicas, superando los enfoques tradicionales que las analizan de forma aislada. Los resultados proporcionarán evidencia cuantitativa sobre qué combinaciones de factores económicos y sociales se asocian con diferentes niveles de desempeño nacional, permitiendo un análisis comparativo entre países dentro del marco de la macroeconomía moderna.
Para este análisis, se han considerado las siguientes variables, cada una de las cuales aporta información relevante sobre el desarrollo macroeconómico de un país
Mide el valor económico promedio por persona en un país. Un PIB per cápita alto suele asociarse con mayor desarrollo, aunque no considera desigualdades internas ni diferencias en el costo de vida entre países y es crucial para comparar el bienestar económico entre países y evaluar su convergencia macroeconómica.
Indica los años que se espera que viva una persona al nacer, reflejando la calidad de los sistemas de salud, nutrición y condiciones de vida. Es un indicador macroeconómico de salud poblacional.
La pobreza extrema se define como vivir por debajo de la Línea Internacional de pobreza, establecida en $2.15 dólares por día. Estos datos están ajustados por inflación y por las diferencias en los costos de vida entre países. Es un indicador crítico del bienestar social.
Es una medida resumida de las dimensiones clave del desarrollo humano: una vida larga y saludable, una buena educación y un nivel de vida digno. Esta variable combina la esperanza de vida, la educación y el PIB per cápita en una métrica compuesta, donde valores más altos indican un mayor desarrollo humano.
El desempleo se refiere a la proporción de la fuerza laboral que no tiene trabajo, pero está disponible y en búsqueda activa de empleo. Un nivel elevado de desempleo puede reflejar problemas estructurales en la economía.
La suma de las exportaciones e importaciones de bienes y servicios, dividida por el producto interno bruto y expresada como un porcentaje, se conoce como el “índice de apertura comercial”. Este índice mide la integración de un país en la economía global. Los países con mayor apertura suelen tener economías más dinámicas, aunque también pueden ser más vulnerables a crisis externas.
La productividad se mide como el producto interno bruto (PIB) por hora de trabajo. Estos datos están ajustados por inflación y por las diferencias en los costos de vida entre países. Este indicador evalúa la eficiencia económica, y un mayor nivel de productividad sugiere una mejor tecnología, capacitación laboral y gestión de recursos.
El Índice de Capital Humano (HCI) combina indicadores de salud y educación para estimar el potencial productivo de futuras generaciones. Mide el capital humano que un niño nacido hoy puede esperar obtener para su 18º cumpleaños, en una escala de 0 a 1. Un HCI alto indica una mejor preparación para el crecimiento económico sostenido, ya que valores más altos reflejan un mayor capital humano esperado. Este índice se presenta junto con el PIB per cápita de 2018 para evaluar la relación entre el capital humano y el desempeño económico.
Mide cuánta energía se usa para producir una unidad de PIB. Menores valores indican mayor eficiencia energética, lo cual es clave para el desarrollo sostenible. La cantidad de energía necesaria para producir una unidad de producción económica se mide en megajulios por dólar, ajustados por inflación y por las diferencias en los costos de vida entre países. Un valor más bajo significa que las economías producen valor económico de manera menos intensiva en energía.
la variable objetivo escogida para el analisis es “Esperanza de vida” esto debido a quee refleja de manera integral los avances en salud pública, condiciones socioeconómicas y calidad de vida. Este indicador resume el impacto de factores como el acceso a servicios de salud, condiciones de vida básicas, estabilidad socioeconómica e inversión en desarrollo humano. Además, la esperanza de vida es un indicador más estable y menos susceptible a fluctuaciones económicas a corto plazo que otras variables como el PIB.
Para este análisis, se ha cortado la esperanza de vida en dos grupos: países con esperanza de vida superior a 75 años y aquellos con esperanza de vida igual o inferior a 75 años. Se considera que los países con esperanza de vida superior a 75 años son más propensos a estar desarrollados, en términos macroeconómicos, y los países con esperanza de vida inferior a 75 años, como países en desarrollo. Este umbral de 75 años está respaldado por criterios internacionales, como los establecidos por la OMS, que clasifican a los países con esperanza de vida superior a 75 años como aquellos con alto desarrollo humano.
El corte también tiene base en un análisis estadístico que muestra que los países con esperanza de vida superior a 75 años están en el 30% superior de la distribución global, lo que se correlaciona con economías más avanzadas. Además, este umbral se asocia con otros indicadores de desarrollo como el IDH elevado y PIB per cápita alto lo que refuerza su relevancia como indicador clave de desarrollo macroeconómico.
Primeramente, para llevar a cabo el modelo, se seleccionan las variables de la base de datos Our World in Data, con el objetivo de ajustarlas al modelo KNN, utilizando como variable objetivo la esperanza de vida. Esta variable refleja la cantidad de años que se espera que una persona viva después de nacer. Como primer paso, se cargan todas las librerías necesarias para la implementación del modelo. Posteriormente, mediante la función filter, se selecciona un año específico, en este caso 2018.
Se eligen 10 variables, las cuales se renombran de la siguiente manera:
Una vez listas estas variables, se integran en una sola base de datos para aplicar aprendizaje supervisado. En este enfoque, se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Luego, se realiza una limpieza de datos eliminando aquellas filas que contienen una cantidad significativa de valores faltantes (NA). Posteriormente, se crea la variable binaria objetivo con el fin de construir los modelos KNN y de árbol de decisión. Para evaluar estos modelos, se tienen en cuenta tres métricas fundamentales, basadas en los siguientes conceptos:
Métricas de evaluación:
Fórmula: Accuracy = (VP + VN) / (VP + VN + FP + FN)
Fórmula: Sensitivity = VP / (VP + FN)
Fórmula: Specificity = VN / (VN + FP)
Además, se utiliza una matriz de confusión tanto para el modelo KNN como para el árbol de decisión. Esta matriz consiste en una tabla que muestra la comparación entre las predicciones del modelo y los valores reales de las clases. Es especialmente útil en problemas de clasificación binaria.
A continuación se presenta una tabla que reune en ella las estadísticas de las variables para los paises usados para la creación de los modelos:
| GDP_per_capita | Extreme_Poverty | HDI | Unemployment_Rate | Trade_as_Share_of_GDP | Labor_Productivity | Human_capital_index | Energy_Intensity | |
|---|---|---|---|---|---|---|---|---|
| Min. : 1562 | Min. : 0.00000 | Min. :0.5350 | Min. : 0.766 | Min. : 27.45 | Min. : 5.983 | Min. :0.3993 | Min. :1.290 | |
| 1st Qu.: 9675 | 1st Qu.: 0.08111 | 1st Qu.:0.8020 | 1st Qu.: 3.831 | 1st Qu.: 59.14 | 1st Qu.: 20.987 | 1st Qu.:0.6169 | 1st Qu.:2.590 | |
| Median : 18769 | Median : 0.29025 | Median :0.8820 | Median : 5.131 | Median : 79.24 | Median : 35.467 | Median :0.7290 | Median :3.220 | |
| Mean : 27646 | Mean : 1.17710 | Mean :0.8532 | Mean : 5.925 | Mean :100.09 | Mean : 41.450 | Mean :0.6959 | Mean :3.502 | |
| 3rd Qu.: 43874 | 3rd Qu.: 0.99979 | 3rd Qu.:0.9210 | 3rd Qu.: 7.361 | 3rd Qu.:130.40 | 3rd Qu.: 58.101 | 3rd Qu.:0.7685 | 3rd Qu.:4.140 | |
| Max. :106377 | Max. :11.09628 | Max. :0.9600 | Max. :19.179 | Max. :362.42 | Max. :112.763 | Max. :0.8345 | Max. :8.230 |
En la tabla anterior no se incluyo la variable “Life Expectancy” o esperanza de vida pues es una de las variables que deseamos analisar mas individualmente, para esto está el siguiente diagrama de cajas que reune las estadisticas descriptivas unicamente de la variable esperanza de vida:
El diagrama de cajas muestra la distribución de la esperanza de vida en un conjunto de países. La mediana se sitúa alrededor de los 78.8 años, lo que indica que la mitad de los países tienen una esperanza de vida igual o superior a ese valor. La mayoría se concentra entre los 75.9 y 81.7 años, con una variabilidad moderada. Se observan algunos valores atípicos en el extremo inferior, donde uno o más países presentan esperanzas de vida notablemente más bajas (alrededor de 66 años), lo cual sugiere contextos de desarrollo menos favorable. La dispersión hacia abajo es mayor, lo que puede reflejar desigualdades en salud, condiciones sociales o económicas. En conjunto, el gráfico evidencia una tendencia general positiva, pero con excepciones.
En la matriz de correlación observamos agrupamientos claros entre variables que tienden a estar relacionadas de manera similar. Por ejemplo, el índice de capital humano, el HDI, la esperanza de vida, el PIB per cápita y la productividad laboral estan fuertemente correlacionadas, son variables que pueden cambiar juntas. Un analisis a esto es que paises con alto indice humano presentan mejores condiciones, tanto económicas como laborales frente a los paises que no.
Algo a analisar es que la intensidad energética muestra una correlación con tendencia negátiva con las variables anteriormente mencionadas, lo cual es curioso pues se podria pensar que las variables que definen el estado económico, y la intensidad enérgetica que habla de cuanto produce un pais o qué tan eficiente es un país usando energía para producir bienes y servicios estarían fuertemente relacionadas, aunque esta correlación baja con tendencia negativa podria ser simplemente un caso aislado de este conjunto de datos.
Para poder realizar los modelos se definió una variable binaria apartir de nuestra variables de esperanza de vida llamada “Vida Larga”, al inicio el corte de edad con la cual se consideró si los habitantes de un país tiene una vida larga o no, fué de 75 años, pero al realizar el modelo se evidenció que este corte dejaba un desbalance grande entre los datos que se usarian para entrenar el modelo y los datos que se usarian para ser analizados, por esta razón la edad de corte tuvo que ser movida a 80 años.
A continuación un gráfico que muestra la distribución en esta variable:
Como se puede ver la distribución entre los valores de sí y no que toma la variable de vida larga está equilibrado dentro de lo que cabe y según la cantidad de paises con la que se trabajó para los modelos.
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Si
## No 8 0
## Si 0 7
##
## Accuracy : 1
## 95% CI : (0.782, 1)
## No Information Rate : 0.5333
## P-Value [Acc > NIR] : 8.035e-05
##
## Kappa : 1
##
## Mcnemar's Test P-Value : NA
##
## Sensitivity : 1.0000
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 1.0000
## Prevalence : 0.5333
## Detection Rate : 0.5333
## Detection Prevalence : 0.5333
## Balanced Accuracy : 1.0000
##
## 'Positive' Class : No
##
| Prediction | Reference | Freq |
|---|---|---|
| No | No | 8 |
| Si | No | 0 |
| No | Si | 0 |
| Si | Si | 7 |
| Metrica | Accuracy | Kappa | AccuracyLower | AccuracyUpper | AccuracyNull | AccuracyPValue | McnemarPValue |
|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 0.7819806 | 1 | 0.5333333 | 8.03e-05 | NaN |
| Metrica | Sensitivity | Specificity | Pos Pred Value | Neg Pred Value | Precision | Recall | F1 | Prevalence | Detection Rate | Detection Prevalence | Balanced Accuracy |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0.5333333 | 0.5333333 | 0.5333333 | 1 |
La matriz de confusión obtenida muestra que el modelo clasificó correctamente todos los casos: predijo correctamente los 8 países sin esperanza de vida alta y los 7 países con esperanza de vida alta, sin cometer errores. Esto se traduce en una exactitud (accuracy) del 100%, lo que indica que el modelo tuvo un desempeño perfecto sobre los datos de prueba con el número de vecinos que usó que fué de 10.
Tanto la sensibilidad como la especificidad fueron de 1.0. La sensibilidad nos dice que el modelo identificó correctamente a todos los países que no tienen una esperanza de vida alta. La especificidad indica que también identificó correctamente a todos los que sí la tienen. En otras palabras, el modelo no cometió falsos positivos ni falsos negativos.
Aunque esto muestra que el modelo quedó bien entrenado, consideramos que se debe a los datos con los que se contaba para esto, pues la distribución para los datos de entrenamiento y los datos a testear fué desbalanceada. Quizá con un conjunto de datos más grande y una distribución de datos para entrenamiento y datos para testeo mucho más amplia pudiese haber sido diferente el resultado del modelo y quizás haber cometido predicciones erroneas, esto es solo una interpretación a los resultados obtenidos con el modelo kNN
Este gráfico representa el resultado del modelo del arbol de decisión, los valores para las métricas del arbol fueron iguales que las del modelo kNN, se considera que la razón por la cual este arbol de decisión cuenta con tan pocas ramificaciones es por la poca cantidad de datops y la manera en la que estos se distribuyeron para el entrenamiento y el testeo. Este arbol de decisión muestra como la variable de Esperanza de vida domina completamente el modelo y es la unica que considera para definir si un pais tiene una esperanza de vida larga o corta para sus habitantes, y aunque es bien sabido que justo esto es lo que define este indicador, igualmente estaria mas completo si el arbol considerara mas variables.
La esperanza de vida está estrechamente relacionada con el desarrollo socioeconómico: Variables como el PIB per cápita, el Índice de Desarrollo Humano (IDH) y la productividad laboral demostraron ser determinantes clave en la clasificación de los países según su esperanza de vida, lo que refuerza la importancia de invertir en políticas de desarrollo integral.
Los modelos de aprendizaje supervisado, como KNN y árboles de decisión, son herramientas efectivas para analizar patrones macroeconómicos globales: En particular, el árbol de decisión mostró una capacidad notable para clasificar correctamente todos los países del conjunto de entrenamiento, lo que sugiere que estas metodologías pueden complementar los análisis tradicionales en economía.
La interpretación y uso adecuado de métricas y métodos de validación es crucial para asegurar la robustez del modelo: Aunque el modelo presentó un desempeño perfecto en los datos utilizados, es necesario implementar técnicas como la validación cruzada y el ajuste del desbalance para garantizar resultados generalizables y evitar sobreajuste. La perfecta precisión obtenida probablemente refleja las limitaciones del conjunto de prueba más que un desempeño real perfecto, destacando la importancia de una evaluación más exhaustiva. Además pudieron haberse obtenido diferentes resultados si se usaran tecnicas de balanceo para las distribuciones de los datos. Los modelos funcionaron con 100% de exactitud pues el tamaño de los datos es pequeño y es claro que el resultado sería diferente con otras distribuciones.