En el contexto de la economía global contemporánea, la categorización de naciones según su nivel de desarrollo constituye un elemento fundamental para la comprensión de las dinámicas económicas internacionales y la formulación de políticas globales efectivas. La implementación de técnicas de machine learning, específicamente el algoritmo de K-Nearest Neighbors (KNN), emerge como una herramienta prometedora para la clasificación objetiva de países basada en indicadores socioeconómicos cuantitativos.
La selección de variables para este estudio se fundamenta en la literatura económica sobre desarrollo nacional y en los criterios establecidos por organizaciones internacionales para la clasificación de economías. Los indicadores de infraestructura y servicios básicos, como el acceso a la electricidad, son fundamentales pues reflejan la capacidad de un país para proporcionar servicios esenciales a su población. Los indicadores demográficos y de salud, incluyendo la expectativa de vida y el gasto en salud, son críticos ya que representan el nivel de desarrollo humano y la inversión en capital humano. La gobernanza, medida a través del control de la corrupción, es crucial pues afecta la eficiencia institucional y la confianza en el sistema económico. Los indicadores de comercio internacional y desarrollo industrial son particularmente relevantes ya que caracterizan la sofisticación y diversificación de la economía, aspectos que tradicionalmente distinguen a las economías avanzadas de las emergentes.
Este estudio se propone examinar la efectividad del algoritmo KNN en la clasificación binaria de países como “Avanzados” o “Emergentes”, utilizando como referencia la categorización oficial del Fondo Monetario Internacional (FMI) entre economías avanzadas y emergentes. La investigación se fundamenta en datos extraídos de los World Development Indicators del Banco Mundial del año 2019, empleando una selección estratégica de variables que representan diferentes dimensiones del desarrollo económico y social.
Se utilizó un conjunto de datos que comprende información de 155 países, de los cuales 35 son clasificados como avanzados y 120 como emergentes, proporcionando una base sólida para el análisis aunque con un notable desbalance en las clases. Las variables seleccionadas para el análisis se categorizan en cinco dimensiones fundamentales:
Indicadores de Infraestructura y Servicios Básicos:
Indicadores Demográficos y de Salud:
Indicadores de Gobernanza:
Indicadores de Comercio Internacional:
Inversión extranjera directa: Entradas netas de inversión (menos desinversión) para adquirir una participación duradera en la gestión (10% o más de acciones con derecho a voto) en empresas operando fuera del país del inversor, expresado como porcentaje del PIB.
Exportaciones de bienes y servicios: Valor total de las transacciones entre residentes y no residentes que implican cambio de propiedad de mercancías generales, servicios y oro no monetario, expresado en dólares estadounidenses corrientes.
Indicadores de Desarrollo Industrial:
Valor agregado de la manufactura: El sector manufacturero se refiere a las industrias pertenecientes a las divisiones 15 a 37 de la CIIU. El valor agregado es la producción neta de un sector después de sumar todas las producciones y restar los insumos intermedios. Se calcula sin hacer deducciones por depreciación de activos fabricados o por agotamiento y degradación de los recursos naturales. El origen del valor agregado se determina mediante la Clasificación Industrial Internacional Uniforme (CIIU), revisión 3. Nota: Para los países VAB, se utiliza como denominador el valor agregado bruto al costo de los factores.
Crecimiento de la industria: Tasa de crecimiento anual del valor agregado industrial (incluida la construcción) basada en moneda local constante. Los agregados se basan en precios constantes de 2015, expresados en dólares estadounidenses. La industria corresponde a las divisiones 05 a 43 de la CIIU e incluye la industria manufacturera (divisiones 10 a 33 de la CIIU). Comprende el valor agregado en minería, manufactura (también reportada como un subgrupo separado), construcción, electricidad, agua y gas. El valor agregado es la producción neta de un sector después de sumar todas las producciones y restar los insumos intermedios. Se calcula sin hacer deducciones por depreciación de activos fabricados o agotamiento y degradación de recursos naturales. El origen del valor agregado está determinado por la Clasificación Industrial Internacional Uniforme (CIIU), revisión 4.
Crecimiento del PIB: La medición del PIB representa la suma del valor agregado por todos los productores de la economía. El valor agregado se calcula como el valor de la producción bruta menos el valor de los bienes y servicios intermedios consumidos en la producción, antes de contabilizar el consumo de capital fijo. Según el Sistema de Cuentas Nacionales de las Naciones Unidas, el valor agregado puede medirse a precios básicos (excluyendo impuestos netos sobre productos) o a precios de productor (incluyendo impuestos netos sobre productos pagados por productores, pero excluyendo impuestos sobre ventas o valor agregado). El PIB total se mide a precios de comprador, mientras que el valor agregado por industria típicamente se mide a precios básicos. Este indicador es fundamental para evaluar el tamaño y crecimiento general de la economía.
La selección de estas variables específicas responde a su capacidad para capturar distintas dimensiones del desarrollo económico. Las economías avanzadas típicamente se caracterizan por altos niveles de acceso a servicios básicos, mayor esperanza de vida, sistemas de salud bien financiados, instituciones sólidas con bajo nivel de corrupción, y una estructura económica diversificada con fuerte presencia manufacturera y participación en el comercio internacional. Por el contrario, las economías emergentes suelen presentar mayores desafíos en estas áreas, aunque con potencial de crecimiento y desarrollo.
Como parte del enfoque metodológico, se llevó a cabo un análisis de estadísticas descriptivas para las variables seleccionadas, comparando los valores entre las dos categorías de economías avanzadas y emergentes. Este análisis incluyó medidas como la media, mediana, desviación estándar, y para algunas variables percentiles, con el objetivo de evaluar las características básicas de los datos en ambos grupos. Esta etapa proporcionó una visión general de las distribuciones de las variables y permitió identificar diferencias preliminares entre las dos categorías antes de la implementación del modelo KNN.
Para la elaboración del modelo KNN se utilizó una muestra aleatoría que contiene el 78% de los datos, es decir, fue utilizada la categorización de un total de 121 naciones para entrenar dicho modelo con base en las variables anteriormente mencionadas y una onceaba variable que establecia la categoría de “emergente” o “avanzado” por país.
Posteriormente, se llevó a cabo un testeo con una muestra correspondiente al 22% restante de la base de datos (34 países). De manera que el modelo revisó los registros de las variables establecidas para la predicción que clasificó los paises en las categorías ya mencionadas. Tras esto, se realizó el respectivo análisis de los resultados obtenidos para determinar la eficacia del modelo.
El mapa a continuación muestra la distribución de las variables seleccionadas en los 155 países analizados, con una diferenciación cromática basada en su clasificación: países “emergentes” (color amarillo) y países “avanzados” (color azul).
A continuación se enseñan algunos datos como la media, desviacion estandar y la mediana para cada una de las variables trabajadas, por otro lado, se presentan también algunos gráficos que ayudan a contextualizar las diferentes variables para las diferentes categorías planteadas en este trabajo, posteriormente se propone su respectivo analisis:
| Estadísticas descriptivas de los paises emergentes | |||
| Variables | Media | Desviacion estandar | Mediana |
|---|---|---|---|
| Acceso a la electricidad | 8.347083e+01 | 2.444136e+01 | 9.865000e+01 |
| Migracion neta | -2.261462e+04 | 1.436853e+05 | -5.339500e+03 |
| Expectativa de vida al nacer | 7.062427e+01 | 6.251962e+00 | 7.182466e+01 |
| Crecimiento del PIB | 3.347797e+00 | 3.434121e+00 | 3.240689e+00 |
| Gasto corriente en salud | 5.658453e+00 | 2.405721e+00 | 5.241445e+00 |
| Control de corrupcion | -3.197118e-01 | 6.539108e-01 | -4.079840e-01 |
| Inversión extranjera directa | 3.856588e+00 | 7.369994e+00 | 2.563153e+00 |
| Exportaciones de bienes y servicios | 4.539639e+10 | 9.806488e+10 | 8.127672e+09 |
| Valor agregado de la manufactura | 2.328314e+00 | 6.550225e+00 | 2.244826e+00 |
| Crecimiento de la industria | 4.046269e+00 | 1.400151e+01 | 4.046269e+00 |
| Estadisticas descriptivas de los paises avanzados: | |||
| Variables | Media | Desviacion estandar | Mediana |
|---|---|---|---|
| Acceso a la electricidad | 9.986286e+01 | 7.941276e-01 | 1.000000e+02 |
| Migracion neta | 7.272874e+04 | 1.207677e+05 | 2.330500e+04 |
| Expectativa de vida al nacer | 8.127568e+01 | 2.699866e+00 | 8.199512e+01 |
| Crecimiento del PIB | 2.389704e+00 | 1.459827e+00 | 1.986196e+00 |
| Gasto corriente en salud | 8.537671e+00 | 2.147550e+00 | 8.660000e+00 |
| Control de corrupcion | 1.183078e+00 | 8.041027e-01 | 1.448996e+00 |
| Inversión extranjera directa | 1.460418e+01 | 5.156070e+01 | 2.301175e+00 |
| Exportaciones de bienes y servicios | 3.561805e+11 | 3.846424e+11 | 2.035751e+11 |
| Valor agregado de la manufactura | 2.227415e+00 | 3.433954e+00 | 1.562324e+00 |
| Crecimiento de la industria | 2.119186e+00 | 2.888315e+00 | 2.119186e+00 |
Acceso a la Electricidad: Los datos muestran una media de 83.47% de cobertura eléctrica, con una desviación estándar de 24.44%. La mediana de 98.65% indica una distribución asimétrica negativa, donde la mayoría de los países mantienen altos niveles de cobertura, pero existen casos que reducen significativamente el promedio. Esta asimetría sugiere que mientras muchos países emergentes han logrado una cobertura casi universal, un subgrupo enfrenta desafíos significativos en la provisión de este servicio básico. En contraste, los países avanzados tienen un acceso prácticamente universal, con una media del 99.86% y una desviación mínima (0.79), lo que sugiere una homogeneidad y estabilidad en este aspecto.
Migración neta: La migración neta presenta una media de -22,614.62 personas, con una desviación estándar de 143,685.3 personas. La mediana de -5,339.5 personas revela una distribución altamente asimétrica. La magnitud de la desviación estándar, que es aproximadamente 6.35 veces la media, indica una extrema variabilidad en los patrones migratorios entre países emergentes. En los países avanzados, la media es superior (81.27 años) y con menor variabilidad (2.69), lo que indica un sistema de salud más robusto y condiciones de vida superiores.
Expectativa de Vida al Nacer: Con una media de 70.62 años y una desviación estándar de 6.25 años, este indicador muestra una variabilidad relativamente moderada. La mediana de 71.82 años, ligeramente superior a la media, sugiere una distribución aproximadamente simétrica en la esperanza de vida entre países emergentes. En los paises categorizados como avanzados, la expectativa de vida es mayor, con una media de 81.27 años y menor desviación (2.69), lo que es un claro indicativo de condiciones de vida superiores.
Crecimiento del PIB: El crecimiento económico para los paises categorizados como emergentes presenta una media de 3.35% con una desviación estándar de 3.43%. La mediana de 3.24% es cercana a la media, sugiriendo una distribución relativamente simétrica. La similitud entre la desviación estándar y la media indica una considerable variabilidad en las tasas de crecimiento. estos valores reflejan el dinamismo típico de economías en desarrollo que experimentan tasas de crecimiento más altas que las economías desarrolladas. Mientras que en los paises de economías avanzadas El crecimiento del PIB es menor, con una media de 2.38%, lo que es característico de economías maduras con un crecimiento más estable pero menos acelerado.
Gasto Corriente en Salud: Para los paises categorizados como emergentes, El gasto en salud es relativamente bajo, ya que muestra una media de 5.66% del PIB, con una desviación estándar de 2.41%. La mediana de 5.24% sugiere una distribución ligeramente asimétrica positiva. La desviación estándar relativamente moderada indica cierta consistencia en los patrones de gasto en salud entre países emergentes.los datos anteriormente mecionados sugieren que la inversión en salud aún es limitada. En contraste, en los paises avanzados la media es del 8.53%, lo que refleja una mayor inversión en el sector salud, crucial en economías desarrolladas donde la salud pública y privada tiene una mayor cobertura y calidad.
Control de Corrupción: Este indicador presenta para los paises en desarrollo una media de -0.32 con una desviación estándar de 0.65. La mediana de -0.41 indica una distribución ligeramente asimétrica positiva. Los valores negativos tanto en media como en mediana sugieren desafíos generalizados en el control de la corrupción entre economías emergentes. En los países avanzados, la media es positiva (1.18), esto sugiere que el control de la corrupción es mucho más efectivo, un elemento clave para la estabilidad institucional.
Inversión Extranjera Directa: En los paises categorizados como emergentes La inversión extranjera directa muestra una media de 3.86% del PIB con una desviación estándar de 7.37%. La mediana de 2.56% indica una distribución asimétrica positiva. La alta desviación estándar en relación con la media sugiere una gran variabilidad en la capacidad de atracción de inversión extranjera. Por otro lado La media es menor (1.46%), pero con menos dispersión, lo que sugiere que las economías avanzadas, aunque atractivas, no dependen tanto de la inversión extranjera como los emergentes.
Exportaciones de Bienes y Servicios: Para los paises categorizados como emergentes, las exportaciones presentan una media de 45.39 mil millones de dólares, con una desviación estándar de 98.06 mil millones. La mediana de 8.13 mil millones indica una fuerte asimetría positiva, sugiriendo que pocas economías emergentes dominan los volúmenes de exportación. En los paises de economías avanzadas La media es de 356 mil millones de dólares, con menor dispersión, reflejando una mayor estabilidad en el comercio exterior y el carácter más globalizado de estas economías.
Valor Agregado de la Manufactura: En los paises emergentes, con una media de 2.33% lo que refleja un crecimiento en el sector manufacturero, clave para muchas economías emergentes en su proceso de industrialización, una desviación estándar de 6.55%, este indicador muestra una alta variabilidad. La mediana de 2.24% es cercana a la media, pero la alta desviación estándar sugiere la presencia de valores extremos en ambas direcciones. En paises avanzados l valor agregado es de 2.22%, con una desviación mayor, lo que podría indicar que las economías avanzadas tienen sectores manufactureros más especializados pero también más estables en términos de producción.
Crecimiento de la Industrial: El crecimiento industrial de los países emergentes muestra una media de 4.05% con una desviación estándar del 14%, lo que indica una alta variabilidad en los datos. La coincidencia de la mediana con la media en 4.05%, a pesar de la gran dispersión, sugiere una distribución simétrica pero con colas pesadas, lo que podría reflejar que algunos países emergentes presentan tasas de crecimiento industrial mucho más elevadas o negativas en comparación con el promedio, mientras que la mayoría se agrupa en torno a la media. Esto podría estar vinculado a diferentes niveles de industrialización y fluctuaciones económicas dentro de este grupo de países. Por otro lado, con los países avanzados el crecimiento industrial es menor (2.11%), lo que refleja la madurez de estas economías, que tienden a tener una industrialización más estable y menos acelerada.
Al comparar los patrones de migración entre países avanzados y emergentes, encontramos diferencias importantes en cómo se mueven las personas. Los países avanzados generalmente reciben más migrantes de los que salen, con una mediana positiva de 23,305 personas. España lidera este grupo con una ganancia neta de 458,942 migrantes, aunque hay excepciones como Filipinas, que perdió 24,066 personas. En contraste, los países emergentes tienden a perder más población de la que reciben, con una mediana negativa de -5,339 personas. Sin embargo, hay casos especiales como Colombia, que ganó 395,803 migrantes, mientras que Pakistán experimentó la mayor pérdida con -1,177,218 personas. Los datos muestran que los países avanzados mantienen un patrón más estable de inmigración, mientras que los emergentes presentan mayores variaciones en sus flujos migratorios. Estas diferencias probablemente se deben a factores como las oportunidades económicas, la estabilidad social y las condiciones de vida en cada país, aunque para entender completamente estas tendencias necesitaríamos considerar también otros aspectos más especificos como el contexto social y las situaciones específicas de cada país.
El análisis del diagrama de cajas sobre la expectativa de vida al nacer revela una marcada disparidad entre países avanzados y emergentes, con una diferencia de 10.18 años entre sus medianas (82.00 vs 71.82 años respectivamente). Los países avanzados muestran una distribución más homogénea (IQR=1.62 años) con Japón liderando en 84.36 años, mientras que los emergentes presentan mayor variabilidad (IQR=9.92 años), desde Nigeria con 52.91 años hasta Qatar con 80.99 años. Esta heterogeneidad en países emergentes sugiere importantes diferencias en sus sistemas de salud y condiciones socioeconómicas, aunque casos como Qatar demuestran que el desarrollo económico acelerado puede aproximar los indicadores de salud a niveles de países avanzados, evidenciando la fuerte correlación entre desarrollo económico y expectativa de vida.
El análisis de la distribución del crecimiento del PIB en 2019 revela contrastes significativos entre economías avanzadas y emergentes: mientras las primeras muestran un crecimiento más moderado (mediana de 1.99%) pero estable, con un rango de -0.40% a 6.12% y una distribución relativamente simétrica, las economías emergentes exhiben un crecimiento superior (mediana de 3.24%) con mayor volatilidad, evidenciada por un rango más amplio de -6.91% a 23.41% y una distribución asimétrica positiva. Esta diferencia en los patrones de crecimiento, donde las economías emergentes muestran mayor dispersión y valores atípicos superiores mientras que las avanzadas presentan una concentración más cercana a la mediana, refleja las distintas etapas de desarrollo económico, niveles de estabilidad institucional y exposición a factores de riesgo/crecimiento, lo cual es consistente con la teoría económica sobre el desarrollo de las naciones y los patrones de convergencia económica.
Los países emergentes exhiben una distribución más amplia y volátil (rango de -20.55 a 39.49, mediana 2.24) con una cola superior más pronunciada, indicando casos de alto crecimiento manufacturero. En contraste, los países avanzados muestran una distribución más compacta y simétrica (rango de -1.83 a 13.67, mediana 1.56), sugiriendo un crecimiento manufacturero más estable y moderado. Esta diferencia en la forma de las distribuciones refleja la mayor variabilidad en el desarrollo manufacturero de economías emergentes, posiblemente debido a distintas etapas de industrialización, mientras que las economías avanzadas mantienen un crecimiento más maduro y consistente.
Las gráficas muestran una clara diferencia en la distribución del gasto corriente en salud entre países con economías emergentes y avanzadas. Los países emergentes presentan una mayor concentración en el rango de gasto de entre 3% y 7% del PIB, lo que indica una distribución más uniforme y compacta en este intervalo. Esto sugiere que estos países destinan una proporción relativamente moderada de su PIB al gasto en salud, con pocas excepciones que se alejan de este rango. Por otro lado, los países avanzados muestran una mayor variabilidad, con un gasto corriente en salud que se extiende desde valores cercanos al 5% hasta más del 10% del PIB. Esta dispersión refleja una mayor diversidad en las políticas de inversión en salud entre las economías avanzadas, lo que podría deberse a factores como el nivel de desarrollo del sistema de salud, prioridades gubernamentales o estructura fiscal. Además, es notable que ciertos países avanzados tienen un gasto en salud significativamente más bajo que algunos emergentes, lo que rompe con la expectativa de que las economías más desarrolladas necesariamente asignan una mayor proporción de su PIB al sector salud.
El diagrama de dispersión muestra una clara diferenciación en el control de corrupción entre países emergentes y avanzados. Los países avanzados se concentran predominantemente en valores positivos (entre 0 y 2) del índice de control de corrupción, indicando sistemas más efectivos contra la corrupción, con una distribución relativamente compacta. En contraste, los países emergentes muestran una dispersión mucho mayor, principalmente en valores negativos (entre -1 y 0), sugiriendo sistemas menos efectivos de control de corrupción. La distribución revela una correlación positiva entre el nivel de desarrollo económico y la efectividad en el control de la corrupción, aunque la amplia dispersión en países emergentes indica que existen importantes variaciones en la calidad institucional dentro de este grupo.
El análisis de la distribución del acceso a la electricidad revela una marcada disparidad entre las categorías avanzada y emergente, donde la primera exhibe un nivel de acceso significativamente superior, alcanzando aproximadamente un 99.86% de cobertura con una variación estándar relativamente baja (±0.79%), lo que indica una consistencia notable en la provisión del servicio eléctrico en estas regiones avanzadas. En contraste, las zonas categorizadas como emergentes presentan un acceso medio considerablemente menor, aproximadamente del 59.03%, con una desviación estándar más pronunciada (±48.88%), lo cual sugiere una heterogeneidad sustancial en la distribución del servicio eléctrico en estas áreas y evidencia importantes brechas de infraestructura que requieren atención; esta disparidad de aproximadamente 40 puntos porcentuales entre ambas categorías refleja las persistentes desigualdades en el desarrollo de infraestructura eléctrica y subraya la necesidad de implementar políticas focalizadas para reducir la brecha existente, especialmente considerando que el acceso a la electricidad constituye un indicador fundamental del desarrollo socioeconómico y la calidad de vida de la población.
Para optimizar la precisión del modelo, se analizaron los valores de “Accuracy” (precisión del modelo) y “Kappa” (medida de acuerdo entre predicciones y etiquetas verdaderas), donde se identificó que el K óptimo fue 27, alcanzando el mejor valor de precisión (0.8142310) mientras mantuvo un equilibrio con el acuerdo de las etiquetas verdaderas. Se observó que al incrementar el valor de k, tanto la precisión como el valor de Kappa disminuyeron. Este comportamiento sugirió un sobreajuste del modelo cuando k tendió a valores pequeños, debido a un análisis exhaustivo de los datos de entrenamiento que dificultó una generalización adecuada. En contraste, con valores elevados de k, el modelo presentó indicios de subajuste, realizando una generalización que no captó la complejidad de los datos. El análisis del valor “Kappa” evidenció un margen de deficiencia en términos de acuerdo con las etiquetas verdaderas.
## k-Nearest Neighbors
##
## 122 samples
## 10 predictor
## 2 classes: 'AVANZADA', 'EMERGENTE'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 122, 122, 122, 122, 122, 122, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 5 0.7760629 0.30371970
## 7 0.7958232 0.35265776
## 9 0.8090728 0.39247981
## 11 0.8076808 0.38832539
## 13 0.8126199 0.39600427
## 15 0.8083403 0.38359922
## 17 0.8040194 0.36216504
## 19 0.7996504 0.34116614
## 21 0.8057664 0.34959541
## 23 0.8116721 0.35597935
## 25 0.8133293 0.35734593
## 27 0.8142310 0.36130177
## 29 0.8090914 0.33541219
## 31 0.8104214 0.34059679
## 33 0.8035170 0.30270430
## 35 0.7995458 0.28228369
## 37 0.8014603 0.28694542
## 39 0.8046523 0.29227072
## 41 0.8030049 0.27263472
## 43 0.7961866 0.23124697
## 45 0.7962228 0.22235746
## 47 0.7939202 0.19729690
## 49 0.7947751 0.19795579
## 51 0.7929611 0.18003649
## 53 0.7900167 0.15079444
## 55 0.7864340 0.12765290
## 57 0.7803040 0.07372983
## 59 0.7760957 0.03632053
## 61 0.7743936 0.01938827
## 63 0.7743936 0.01938827
## 65 0.7743936 0.01938827
## 67 0.7735240 0.01057471
## 69 0.7735240 0.01057471
## 71 0.7735240 0.01057471
## 73 0.7735240 0.01057471
## 75 0.7735240 0.01057471
## 77 0.7735240 0.01057471
## 79 0.7726907 0.00000000
## 81 0.7726907 0.00000000
## 83 0.7726907 0.00000000
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 27.
En el análisis de la matriz de confusión del modelo KNN, se evaluó la predicción y clasificación del estatus de 33 países, donde se identificaron 4 países avanzados correctamente clasificados (Verdaderos Positivos), 26 países emergentes correctamente clasificados (Verdaderos Negativos), y 3 países avanzados incorrectamente clasificados como emergentes (Falsos Negativos). La precisión del modelo, representada por el valor de “Accuracy”, alcanzó 0.9091, indicando que el 90.91% de las predicciones fueron correctas, con un intervalo de confianza del 95% entre 0.7567 y 0.9808. El valor de “Kappa” registrado fue de 0.6775, lo cual indicó una deficiencia en el acuerdo entre las predicciones del modelo y las etiquetas verdaderas, considerando que el valor óptimo debería aproximarse a 1. A pesar de obtener un porcentaje favorable de precisión y ningún Falso Positivo, se identificaron oportunidades de mejora en las predicciones, particularmente debido a la clasificación incorrecta de 3 países avanzados como emergentes (Falsos Negativos). Esta deficiencia se correlacionó con la desproporción entre categorías en la base de datos, donde la limitada representación de países avanzados afectó la capacidad del modelo para realizar comparaciones adecuadas con datos “vecinos”, resultando en un entrenamiento subóptimo para esta categoría.
## Confusion Matrix and Statistics
##
## Reference
## Prediction AVANZADA EMERGENTE
## AVANZADA 4 0
## EMERGENTE 3 26
##
## Accuracy : 0.9091
## 95% CI : (0.7567, 0.9808)
## No Information Rate : 0.7879
## P-Value [Acc > NIR] : 0.05922
##
## Kappa : 0.6775
##
## Mcnemar's Test P-Value : 0.24821
##
## Sensitivity : 0.5714
## Specificity : 1.0000
## Pos Pred Value : 1.0000
## Neg Pred Value : 0.8966
## Prevalence : 0.2121
## Detection Rate : 0.1212
## Detection Prevalence : 0.1212
## Balanced Accuracy : 0.7857
##
## 'Positive' Class : AVANZADA
##
La implementación del algoritmo K-Nearest Neighbors (KNN) para la clasificación binaria de economías mundiales ha demostrado ser una herramienta metodológicamente robusta, alcanzando una precisión significativa del 90.91% (IC 95%: 0.7567-0.9808). El modelo alcanzó su rendimiento óptimo con k=27, estableciendo un equilibrio crucial entre precisión y capacidad de generalización, como lo evidencia el valor de precisión de 0.8142. No obstante, el coeficiente Kappa de 0.6775 sugiere un acuerdo moderado entre predicciones y etiquetas verdaderas, señalando áreas de oportunidad para el refinamiento metodológico.
El análisis de la matriz de confusión revela aspectos fundamentales sobre el comportamiento del modelo, identificando 4 verdaderos positivos, 26 verdaderos negativos y 3 falsos negativos, sin presencia de falsos positivos. Esta distribución de resultados está inherentemente relacionada con un desafío estructural significativo: el marcado desbalance en la muestra de estudio, que comprende 35 países avanzados frente a 120 emergentes. Esta asimetría en los datos ha impactado la capacidad predictiva del modelo, particularmente en la clasificación de economías avanzadas, generando una tendencia conservadora en su categorización.
Las disparidades estructurales entre economías avanzadas y emergentes se manifiestan de manera contundente en los indicadores socioeconómicos analizados. El acceso a la electricidad emerge como un diferenciador crítico, con las economías avanzadas mostrando una notable homogeneidad (99.86% ±0.79%) en contraste con la heterogeneidad significativa en las economías emergentes (59.03% ±48.88%). Similar patrón se observa en el gasto en salud, donde las economías avanzadas mantienen una media del 8.53% frente al 5.66% de las emergentes, reflejando diferentes prioridades y capacidades en la inversión social.
La volatilidad económica se presenta como otro factor distintivo fundamental. Las economías emergentes exhiben una amplia variabilidad en el crecimiento del PIB, oscilando entre -6.91% y 23.41%, mientras que las economías avanzadas mantienen un rango más acotado entre -0.40% y 6.12%. Esta diferencia en la estabilidad del crecimiento se complementa con patrones migratorios contrastantes, donde las economías avanzadas tienden a mantener flujos netos positivos (mediana de +23,305) en oposición a los flujos negativos característicos de las economías emergentes (mediana de -5,339).
La efectividad demostrada por el modelo KNN en esta clasificación binaria establece un precedente metodológico significativo para el análisis económico global. Sin embargo, las limitaciones identificadas sugieren la necesidad de refinamientos metodológicos futuros. Estos podrían incluir la implementación de técnicas de balanceo de clases, la exploración de algoritmos alternativos o híbridos que gestionen mejor el desbalance de clases, y la consideración de un enfoque de clasificación multiclase que capture la complejidad de las economías emergentes. Para investigaciones futuras, resulta imperativo expandir el alcance del análisis incorporando variables que capturen la transformación digital y la sostenibilidad ambiental, desarrollar estudios longitudinales que examinen la dinámica temporal del desarrollo económico, e integrar indicadores de resiliencia económica y adaptabilidad institucional. La presente investigación constituye una contribución significativa a la literatura sobre clasificación económica internacional, estableciendo una base metodológica sólida para futuras investigaciones en el campo de la categorización económica basada en datos.
Barandica, J. (s.f.). Joaqui Barandica. Recuperado de https://www.joaquibarandica.com
Posit PBC. (2023, 19 mayo). RMarkdown font type. Posit Community. Recuperado de https://forum.posit.co/t/rmarkdown-font-type/123403
R para Ciencia de Datos en Español. (2021, 4 marzo). Aprende lo Básico de R Markdown en 20 Minutos [Vídeo]. YouTube. Recuperado de https://www.youtube.com/watch?v=6Qj8yBFgT9Q
World Bank. (n.d.). World Development Indicators. https://databank.worldbank.org/source/world-development-indicators#
International Monetary Fund. (n.d.). IMF. https://www.imf.org