Introducción

La clasificación de países como desarrollados o no desarrollados permite entender mejor las disparidades socioeconómicas y diseñar políticas de desarrollo adaptadas a cada contexto. En esta práctica, se aplicó el algoritmo kNN para clasificar países en función de una serie de indicadores económicos y sociales. Este enfoque supervisado de clasificación es ampliamente utilizado en machine learning debido a su capacidad de realizar predicciones precisas mediante la proximidad de datos similares.

El modelo kNN se entrenó en un conjunto de datos representativo de 2019, un año en el cual la desigualdad en el desarrollo de los países era un tema de interés mundial. Los datos incluyen variables críticas como acceso a electricidad, esperanza de vida, empleo, y otros indicadores socioeconómicos, que ayudan a captar la complejidad del desarrollo. Mediante la implementación del algoritmo en R, este análisis busca identificar patrones que permitan una clasificación confiable, proporcionando una base para predicciones futuras y una herramienta potencial para el análisis comparativo en políticas de desarrollo.

El algoritmo k vecinos más cercanos (KNN) es un clasificador de aprendizaje supervisado no paramétrico, que emplea la proximidad para realizar clasificaciones o predicciones sobre la agrupación de un punto de datos individual. Es uno de los clasificadores de clasificación y regresión más populares y sencillos que se emplean actualmente en el machine learning.

Base de datos

A continuación se presenta la base de datos con la cual se entreno el modelo

Metodología

Acerca de los datos

A través de diferentes fuentes (World Data Bank, Fondo Monetario Internacional) se recopiló la información necesaria para crear la base de datos.

Las variables seleccionadas para esta práctica corresponden a factores que se consideran clave en el desarrollo de un país.

EL criterio de selección se comparte en el siguiente párrafo:

Access to Electricity (acceso a electricidad)

Este indicador muestra el porcentaje de la población con acceso a electricidad. La disponibilidad de electricidad es un componente esencial del desarrollo, ya que permite el funcionamiento de servicios básicos y a su vez mejora la calidad de vida de la población. Los países desarrollados suelen tener casi la totalidad de su población con acceso a electricidad, mientras que en países en desarrollo, el acceso puede ser limitado.

Life Expectancy (esperanza de vida)

La esperanza de vida al nacer indica la salud y el bienestar de la población, considerando la calidad del sistema de salud y los niveles de vida. Una mayor esperanza de vida suele asociarse con mejores condiciones de vida y desarrollo humano, indicando desarrollo sostenible.

Vulnerable Employment (empleo vulnerable)

El empleo vulnerable representa el porcentaje de trabajadores en empleos informales, con poca seguridad laboral y sin acceso a beneficios sociales. Esta variable es crucial, ya que un alto nivel de empleo vulnerable generalmente refleja un bajo desarrollo económico y limitadas oportunidades laborales.

Annual Freshwater Withdrawals (extracción anual de agua ):

Este indicador muestra el uso de recursos hídricos de un país y su impacto ambiental. Un uso elevado de agua puede indicar presión sobre los recursos naturales, especialmente en sectores industriales o agrícolas. La sostenibilidad en el uso del agua es fundamental para el desarrollo, ya que la escasez de agua puede afectar la salud, la agricultura y la economía en general.

Net Migration (migración neta)

La migración neta representa la diferencia entre el número de personas que llegan a un país y las que lo abandonan. La migración positiva puede reflejar que un país es un destino atractivo debido a mejores oportunidades, mientras que una migración negativa podría indicar problemas económicos o sociales que provocan a las personas a buscar mejores condiciones en otros países.

Access to Clean Fuels and Technologies (acceso a combustibles y tecnologías limpias)

Este indicador mide el acceso a combustibles y tecnologías limpias para cocinar y otras necesidades, lo cual tiene implicaciones importantes para la salud y el medio ambiente. En países en desarrollo, muchas personas aún utilizan combustibles sólidos, como leña, que producen contaminación y afectan la salud. Los países desarrollados suelen promover el acceso a tecnologías limpias, lo que favorece al desarrollo sostenible.

Tax Payments (pagos de impuestos)

La cantidad de pagos de impuestos necesarios para cumplir con la legislación fiscal indica la eficiencia del sistema tributario. Un sistema de impuestos simplificado es característico de economías avanzadas, ya que facilita el cumplimiento fiscal y reduce las cargas administrativas. Una estructura tributaria compleja puede desalentar la inversión y limitar el crecimiento económico.

Wage and Salaried Workers (trabajadores asalariados):

El porcentaje de trabajadores asalariados frente a los empleados en trabajos informales o no remunerados es un indicador importante del desarrollo económico y la estabilidad laboral. Un mayor número de trabajadores asalariados indica una economía más formalizada, con mayor seguridad social y condiciones laborales estables.

Acerca del modelo

Para el análisis y modelado de datos se emplearon diversas librerías en R, que facilitaron el flujo de trabajo en cada etapa del proyecto.

  • La librería readxl permitió la importación de datos desde archivos Excel
  • Caret se utilizó para la partición de datos y el ajuste y validación del modelo.
  • Se emplearon class, tidyverse, ggplot2, lattice y dplyr para manipular, visualizar y analizar los datos de manera efectiva.

Durante el preprocesamiento, las variables categóricas CLAS y Country Name fueron convertidas a factores, facilitando así su uso en el modelo de clasificación supervisada y mejorando la interpretación de los resultados.

División del Conjunto de Datos

Los datos fueron dispuestos de la siguiente manera:

  • Un 75% para entrenamiento y un 25% para prueba mediante el método createDataPartition del paquete caret.

Esto garantiza que el modelo sea entrenado en una parte de los datos y luego validado en una muestra y así medir el desempeño.

Entrenamiento del Modelo kNN

Para entrenar el modelo, se utilizó la función train del paquete caret:

  • Fórmula: Para la fórmula se indica que CLAS es la variable objetivo.
  • Método: Se establece el modelo kNN para la clasificación.

Se permite probar hasta 20 valores de k y seleccionar el óptimo en función del conjunto de entrenamiento. Por último para esta fase se graficó el rendimiento del modelo con diferentes valores de k para visualizar su impacto en la precisión y elegir el k óptimo

Predicción y Evaluación del Modelo: Se realizaron predicciones de clasificación en el conjunto de prueba utilizando la función predict.

Para finalizar, se utilizó la función confusionMatrix para evaluar el modelo comparando las predicciones con las clases reales de los datos de prueba.

Estadísticas descriptivas

Países desarrollados

Países no desarrollados

Analísis de las estadísticas descriptivas

Acceso a electricidad

  • Países desarrollados: Tanto la media como la mediana del 100% muestran que todos los países desarrollados tienen acceso completo a la electricidad, sin ninguna variabilidad (desviación estándar cercana a 0). Este es un claro ejemplo de la infraestructura avanzada y disponibilidad de servicios básicos en todas las áreas, independientemente de su ubicación geográfica.

  • Países no desarrollados: La media del 79.15% y la mediana del 95.9% muestran que, aunque la mayoría de los países no desarrollados tienen un acceso relativamente alto a la electricidad, existe una disparidad considerable entre ellos, con algunos países que aún tienen un acceso muy limitado, esto es claro debido a la alta desviación estándar ( La cual nos habla de cuan dispersos estan los datos, los datos en los paises no desarrollados varían mucho).

Esta desigualdad indica desafíos en infraestructura y acceso a servicios esenciales, dependiendo de la ubicación geográfica.

Esperanza de vida

  • Países desarrollados: La media de 81 años y la mediana de 82.06 años sugieren que los países desarrollados tienen sistemas de salud sólidos y condiciones de vida favorables que permiten una longevidad más elevada y equitativa. La baja desviación estándar indica que estas condiciones son uniformes en la mayoría de los países desarrollados, con poca diferencia entre ellos.

  • Países no desarrollados: La media de 69.87 años y la mediana de 71.58 años reflejan que los países no desarrollados enfrentan condiciones de vida menos favorables, con acceso desigual a servicios de salud y bienestar. La desviación estándar más alta indica que existen disparidades significativas entre los países no desarrollados, lo que puede estar vinculado a diferencias en políticas de salud, acceso a recursos y la estabilidad política.

Empleo vulnerable

  • Países desarrollados: La media de 10.19% y la mediana de 9.54% indican que el empleo vulnerable, es decir, aquellos trabajadores sin acceso a seguridad laboral o beneficios, es bajo en los países desarrollados. La desviación estándar moderada sugiere que, aunque hay alguna variabilidad, los países desarrollados ofrecen en su mayoría empleos formales con mayor protección social.

  • Países no desarrollados: Con una medi a de 46.12% y una mediana de 42.37%, el empleo vulnerable en los países no desarrollados es casi cinco veces mayor que en los países desarrollados. Esto refleja actividades económicas principalmente informales, donde una gran parte de la población no tiene acceso a empleos formales con seguridad social o derechos laborales. Entonces una parte significativa de su población cae en la vulnerabilidad. La alta desviación estándar muestra una gran variabilidad entre los países, con algunos experimentando niveles críticos de informalidad laboral lo cual favorece la vulnerabilidad de su población.

Disponibilidad de agua

  • Países desarrollados : La media de 22.40 km³ y la mediana de 2.68 km³ muestran que la disponibilidad de agua varía significativamente entre los países desarrollados, como se refleja en la alta desviación estándar. Algunos países cuentan con enormes reservas de agua, mientras que otros, a pesar de ser desarrollados.

  • Países no desarrollados: Similar a los países desarrollados, los no desarrollados también muestran una gran disparidad en la disponibilidad de agua, con una media de 23.47 km³ y una mediana de 1.60 km³. La alta desviación estándar indica que la distribución de este recurso vital es muy desigual, afectando particularmente a las áreas rurales o de difícil acceso, esto representa un grave obstáculo para el desarrollo económico y social.

Migración neta

  • Países desarrollados: La media de 106,729 personas y la mediana de 25,564 personas reflejan que la mayoría de los países desarrollados son receptores netos de migrantes, lo que puede estar vinculado a sus economías estables y oportunidades de empleo. Sin embargo, la alta desviación estándar muestra que algunos países reciben un flujo masivo de inmigrantes, mientras que otros pueden tener flujos mucho menores.

En general los países desarrollados cuentan con una mayor recepción, algunos países son la excepción a esta regla pero esto se le atribuye a su zona geografica, poco atractivo, o a que sus habitantes tiene la posibilidad de buscar oportunidades en otros países sin que esto signifique una obligación.

  • Países no desarrollados: La media de -26,360 personas y la mediana de -7,812 personas muestran una tendencia a la emigración neta en los países no desarrollados. La población de estos países suele verse en la obligación de buscar mejores oportunidades en otros países La alta desviación estándar refleja que en algunos países la fuga de personas es más pronunciada, lo que podría estar relacionado con conflictos, pobreza, o falta de oportunidades económicas.

Acceso a combustibles y tecnologías limpias

  • Países desarrollados: Tanto la media como la mediana del 100% muestran que todos los países desarrollados tienen acceso total a combustibles y tecnologías limpias, lo cual demuestra el compromiso con el desarrollo sostenible.

  • Países no desarrollados: Con una media de 39.01% y una mediana de 77.30%, el acceso a combustibles y tecnologías limpias es muy desigual en los países no desarrollados. Los países no desarrollados suelen tener más dificultades a la hora de implementar la sostenibilidad, debido a su infraestructura, política, inestabilidad, etc… La alta desviación estándar muestra que, aunque algunos países han logrado un acceso considerable, otros aún enfrentan obstáculos significativos para adoptar tecnologías limpias, lo que afecta negativamente tanto la calidad de vida como el medio ambiente.

Pagos de impuestos

  • Países desarrollados: La media de 10.42 y la mediana de 9.00 muestran que la carga fiscal en los países desarrollados es relativamente baja y homogénea, con una desviación estándar moderada. Esto sugiere un sistema más equitativo y eficiente en general.

  • Países no desarrollados: La media de 26.32 y la mediana de 27.00 sugieren que la carga fiscal en los países no desarrollados es considerablemente mayor, aunque con mayor variabilidad, como se refleja en la desviación estándar más alta. Esto puede deberse a la falta de eficiencia en la recaudación de impuestos o una mayor dependencia de la recaudación para financiar servicios básicos.

Trabajadores asalariados

  • Países desarrollados: Con una media de 85.91% y una mediana de 86.37%, los países desarrollados muestran una alta proporción de trabajadores asalariados, lo que es indicativo de actividades económicas formales con empleos protegidos y estables, protegiendo a sus habitantes de la vulnerabilidad La baja desviación estándar refleja una consistencia en este indicador entre los países desarrollados.

  • Países no desarrollados: La media de 50.78% y la mediana de 51.44% sugieren que, en los países no desarrollados, la mitad de la población trabajadora está en empleos asalariados, mientras que la otra mitad probablemente se encuentra en la economía informal. Lo cual indica las brechas sociales que existen en estos países La alta desviación estándar refleja la gran disparidad en las economías de los países no desarrollados.

Analísis de gráficos

Distribución de países desarrollados y no desarrollados:

Con este gráfico se puede hacer una comparación de la expectativa de vida promedio entre países los cuales se clasifican en dos categorías: Desarrollados y No Desarrollados. La barra amarilla en cada categoría muestra la expectativa de vida promedio de cada país. Se puede observar que los países desarrollados tienen una expectativa de vida mayor, mientras que los no desarrollados tienden a mostrar una expectativa más baja debido a factores socioeconómicos, acceso a la salud y calidad de vida. Mediante las líneas rojas alrededor de cada barra se podrá observar la desviación estándar, indicando la variabilidad de la expectativa de vida en cada grupo. La desviación estándar es amplia en países no desarrollados lo que significa que hay una mayor variabilidad en estos.

Distribución de la variable numérica esperanza de vida:

Con este gráfico se puede hacer una comparación de la expectativa de vida promedio entre países los cuales se clasifican en dos categorías: Desarrollados y No Desarrollados. La barra amarilla en cada categoría muestra la expectativa de vida promedio de cada país. Se puede observar que los países desarrollados tienen una expectativa de vida mayor, mientras que los no desarrollados tienden a mostrar una expectativa más baja debido a factores socioeconómicos, acceso a la salud y calidad de vida. Mediante las líneas rojas alrededor de cada barra se podrá observar la desviación estándar, indicando la variabilidad de la expectativa de vida en cada grupo. La desviación estándar es amplia en países no desarrollados lo que significa que hay una mayor variabilidad en estos.

Boxplot de los salarios de los trabajadores por clasificación:

En el gráfico vemos cómo los datos de los países desarrollados no tienen una gran variedad por lo cual no existe una notable brecha salarial. con la mediana más alta, se refleja una mayor tendencia en los salarios. con unos pocos valores atípicos. Por otro lado, en los países no desarrollados se evidencia una disparidad salarial, donde los salarios presentan una gran variabilidad entre su población. La mediana es más baja que la anterior, esto indica que los países no desarrollados tienen una tendencia a menores salarios en comparación con países desarrollados

Mapa mundial interactivo:

El objetivo principal de este gráfico es visualizar geográficamente la distribución de países en función de su nivel de desarrollo, con una codificación de colores (verde para desarrollados y rojo para no desarrollados) que permite identificar rápidamente a qué grupo pertenece cada país. Al pasar el cursor sobre cada país, se despliega información detallada de múltiples indicadores. Esto permite un análisis profundo en en el contexto de su clasificación para los países trabajados en este informe .

Modelo KNN

Gráficos relacionados con el modelo KNN

Matriz de confusión

## Confusion Matrix and Statistics
## 
##                  Reference
## Prediction        Desarrollado No desarrollado
##   Desarrollado               6               7
##   No desarrollado            2              25
##                                           
##                Accuracy : 0.775           
##                  95% CI : (0.6155, 0.8916)
##     No Information Rate : 0.8             
##     P-Value [Acc > NIR] : 0.7318          
##                                           
##                   Kappa : 0.4304          
##                                           
##  Mcnemar's Test P-Value : 0.1824          
##                                           
##             Sensitivity : 0.7500          
##             Specificity : 0.7812          
##          Pos Pred Value : 0.4615          
##          Neg Pred Value : 0.9259          
##              Prevalence : 0.2000          
##          Detection Rate : 0.1500          
##    Detection Prevalence : 0.3250          
##       Balanced Accuracy : 0.7656          
##                                           
##        'Positive' Class : Desarrollado    
## 

Resultados observados

La matriz de confusión y las métricas de rendimiento del modelo son las siguientes:

  • Precisión (Accuracy): 0.775 La precisión general del modelo es del 77.5%, lo cual indica que el modelo clasifica correctamente el 77.5% de los países en el conjunto de prueba.

  • Estadístico Kappa: 0.4304 El valor de Kappa indica un acuerdo moderado entre las predicciones y las clases reales, ajustado por el acuerdo aleatorio.

  • Sensibilidad: 0.7500 La sensibilidad muestra que el modelo clasifica correctamente el 75% de los países desarrollados. Sin embargo, deja un 25% sin identificar.

  • Especificidad: 0.7812 La especificidad muestra que el modelo clasifica correctamente el 78.12% de los países no desarrollados.

  • Valor Predictivo Positivo : 0.4615 La precisión de la clase Desarrollado es baja (46.15%), esto quiere decir que el modelo tiene dificultades para clasificar correctamente a los países que pertenecen a esta categoría.

  • Valor Predictivo Negativo: 0.9259 Este valor indica una alta precisión para la clasificación de países como “No desarrollado” , es decir que es muy confiable a la hora de clasificar países que pertenecen a esta categoría.

Precisión del Modelo KNN según los Parámetros

En este gráfico se muestra la precisión del modelo kNN en función del número de vecinos utilizados en la clasificación. Se observa que: A medida que se aumenta el número de vecinos k ,inicialmente , la precisión también aumenta. Esto sugiere que al incluir más vecinos, el modelo está mejorando en la clasificación. Alrededor de k =25 el modelo parece ser más fiable. Después del pico en k alrededor de 25, la precisión comienza a decrecer. Esto es una señal de que a partir de cierto punto, considerar demasiados vecinos lleva a una peor clasificación, posiblemente porque se incluye demasiado “ruido”

Matriz de confusión del modelo KNN:

Este es un cuadrado de confusión (fourfold plot) el cual ayuda a visualizar los resultados de una matriz de confusión generada a partir del modelo KNN, que clasifica las instancias de prueba en dos categorías, como lo son: “Desarrollado” y “No Desarrollado”.

El gráfico está dividido en cuatro secciones, que representan las diferentes combinaciones de predicciones correctas e incorrectas, las cuales son las siguientes: - Verdaderos Positivos (VP) (en verde): Son los casos correctamente clasificados como “Desarrollado” (cuando en realidad pertenecen a esta categoría). - Verdaderos Negativos (VN) (en verde): Son los casos correctamente clasificados como “No Desarrollado” (cuando efectivamente son “No Desarrollado”). - Falsos Positivos (FP) (en rojo): Son los casos que fueron clasificados erróneamente como “Desarrollado” cuando en realidad son “No Desarrollado”. - Falsos Negativos (FN) (en rojo): Son los casos que fueron clasificados como - “No Desarrollado” cuando en realidad son “Desarrollado”.

Las secciones de color verde estan representando las predicciones correctas del modelo, mientras que las secciones en rojo representan las predicciones incorrectas.

Distribución de probabilidades de predicción para los países no desarrollados:

El gráfico que se presenta a continuación hace referencia a un histograma el cual en su eje X muestra la probabilidad de los Países no Desarrollados, donde se presentan los datos de las muestras de las probabilidades predichas para para un País “No desarrollado”, y sus valores están distribuidos de 0 a 1 siendo 0 la probabilidad más baja y 1 una probabilidad relativamente alta, seguido a esto la variable Y indica la Frecuencia para cada rango de probabilidad.

Con esto se concluye que la distribución de probabilidades para países no desarrollados tiene una concentración en valores altos cercanos a 1, esto nos da evidencia de que la mayoría de los países en la muestra tienen una alta probabilidad de ser clasificado como “No desarrollados” ya que no existe una dispersión tan pronunciada en los datos.

Discusión

El modelo presenta un buen rendimiento general con una precisión aceptable, aunque podría mejorarse la clasificación de la clase “Desarrollado”.

En el mundo existen más países no desarrollados que desarrollados, lo cual crea un desbalance de clase, según el Programa de las Naciones Unidas para el Desarrollo (PNUD), que utiliza el Índice de Desarrollo Humano (IDH) existen actualmente alrededor de 66 países desarrollados y aproximadamente 130 países no desarrollados.

En la base de datos filtrada con las variables seleccionadas que se utilizó para el modelo de este informe se tenían alrededor de 30 países desarrollados y 110 no desarrollados, lo que puede contribuir al desbalance de clases y a su vez a que el modelo no sea tan eficiente a la hora de clasificar los países que caen en la categoría “desarrollados”

Conclusiones

El análisis de clasificación mediante kNN en R ha permitido categorizar países en desarrollados y no desarrollados con una precisión del 77.5%. A pesar de que el modelo presenta una predicción razonable, su desempeño es limitado en la clase “Desarrollado” debido a un desequilibrio en la frecuencia de las clases. Este desequilibrio no solo se observa en la muestra, sino que refleja una problemática poblacional más amplia.

A lo largo del análisis, se ha evidenciado una significativa brecha entre los países desarrollados y no desarrollados. Las condiciones en los países desarrollados son, en general, mucho mejores y más igualitarias, lo que representa una gran problemática. En particular, el acceso a electricidad y combustibles limpios es universal en los países desarrollados, mientras que muchos países en desarrollo aún carecen de estos servicios, limitando sus oportunidades económicas y afectando negativamente la salud y la educación de sus poblaciones.

Además, la esperanza de vida es notablemente más alta en los países desarrollados, reflejando un mejor acceso a atención médica y condiciones de vida adecuadas. Por el contrario, los países no desarrollados enfrentan mayores desafíos de salud pública. También se ha observado una alta proporción de empleo vulnerable en estos últimos, donde el sector informal predomina, lo que contrasta con la estabilidad laboral de los países desarrollados, que cuentan con una mayor cantidad de trabajadores en empleos formales y seguros.

La gestión del agua en los países no desarrollados es menos eficiente, lo que agrava la escasez de este recurso y limita el desarrollo agrícola e industrial. La migración neta negativa en estos países, impulsada por la falta de oportunidades, contribuye a una fuga de cerebros que exacerba la brecha de desarrollo.

Asimismo, las ineficiencias fiscales en los países en desarrollo limitan su capacidad para recaudar ingresos y financiar servicios públicos. Esto contrasta con los sistemas fiscales más robustos en los países desarrollados, que les permiten invertir en educación, salud e infraestructura. Por último, las disparidades salariales y las condiciones laborales en los países no desarrollados dificultan la atracción de inversiones y el mejoramiento de la calidad de vida de sus ciudadanos.

Es imperativo fomentar políticas e iniciativas que reduzcan estas brechas y aborden el desequilibrio en la cantidad de países que caen en cada clasificación, para lograr un desarrollo más equitativo y sostenible a nivel global.

Referencias

World Development Indicators. (s/f). Worldbank.org https://databank.worldbank.org/source/world-development-indicators

International Monetary Fund. (n.d.). Home. IMF. https://www.imf.org/en/Home

Barandica, O. J. (2021, September 27). Data visualization in R. Orlando Joaqui Barandica. https://www.joaquibarandica.com/post/datavizr/

Data mining: K-vecinos mas cercanos (K-nearest neighbors, KNN). Youtube. de https://www.youtube.com/watch?v=V_D3N2UuDCU&t=30s

DataCamp. (n.d.). K-Nearest Neighbors Classification with Scikit-Learn. DataCamp. https://www.datacamp.com/es/tutorial/k-nearest-neighbor-classification-scikit-learn