Introducción

El progreso de una nación es un concepto complejo que va más allá de los indicadores económicos tradicionales como el Producto Interno Bruto (PIB). Aunque el PIB proporciona una medida de la actividad económica, no refleja completamente el desarrollo humano en términos de bienestar y calidad de vida Zhang, 2020 . El Índice de Desarrollo Humano (IDH), introducido por el Programa de las Naciones Unidas para el Desarrollo (PNUD), busca subsanar esta limitación al incorporar dimensiones fundamentales como la esperanza de vida, la educación y el nivel de vida Jahan, 2015.

A pesar de los avances que representa el IDH, este indicador no es una medida exhaustiva del desarrollo humano. No considera aspectos como la sostenibilidad ambiental, la igualdad de género, o la cohesión social, que también influyen significativamente en la calidad de vida Klasen, 2018. Por ello, es necesario complementar el IDH con otros indicadores para capturar de manera más integral el bienestar y el progreso humano UNDP, 2020

Este estudio se centra en explorar cómo el IDH se relaciona con otros indicadores sociales, económicos y ambientales, empleando un modelo de K-vecinos más cercanos (KNN) para clasificar a los países como desarrollados o no desarrollados según su PIB per cápita y otras variables clave Klasen, 2018. Las variables seleccionadas acuden a un requisito estadístico donde se prima el hecho de que tenga infromación completa, es decir, ausencia de “NAs” incluyen esperanza de vida, acceso a electricidad, gasto en salud per cápita, tasa de fertilidad adolescente, tasa de desempleo, consumo de energía renovable y acceso a combustibles limpios . Estas variables han sido identificadas por estudios anteriores como críticas para el desarrollo humano en el siglo XXI Zhang, 2020;Jahan, 2015

En resumen, el desarrollo humano es un proceso dinámico y multidimensional. Aunque el IDH ofrece una visión simplificada de este progreso, es crucial ir más allá de los números para captar las múltiples facetas que conforman el bienestar en las sociedades contemporáneas Klasen, 2018.

Metodología

Con el claro propósito de clasificar el nivel o grado de desarrollo de un país e identificar si este es desarrollado o en su defecto, emergente; propondremos un estudio de aprendizaje supervisado, el cual consta de una variable objetivo y otras variables para correlacionarse entre sí, analizando los resultados arrojados por el modelo y así poder clasificar los datos con mayor precisión.

Los datos fueron obtenidos de World Bank, y, a su vez, identificamos las variables más significativas para el desarrollo de este estudio, las cuales son: Acceso a combustibles limpios; tecnologías para cocinar, Acceso a la electricidad, Tasa de nacimiento, GDP (PIB) per cápita, Esperanza de vida al nacer, Consumo de energías renovables, Desempleo masculino, Taza de fertilidad en adolescentes, Gasto sanitario per cápita, Inflación; analizadas específicamente en el año 2021. Procedemos el estudio planteado inicialmente haciendo uso de la estadística descriptiva, para observar cómo se comporta cada variable en relación al estado de los países estudiados.

Dicho lo anterior, se plantean los modelos de aprendizaje supervisado a analizar: Modelo KNN ; Modelo jerárquico. Luego, establecemos las variables mencionadas anteriormente como “Input”, ya que estas abarcan diversos aspectos relevantes a la hora de analizar y determinar el desarrollo de un país; y también la variable Status para lograr entrenar el modelo. Como última instancia, se halla el K óptimo para nuestro modelo KNN y se desarrollará un árbol de decisión para nuestro modelo jerárquico, todo esto con el fin de desarrollar una matriz de confusión que expondrá los resultados.

Variables a usar:

  • País: Una entidad geográfica con fronteras definidas, un gobierno, y una población organizada.
    Referencia: Enciclopedia Británica. (n.d.). “Country.” Recuperado de Britannica.

  • PIB per cápita: Producto Interno Bruto dividido por la población, mide el ingreso promedio de los habitantes de un país, se escogió esta variable porque el PIB per cápita es un indicador clave de desarrollo económico y calidad de vida.
    Referencia: Banco Mundial. (n.d.). “GDP per capita (current US$).” Recuperado de World Bank.

  • Esperanza de vida: Promedio de años que se espera que viva un individuo al nacer, basado en las tasas de mortalidad actuales, se escogió esta variable porque una mayor esperanza de vida indica mejor calidad de los servicios de salud y condiciones de vida.
    Referencia: Organización Mundial de la Salud. (n.d.). “Life expectancy.” Recuperado de WHO.

  • Acceso a electricidad: Porcentaje de la población que tiene acceso a la electricidad en un país, se escogió esta variable porque el acceso universal a la electricidad es un indicador clave de desarrollo y bienestar económico.
    Referencia: Banco Mundial. (n.d.). “Access to electricity (% of population).” Recuperado de World Bank.

  • Gasto en salud per cápita: Monto promedio de dinero que un país gasta en salud por cada persona, generalmente expresado en dólares, se escogió esta variable porque un mayor gasto sanitario per cápita está relacionado con mejores servicios de salud y bienestar en países desarrollados.
    Referencia: Organización Mundial de la Salud. (n.d.). “Current health expenditure per capita (US$).” Recuperado de [WHO](https://www.who.int/data/gho/data/indicators/indicator-details/GHO/current-health-expenditure-per-capita-(us).

  • Tasa de desempleo: Porcentaje de la población activa que está desempleada y buscando trabajo, se escogió esta variable porque el desempleo, especialmente en hombres, refleja la estabilidad económica y las oportunidades laborales de un país.
    Referencia: Organización Internacional del Trabajo. (n.d.). “Unemployment rate.” Recuperado de ILO.

  • Tasa de fertilidad adolescente: Número de nacimientos por cada 1,000 mujeres de entre 15 y 19 años en un año determinado, se escogió esta variable porque una alta tasa de fertilidad en adolescentes es más común en países no desarrollados y refleja falta de educación y acceso a servicios de salud.
    Referencia: Fondo de Población de las Naciones Unidas. (n.d.). “Adolescent birth rate (births per 1,000 women ages 15-19).” Recuperado de UNFPA.

  • Consumo de energía renovable: Porcentaje del total de energía consumida que proviene de fuentes renovables como la solar, eólica o hidroeléctrica, se escogió esta variable porque los países desarrollados suelen tener un mayor uso de energías renovables como parte de su política ambiental.
    Referencia: Agencia Internacional de Energía. (n.d.). “Renewable energy consumption (% of total final energy consumption).” Recuperado de IEA.

  • Inflación: Aumento generalizado y sostenido de los precios de bienes y servicios en un país durante un periodo de tiempo, se escogió esta variable porque la inflación alta afecta más a países no desarrollados, provocando inestabilidad económica y menor poder adquisitivo.
    Referencia: Fondo Monetario Internacional. (n.d.). “Inflation rate.” Recuperado de IMF.

  • Acceso a combustibles limpios: Porcentaje de la población que utiliza combustibles no contaminantes para cocinar y calefacción, se escogió esta variable porque los países desarrollados tienden a tener mayor acceso a tecnologías limpias, mientras que los no desarrollados dependen más de combustibles contaminantes.
    Referencia: Banco Mundial. (n.d.). “Access to clean fuels and technologies for cooking (% of population).” Recuperado de World Bank.

  • Tasa de natalidad bruta: Número total de nacimientos vivos por cada 1,000 habitantes en un año determinado, se escogió esta variable porque la tasa de natalidad es generalmente más baja en países desarrollados debido a mejor acceso a planificación familiar.
    Referencia: Fondo de Población de las Naciones Unidas. (n.d.). “Birth rate, crude (per 1,000 people).” Recuperado de UNFPA.

Las escogimos porque se consideró que son las que más impacto podrían tener en el desarrollo de un país.

Análisis Descriptivo

Se van a analizar la media, mediana, cuartiles, valores máximos y valores mínimos de cada una de las variables.

##  GDP_per_capita     Life_expectancy Access_to_electricity
##  Min.   :   221.2   Min.   :52.52   Min.   :  7.70       
##  1st Qu.:  2350.4   1st Qu.:66.08   1st Qu.: 86.07       
##  Median :  7237.3   Median :72.03   Median : 99.98       
##  Mean   : 18647.6   Mean   :71.43   Mean   : 86.87       
##  3rd Qu.: 21765.7   3rd Qu.:76.61   3rd Qu.:100.00       
##  Max.   :235132.8   Max.   :85.53   Max.   :100.00       
##  NA's   :14         NA's   :13      NA's   :8            
##  Health_expenditure_per_capita Unemployment_rate Adolescent_fertility_rate
##  Min.   :   33.77              Min.   : 0.080    Min.   :  1.584          
##  1st Qu.:  238.67              1st Qu.: 4.010    1st Qu.: 12.630          
##  Median :  922.09              Median : 6.072    Median : 33.929          
##  Mean   : 1814.15              Mean   : 7.143    Mean   : 43.142          
##  3rd Qu.: 2380.17              3rd Qu.: 8.142    3rd Qu.: 63.792          
##  Max.   :12012.24              Max.   :32.788    Max.   :170.462          
##  NA's   :36                    NA's   :135       NA's   :6                
##  Renewable_energy_consumption   Inflation       Access_to_clean_fuels
##  Min.   : 0.00                Min.   : -6.705   Min.   :  0.00       
##  1st Qu.: 7.25                1st Qu.:  2.697   1st Qu.: 34.10       
##  Median :20.30                Median :  4.648   Median : 86.80       
##  Mean   :29.08                Mean   : 10.727   Mean   : 68.01       
##  3rd Qu.:46.05                3rd Qu.:  8.368   3rd Qu.:100.00       
##  Max.   :96.30                Max.   :401.591   Max.   :100.00       
##  NA's   :59                   NA's   :16        NA's   :34           
##  Birth_rate_crude
##  Min.   : 5.00   
##  1st Qu.:10.54   
##  Median :16.12   
##  Mean   :18.75   
##  3rd Qu.:26.11   
##  Max.   :45.29   
##  NA's   :10

De los datos obtenidos sobre el PIB per cápita, se evidencia que la media es significativamente más alta que la mediana, lo que sugiere la presencia de algunos valores extremadamente altos (países con altos niveles de PIB per cápita) que sesgan la media hacia arriba.

En los datos de esperanza de vida, se observa una distribución más simétrica, con la media y la mediana muy cercanas, lo que implica una dispersión más uniforme entre los países.

En cuanto al acceso a la electricidad, se evidencia que la mayoría de los países tienen un acceso muy alto (casi el 100%), aunque algunos países, como sugiere el mínimo de 7.70%, presentan grandes deficiencias en este aspecto, lo cual indica situaciones de desarrollo limitado o pobreza extrema.

Para los gastos en salud, se visualiza una gran diferencia entre la media y la mediana, lo cual indica nuevamente una distribución sesgada, con unos pocos países invirtiendo grandes sumas de dinero. Por otra parte, se observa una diferencia notable entre el valor mínimo y el máximo, lo que refleja la disparidad en la capacidad económica entre los países.

La tasa de desempleo masculina muestra una distribución razonablemente concentrada, con la mayoría de los países teniendo tasas de desempleo relativamente bajas. El valor máximo de 32.79% corresponde a países con problemas económicos importantes.

En cuanto a la fertilidad adolescente, se observa que es mucho más alta en países en desarrollo, donde los programas de planificación familiar y educación sexual son menos accesibles. En los países desarrollados, las tasas son considerablemente más bajas.

Los países con un mayor uso de energía renovable pueden ser tanto desarrollados (por la transición a fuentes de energía más limpias) como en desarrollo (si dependen de energías renovables tradicionales).

La inflación es un indicador de inestabilidad económica en países con valores elevados. Los valores extremos de inflación pueden señalar países en crisis económica.

Este indicador refleja el acceso a tecnologías más seguras y sostenibles para cocinar. Los países desarrollados tienen acceso completo, mientras que en los países en desarrollo es limitado.

La tasa de natalidad varía considerablemente, con países desarrollados mostrando tasas más bajas (cercanas a 1) y países en desarrollo con tasas más altas. La mediana (14.96) indica que la mitad de los países presentan tasas más bajas, típicas de naciones con mejor acceso a planificación familiar.

Gráficas

Mapa acceso a electricidad

Este mapa interactivo muestra el porcentaje de la población con acceso a electricidad en diferentes países del mundo, utilizando datos del Banco Mundial para el año 2021. Al pasar el mouse sobre cada país, se despliega una etiqueta emergente con el nombre del país y el valor exacto del acceso a electricidad (%). Los países están coloreados según el rango de acceso, con colores más claros indicando menor acceso y colores más oscuros mayor acceso. Este mapa permite una visualización clara y dinámica de las disparidades en el acceso a electricidad a nivel global.

Access to clean fuels

La variable de acceso a combustibles limpios exhibe una distribución altamente sesgada, con una clara concentración de países en los valores más altos. Esta asimetría resalta la disparidad entre países desarrollados y en desarrollo, siendo estos últimos los que presentan mayores limitaciones en el acceso a tecnologías limpias. Esta variable resulta crucial para comprender el nivel de desarrollo de un país, ya que refleja tanto su infraestructura energética como sus políticas ambientales y capacidad económica para adoptar soluciones sostenibles. La marcada diferencia entre los países con acceso alto y bajo indica que el acceso a combustibles limpios será un fuerte diferenciador en el modelo KNN, ayudando a identificar patrones que influyen en el nivel de desarrollo, al tiempo que posibles outliers (países con acceso extremadamente bajo o alto) pueden ser objeto de un análisis más detallado para mejorar la precisión del modelo.

Adolescent fertility rate

La tasa de fecundidad adolescente se muestra fuertemente correlacionada con la disponibilidad y calidad de los servicios de salud sexual y reproductiva. En países con sistemas de salud robustos y políticas públicas efectivas, las tasas son considerablemente más bajas. Por el contrario, en contextos donde el acceso a estos servicios es limitado, la fecundidad adolescente se presenta como un problema de salud pública persistente. Esta variable podría ser clave en la clasificación de países en el modelo KNN, ya que hay una diferenciación clara entre los países con tasas más bajas (posiblemente desarrollados) y aquellos con tasas más altas (posiblemente no desarrollados).

GDP per capita

La distribución asimétrica del PIB per cápita, con una concentración en los niveles bajos y una escasez en los altos, plantea un desafío significativo para modelos de clasificación como KNN. Esta desigualdad en los datos puede conducir a un sesgo hacia la predicción de países con bajos ingresos y a una menor precisión en la clasificación de aquellos con altos ingresos debido a la subrepresentación de esta última categoría. Al ser el PIB per cápita una variable clave en la evaluación del desarrollo, es crucial ajustar el valor de “k” adecuadamente y complementar el análisis con otras variables relevantes para evitar sesgos en la predicción.

Health expenditure per capita

El histograma del gasto en salud per cápita muestra una distribución asimétrica, con la mayoría de los países concentrados en rangos bajos de gasto y un pequeño grupo con valores mucho más altos. Esta variable es clave para diferenciar entre países desarrollados y no desarrollados, ya que los países más desarrollados tienden a invertir más en servicios de salud. La asimetría observada sugiere que sólo una minoría de países tienen un gasto elevado, lo que es un indicador fuerte de su nivel de desarrollo. Al avanzar en el análisis y aplicar el modelo KNN, esta variable probablemente influirá en la precisión del modelo al ayudar a distinguir entre los grupos de países.

Inflation

El boxplot de inflación muestra una clara distinción entre países desarrollados, donde la inflación es generalmente baja y estable, y países no desarrollados, que exhiben mayor variabilidad y algunos valores extremos. Esta variable será un indicador relevante para el modelo KNN, pero los outliers en el grupo de países no desarrollados podrían generar errores de clasificación si no se manejan adecuadamente. La normalización de los datos o el uso de métricas robustas podría mejorar la capacidad del modelo para distinguir correctamente entre las dos clases y minimizar el impacto de estos valores extremos en el resultado final.

Life expectancy

El boxplot de esperanza de vida muestra una clara diferenciación entre los países desarrollados y no desarrollados, con los primeros presentando una mayor mediana y valores en general más altos, pues indican que hay una mayor esperanza de vida en países ricos. Esto sugiere que la esperanza de vida es una variable clave en la clasificación del nivel de desarrollo. Sin embargo, la superposición de los rangos entre los dos grupos indica que el modelo KNN podría tener dificultades para clasificar correctamente los países situados en los márgenes de ambas categorías. Por tanto, será esencial complementar esta variable con otras que refuercen la diferenciación entre los grupos y ajustar el valor de "k" para evitar posibles errores de clasificación.

Renewable energy consumption

El boxplot revela una clara tendencia: los países desarrollados consumen, en promedio, más energía renovable que los no desarrollados. Esto indica un mayor compromiso con las fuentes sostenibles en naciones avanzadas. Si bien algunos países en desarrollo muestran esfuerzos notables, la mediana del consumo es significativamente menor, reflejando una brecha en la capacidad de inversión en energías limpias. Además, la menor dispersión en los datos de los países desarrollados sugiere una adopción más uniforme de estas tecnologías. Esta variable, por tanto, podría ser un indicador útil en el modelo KNN para distinguir entre países desarrollados y no desarrollados, especialmente en términos de su infraestructura y políticas energéticas.

Unemployment rate

Cuando comparamos el desempleo en países ricos y pobres, encontramos algo curioso: los niveles son similares en promedio, pero hay mucha más diferencia entre los países ricos. Esto nos hace pensar que en los países pobres hay muchos trabajos que no están contabilizados, como los trabajos sin contrato, los trabajos a tiempo parcial o los trabajos informales. Por eso, las estadísticas de desempleo no nos dan una imagen completa de la situación laboral en estos países. Los valores atípicos presentes en ambos grupos indican que la tasa de desempleo, por sí sola, podría no ser suficiente para clasificar correctamente

Birth rate crude

Al comparar la tasa de natalidad en países desarrollados y no desarrollados, observamos que los países menos desarrollados tienden a tener tasas de natalidad más altas y más variables. Esta diferencia se debe principalmente a factores socioeconómicos como el acceso a servicios de salud, educación y políticas de planificación familiar, que suelen ser más accesibles en los países desarrollados. Estos factores influyen directamente en las decisiones reproductivas de las personas y, por lo tanto, en la tasa de natalidad de un país. En cuanto al modelo KNN, esta gráfico nos indica que esta variable es de gran relevancia a la hora de clasificar un país.

Implementación del Modelo KNN

## Confusion Matrix and Statistics
## 
##                  Reference
## Prediction        Desarrollado No Desarrollado
##   Desarrollado              29               0
##   No Desarrollado            1               1
##                                          
##                Accuracy : 0.9677         
##                  95% CI : (0.833, 0.9992)
##     No Information Rate : 0.9677         
##     P-Value [Acc > NIR] : 0.7358         
##                                          
##                   Kappa : 0.6517         
##                                          
##  Mcnemar's Test P-Value : 1.0000         
##                                          
##             Sensitivity : 0.9667         
##             Specificity : 1.0000         
##          Pos Pred Value : 1.0000         
##          Neg Pred Value : 0.5000         
##              Prevalence : 0.9677         
##          Detection Rate : 0.9355         
##    Detection Prevalence : 0.9355         
##       Balanced Accuracy : 0.9833         
##                                          
##        'Positive' Class : Desarrollado   
## 

Interpretación modelo KNN

El modelo KNN fue aplicado a los resultados para clasificar datos en dos clases: “Desarrollado” y “No Desarrollado”. Este algoritmo se basa en la proximidad de los datos en un espacio de características para hacer predicciones, es decir, clasifica un nuevo punto según sus k vecinos más cercanos.

La selección del valor k y el rendimiento general del modelo se evaluaron utilizando métricas clave como la precisión, sensibilidad, especificidad y otras.

Predicción “Desarrollado”:

De las 30 observaciones que se predijeron como “Desarrollado”, 29 fueron correctas (verdaderos positivos) y ninguna fue incorrecta. Esto significa que el modelo fue capaz de identificar con precisión 29 de los casos reales de “Desarrollado”.

Predicción “No Desarrollado”:

De las 2 observaciones reales que eran “No Desarrollado”, 1 fue predicha correctamente (verdadero negativo), pero 1 fue incorrectamente clasificada como “Desarrollado” (falso positivo).

Métricas de Evaluación:

  • Accuracy (Precisión global): 0.9677 (96.77%) La precisión global del modelo fue del 96.77%, lo que quiere decir que el 96.77% de todas las predicciones realizadas por el modelo fueron correctas. Es decir, de todas las observaciones evaluadas, el modelo clasificó correctamente la mayoría.

  • Kappa: 0.6517 El índice Kappa compara la precisión del modelo con la precisión que tendría por azar. Un valor cercano a 1 indica un alto grado de acuerdo, y en este caso, un valor de 0.6517 indica un buen nivel de concordancia más allá del azar.

  • Sensitivity (Sensibilidad o Recall para “Desarrollado”): 0.9667 De todas las observaciones que realmente pertenecían a la clase “Desarrollado”, el modelo fue capaz de identificar correctamente el 96.67%. La sensibilidad mide la capacidad del modelo para identificar correctamente los casos positivos.

  • Specificity (Especificidad o Recall para “No Desarrollado”): 1.0000 La especificidad mide la capacidad del modelo para identificar correctamente los casos negativos.e todas las observaciones que realmente pertenecían a la clase “No Desarrollado”, el modelo identificó correctamente el 100% de ellas. Esto significa que no hubo falsos positivos, por lo que el modelo fue completamente preciso para esta clase minoritaria.

  • Pos Pred Value (Valor predictivo positivo): 1.0000 De todas las observaciones que el modelo clasificó como “Desarrollado”, el 100% fueron correctas. Esto significa que cuando el modelo predice “Desarrollado”, es completamente seguro de que esa observación es realmente “Desarrollado”.

  • Neg Pred Value (Valor predictivo negativo): 0.5000 De todos los casos que el modelo predijo como “No Desarrollado”, solo el 50% fueron correctos, lo que indica que el modelo podría estar sobreajustado hacia la clase “Desarrollado”.

  • Prevalence (Prevalencia): 0.9677 El 96.77% de los casos en el conjunto de datos son de la clase “Desarrollado”.

  • Detection Rate: 0.9355 La tasa de detección es la proporción de los casos totales que el modelo clasifica correctamente como “Desarrollado”. Aquí, el 93.55% de todos los casos fueron correctamente detectados como “Desarrollado”, lo cual refleja una buena capacidad de detección.

  • Detection Prevalence: 0.9355 Esto indica que el 93.55% de las predicciones del modelo son de la clase “Desarrollado”, lo que está en línea con la prevalencia real de la clase.

  • Balanced Accuracy (Precisión balanceada): 0.9833 Esta métrica es el promedio entre la sensibilidad y la especificidad, lo que ajusta el desempeño del modelo para manejar clases desbalanceadas. Un valor alto como 98.33% muestra que el modelo está bien equilibrado para clasificar tanto “Desarrollado” como “No Desarrollado” de manera efectiva.

  • P-Value [Acc > NIR]: 0.7358 Este p-valor muestra si la precisión del modelo es significativamente mejor que una clasificación aleatoria. Un valor de 0.7358 sugiere que no es significativamente mejor que una asignación aleatoria.

Gráfica del modelo

Esta gráfica muestra la precisión del modelo KNN en función de los diferentes valores de k (número de vecinos considerados en el algoritmo).

Eje X: k (número de vecinos)

El eje X representa el valor de k. En KNN, k es el número de vecinos más cercanos que el algoritmo toma en cuenta para decidir la clase de un punto de datos. En la gráfica se puede evidenciar cómo cambia la precisión del modelo cuando se ajusta k desde 1 hasta 20.

Eje Y: Precisión

El eje Y muestra la precisión del modelo, es decir, la proporción de predicciones correctas sobre el total de predicciones. La precisión varía entre 0.94 y 1.00 en esta gráfica, lo que muestra cómo de exactas fueron las predicciones para diferentes valores de k.

Interpretación de la gráfica

  • Valor de k = 1: Al usar k = 1, el modelo tiene una precisión del 100%. Esto quiere decir que cuando el modelo solo considera el vecino más cercano, hace todas las predicciones correctamente. Sin embargo, este rendimiento puede ser engañoso, ya que el uso de k = 1 puede llevar a overfitting (sobreajuste), es decir, el modelo puede estar ajustado demasiado a los datos de entrenamiento y puede no generalizar bien para nuevos datos.

  • Valor de k entre 2 y 5: A medida que aumentas k, la precisión disminuye bruscamente y alcanza un mínimo alrededor de k = 5. Esta caída podría ser una señal de que el modelo tiene más dificultades para encontrar un buen equilibrio entre las clases a medida que aumenta el número de vecinos.

  • Valores de k mayores a 5: A partir de k = 6 hasta k = 20, la precisión se estabiliza en torno a 0.967. Esto sugiere que el modelo se vuelve más robusto, ya que considera más vecinos, y las predicciones no cambian tanto. Aunque no alcanza la perfección observada con k = 1, probablemente sea un mejor balance entre evitar overfitting (un sobreajuste del modelo), y mantener una precisión alta.

En resumen:

  • k = 1: Aunque tiene la mayor precisión en este caso, podría no ser recomendable debido al riesgo de sobreajuste.

  • k ≈ 6-20: Para valores de k entre 6 y 20, el modelo parece tener un rendimiento estable con una precisión de alrededor de 96.7%. Estos valores son buenos candidatos para evitar el overfitting y ofrecer un modelo más generalizable. En resumen, aunque el valor de k = 1 parece ofrecer una precisión perfecta, en la práctica es más aconsejable elegir un valor de k mayor (como 6 o más) para obtener un mejor equilibrio entre precisión y generalización.

Conclusiones

  • Las variables seleccionadas reflejan aspectos críticos del desarrollo, considerando tanto factores económicos como de bienestar social y sostenibilidad.

  • El Índice de Desarrollo Humano (IDH) sigue siendo una buena referencia para clasificar los países, pero no es suficiente por sí solo. El análisis sugiere que complementarlo con variables adicionales puede aumentar la precisión de la clasificación, permitiendo una mejor comprensión del progreso y bienestar en distintas naciones.

  • El modelo de K-Nearest Neighbors (KNN) es efectivo para clasificar países como desarrollados o no desarrollados, utilizando variables que capturan dimensiones como el Índice de Desarrollo Humano (IDH), la educación y la esperanza de vida. Aunque el PIB sigue siendo un indicador relevante, la inclusión de otros factores ofrece una evaluación más integral del desarrollo humano.

  • El rendimiento del modelo KNN depende mucho de la selección del valor de k y la correcta normalización de los datos. Ajustar estos parámetros correctamente es esencial para mejorar la precisión de la clasificación y evitar errores en la categorización de los países.

  • Es recomendable explorar diferentes valores de k en KNN para identificar el número óptimo de vecinos que mejoran la precisión del modelo.

  • Complementar KNN con otros modelos de clasificación podría fortalecer la confiabilidad y permitir una comparación entre métodos de clasificación.

BIBLIOGRAFIA