El desarrollo de los países se mide generalmente por su alto nivel de calidad de vida, su grado de desarrollo industrial, socioeconómico y su Producto Interno Bruto (PIB), así como por la eficiencia de su sistema de salud y la ausencia de conflictos armados. Estos elementos son fundamentales para evaluar los indicadores al clasificar un país como desarrollado o emergente.
Existe un indicador que considera diversas variables para medir el grado de desarrollo de un país, conocido como el Índice de Desarrollo Humano (IDH). Este indicador se basa en tres variables fundamentales: nivel de educación, PIB per cápita y esperanza de vida. La clasificación de este indicador es tanto cuantitativa como cualitativa. En la cuantitativa, se utiliza una escala de 0 a 1, donde 0 representa el valor mínimo y 1 el valor máximo. En la cualitativa, se divide en categorías como “muy alto”, “alto”, “medio” o “bajo”, según la puntuación cuantitativa.
Sin embargo, es importante destacar que el IDH simplifica y examina solo una parte de lo que implica el desarrollo humano, ya que no considera otros indicadores clave necesarios para una medición precisa. A pesar de esto, existen factores que están interrelacionados con este indicador. Por ejemplo, variables como la mortalidad infantil, la demografía, la fertilidad, los homicidios y las inversiones estatales en salud influyen en el nivel de progreso de cada país al mostrar comportamientos tanto positivos como negativos.
Este estudio tiene como objetivo analizar el comportamiento del Índice de Desarrollo Humano desde una perspectiva general y entender su influencia en el desarrollo de un país, lo que permite clasificarlo como emergente o desarrollado. La combinación de indicadores como la esperanza de vida, el PIB, la educación y otros factores proporciona una evaluación más integral del nivel de desarrollo de una nación y ayuda a comprender cómo estas variables se entrelazan en la búsqueda de un progreso socioeconómico más completo.
Con el objetivo de clasificar el grado de desarrollo de un país y saber si este es emergente o desarrollado se plantea un estudio de aprendizaje supervisado, el cual se basa en en una variable objetivo y otras variables como predictoras para entrenar el modelo y así poder clasificar los datos con mayor precisión. Inicialmente se hace uso de la base de datos WHO, en donde se seleccionan las variables a estudiar, para este caso: esperanza de vida, muertes infantiles, PIB, población, escolaridad, IDH (Índice de desarrollo humano), fertilidad, homicidios, gasto total en salud y el porcentaje del gasto total en salud, en donde estas variables son analizadas específicamente para el año 2014. Para continuar con el estudio planteado primero se hace uso de estadística descriptiva para observar el comportamiento de cada variable en relación al estado de los países.
Estableciendo lo anterior se plantea los modelos de aprendizaje supervisado a analizar, los cuales son el modelo Knn y el modelo jerárquico, en donde se establecen las 10 variables a estudiar anteriormente mencionadas como input las cuales abarcan aspectos económicos, sociales y de salud, que para determinar el desarrollo de un país, es esencial considerar, además se relacionan entre sí y en conjunto ofrecen una imagen completa del nivel de desarrollo de una nación, y la variable status como output para así poder entrenar el modelo.
Finalmente, se hallará el \(k\) óptimo para el modelo knn y se construirá un árbol de decisión para el modelo jerárquico con el fin de crear una matriz de confusión que exponga los resultados obtenidos
Las variables que se utilizarán en el modelo fueron escogidas debido a su alta incidencia en el desarrollo de una nación e influyendo en la categorización de un país como desarrollado o emergente.
Esperanza de vida: Es un indicador importante que refleja la calidad de vida y el acceso a servicios de salud en un país. Los países desarrollados tienden a tener una esperanza de vida más alta debido a mejores condiciones de vida en general.
Muertes infantiles: se refiere al número de niños que mueren antes de cumplir un año por cada 1.000 nacidos vivos. Un bajo número de muertes infantiles es indicativo de un sistema de atención médica sólida y condiciones de vida más seguras, características de países desarrollados.
Porcentaje del gasto público del gobierno en salud: Hace referencia a cuanto capital del gasto público total que dispone un gobierno se utiliza en el área de salud, esto incluye campañas de inmunización, innovación, seguimiento a entidades prestadoras de servicios y desarrollo de infraestructuras.
Gasto en salud por porcentaje del PIB per cápita: Hace referencia a cuanto gasta un ciudadano promedio de un país en salud. Este indicador puede ser influido por los años de escolaridad así como el acceso a la salud, siguiendo esta lógica, los países desarrollados gastaran más en salud debido al conocimiento de la importancia de ese gasto así como las garantías para el acceso al servicio de salud.
PIB per cápita: El producto interno bruto (PIB) per cápita es básicamente el promedio de ingresos o producción económica por persona en un país.
Población: La población de un país puede influir en su estatus económico y social. Los países desarrollados suelen tener una población estable o en crecimiento lento, mientras que los países emergentes pueden experimentar un rápido crecimiento demográfico.
Escolaridad: La tasa de escolaridad o la calidad del sistema educativo pueden ser indicativos del nivel de desarrollo de un país, ya que está estrechamente relacionada con el progreso económico, social y humano.
Homicidios: La tasa de homicidios puede contribuir negativamente al avance social en un país, además, factores como el acceso a armas en un país puede aumentar la tasa de homicidios.
Fertilidad: Los países desarrollados tienden a tener tasas de fertilidad más bajas debido a factores como la planificación y la participación laboral activa de las mujeres.
IDH (Índice de desarrollo humano): El IDH es un indicador estadístico que tiene en cuenta factores como el PIB per cápita, la esperanza de vida y la educación. Su escala varía entre 0 y 1.
Con ayuda de estadísticas descriptivas se puede analizar mejor el comportamiento de las variables a utilizar en el modelo con respecto al estado de los países. Para este caso se hace uso de diagramas de cajas y violín los cuales describen la distribución de los datos que proporciona cada variable en relación a países desarrollados o emergentes.
Grafica 1: Esperanza de vida por estado del país
En la gráfica 1, se puede observar que los países desarrollados presentan menor variabilidad de los datos, no se evidencian valores atípicos ya que la mayoría están cercanos a la mediana, pero si se observa una distribucion con mayor brecha indicando la presencia de varios datos en esta área como lo muestra el gráfico de violín, además presenta una mediana mayor respecto a los países emergentes por lo que se puede inferir que la esperanza de vida en países desarrollados es mayor que para los emergentes. Esto significa que los paises desarrollados ofrecen una mejor calidad de vida y por ende, la esperanza de vida aumenta.
Grafica 2: Muertes infantiles por estado del país
En la gráfica 2, se observa que el número de muertes infantiles en países emergentes es bastante mayor a comparación de los países desarrollados, al igual que la variabilidad de los datos, mientras que el rango en el que la mayor parte de los datos oscila es reducido en los países desarrollados, el rango en el que oscilan los datos de los países emergentes es bastante amplio, esto debido a valores atípicos que aumentan la media.
Grafica 3: Gasto en salud (porcentaje del PIB per cápita) por estado del país
En la gráfica 3, se observa que para el porcentaje del gasto en salud se presenta variabilidad tanto para países desarrollados y emergentes, además en el comportamiento de los países emergentes se perciben valores atípicos superiores a los países desarrollados indicando una asimetría en la distribución de los datos, la mediana para este caso es inferior a los países desarrollados, por lo que se puede deducir que el porcentaje de salud invertido para los países emergentes es menor en comparación a los desarrollados.
Grafica 4: Porcentaje del gasto en salud del gasto público por estado del país
En la gráfica 4, se observa que para el porcentaje del gasto en salud del gasto público se presenta variabilidad tanto para países desarrollados y emergentes, sin embargo denotamos que es un poco menor en los países desarrollados, los cuales su gobierno invierte más en salud de lo que lo hacen los gobiernos de los países emergentes.
Grafica 5: Producto Interno Bruto per cápita (USD) por estado del país
En la gráfica 5, se presenta mayor variabilidad para los países desarrollados, pero la distribucion es más sólida en comparación a los países emergentes, lo cual indica que la mayoría de los datos del PIB para estos países siguen un rango similar, además presentan en ambos casos valores atípicos, cabe resaltar que la variabilidad en los países desarrollados puede deberse a factores económicos, sociales y demás que influyen en el valor del PIB haciendo que en algunos países se presente cambios notorios dependiendo de sus necesidades, sin embargo la mediana es superior por lo cual los países desarrollados presentan un valor superior del PIB en comparación a los países emergentes.
Grafica 6: Población por estado del país
En la gráfica 6, vemos que los países emergentes tienen una mayor variabilidad de los datos, el cual gracias al gráfico de violin, abarca todos los posibles valores del eje y, eso significa que los países emergentes no lo son gracias a su población, es decir, la población no es relevante para considerar un país desarrollado o emergente.
Grafica 7: Escolaridad por estado del país
En la gráfica 7, el comportamiento de los años de escolaridad para países desarrollados presenta menos variabilidad, es decir, en estos países se percibe solidez y consistencia en educación, sin embargo se observan algunos datos atípicos y además el diagrama de violín presenta una distribución mayor que podría indicar que hay niveles altos de educación, pero también algunos niveles pueden ser bajos, claramente estos países presentan una mediana superior respecto a los países emergentes por lo que se puede inferir que los niveles de educación en países desarrollados es mucho más grande que para países emergentes.
Grafica 8: Homicidios por estado del país
En la gráfica 8, se puede observar que la tasa de homicidios en los países emergentes presenta mayor variabilidad y una distribución similar en el comportamiento de los datos, los valores atípicos son notorios en ambos diagramas, sin embargo en los países desarrollados el diagrama de violín presenta mayor distribución indicando que en algunos países las tasas de homicidios pueden incrementar o disminuir, la mediana para países emergentes es mayor por lo cual se infiere que las tasas de homicidios son superiores en comparación a los desarrollados.
Grafica 9: Fertilidad por estado del país
En la gráfica 9, se puede observar que se presenta mayor dispersión de los datos para los países emergentes, la distribución de los datos es menor, lo que podría indicar que las tasas de fertilidad en estos países siguen un comportamiento parecido mientras que para los desarrollados se observa un comportamiento sólido en su variabilidad, pero al presentar un diagrama de violín con mayor distribución se podría inferir que en algunos países desarrollados las tasas de fertilidad son mayores en comparación a otras, por otra parte la mediana de los países emergentes es superior por ende las tasas de fertilidad son mayores para estos países respecto a los desarrollados.
Grafica 10: Indice de desarrollo humano (IDH) por estado del país
En la gráfica 10, se puede observar que el IDH para países emergentes presenta mayor variabilidad y distribución de los datos, el diagrama de violín muestra que dicha distribución sigue una tendencia similar por lo que se puede inferir que en la mayoría de países emergentes se presenta el mismo grado de IDH, por otra parte la mediana de los países desarrollados es superior a la de los países emergentes, por ende el progreso en los países desarrollados es evidente en comparación a los emergentes.
Para este modelo se estableció previamente una semilla con el objetivo de que los datos presenten la misma consistencia para el conjunto de entrenamiento y de prueba, a partir del total de la cantidad de datos a estudiar, en este caso son 183 de los cuales se toma una muestra aleatoria de 100 datos con el objetivo de seleccionar aleatoriamente 50 de estos como un conjunto de entrenamiento y los otros 50 como el conjunto de prueba. Teniendo en cuenta lo anterior el modelo divide los datos para proporcionar los conjuntos de entrada y de salida, para luego continuar con la predicción del conjunto de entrenamiento y así poder seguir entrenando el modelo, además se establece un \(k = 3\) lo que indica que se considera las 3 observaciones más cercanas del conjunto de entrenamiento a las observaciones del conjunto de prueba. Estableciendo lo anterior se calcula la media para conocer el porcentaje de predicciones del modelo, a continuación se muestra el resultado obtenido:
## database_test_output
## database_test_output_knn Developed Developing
## Developed 4 8
## Developing 8 30
Código 1: Predicciones modelo knn
El resultado anterior indica que el 74% de los datos se predijeron correctamente respecto al conjunto de prueba, en la tabla se puede observar que las predicciones de los datos arrojaron los siguientes resultados:
Con los resultados anteriores se comprueba que la clasificación de los países no es del todo consistente y por ende se espera que el modelo presente una precisión con mayor variabilidad con respecto a los valores tomados por \(k\), como se muestra en la siguiente gráfica
Grafica 11: Presición con respecto a valores \(k\)
Continuando con el modelo de clasificación se mantiene la asignación de la semilla y se define que el 76% de los datos se van a utilizar como entrenamiento y el 24% como datos de prueba, además se indica que se quiere evaluar para 10 valores diferentes de \(k\) en donde se proporcione el porcentaje de exactitud para cada uno de ellos.
## k-Nearest Neighbors
##
## 138 samples
## 10 predictor
## 2 classes: 'Developed', 'Developing'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 138, 138, 138, 138, 138, 138, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 5 0.6830395 4.344499e-03
## 7 0.7078597 2.456654e-02
## 9 0.7213789 1.528179e-02
## 11 0.7210413 7.316590e-03
## 13 0.7176544 7.786911e-06
## 15 0.7133454 -2.885230e-02
## 17 0.7288648 -1.450231e-02
## 19 0.7394466 -2.299434e-02
## 21 0.7445751 -1.667255e-02
## 23 0.7460630 -1.631967e-02
## 25 0.7554628 4.032346e-05
## 27 0.7596592 1.512937e-04
## 29 0.7588973 5.459129e-03
## 31 0.7617789 5.533814e-03
## 33 0.7616085 8.436250e-03
## 35 0.7619117 3.250922e-03
## 37 0.7630975 2.521074e-03
## 39 0.7638667 -3.831867e-03
## 41 0.7618328 -6.028369e-03
## 43 0.7631887 -4.612476e-03
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 39.
Código 2: \(k\) óptimo
Con los resultados obtenidos se puede conocer el \(k\) óptimo para el modelo, en este caso este valor viene dado por un \(k = 39\) con un porcentaje de exactitud del 76.3%, este valor es fundamental ya que proporciona una mejora para el modelo. A continuación se muestra el comportamiento para cada valor de \(k\) posible
Grafica 12: Precisión con respecto a los vecinos cercanos
Por consiguiente se realiza la predicción utilizando el conjunto de entrenamiento, teniendo en cuenta el k óptimo, es decir, 43 valores más cercanos en los conjuntos de prueba. Los resultados arrojados sugieren un porcentaje de probabilidad para cada dato, es decir, que puede pertenecer a un país desarrollado o emergente, para este caso observando los porcentajes obtenidos se evidencia que en su mayoría los datos se clasifican como países emergentes.
Para completar el análisis del modelo se presenta la matriz de confusión la cual permite una visualización del rendimiento del modelo, facilitando la interpretación ya que permite identificar si la clasificación de los países es correcta o incorrecta y observar si se etiquetan como desarrollados o emergentes. Esta matriz proporciona conceptos como precisión, sensibilidad, especificidad y exactitud, los cuales explicaremos a continuación para poder interpretar correctamente la matriz de confusión.
## Confusion Matrix and Statistics
##
## Reference
## Prediction Developed Developing
## Developed 2 8
## Developing 8 27
##
## Accuracy : 0.6444
## 95% CI : (0.4878, 0.7813)
## No Information Rate : 0.7778
## P-Value [Acc > NIR] : 0.9869
##
## Kappa : -0.0286
##
## Mcnemar's Test P-Value : 1.0000
##
## Sensitivity : 0.20000
## Specificity : 0.77143
## Pos Pred Value : 0.20000
## Neg Pred Value : 0.77143
## Prevalence : 0.22222
## Detection Rate : 0.04444
## Detection Prevalence : 0.22222
## Balanced Accuracy : 0.48571
##
## 'Positive' Class : Developed
##
Código 3: Matriz de confusión dle modelo knn
Predicción: Se puede observar que el modelo establece una predicción para 45 países, en donde la matriz determina que existen 10 países desarrollados, los cuales, dos de ellos, según los datos reales, si son países desarrollados, sin embargo, 8 de ellos fueron clasificados incorrectamente por el modelo. Por otro lado, el modelo determina que existen 35 países emergentes, los cuales 8 de ellos fueron clasificados incorrectamente como desarrollados, sin embargo 27 países fueron clasificados correctamente.
Precisión: El porcentaje de precisión del modelo es del 64.4% , lo que indica que el modelo tiene problemas para la clasificación de los países
Intervalo de confianza: Según los resultados obtenidos, se puede inferir que con un intervalo de confianza del 95% los datos presentan una precisión en un rango de (48.7% - 78,1%).
Valor P: Debido al valor de \(p\), el cual es de 0.98, no se pueden concluir diferencias significativas entre los valores negativos reales y los falsos.
Valor Kappa: Este estadístico posee un valor de -0.0286, lo cual significa que el modelo es peor que una clasificación aleatoria.
Sensibilidad: Se caracteriza por medir la proporción de positivos reales que se clasifican correctamente, en este caso el valor de la sensibilidad es de 20% lo que indica que el modelo tan solo logró clasificar 1/5 parte de los datos de manera correcta para países desarrollados.
Especificidad: Se caracteriza por medir la proporción de negativos reales que se clasifican correctamente, en este caso el valor de la especificidad es del 77%, por ende se puede inferir que el modelo clasificó correctamente gran parte de los países emergentes
Valor predictivo positivo: En este caso el 20% de los verdaderos positivos se clasificaron correctamente como desarrollados.
Valor predictivo negativo: Para este caso el 77,1% de los verdaderos negativos se clasificaron correctamente como emergentes.
Prevalencia: Se caracteriza por mostrar el balance de los datos y se sugiere que se encuentre en torno al 50%, para este caso el porcentaje de prevalencia es del 22,2% lo cual indica que este es el porcentaje de países desarrollados y claramente se evidencia un desbalance respecto a los porcentajes de países emergentes.
Inicialmente, se crea una nueva variable llamada “HDI_alto”. Si el valor de la variable “HDI”, que hace referencia al IDH, que es un claro indicador del desarrollo de un país, es mayor que \(0.7\), se asigna “sí” a la variable “HDI_alto”; de lo contrario, se asigna “no”. Luego, se convierte la variable “HDI_alto” en un factor categórico y se elimina la variable “HDI”. Despues se crean dos conjuntos de datos, llamados de entrenamiento y de prueba, que contienen una muestra aleatoria correspondiente al total de datos, para posteriormente entrenar un modelo de árbol de decisión, con el objetivo de predecir la variable “HDI_alto” en función de las demás variables.
El árbol de decisión se muestra a continuación, donde la interpretación se realizará pasando por cada nodo.
Grafica 13: Árbol de decisión
Infant deaths < 2.145: Esto representa el nodo raíz del árbol. En este nodo, el árbol comienza a tomar una decisión basada en la variable de muertes infantiles, conocida por el modelo como “infant_deaths”. Si el número de muertes infantiles en una país es menor que \(2.145\), continua por la rama “sí” (izquierda). De lo contrario, se sigue por la rama “no” (derecha). Esto sugiere que una baja tasa de mortalidad infantil es un factor importante para la toma de decisión del modelo, la cual es establecer que países se pueden clasificar como desarrollados o emergentes ya que una baja tasa de mortalidad infantil generalmente es un indicador positivo en términos de desarrollo. Por ende, el modelo interpreta que si la tasa de muertes infantiles, es mayor al mencionado, un país no puede clasificarse como un país desarrollado.
life expectancy < 74.3719: El siguiente nodo de decisión se basa en la variable esperanza de vida, conocida por el modelo como “life_expectancy”. Si la esperanza de vida es menor que 74.3719, se sigue por la rama “sí” (izquierda). De lo contrario, se sigue por la rama “no” (derecha). Esto sugiere que una alta tasa de esperanza de vida es un factor a considerar para la clasificación de un país, puesto que en el caso que sea “sí”, es un país con altas posibilidades para considerarse como desarrollado.
Schooling < 8.85: Si la esperanza de vida es menor que \(74.3719\) (cumple la segunda condición), se continua hacia el último nodo de decisión el cual basa en la variable años de escolaridad, conocida por el modelo como “schooling”. Si el nivel de escolaridad es menor que 8.85, se sigue por la rama “sí” (izquierda). De lo contrario, se sigue por la rama “no” (derecha). Esto indica que una tasa que los años de escolaridad tambien es un factor clave a considerar para aquellos países que hayan cumplido la primera y segunda condición
Esto no significa que sean las unicas variables que tengan el peso necesario para clasificar un país, pero son aquellas en las que se puede segmentar la mayor cantidad de países con respecto a las tres variables antes mencionadas.
Continuando el modelo, se crea una matriz de confusión donde se muestran la cantidad de verdaderos positivos y falsos positivos, además de un resumen general del modelo, la cual se muestra a continuación
## Confusion Matrix and Statistics
##
## Reference
## Prediction No Si
## No 41 9
## Si 1 41
##
## Accuracy : 0.8913
## 95% CI : (0.8092, 0.9466)
## No Information Rate : 0.5435
## P-Value [Acc > NIR] : 6.36e-13
##
## Kappa : 0.7842
##
## Mcnemar's Test P-Value : 0.02686
##
## Sensitivity : 0.9762
## Specificity : 0.8200
## Pos Pred Value : 0.8200
## Neg Pred Value : 0.9762
## Prevalence : 0.4565
## Detection Rate : 0.4457
## Detection Prevalence : 0.5435
## Balanced Accuracy : 0.8981
##
## 'Positive' Class : No
##
Código 4: Matriz de desición de modelo de árbol de decisión
Las predicciones hacen referencia a como clasificó el modelo a los países, con respecto a los valores reales, siendo “sí” los países desarrollados y “no” los paises emergentes.
Analizando las predicciones, el \(41\) representa los Verdaderos Negativos (TN), es decir, el número de casos predichos correctamente como “no”. El \(9\) representa los falsos positivos (FP), es decir, el número de casos predichos incorrectamente como “sí” cuando en realidad eran “no”. En el caso del \(1\) representa Falsos Negativos (FN), es decir, el número de casos predichos incorrectamente como “no” cuando en realidad eran “sí”. Finalmente, la celda inferior derecha \(41\) representa los Verdaderos Positivos (TP), es decir, el número de casos predichos correctamente como “sí”.
En cuanto a la precisión del modelo es de 0,8913, lo que indica que el 89,13% de las predicciones son correctas, y la precisión se encuentra dentro del rango de (\(0.8092 - 0.9466\)) con un 95% de confianza. Ahora bien, en cuanto a “No information rate” hace referencia a la clase mas frecuente en los datos de prueba, la cual es de \(0.5435\), que representa la precisión lograda al predecir siempre la clase mayoritaria (en este caso, “no”).
Por otro lado, el valor \(p\) es \(6.36e-13\), que es un valor infinitamente bajo. Un valor \(p\) bajo sugiere que la precisión del modelo es estadísticamente significativamente diferente de “No information rate”. La estadística Kappa es \(0.7842\) la cual es muy cercana a \(1\), esto nos evidencia un modelo con gran solidez. La sensibilidad es \(0.9762\), lo que indica que el modelo identifica correctamente el 97,62% de los casos positivos reales “sí”, así como la especificidad la cual es \(0.8200\), indicando que el modelo identifica correctamente el 82% de los casos negativos reales “no”.
Finalmente, el valor predictivo positivo es \(0.8200\), lo que sugiere que cuando el modelo predice “sí”, es correcto el 82% de las veces, mientras que el valor predictivo negativo es \(0.9762\), lo que indica que cuando el modelo predice “no”, es correcto el 97,62% de las veces. La tasa de detección es \(0.4457\), que es la proporción de casos positivos reales que el modelo identifica correctamente, así como la tasa de prevalencia de detección que es \(0.5435\), que es la proporción de casos que el modelo predice como positivos.
Por último, se muestra en el siguiente gráfico la tasa de verdaderos y falsos positivos para representar una curva ROC
Grafica 14: Curva ROC
La Curva ROC muestra la relación entre la Sensibilidad (TPR) y la Especificidad (1 - FPR) a medida que se varía el umbral de clasificación del modelo. Un modelo perfecto tendría una Curva ROC que se acercara al punto superior izquierdo del gráfico, lo que indica una alta Sensibilidad y una baja tasa de Falsos Positivos, la cual es la tendencia que se evidencia en el gráfico anterior. El AUC (Área bajo la Curva ROC) también es una métrica útil para resumir el rendimiento del modelo, donde un AUC cercano a 1 es deseable.
Los modelos predictivos aplicados a datos académicos, como en nuestro caso, pueden ayudar en la generación de mejores estrategias para los problemas que aquejan a las sociedades.
El desequilibrio en la distribución de países desarrollados y emergentes en los datos (solo el 22,2% son desarrollados) puede ser un desafío importante para el modelo. Esto puede llevar a una falta de verdaderos positivos en la clasificación de países desarrollados y afectar la capacidad del modelo para identificarlos con precisión.
Es esencial considerar diferentes métricas de evaluación del modelo, especialmente en situaciones de desequilibrio de clases. La precisión por sí sola puede ser engañosa. La sensibilidad, especificidad y los valores predictivos son métricas adicionales importantes a tener en cuenta.
Se identificó un valor óptimo de k = 43 con una precisión del 75,4%. Este valor es crucial para el rendimiento del modelo Knn y podría considerarse como la base para futuras mejoras.
Los países desarrollados tienden a tener una esperanza de vida más alta en comparación con los países emergentes. Esto sugiere que los sistemas de salud y las condiciones de vida en los países desarrollados son más favorables, lo que contribuye a una mayor longevidad de la población. Por otro lado, los países emergentes muestran una mayor variabilidad y un número más alto de muertes infantiles en comparación con los países desarrollados. Esto indica desafíos significativos en la atención médica y la seguridad de los niños en los países emergentes.
Los países desarrollados muestran un mayor porcentaje de gasto del gobierno en salud en relación con el gasto público total. Esto indica una mayor inversión pública en servicios de salud en estos países. Y aunque los países desarrollados tienen una mayor variabilidad en sus valores de PIB per cápita, en promedio, tienden a tener un PIB per cápita más alto en comparación con los países emergentes. Las diferencias pueden deberse a factores económicos y sociales.
El IDH es más alto en los países desarrollados en comparación con los países emergentes, lo que indica un mayor grado de desarrollo humano, lo cual es influido principalmente por la esperanza de vida, el PIB per cápita y los años de escolaridad, los cuales son mucho más consistentes en los países desarrollados debido al gran acceso a la educación que estos poseen.
Basándonos en los resultados del modelo de clasificación K-vecinos más cercanos (Knn), el modelo no clasifica con perfección países como desarrollados o emergentes. Aunque el modelo tiene una precisión del 77%, al observar la matriz de confusión, lo que podría ser problemático si se utiliza para la toma de decisiones críticas. Dado que la tarea de clasificar países como desarrollados o emergentes es importante y compleja, se recomendaría realizar una evaluación más profunda del modelo y considerar otros enfoques de aprendizaje automático antes de depender completamente de los resultados de este modelo. Es importante tener en cuenta que los resultados del modelo pueden depender en gran medida de la calidad y cantidad de los datos utilizados para entrenar y probar el modelo, así como de la elección de características y parámetros.
Teniendo en cuenta lo anterior, el modelo más óptimo para la clasificación de un país dependiendo de la variables de estudio es el modelo jerárquico, el cual tiene una precisión del 89.13%, lo cual demuestra la solidez de dicho modelo.
United Nations. (s/f). Human Development Index. Human Development Reports. Recuperado el 28 de octubre de 2023, de
Descubra el algoritmo KNN: un algoritmo de aprendizaje supervisado. (2021, diciembre 28). Formation Data Science | Datascientest.com.
Capítulo 10 Aprendizaje Supervisado. (2020, junio 26). Bookdown.org.
ProfesorDATA. (2020, agosto 7). Evaluando los modelos de Clasificación en Aprendizaje Automático: La matriz de confusión. profesordata.com.