Logo UV


CLASIFICACIÓN

Daniel Fernando Buitron - 1925967
Julian Bedoya Jaramillo - 1926444
Leony Ordoñez Martinez - 1925713

Introducción

En el presente trabajo se hizo uso de la base de datos WHO, que contiene información relacionada con indicadores de salud, economía y población de distintos países, para determinar la validez de 10 variables en la caracterización del nivel de desarrollo de cada país. Para ello, se hizo uso de dos métodos de clasificación: modelo Knn y Árbol de clasificación; posterior a la clasificación, se hizo una comparación con el fin de tomar una decisión respecto a qué modelo es más preciso para realizar dichas clasificaciones.

Contexto

La clasificación de las naciones según su nivel de desarrollo constituye una manera de agrupar a los países del mundo considerando diversos criterios económicos, sociales, políticos y medioambientales. Aunque existen varias metodologías para llevar a cabo esta clasificación, las más ampliamente reconocidas a nivel internacional son aquellas empleadas por el Banco Mundial, la Organización de las Naciones Unidas y el Fondo Monetario Internacional. Cada una de estas instituciones utiliza categorías y variables particulares para evaluar el nivel de desarrollo de los países.

De manera general, se puede afirmar que los países desarrollados son aquellos que han logrado un elevado nivel de desarrollo humano, caracterizado por estándares de vida elevados y un crecimiento sostenido en ámbitos económicos, humanitarios e industriales. Por otro lado, los países emergentes son aquellos que experimentan un considerable crecimiento económico, pero poseen una renta per cápita relativamente baja y están transitando hacia un mayor desarrollo.

El Gráfico 1 muestra la clasificación de los países según su nivel de desarrollo, utilizando los datos proporcionados en la base de datos WHO y filtrados al año 2015.

Gráfico 1 - Clasificación De Los Países Según Su Nivel De Desarrollo

Justificación de Variables

Inicialmente, se llevó a cabo una investigación exploratoria para comprender cómo las variables seleccionadas pueden influir en el nivel de desarrollo. Los hallazgos iniciales proporcionaron una base para luego comparar y contrastar con los resultados del modelo propuesto.

Las variables seleccionadas fueron:

  • Esperanza de vida
  • Tasa de mortalidad en adultos, probabilidad de morir entre 15 y 60 años por 1000 habitantes.
  • Mortalidad infantil, número de muertes infantiles (Menores de cinco años) por cada 1000 nacidos vivos.
  • Hepatitis B, cobertura de vacunación, enfocada en niños de 1 año (%).
  • Sarampión, número de casos notificados por 10.000 habitantes.
  • Polio, cobertura de vacunación entre niños de 1 año (%).
  • Porción del gasto del gobierno en salud en relación con el gasto público total.
  • VIH-SIDA, muertes por cada 1000 nacidos vivos, entre 0 y 4 años.
  • PIB, Producto Interno Bruto Per Cápita (USD).
  • Homicidios, tasa de homicidios por 100.000 habitantes.

Como punto de partida tenemos que la esperanza de vida. Según un trabajado realizado Temporelli & viejo (2011) indican que la longevidad ha experimentado un notable incremento, este escenario se replica para países emergentes, en este caso, para Latinoamérica ha pasado de 30 y 40 años a principios del siglo XX, a 73 para el año de 2005. Sin embargo, indican que el incremento fue bastante mayor para países más desarrollados.

Ahora bien, según el artículo de la CEPAL titulado “Gastos en salud, crecimiento económico y mortalidad infantil: antecedentes de países desarrollados y en desarrollo”, se sugiere que alcanzar un cierto umbral de gasto en salud, esperado tanto por países emergentes como por desarrollados, puede tener un impacto significativo en la reducción de la mortalidad infantil. Este artículo subraya la importancia de la inversión en salud como un factor determinante en el desarrollo de un país, ya que la mejora de la salud de su población desempeña un papel crucial en este proceso.

En relación con la tasa de mortalidad en adultos, según datos de las Naciones Unidas, para países desarrollados es menor a la de países en desarrollo, lo cual también se puede esperar con la mortalidad infantil, pero el informe no es claro en este hecho.

Se espera que las variables relacionadas con la mortalidad y la prevención de enfermedades como la hepatitis B, la polio, el VIH-SIDA y el sarampión estén vinculadas al nivel de gasto en salud, ya que una mayor inversión en salud tiende a promover campañas de prevención, vacunación y tratamiento de estas enfermedades. Como señala la CEPAL en su artículo de 2018, “un sistema de salud bien desarrollado contribuye a aumentar la productividad laboral, lo que a su vez impulsa el crecimiento de los salarios y el Producto Interno Bruto (PIB)”, Siendo este, uno de los factores que influyen en la clasificación del nivel de desarrollo de un país.

De acuerdo con un Informe de la Oficina de las Naciones Unidas Contra la Droga y el Delito, más allá del impacto negativo que un Homicidio genera en la vida de la víctima y su familia, sino que tiene un impacto significativo en la sociedad, la economía y las instituciones gubernamentales. Entre las consecuencias económicas se debe considerar que un homicidio incluye la pérdida de ingresos para los hogares dependientes de la actividad económica de la víctima, la reducción de la demanda de ciertos bienes y servicios de inversión, el deterioro del capital humano y la afectación del bienestar social.

Metodología

Este análisis se enfocó en la construcción de dos modelos de clasificación, KNN y tree, utilizando el lenguaje de programación R en el entorno de desarrollo integrado RStudio. Se emplearon un conjunto de bibliotecas para facilitar la ejecución de tareas específicas:

  • readxl: Se recurrió a esta biblioteca para importar datos de hojas de cálculo de Microsoft Excel a R. Esto permitió incorporar los datos relevantes para el estudio que se encontraban en archivos Excel.

  • Tidyverse: Esta biblioteca fue utilizada para la manipulación, visualización y análisis de datos. Facilitó la preparación y exploración de los datos, asegurando que estuvieran en un formato adecuado para el análisis y la construcción de modelos.

  • ROCR: Esta biblioteca desempeñó un papel fundamental en la evaluación y visualización del rendimiento de los modelos de clasificación construidos. Proporcionó herramientas y métricas para evaluar que tan bien los modelos fueron capaces de clasificar los datos.

  • Caret: Es una biblioteca que contempla muchas funciones para la construcción y evaluación de modelos de aprendizaje automático, para este caso KNN, K-ésimo vecino más cercano.

  • Tree: En particular, esta biblioteca proporciona funciones para construir árboles de decisión de clasificación y regresión.

Este trabajo se dividió en varias etapas. En la etapa 1, se comenzó por cargar la base de datos ‘WHO.xlsx’. Esta base de datos contiene información sobre indicadores de salud, económicos y sociales para la población de varios países, abarcando los años desde 2010 hasta 2018. La base de datos se sometió a una manipulación inicial para su uso en este estudio. En particular, se seleccionaron diez variables de interés previamente mencionadas, relacionadas con la salud y la socioeconomía. Además, se estableció como año de enfoque el año 2015, con el fin de centrar el análisis en un período específico.

La etapa 2 consistió en la implementación de los dos modelos:

  1. Modelo K vecinos más próximos, Knn por sus siglas en Ingles.

    Este modelo es un clasificador de aprendizaje supervisado, que emplea la proximidad para hacer clasificaciones o predicciones sobre la agrupación de un punto de datos individual. Para el caso de estudio, se usaría como herramienta predictiva con relación al estado de desarrollo de un país en función de las variables seleccionadas.

    La construcción del modelo consistió en la creación de dos subconjuntos de datos, “WHO_entrena y WHO_test”, uno de entramiento y uno de prueba, 75% y 25%, respectivamente. Con el primer conjunto de datos se entrena al modelo, y con el segundo se avalúa al modelo, buscando que el modelo cumpla la función de predecir la variable Status en función de todas las demás variables.

    Para visualizar las predicciones, se usó una función “predict”, una enfocada en la predicción directa, desarrollado o emergente, y otra versión que calcula las probabilidades de partencia a cada etiqueta de “Status”.

  2. Modelo Tree, tmabién llamado modelo Árbol.

    Este tipo de modelo se usa para desarrollar sistemas de clasificación que predicen o clasifican observaciones futuras basándose en un conjunto de reglas de decisión.

    Para su aplicación en lenguaje de programación R, se usó la librería “tree”, la cual permite la creación de un árbol de clasificación. Se inicia construyendo el modelo, usando el conjunto de datos “WHO_entrena” para predecir la variable “Status” en función de las demás variables. Para luego representar gráficamente la clasificación tipo árbol, del modelo.

    Para las predicciones, se emplearon dos visualizaciones, usando las funciones “predict” y “table”, donde la primera indica la predicción del modelo y la segunda muestra una tabla de contingencia que compara las predicciones con los valores reales de “Status” en el subconjunto de prueba.

Por último, como etapa 3, se evaluaron los rendimientos de los modelos:

  1. Curva ROC: Es una representación gráfica que muestra la relación entre la tasa de verdaderos positivos TPR, y la tasa de falsos positivos FPR.Esta gráfica permite evaluar la capacidad del modelo para distinguir entre clases positivas y negativas, un modelo ideal tendría una curva ROC que se acercaría a la esquina superior izquierda del gráfico, lo que indica una alta TPR y un bajo FPR. Cuanto más se aleje de esta esquina, menos efectivo es el modelo.

  2. Matriz de confusión: Es un conjunto de métricas que evalúan los modelos de clasificación:

  • Sensibilidad: se refiere a la capacidad de un modelo para identificar correctamente los casos positivos. En otras palabras, la sensibilidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea definido como positivo.

  • Especificidad: se refiere a la capacidad de un modelo para identificar correctamente los casos negativos. En otras palabras, la especificidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea definido como negativo.

  • Pos Pred Value: es la proporción de predicciones positivas que son realmente positivas. Se calcula como el número de verdaderos positivos dividido por el número total de predicciones positivas.

  • Neg Pred Value: es la proporción de predicciones negativas que son realmente negativas. Se calcula como el número de verdaderos negativos dividido por el número total de predicciones negativas.

  • Prevalencia: la prevalencia de la condición que se quiere predecir, es decir, la proporción de casos positivos en la población. A mayor prevalencia, mayor será el Pos Pred Value y menor será el Neg Pred Value, y viceversa.

  • Devianza: es una medida de la bondad de ajuste de un modelo de clasificación. Se define como el doble de la diferencia entre el logaritmo de la verosimilitud del modelo y el logaritmo de la verosimilitud del modelo saturado. El modelo saturado es el que predice perfectamente los datos observados, es decir, tiene una verosimilitud máxima. La devianza se puede interpretar como la pérdida de información que se produce al usar un modelo en lugar del modelo saturado. Cuanto menor sea la devianza, mejor será el ajuste del modelo. La verosimilitud del modelo es una medida de cuán probable es que el modelo produzca los datos observados.

Análisis Descriptivo

A continuación se presenta una serie de datos estadísticos que buscan describir el comportamiento de las variables seleccionadas.

Primeramente, la tabla 1 muestra los cálculos de medias, desviaciones estándar, medianas, valores máximos y mínimos.

Tabla 1 - Estadística Descriptiva

##                           mean           sd       median      min          max
## Life.expectancy   7.140228e+01 7.874454e+00 7.294100e+01  50.8810 8.379390e+01
## Adult.mortality   1.666315e+02 8.957866e+01 1.479000e+02  49.6100 4.983000e+02
## Infant.deaths     3.244551e+00 3.241624e+00 1.740000e+00   0.2300 1.356000e+01
## Measles           8.656494e-01 5.537641e+00 2.731062e-02   0.0000 6.789866e+01
## Hepatitis.B       8.699374e+01 1.483025e+01 9.200000e+01  22.0000 1.025440e+02
## Polio             8.822106e+01 1.315885e+01 9.300000e+01  37.0000 9.900000e+01
## HIV.AIDS          2.187325e-02 5.786170e-02 1.220522e-03   0.0000 5.396420e-01
## Homicides         8.627158e+00 1.209475e+01 4.890000e+00   0.2700 8.754000e+01
## GDP               1.264423e+04 1.736690e+04 5.406704e+03 305.5498 1.013765e+05
## Total.expenditure 1.766448e+02 4.597489e+02 1.195000e+01   1.7800 2.015000e+03

Ahora, es importante detectar si existe alguna correlación entre las variables seleccionadas. Para ello, la tabla 2 muestra el nivel de correlación entre cada una de las variables.

Tabla 2 - Correlación Entre Variables

##                   Life.expectancy Adult.mortality Infant.deaths       Measles
## Life.expectancy        1.00000000     -0.94899920   -0.91675918 -0.0735396923
## Adult.mortality       -0.94899920      1.00000000    0.86093573  0.0766887327
## Infant.deaths         -0.91675918      0.86093573    1.00000000  0.0201557329
## Measles               -0.07353969      0.07668873    0.02015573  1.0000000000
## Hepatitis.B            0.48810537     -0.46608098   -0.60457760  0.0127671291
## Polio                  0.61146901     -0.57081153   -0.70964717 -0.0005709447
## HIV.AIDS              -0.55298437      0.59964244    0.46525318 -0.0087545746
## Homicides             -0.23273680      0.31546800    0.14851582 -0.0207471142
## GDP                    0.62559422     -0.56246455   -0.47275673 -0.0735592887
## Total.expenditure     -0.10062034      0.13014152    0.14188883 -0.0367972568
##                   Hepatitis.B         Polio     HIV.AIDS   Homicides
## Life.expectancy    0.48810537  0.6114690137 -0.552984367 -0.23273680
## Adult.mortality   -0.46608098 -0.5708115345  0.599642444  0.31546800
## Infant.deaths     -0.60457760 -0.7096471682  0.465253182  0.14851582
## Measles            0.01276713 -0.0005709447 -0.008754575 -0.02074711
## Hepatitis.B        1.00000000  0.9252623965 -0.204080882 -0.07934075
## Polio              0.92526240  1.0000000000 -0.261393341 -0.10811739
## HIV.AIDS          -0.20408088 -0.2613933406  1.000000000  0.12770377
## Homicides         -0.07934075 -0.1081173870  0.127703769  1.00000000
## GDP                0.16182434  0.2963409845 -0.221771599 -0.24018643
## Total.expenditure -0.08161000 -0.1030991839  0.033284950  0.08437863
##                           GDP Total.expenditure
## Life.expectancy    0.62559422       -0.10062034
## Adult.mortality   -0.56246455        0.13014152
## Infant.deaths     -0.47275673        0.14188883
## Measles           -0.07355929       -0.03679726
## Hepatitis.B        0.16182434       -0.08161000
## Polio              0.29634098       -0.10309918
## HIV.AIDS          -0.22177160        0.03328495
## Homicides         -0.24018643        0.08437863
## GDP                1.00000000       -0.10447473
## Total.expenditure -0.10447473        1.00000000

Como se puede apreciar, las variables cuya correción supera el 70% son las siguientes:

  • Hepatitis.B - Polio (92.52%)
  • Infant.deaths - Adult.mortality (86.09%)
  • Polio - Infant.deaths (-70.96%)
  • Life.expectancy - Infant.deaths (-91.67%)
  • Life.expectancy - Adult.mortality (-94.89%)

Para entender un poco más esta corelación y, además, incluir la variabilidad del nivel de desarrollo de los países, se presentan los siguientes gráficos de dispersión:

El Gráfico 2 muestra la relación existente entre las variables de vida y muerte usadas en el modelo.

Gráfico 2 - Correlación De Variables De Vida y Muertes

Como se puede observar, la relación negativa entre la expectativa de vida y la cantidad de muertes, tanto en infantes como en adulto, tiene un alto grado de correlación: a medida que aumentan las muertes, disminuye la expectativa de vida. Además, los países desarrollados tienden a tener una menor cantidad de muertes y una expectativa mayor de vida, en comparación a los países emergentes.

El Gráfico 3 muestra la relación existente entre las variables de muerte.

Gráfico 3 - Correlación De Variables De Muertes

Como se puede observar, existe una correlación positiva entre las variables de muerte de infantes y la muerte de adultos: a medida que aumentan las muertes de infantes, aumentan las muertes de adultos. Además, los países desarrollados tienden a tener una menor cantidad de muertes en infantes y en adultos, en comparación a los países emergentes.

El Gráfico 4 muestra la relación existente entre las variables de inmunización de enfermedad y la muerte de infantes.

Gráfico 4 - Correlación De Variables De Inmunización y Muertes Infantiles

Como se puede observar, existe una correlación positiva entre la proporción de población inmunizada en Hepatitis B y Polio: a medida que aumenta la inmunización de la Hepatitis B, aumenta la inmunización de la Polio. Además, los países desarrollados tienden a tener una mayor cobertura en la inmunización de estas enfermedades, en comparación a los países emergentes.

Por otra parte, existe una correlación negativa entre el nivel de inmunización de la Polio y la muerte de infantes: a medida que aumenta la inmunización de la enfermedad, disminuye la muerte de infantes. Además, los países desarrollados tienden a tener una mayor cobertura en la inmunización de la Polio y una menor cantidad de muertes de infantes, en comparación a los países emergentes.

Resultados

Método Knn

Una vez realizado el modelo Knn, se determinó que la cantidad óptima de vecinos cercanos es 23, como lo sugiere el Gráfico 5

Gráfico 5 - Precisión Por Cantidad De Vecinos Cercanos

Además, este modelo nos arroja los siguientes resultados de clasificación de los datos usados para la evaluación del mismo:

Tabla 3 - Resultados De Clasificación Knn

##                  
## WHO_knnPrediccion Developed Emerging
##         Developed         3        2
##         Emerging          7       33

Se presentan un total de 36 aciertos y 9 errores (80% de aciertos)

Método del Árbol

Por su parte, el modelo Árbol arroja un árbol con dos ramas; la variable principal de la clasificación son las muertes infantiles, pasando luego a las variables GDP u Homicidios, donde, un país con Homicidios menor a 1.565 siempre será emergente, mientras que, un país con un GDP menor a 10200.5 puede ser emergente o desarrollado. El Gráfico 6 muestra el árbol resultante del modelo:

Gráfico 6 - Árbol De Clasificación

Además, este modelo nos arroja los siguientes resultados de clasificación de los datos usados para la evaluación del mismo:

Tabla 4 - Resultados De Clasificación Árbol

##             
## predicciones Developed Emerging
##    Developed         7        0
##    Emerging          3       35

Se presentan un total de 42 aciertos y 3 errores. (93% de aciertos)

Valoración

Curva ROC

A continuación se presentan las curvas ROC obtenidas para cada uno de los modelos desarrollados:

Gráfico 7 - Curva ROC Knn

Gráfico 8 - Curva ROC Árbol

Respecto al modelo Knn, se obtiene una curva ROC que sugiere que el clasificador tiene una limitada capacidad para distinguir de manera efectiva entre la Tasa de Verdaderos Positivos (TPR) y la Tasa de Falsos Positivos (FPR). Esto se evidencia en la pendiente que tiene a 1, lo que conduce la curva hacia la esquina superior derecha del gráfico. En contraste, observamos como en el modelo Árbol la relación tiende hacia la esquina superior izquierda del gráfico, indicando una mayor capacidad para llevar a cabo una clasificación precisa en términos de sensibilidad y especificidad.

Matriz De Confusión

A continuación se presenta la Tabla 5 donde se observa un resumen de los datos obtenidos en las matrices de confusión para ambos modelos.

Tabla 5 - Matrices de Confusión

# Métrica Modelo KNN Modelo Tree
1 Exactitud 0.80 0.93
2 Sensibilidad 0.30 0.70
3 Especificidad 0.94 1.00
4 Valor Predictivo Positivo 0.60 1.00
5 Valor Predictivo Negativo 0.825 0.921
6 Prevalencia 0.222 0.222
7 Devianza NA 0.042
  1. Para el modelo tree hay una mayor cantidad de casos clasificados correctamente, 93% de los casos totales, 1300 puntos básicos por encima de la exactitud de m.

  2. El modelo tree tiene una capacidad mayor para predecir los casos positivos correctamente, con una diferencia de 0.4.

  3. Aunque la diferencia en pequeña, de 0.06, el modelo tree tiene una mayor capacidad para identificar correctamente los casos negativos.

  4. Las predicciones positivas que son realmente positivas están presentes en un 100% para el modelo tree, mientras que para el modelo Knn, son el 60%. Las predicciones de economías desarrolladas, que realmente eran desarrolladas, están presentes en un 60%, para el modelo knn, mientras que para el modelo tree, este tipo de predicción es del 100%.

  5. Las predicciones negativas que son realmente negativas están presentes en un 90% para el modelo tree, mientras que para el modelo Knn, son el 82%. Las predicciones clasificadas como economías emergentes, que realmente eran emergentes, están presentes en un 82% para el modelo Knn, mientras que para el modelo tree, esta tasa mejora en un 10%, siendo de 92%.

  6. La proporción real de casos positivos en la base de datos, es del 22.2%.

  7. La devianza sólo pudo ser obtenida para el modelo del árbol, la cual fue de 4.2%.

Conlusiones

En el presente trabajo se mostró la realización de dos modelos de clasificación que buscan usar 10 variables para determinar el grado de desarrollo de un país. Una vez programados los modelos y tras realizar la evaluación de los mismos, se puede concluir que, a partir de lo observado en las gráficas ROC y los datos presentados en la matriz de confusión, el modelo Árbol realiza una mejor clasificación.

En resumen, el modelo Árbol presenta una pendiente ROC más elevada que el modelo Knn, además, presenta valores superiores en cada una de las métricas valoradas en la matriz de confunción, demostrando poseer una mayor capacidad para predecir los verdaderos positivos y los verdaderos negativos, así como una mayor exactitud al clasificar.