Análisis Supervisado

Introducción

Durante el presente informe se realizó un estudio de la base de datos WHO, seleccionado los datos para el año 2018, con el objetivo de utilizar variables bajo el contexto de la salud pública en un país, para generar modelos de aprendizaje supervisado que, al introducir las características de un país en estos, permitan predecir si este se considera como “emergente” o “desarrollado”.

La clasificación de un país generalmente se basa en una serie de indicadores económicos y sociales que evalúan el nivel de desarrollo económico y bienestar de la población. Las diferentes variables que tienen influencia en este tipo de clasificación parten de contextos específicos, tales como el consumo de alcohol y las tasas de homicidios en un país, o, por otra parte, la presencia de enfermedades como el VIH, Sida, la Hepatitis, el Sarampión, la difteria, entre otras. Pero estas variables no reflejan el nivel de desarrollo de una nación hasta que no son consideradas en su conjunto para establecer indicadores tan importantes como el Índice de Desarrollo Humano.

Creado por el PNUD (Programa de las Naciones Unidas para el Desarrollo), el IDH, desde hace tres décadas da a conocer el grado de progreso de cada país, teniendo en cuenta factores sanitarios, educativos y económicos. Cabe resaltar que dentro de los factores sanitarios se encuentran la esperanza de vida y la tasa de mortalidad, principales indicadores de las condiciones de salubridad en un país.

En cuanto a factores económicos, se trae a colación el PIB per cápita, considerado como el resultado final de la actividad productiva de un país, el cual ofrece información sobre el tamaño de la economía, su desempeño y a su vez su capacidad de inversión. De lo anterior, la capacidad de inversión del Gobierno en salud está relacionada con la capacidad productiva, por esto se considera una variable que puede influir en la clasificación de un país, pues, una mayor inversión conduce a una mejor infraestructura de atención médica, mayor disponibilidad de servicios de salud, mejores programas de prevención y promoción de la salud, y mejor acceso a medicamentos y tratamientos.

Variables seleccionadas y sus unidades de medida:

Status: Estado desarrollado o emergente
GDP: PIB, Producto Interno Bruto per cápita (en USD)
HDI: Índice de Desarrollo Humano en términos de composición de ingresos de los recursos (índice que va de 0 a 1)
Life.expectancy: Esperanza de vida en edad
Adult.mortality: Mortalidad. Adultos, tasas de mortalidad de adultos de ambos sexos (probabilidad de morir entre 15 y 60 años por cada 1000 habitantes)
Homicides: Homicidios, tasas de homicidios por 100.000 habitantes
HIV.AIDS: VIH. SIDA, Muertes por cada 1000 nacidos vivos, VIH/SIDA (0-4 años)
Measles: Sarampión, número de casos notificados por cada 10000 habitantes
Total.expenditure: Gasto. Total, gasto del gobierno general en salud como porcentaje del gasto público total (%)
Diphtheria: Difteria, cobertura de vacunación con toxoide diftérico, tetánico y tos ferina (DTP3) entre niños de 1 año (%)
Alcohol: Alcohol, consumo per cápita registrado (mayores de 15 años) (en litros de alcohol puro)

Análisis exploratorio

Para llevar a cabo un análisis más preciso y obtener una comprensión más profunda de las variables, se construyeron diagramas de cajas que destacan tanto la media como la varianza de las variables seleccionadas en comparación con la variable de clasificación denominada “Status”. Estos diagramas de cajas proporcionan una representación visual que permite identificar de manera efectiva las diferencias en la distribución de estas variables en función de la categorización de los países como desarrollados o emergentes. Además, al resaltar la media y la varianza, se facilita la comparación de tendencias centrales y dispersión, lo que contribuye a una evaluación más detallada de cómo estas variables influyen en la clasificación de los países.

Gráficos descriptivos

Gráfico 1

Figura 1.1 : Gráfico del GDP segun Status.

El GDP es uno de los indicadores que se utilizan para evaluar el desarrollo de un país al determinar su acceso a recursos, la estabilidad económica y política, la infraestructura, la capacidad de su capital humano y su capacidad para participar en la economía global. Al observar la gráfica, en promedio los países desarrollados tienen un GDP de 40609.13 ± 23941.00 USD, más alto en comparación con los países emergentes, con un promedio de 6.706,98 ± 8688,00. Se observa una variabilidad alta en ambos grupos, lo que indica que hay países con un rango amplio de valores de GDP en ambas categorías. Los valores extremos resaltan la diversidad económica de los países, mostrando una amplitud desde un mínimo de 271,8 hasta un máximo de 116.654,3.

Gráfico 2

Figura 1.2 : Gráfico del HDI segun Status.

El bienestar y la clasificación de un país como desarrollado también se ve reflejada en cómo la población en términos de salud, educación y nivel de vida. Al observar la gráfica se puede notar que en promedio los países desarrollados tiene un HDI más alto, con un valor de 0.88 ± 0.08 , en comparación con los emergentes, que tienen un promedio de 0.65 ± 0.11 . De acuerdo a las desviaciones estándar, la variabilidad de los valores HDI es similar en ambas categorías.

Gráfico 3

Figura 1.3 : Gráfico del Total.expenditure segun Status.

El gasto en salud como porcentaje del gasto público total refleja la inversión en el bienestar y la salud de la población, así como el compromiso con la equidad en el acceso a la atención médica. Los países que asignan una parte significativa de sus recursos generan un impacto positivo en la calidad de vida, la salud de la población y el desarrollo económico.

En el contexto de los países desarrollados, se observa que destinan, en promedio, un 58.24 ± 31.28 % de su gasto público total a la salud, mientras que en los países emergentes, este valor es significativamente más bajo, con un promedio del 19.55 ± 4.67 %. Estos valores indican que los países desarrollados priorizan una mayor inversión en servicios de salud en comparación con los emergentes. Por otra parte, los países emergentes muestran una varianza más baja, indicando una distribución más homogénea de sus recursos.

Gráficos descriptivos

Gráfico 4

Figura 1.4 : Gráfico de la Life.expectancy segun Status.

La esperanza de vida es un indicador que se tiene en cuenta para la clasificación de un país como desarrollado o emergente. Por lo general, un país desarrollado tiene una alta esperanza de vida, una mejor calidad de vida, atención médica avanzada y una población más saludable. Al analizar la gráfica de relación entre la Esperanza de Vida y el status, se destaca que, en promedio, los países desarrollados tienen una esperanza de vida de 80.64 ± 2.67 años, lo cual es significativamente superior en comparación con los países emergentes, que presentan un promedio de 69.7 ± 6.6 años. Estos valores promedio indican una diferencia sustancial en la esperanza de vida entre ambas categorías. Además, en países emergentes se observa una considerable variabilidad en los valores de la esperanza de vida, esta diversidad podría reflejar la diversidad en las condiciones de salud y calidad de vida, La dispersión de los datos, se encontró que la varianza para los países desarrollados es de 7.11 años, mientras que los países emergentes es de 43.92 años. Estos valores indican que la variabilidad en la esperanza de vida de los países emergentes es significativamente mayor que en los países desarrollados.

Gráfico 5

Figura 1.5 : Gráfico de tasa de Adult.mortality segun Status.

Una tasa de mortalidad de adultos más baja generalmente se asocia con un mejor desarrollo en áreas como la salud, el acceso a la atención médica, la calidad de vida y las condiciones socioeconómicas. Al analizar la gráfica y mirar la relación entre la “Tasa de Mortalidad de Adultos” y el “Status” de los países, se observa una influencia significativa en la clasificación de los países como desarrollados o emergentes. Para los países desarrollados, la tasa de mortalidad de adultos presenta una media de 65.1 ± 23.1, indicando una menor probabilidad de fallecimiento entre los adultos. En contraste, en los países emergentes, la media es considerablemente más alta, con un valor de 191.93 ± 95.80 , señalando una probabilidad más elevada de fallecimiento entre los adultos. Estas diferencias sugieren que la tasa de mortalidad de adultos puede ser un indicador que influye en la clasificación de un país como desarrollado o emergente, reflejando diferencias en la calidad de vida, el acceso a la atención médica y las condiciones de salud en estas dos categorías de países.

Gráfico 6

Figura 1.6 : Gráfico tasa de Homicides segun Status.

El nivel de homicidios en un país es un indicador importante de seguridad, estabilidad y calidad de vida, y puede influir en la clasificación de un país como desarrollado o emergente debido a impactos negativos en diversos aspectos de su sociedad y economía. Al analizar la relación entre el “Nivel de Homicidios” y el “Status” de los países, para los países desarrollados, la tasa de homicidios presenta una media baja de 1.48 ± 1.39 homicidios por cada 100 mil habitantes, lo que indica una menor incidencia de homicidios en esta categoría. En cambio, en los países emergentes, la media es significativamente más alta, alcanzando 10.46 ± 13.00, lo que sugiere una mayor incidencia de homicidios. Estas diferencias en las tasas de homicidios pueden reflejar desafíos en términos de seguridad y gobernanza, lo que influye en la clasificación de los países en desarrollo y calidad de vida.

Gráfico 7

Figura 1.7 : Gráfico de consumo de Alcohol segun Status.

La relación entre el consumo de alcohol y la clasificación de un país como emergente o desarrollado se puede apreciar en la gráfica. En el contexto de los países desarrollados, se observa una media de consumo de alcohol de 9.04 ± 2.57, mientras que en los emergentes es notablemente más baja, situándose en 3.53 ± 3.17. Además, al examinar la variabilidad en el consumo de alcohol, se aprecia una menor varianza en los países desarrollados con 6.6 en comparación con los emergentes 10.04. Este diagrama de cajas proporciona una representación visual para una comprensión más profunda de cómo el consumo de alcohol puede afectar la clasificación de un país.

Gráficos descriptivos

Gráfico 8

Figura 1.8 : Gráfico de muertes por HIV.AIDS segun Status.

La gestión del VIH/SIDA, que incluye la prevención, el tratamiento y el apoyo a las personas afectadas, puede ser un indicador importante en la clasificación de un país como desarrollado o emergente. Los países que tienen estrategias efectivas para abordar el VIH/SIDA y reducir las muertes por SIDA pueden estar mejor posicionados para ser considerados desarrollados en comparación con aquellos que enfrentan mayores desafíos en esta área. Al analizar la relación entre la tasa de VIH y el “Status” de los países, se observa que la media para los países desarrollados es 0.03, indicando una menor prevalencia de VIH en esta categoría. En cambio, para los países emergentes, la media es más alta, alcanzando 0.09, lo que sugiere una mayor incidencia de VIH. Esta diferencia refleja la disparidad en la gestión de esta enfermedad y puede influir en la clasificación de los países como desarrollados o emergentes.

Gráfico 9

Figura 1.9 : Gráfico de numero de casos de Measles segun Status.

El número de casos notificados de sarampión puede reflejar la eficacia de un país en áreas como la atención médica, la prevención de enfermedades, la educación y la infraestructura de salud pública. Un bajo número de casos notificados de sarampión puede ser un indicador de un sistema de salud más desarrollado y una población más informada sobre la importancia de la vacunación y la prevención de enfermedades infecciosas. Al analizar la relación entre el “Número de Casos Notificados de Sarampión” y el “Status” de los países, se observa una diferencia significativa que influye en la clasificación de los países como desarrollados o emergentes. En el contexto de los países desarrollados, se registra una media de 0.32 ± 0.80 casos notificados de sarampión, lo que refleja una incidencia relativamente baja de esta enfermedad. Por otro lado, en los países emergentes, la media es más alta, con un valor de 0.70 ± 1.84, lo que indica una incidencia más elevada de casos de sarampión en comparación con los países desarrollados.

Gráfico 10

Figura 1.10 : Gráfico de covertura de vacunacion contra Diphteria segun Status.

La cobertura de vacunación es un indicador de atención médica y salud pública que generalmente está asociado con países desarrollados debido a su capacidad para garantizar el acceso y la prevención de enfermedades en la población infantil. Es uno de los factores que puede influir en la clasificación de un país como desarrollado o emergente. Al analizar la relación entre la “Cobertura de Vacunación con DTP3” y el “Status” de los países, se observa una influencia en la clasificación de los países como desarrollados o emergentes. Para los países desarrollados, la cobertura de vacunación presenta una media de 94.83 ± 3.29, indicando una alta tasa de vacunación en niños de 1 año. En los países emergentes, la media es ligeramente más baja, con un valor de 85.43 ± 14.90, lo que sugiere una cobertura ligeramente inferior. Estas diferencias en la cobertura de vacunación pueden reflejar diferencias en los sistemas de salud y el acceso a servicios de atención médica preventiva, lo que influye en la clasificación de los países en términos de desarrollo y calidad de vida.

.

Metodología

El desarrollo de este trabajo se llevó a cabo utilizando la herramienta de programación R. En primer lugar, se realizó la filtración de datos, enfocándonos específicamente en el año 2018. Luego, se llevó a cabo la selección de las variables numéricas de entrada junto con la variable Status, relevante para nuestro análisis. Dado que el objetivo es crear modelos de aprendizaje supervisado que nos permitan predecir una clasificación en función de ciertas características, a continuación se contextualizan los conceptos utilizados.

Aprendizaje supervisado

Es el uso de conjuntos de variables para entrenar algoritmos que clasifiquen datos o predigan resultados de forma precisa. En el aprendizaje supervisado se utiliza un conjunto de datos de entrenamiento para enseñar a los modelos a generar la salida deseada. Este conjunto de datos incluye datos de entrada y resultados correctos, lo que permiten que el modelo aprenda con el tiempo.

En el presente informe nos concentramos en el problema de la clasificación, donde se utiliza el algoritmo para asignar datos de prueba en categorías discretas específicas. Uno de los ejemplos más claros es la utilización de algoritmos de aprendizaje supervisado para identificar y filtrar mensajes no deseados. Esto se basa en la clasificación de correos electrónicos como “spam” o “no spam”. Hay muchos algoritmos que se utilizan en el aprendizaje supervisado, pero para el objetivo de análisis centramos nuestra atención en El Modelo Knn y el Árbol de Decisión.

Modelo KNN

Figura 2 : Ejemplificación del modelo KNN.

Asumiendo que el gráfico anterior representa la clasificación de personal en dos categorías, si nos dieran datos de una séptima persona, pero no nos dieran su clase, ¿Podríamos deducir de alguna forma? Aquí es donde entra el algoritmo KNN, quien trata de buscar los K puntos más cercanos a un punto concreto para poder inferir su valor.

Árbol de Clasificación

Es una técnica del machine learning que nos permite la construcción de modelos predictivos de analitica de datos, basados en su clasificación según ciertas características o propiedades, o en la regresión mediante la relación entre distintas variables para predecir el valor de otra. En el modelo del presente informe, correspondiente al modelo de clasificación, es utilizado para predecir el valor de una variable mediante la clasificación de la información en función de otras variables. Por ejemplo, queremos pronosticar qué personas comprarán un determinado producto, clasificando entre clientes y no clientes, qué marcas de portátiles comprará cada persona mediante la clasificación entre las distintas marcas o qué nivel de desarrollo identifica a cada país, clasificándolos en emergentes o desarrollados. Los valores a predecir son predefinidos, es decir, los resultados están definidos en un conjunto de posibles valores.

El árbol de decisión es una estructura que está formada por ramas y nodos de distintos tipos:

Figura 3 : Ejemplificación del modelo del Árbol de clasificación.

Los nodos internos representan cada una de las características o propiedades a considerar para tomar una decisión.
Las ramas representan la decisión en función de una determinada condición (p. ej. probabilidad de ocurrencia).
Los nodos finales representan el resultado de la decisión.

El árbol de clasificación se empleará para predecir la probabilidad de conseguir un determinado resultado (output) con base en ciertas condiciones o variables numéricas (input).

Desarrollo

Uso del modelo kNN

Luego de haber seleccionado los datos de las variables para el año 2018, se procedió a crear el conjunto de entrenamiento y el conjunto de prueba con una proporción de 70 - 30, pues de la base original se lograron extraer 183 observaciones en total.

Posteriormente, el conjunto de entrenamiento se dividió en un input correspondiente a las 10 variables numéricas y un output para la variable categórica Status. Luego se realizó la misma división para el conjunto de prueba, teniendo en cuenta que el output del conjunto de prueba es ya conocido. El modelo Knn se encargará de clasificar en base al conjunto de entrenamiento y se realizarán comparaciones con las salidas obtenidas.

K - óptimo inicial: Para encontrar el valor k mas adecuado, se aplicó el modelo knn en una variación de 1 hasta 50, con el objetivo de llegar al mayor porcentaje de precisión posible. Los resultados se pueden observar en la siguiente gráfica:

Figura 4 : Gráfico de precisión en funcion del valor K.

Así, k = {7,8,9,11} representan una precisión del 96,3 % en la clasificación del input del conjunto de prueba.

Entrenamiento del modelo con el uso de la biblioteca caret: ahora bien, para entrenar el modelo se utilizó la función “train”, que pretende predecir el “status” (desarrollo o emergente) en función de todas las demás variables. En este caso se realiza una división de la base donde se especifica que el 70% deben estar en el conjunto de entrenamiento y se determina 20 como el número de valores de k a examinar para encontrar el valor óptimo. El comportamiento de la exactitud para un número de vecinos determinado se evidencia en la siguiente gráfica:

Figura 5 : Gráfico de variación de la presición.

Se puede observar que a medida que el valor k es más grande, se obtiene menor precisión, pues existe más dispersión en el cálculo de las distancias euclidianas. De igual manera, el entrenamiento arrojó un valor de k=19, y finalmente se procedió a hacer la predicción utilizando el conjunto de prueba (con 54 filas en total). Para las siguientes interpretaciones, el modelo toma como positiva la clasificación de países como desarrollados, y negativa la clasificación de países como emergentes.

Análisis de la matriz de confusión:

Tabla 1 : Predicciones del modelo KNN.

De 12 datos originalmente clasificados como desarrollados, el modelo acertó en 8 de las observaciones. Por otra parte, 42 de los datos, originalmente clasificados como emergentes, fueron clasificados correctamente. El error tipo 1 no se presenta, pero el error tipo 2 sí, y este corresponde a 4 países clasificados como emergentes, pero que en realidad son desarrollados.

Tabla 2 : Indicadores de rendimiento del modelo KNN.

Un accuracy de 0,9259 (Exactitud) indica que el modelo de clasificación está clasificando correctamente el 92,6% de las muestras en el conjunto de datos de prueba. En otras palabras, el 92,6% de las veces, el modelo está haciendo predicciones correctas en comparación con las etiquetas reales de la base de datos en el año 2018, confirmando la seguridad de obtener un valor muy cercano al real.

Una sensibilidad de 0,6667 indica que el 66,7% de los datos positivos a clasificar fueron identificados correctamente por el algoritmo.
Una especificidad de 1,0 indica que el 100% de los datos negativos a clasificar fueron identificados correctamente por el algoritmo.
Valores predictivos positivos: este corresponde a la probabilidad de obtener una clasificación positiva al realizar un test de diagnóstico para las características de un nuevo conjunto de prueba, es decir, el 100 % de las veces, el algoritmo clasificará de manera adecuada a un país como desarrollado.
Valores predictivos negativos: este corresponde a la probabilidad de obtener una clasificación negativa correcta al realizar un test de diagnóstico para las características de un nuevo conjunto de prueba, es decir, se tiene la confianza de que el 91,3 % de las veces, el algoritmo clasificará de manera adecuada a un país como emergente.
Prevalencia: Asumiendo a la clasificación de países en la categoría de desarrollados, como el grupo de interés, estos corresponden a los casos positivos. Para el conjunto de datos de prueba con los que el modelo hace la predicción, en un inicio estos suman en total 12 observaciones, de las cuales se clasifican correctamente 8. Debido a que la prevalencia se define como la proporción de casos positivos sobre el total de individuos en el conjunto de datos, la división es 12/54, igual al 0,222, lo que indica que el conjunto de datos inicialmente está desbalanceado y el conjunto de países desarrollados representan aproximadamente el 22,2% de la población.

Figura 6 : Gráfico ROC del modelo KNN.

El anterior gráfico muestra la tasa de verdaderos positivos (proporción de casos positivos correctamente identificados por el modelo) en función de la tasa de falsos positivos (proporción de casos negativos incorrectamente identificados como positivos en el modelo). De esta manera, un modelo ideal sería aquel en el que aparece un punto en la esquina superior izquierda, donde el 100% de los casos positivos son clasificados correctamente, y el 0% corresponde al porcentaje de casos negativos que se clasifican de manera errónea. Es así como la curva ROC nos indica que el modelo tiene un mejor rendimiento con una curva más grande, lo que sugiere que este modelo Knn es considerablemente bueno para determinar la clasificación de un país.

Uso del Árbol de Decisión para la clasificación.

Con ayuda de las 10 variables numéricas se pretende generar un modelo de clasificación que permita predecir si un país se puede considerar como emergente o desarrollado.

En primer lugar, se creó una semilla de números aleatorios (27) para garantizar la reproducibilidad de los resultados en el grupo de trabajo y se define la columna Status como un variable tipo factor, esto para garantizar el buen desarrollo del modelo.

A continuación, se selecciona un conjunto de datos de entrenamiento con la misma dimensiones del modelo Knn, de manera que el conjunto de prueba contiene 54 observaciones. Esto, con el fin de realizar comparaciones entre los dos modelos.

Entrenamiento del modelo: se procedió a entrenar un árbol de decisión para clasificación con la base de datos de entrenamiento, en donde la función summary muestra que el árbol ajustado tiene un total de 4 nodos terminales y un error de clasificación de entrenamiento del 0.0109, lo que indica que aproximadamente solo el 1.09% de las clasificaciones se realizaron incorrectamente. El árbol de clasificación se observa con mayor claridad en la siguiente imagen:

Figura 7 : Árbol de clasificación.

Como se puede observar, las variables que se utilizaron para construir el árbol de decisión son “HDI”, “Alcohol”, “Homicides” y “HIV. AIDS”. Estas variables son aquellas que el algoritmo considera más relevantes para la predicción de la salida objetivo. El árbol funciona de manera que si el índice de desarrollo humano es mayor a 0,762, se pasa a analizar el índice de consumo de alcohol, y si este es mayor a 5,26 se clasifica a un país como desarrollado; de lo contrario se clasifica como emergente (aunque la variable HIV tiene relevancia, en esta rama no influye en la clasificación. Por otra parte, cuando el HDI es inferior a 0,762, se clasifica como emergente, aunque las tasas de homicidios tienen una cierta influencia.

Adicionalmente, la deviaza permite evaluar que tan bien se ajusta el modelo del árbol de clasificación a las observaciones del conjunto de entrenamiento. Así, una devianza media cercana a cero indica que el modelo es capaz de explicar la variabilidad observada en los datos de manera efectiva. Para nuestro caso, se obtuvo una devianza residual media igual 0.09463, es decir, aproximadamente el 9.5 % de la variabilidad en los datos no se explica por el modelo; o lo que es lo mismo, el modelo es capaz de explicar un 90.5 % de la variabilidad observada.

Se procedió a realizar predicciones en el conjunto de prueba para comparar las predicciones con los valores reales y evaluar el rendimiento del modelo.Para las siguientes interpretaciones, el modelo toma como positiva la clasificación de países como desarrollados, y negativa la clasificación de países como emergentes.

Análisis de la matriz de confusión:

Tabla 3 : Predicciones del modelo del Árbol de clasificación.

De 12 datos originalmente clasificados como desarrollados, el modelo del árbol acertó en 10 de las observaciones. Por otra parte, de 42 datos originalmente clasificados como emergentes, el modelo acertó en 40 de las observaciones. El error tipo 1 corresponde a dos países emergentes que el modelo clasificó de manera incorrecta como desarrollados y el error tipo 2 corresponde a 2 países clasificados como emergentes, pero que en realidad son desarrollados.

Tabla 4 : Indicadores de rendimiento del modelo del Árbol de clasificación.

Una sensibilidad de 0,8333 indica que aproximadamente el 83,3 % de los datos positivos a clasificar fueron identificados correctamente por el algoritmo.
Una especificidad de 0,9524 indica que el 95,2 % de los datos negativos a clasificar fueron identificados correctamente por el algoritmo.
Valores predictivos positivos: este corresponde a la probabilidad de obtener una clasificación positiva al realizar un test de diagnóstico para las características de un nuevo conjunto de prueba, es decir, el 83,3 % de las veces, el algoritmo clasificará de manera adecuada a un país como desarrollado.
Valores predictivos negativos: este corresponde a la probabilidad de obtener una clasificación negativa correcta al realizar un test de diagnóstico para las características de un nuevo conjunto de prueba, es decir, se tiene la confianza de que el 95,2 % de las veces, el algoritmo clasificará de manera adecuada a un país como emergente.
Prevalencia: Los casos positivos en el conjunto de datos de prueba suman en total 12 observaciones, de las cuales se clasifican correctamente 10. La proporción es 12/54, igual al 0,2222, lo que indica que el conjunto de datos inicialmente está desbalanceado y el conjunto de países desarrollados representan aproximadamente el 22,2%.

Figura 8 : Gráfico ROC del modelo del Árbol de clasificación.

La curvatura de la tasa de verdaderos positivos en función de la tasa de falsos positivos nos indica que el modelo si es útil al clasificar un conjunto de prueba, pues existe una tendencia >en la que cuando la proporción de casos negativos son mal identificados como positivos en un porcentaje aproximado de un 18%, la proporción de verdaderos positivos clasificados correctamente es superior al 82%

Conlclusiones

I.

En este estudio, evaluamos la capacidad predictiva de dos modelos de aprendizaje supervisado, el modelo K-Nearest Neighbors (KNN) y el árbol de Clasificación. Nuestro análisis demostró que la precisión (Accuracy) obtenida por ambos modelos es notablemente alta, alcanzando un valor del 92.6%. Este resultado indica que tanto el modelo KNN como el Árbol de decisión demuestran una capacidad relevante para predecir la clasificación de los datos en un conjunto de prueba.

La precisión es una métrica crucial en el aprendizaje supervisado, ya que mide la proporción de predicciones correctas en relación con el conjunto total de predicciones. En este caso, un valor del 92.6% de precisión significa que, con un alto nivel de confianza, ambos modelos pueden realizar clasificaciones precisas en datos previamente no vistos. Esta alta precisión es una indicación par deducir que tanto el metodo KNN como el Árbol de Clasificación son modelos efectivos para abordar la tarea de clasificación en este contexto.

II.

Al realizar las observaciones a las curvas ROC para cada modelo, se evidencia que las líneas resultantes están suficientemente alejadas de la diagonal, lo que permite establecer que existe un buen desempeño de clasificación para el conjunto de datos de prueba. Sin embargo, es importante destacar que el Árbol de Clasificación refleja una curva ROC significativamente más alejada de la diagonal en comparación a la obtenida con el modelo KNN. Este resultado resalta la capacidad del Árbol de Clasificación para discriminar entre las clases objetivo de manera más efectiva que el modelo KNN en este conjunto de datos. Es por esto que el Árbol de Decisión es el modelo preferible para este contexto.

III.

La evaluación de la matriz de confusión revela aspectos cruciales sobre el rendimiento de los modelos. En el caso del modelo KNN, observamos que dos de las proporciones alcanzan un el 100%, lo que sugiere un rendimiento sólido al predecir correctamente ciertas clases en el conjunto de prueba. Sin embargo, otros indicadores, como la sensibilidad, muestran una tasa del 66.7%, lo que sugiere que el modelo KNN no es igualmente eficaz en todas las clases. Por otro lado, el Árbol de Clasificación muestra resultados menos dispersos y más confiables en comparación con KNN, lo que indica una mayor consistencia en su capacidad para predecir todas las clases. En conclusión, si bien KNN destaca en algunas clases, el Árbol de Clasificación se presenta como la opción más fiable y coherente en términos de rendimiento general de clasificación en este contexto.

IV.

El modelo del Árbol de Clasificación nos permitió concluir que gran parte de las variables seleccionadas realmente no tienen influencia directa en la tarea de establecer si un país es desarrollado o emergente para el año 2018, tal es el caso del gasto total del gobierno en salud, o la presencia de enfermedades específicas como el Sarampión. Por otra parte, y como se tenía previsto, variables como la expectativa de vida y el Índice de Desarrollo Humano tienen una gran influencia en la predicción que realiza el modelo.

Gracias a que el Árbol de Clasificación nos ayuda a comprender mejor el objetivo del aprendizaje supervisado con la muestra de los nodos internos (restricciones) que nos ayudan a tomar una decisión, y a su vez que la matriz de confusión arroja resultados no tan dispersos y más confiables en comparación al modelo KNN, este es nuestro modelo sugerido para predecir categorías discretas de clasificación con base en variables numéricas provenientes de bases de datos como la estudiada en el presente trabajo.

Referencias Bibliográficas

Iberdrola. (2021). Índice de Desarrollo Humano. Recuperado de https://www.iberdrola.com/compromiso-social/indice-desarrollo-humano.
IBM. (2020). ¿Qué es el aprendizaje supervisado? IBM. Recuperado de https://www.ibm.com/mx-es/topics/supervised-learning.
García, J. (2020). Árboles de decisión. Recuperado de https://www.unir.net/ingenieria/revista/arboles-de-decision/
Clasificación de Países. (2023, agosto). S&P Global. Recuperado de https://www.spglobal.com/spdji/es/documents/index-policies/methodology-country-classification-spanish.pdf?force_download=true

Análisis Supervisado

Jhon Morales -21706884, Jhojan Caicedo -2226360, Eider Peregueza -2170616

Introducción

Análisis exploratorio

Gráficos descriptivos

Gráfico 1

Gráfico 2

Gráfico 3

Gráficos descriptivos

Gráfico 4

Gráfico 5

Gráfico 6

Gráfico 7

Gráficos descriptivos

Gráfico 8

Gráfico 9

Gráfico 10

.

Metodología

Aprendizaje supervisado

Modelo KNN

Árbol de Clasificación

Desarrollo

Uso del modelo kNN

Análisis de la matriz de confusión:

Uso del Árbol de Decisión para la clasificación.

Análisis de la matriz de confusión:

Conlclusiones

I.

II.

III.

IV.

Referencias Bibliográficas