Exposición aprendizaje supervisado

Integrantes:
Jhilver Anacona - 1840018
Cristian Lozada - 1841816
Diego Salcedo - 1841907

2023-05-24

INTRODUCCIÓN SOBRE EL CONTEXTO

Usualmente el “status” de un país se refiere a la posición o clasificación que se le asigna en función de su nivel de desarrollo económico, social y político. Tradicionalmente, se ha utilizado la distinción entre países “desarrollados” y “en vía de desarrollo” para categorizar y comparar naciones con base en su nivel de progreso. Sin embargo, esta clasificación no es estática y puede variar a lo largo del tiempo debido a diversos factores y cambios en los principales índices utilizados para medir el desarrollo de un país.

EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)

La base de que la expectativa de vida de los habitantes de un país se relaciona estrechamente con su nivel de desarrollo, reflejando la salud y calidad de vida de la población. En general los países desarrollados tienden a tener una expectativa de vida más alta que los países en vías de desarrollo. Esto se debe a que los primeros suelen contar con mejores sistemas de atención médica, acceso a servicios de salud de calidad, mejores condiciones sanitarias y políticas de salud, alimentación adecuada, educación y estilos de vida saludables, entre otros factores.

GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)

Este indicador refleja el nivel de prioridad y recursos que destina un país específicamente al sector de la salud en relación con el gasto público en general, ya que proporciona información sobre el compromiso y la inversión que realiza un país en su sistema de salud. En términos generales, los países desarrollados tienden a asignar una mayor proporción de su gasto público total al sector de la salud en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen contar con sistemas de salud más avanzados, infraestructuras sanitarias robustas, acceso generalizado a servicios de salud de calidad y una mayor capacidad económica para invertir en el bienestar de su población.

MORTALIDAD INFANTIL - (INFANT.DEATHS)

La mortalidad infantil es un indicador crucial para evaluar el estado de desarrollo y bienestar de un país. Por ejemplo, de manera general, los países desarrollados tienen tasas de mortalidad infantil más bajas en comparación con los países en vías de desarrollo. Esto se debe a una serie de factores que influyen en la salud y el bienestar de los niños, como la disponibilidad y acceso a servicios de atención médica de calidad, la nutrición adecuada, el saneamiento básico y la educación en salud.

ESCOLARIZACIÓN - (SCHOOLING)

Esta variable está intrínsecamente ligada al desarrollo de un país debido a que a medida que una nación progresa en su desarrollo, por lo general, se observa un incremento en el nivel de educación de su población. Esta relación se debe a que la educación es fundamental para el desarrollo del capital humano de un país. Un nivel educativo más elevado implica una mayor capacidad de innovación, adaptación a los cambios tecnológicos y económicos, y una mayor productividad en general.

PRODUCTO INTERNO BRUTO - (GDP)

El PIB representa el valor monetario de todos los bienes y servicios producidos dentro del país en un período de tiempo determinado. Esta variable nos indica de manera general que los países desarrollados tienden a tener un PIB per cápita más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen tener economías más diversificadas, mayor productividad laboral, infraestructuras avanzadas e instituciones sólidas.

HOMICIDIOS - (HOMICIDES)

La relación entre el número de homicidios y el nivel de desarrollo de un país puede ser compleja y estar influenciada por múltiples factores. Sin embargo, de manera general se puede afirmar que existe una tendencia de una menor incidencia de homicidios en países más desarrollados en comparación con aquellos en vías de desarrollo. Esto puede atribuirse a diversos factores, como una mayor estabilidad institucional, un sistema de justicia más efectivo, una mayor inversión en seguridad pública, así como mejores condiciones socioeconómicas y de bienestar.

ÍNDICE DE DESARROLLO HUMANO - (HDI)

Es una medida compuesta que busca evaluar el nivel de desarrollo de un país en términos del ingreso per cápita, la esperanza de vida al nacer y el nivel educativo. Estas dimensiones son consideradas indicadores clave para evaluar el bienestar y el desarrollo humano de una población. En general, los países clasificados como desarrollados suelen tener un IDH más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados, en promedio, presentan mayores niveles de ingresos, una esperanza de vida más alta y una mejor educación en términos de acceso y calidad.

PRESENTACIÓN DE LA METODOLOGÍA

Aplicación del algoritmo kNN (k-Nearest Neighbors) o “k” vecinos más cercanos el cual se utiliza para realizar clasificaciones o predicciones basándose en la proximidad entre los datos, por ende se busca aprovechar la información de los ejemplos de entrenamiento más similares al nuevo ejemplo para realizar una clasificación precisa o una estimación confiable.

1. Normalización

Consiste en establecer todos los valores de los atributos en la misma escala cuando se tienen atributos con diferentes escalas.
Es decir que se reajusta los valores de los atributos a un rango común, generalmente entre 0 y 1.

\[ x_{norm} =\;\frac{x - min_{value}}{max_{value} - min_{value}} \]

Donde:

PRESENTACIÓN DE LA METODOLOGÍA

2. Cálculo de distancias

Se cálcula la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. En el algoritmo kNN, la distancia más comúnmente utilizada es la distancia euclidiana.

\[ dist(A, B) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \ldots + (x_n - y_n)^2} \]

En esta fórmula, \(x_{1}\), \(x_{2}\), …, \(x_{n}\) representan las coordenadas del punto A , mientras que \(y_{1}\), \(y_{2}\), …, \(y_{n}\) representan las coordenadas del punto B.

3. Selección de los k vecinos más cercanos

Una vez calculada la distancia entre el nuevo ejemplo y los ejemplos de entrenamiento, se procede a la selección de los “k” datos más cercanos al nuevo ejemplo. El valor de “k” es un parámetro predefinido que determina cuántos vecinos se considerarán en el proceso

4. Clasificación o predicción

Se utiliza la mayoría de los votos de los “k” vecinos más cercanos para determinar la clase del nuevo ejemplo, Por ejemplo, si la mayoría de los “k” vecinos pertenecen a la clase “A”, entonces el nuevo ejemplo se clasificará como clase “A”.

VALOR DE “K” ÓPTIMO PARA EL MODELO

Encontrar el valor óptimo de “k” en el algoritmo de k-Nearest Neighbors (k-NN) es crucial debido a su impacto en el rendimiento y la precisión del modelo de clasificación. Si elegimos un valor de “k” demasiado pequeño, el modelo puede volverse demasiado sensible a variaciones aleatorias o ruido en los datos, lo que puede llevar a un sobreajuste. Por otro lado, si seleccionamos un valor de “k” demasiado grande, el modelo puede perder detalles importantes y generalizar demasiado, lo que resulta en una subutilización de la información disponible. Dicho esto, a continuación se presenta una tabla de clasificación donde se evalúan 20 diferentes valores de “k” con el objetivo de encontrar el más adecuado para este caso:

Al ajustar “k” correctamente, podemos mejorar la precisión y la capacidad de generalización del modelo, lo que se traduce en predicciones más confiables y precisas. De acuerdo con los datos arrojados por la tabla anterior, se tiene que:

## El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k = 5

GRÁFICA DE “K” ÓPTIMO PARA EL MODELO

Esta gráfica muestra la relación entre el valor de “k” y la precisión (Accuracy) en el modelo de clasificación utilizando el algoritmo de k-Nearest Neighbors (k-NN). A medida que aumenta el valor de “k”, de manera general es posible que la precisión inicialmente mejore, pero después de cierto punto, es probable que disminuya debido a la sobregeneralización o pérdida de detalles. Por lo tanto, el valor óptimo de “k” es aquel donde se encuentra el pico más alto en la gráfica, lo que indica el mejor equilibrio entre la capacidad de capturar patrones y la capacidad de generalización del modelo. Esta gráfica por lo tanto nos proporciona una herramienta visual importante para ajustar y mejorar el rendimiento del modelo basado en k-NN.

PREDICCIONES DEL MODELO ENTRENADO

El código en cuestión usado en este apartado permite llevar a cabo la predicción de la variable dependiente utilizando un modelo de clasificación basado en el algoritmo k-Nearest Neighbors (k-NN) previamente entrenado. Al utilizar este modelo, se busca asignar etiquetas o clases a nuevos datos no vistos previamente, basándose en la similitud con los ejemplos de entrenamiento.

La predicción por lo tanto, se lleva a cabo evaluando la proximidad de los puntos de datos de prueba a los vecinos más cercanos en el espacio de características, por lo tanto el modelo asigna una etiqueta al nuevo dato en función de la mayoría de las etiquetas de sus vecinos más próximos. El resultado de la predicción para los 36 datos de prueba se muestra en la siguiente tabla, la cual proporcionará las etiquetas o clases predichas para los datos en cuestión.

Indice Prediccion
1 En via de desarrollo
2 En via de desarrollo
3 En via de desarrollo
4 En via de desarrollo
5 Desarollado
6 Desarollado
7 En via de desarrollo
8 En via de desarrollo
9 Desarollado
10 En via de desarrollo
11 Desarollado
12 En via de desarrollo
13 Desarollado
14 En via de desarrollo
15 En via de desarrollo
16 En via de desarrollo
17 En via de desarrollo
18 En via de desarrollo
19 Desarollado
20 Desarollado
21 En via de desarrollo
22 En via de desarrollo
23 En via de desarrollo
24 En via de desarrollo
25 Desarollado
26 En via de desarrollo
27 En via de desarrollo
28 En via de desarrollo
29 En via de desarrollo
30 En via de desarrollo
31 En via de desarrollo
32 En via de desarrollo
33 En via de desarrollo
34 En via de desarrollo
35 Desarollado
36 En via de desarrollo

PROBABILIDADES DE LAS PREDICCIONES DEL MODELO ENTRENADO

La predicción de probabilidades utilizando un modelo de clasificación basado en k-Nearest Neighbors (k-NN) brinda una información adicional sobre las predicciones realizadas. En lugar de obtener solo las etiquetas de clase para los datos de prueba, este enfoque permite calcular la probabilidad de pertenencia a cada clase para cada punto de datos. Esto resulta especialmente útil en escenarios donde se requiere una comprensión más detallada de la confianza del modelo en sus predicciones.

Al aplicar el modelo k-NN entrenado a los datos de prueba, se obtiene un conjunto de probabilidades asociadas a cada clase. Estas probabilidades indican la medida en que cada clase es probable que se ajuste a los datos de prueba en función de la similitud con los ejemplos de entrenamiento cercanos. Este enfoque de predicción de probabilidades con k-NN permite una mayor granularidad en la interpretación de los resultados y una mejor comprensión de la incertidumbre asociada a las predicciones del modelo.

Indice Desarollado En.via.de.desarrollo
1 0.0 1.0
2 0.0 1.0
3 0.0 1.0
4 0.0 1.0
5 1.0 0.0
6 1.0 0.0
7 0.0 1.0
8 0.4 0.6
9 1.0 0.0
10 0.0 1.0
11 1.0 0.0
12 0.0 1.0
13 1.0 0.0
14 0.0 1.0
15 0.0 1.0
16 0.0 1.0
17 0.0 1.0
18 0.0 1.0
19 1.0 0.0
20 1.0 0.0
21 0.2 0.8
22 0.0 1.0
23 0.0 1.0
24 0.0 1.0
25 0.8 0.2
26 0.0 1.0
27 0.0 1.0
28 0.0 1.0
29 0.0 1.0
30 0.0 1.0
31 0.0 1.0
32 0.0 1.0
33 0.0 1.0
34 0.0 1.0
35 1.0 0.0
36 0.0 1.0

PRECISIÓN DEL MODELO ENTRENADO


El código utilizado en este apartado se empleó para calcular la precisión o exactitud del modelo de clasificación basado en k-Nearest Neighbors (k-NN) al predecir los datos de prueba y comparar estas predicciones con los resultados reales del conjunto de prueba. Este es un indicador clave del rendimiento y la capacidad de clasificación del modelo ya que proporciona una medida cuantitativa de qué tan bien el modelo puede predecir correctamente las etiquetas de clase para nuevos datos no vistos previamente.


Al calcular la precisión, se compara cada una de las predicciones realizadas por el modelo con las etiquetas reales de los datos de prueba. Si la predicción coincide con la etiqueta real se considera un acierto, de lo contrario un fallo. Por lo tanto, evaluar la precisión del modelo k-NN proporciona una visión general de su capacidad para generalizar y clasificar nuevos datos, lo que permite tomar decisiones informadas basadas en la confiabilidad de las predicciones. Dicho lo anterior, para el caso particular del modelo desarrollado en este ejercicio, se tiene que:


## El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del: 100 %

MATRIZ DE CONFUSIÓN DEL MODELO

La información presentada anteriormente en el apartado de “Precisión del modelo” la vemos reflejada en la siguiente matriz de confusión, la cual es una herramienta fundamental en la evaluación de modelos de clasificación. Esta se utiliza principalmente para analizar el rendimiento de un modelo al comparar sus predicciones con los resultados reales. La matriz muestra el recuento de las diferentes combinaciones de predicciones y resultados, organizadas en filas y columnas que representan las clases o categorías de la variable objetivo.



En esta matriz de confusión, cada celda representa una categoría de predicción y resultado. Los valores diagonales, de la esquina superior izquierda a la esquina inferior derecha, indican los casos en los que el modelo ha acertado. Estas celdas reflejan los verdaderos positivos y verdaderos negativos, es decir, las instancias clasificadas correctamente. Por otro lado, las celdas fuera de la diagonal principal revelan los errores del modelo, ya sea en forma de falsos positivos o falsos negativos.


Desarollado En via de desarrollo
Desarollado 9 0
En via de desarrollo 0 27


Teniéndose en cuenta que para el desarrollo de este modelo se tomará como clase positiva la etiqueta “Desarrollado” podemos, por lo tanto, concluir las siguientes afirmaciones acerca de la precisión del modelo:

EXACTITUD, SENSITIVIDAD Y ESPECIFICIDAD


Metrica Valor
Accuracy Exactitud 1
Sensitivity Sensitividad 1
Specificity Especificidad 1



\[ Accuracy\;=\;\frac{VP\;+\;VN}{VP\;+\;VN\;+\;FP+\;FN}\;=\;\frac{9\;+\;27}{9\;+\;27\;+\;0+\;0}\;=\;1 \]



\[ Sensitivity\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]



\[ Specificity\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]

CONCLUSIONES SOBRE LA CLASIFICACIÓN

Como conclusiones generales a partir de los resultados arrojados por el modelo desarrollado a lo largo de este ejercicio podemos concluir que:

REFERENCIAS BIBLIOGRÁFICAS