INTRODUCCIÓN SOBRE EL CONTEXTO

Usualmente el “status” de un país se refiere a la posición o clasificación que se le asigna en función de su nivel de desarrollo económico, social y político. Tradicionalmente, se ha utilizado la distinción entre países “desarrollados” y “en vía de desarrollo” para categorizar y comparar naciones con base en su nivel de progreso. Sin embargo, esta clasificación no es estática y puede variar a lo largo del tiempo debido a diversos factores y cambios en los principales índices utilizados para medir el desarrollo de un país.

EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)

La base de que la expectativa de vida de los habitantes de un país se relaciona estrechamente con su nivel de desarrollo, reflejando la salud y calidad de vida de la población. En general los países desarrollados tienden a tener una expectativa de vida más alta que los países en vías de desarrollo. Esto se debe a que los primeros suelen contar con mejores sistemas de atención médica, acceso a servicios de salud de calidad, mejores condiciones sanitarias y políticas de salud, alimentación adecuada, educación y estilos de vida saludables, entre otros factores.

GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)

Este indicador refleja el nivel de prioridad y recursos que destina un país específicamente al sector de la salud en relación con el gasto público en general, ya que proporciona información sobre el compromiso y la inversión que realiza un país en su sistema de salud. En términos generales, los países desarrollados tienden a asignar una mayor proporción de su gasto público total al sector de la salud en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen contar con sistemas de salud más avanzados, infraestructuras sanitarias robustas, acceso generalizado a servicios de salud de calidad y una mayor capacidad económica para invertir en el bienestar de su población.

MORTALIDAD INFANTIL - (INFANT.DEATHS)

La mortalidad infantil es un indicador crucial para evaluar el estado de desarrollo y bienestar de un país. Por ejemplo, de manera general, los países desarrollados tienen tasas de mortalidad infantil más bajas en comparación con los países en vías de desarrollo. Esto se debe a una serie de factores que influyen en la salud y el bienestar de los niños, como la disponibilidad y acceso a servicios de atención médica de calidad, la nutrición adecuada, el saneamiento básico y la educación en salud.

ESCOLARIZACIÓN - (SCHOOLING)

Esta variable está intrínsecamente ligada al desarrollo de un país debido a que a medida que una nación progresa en su desarrollo, por lo general, se observa un incremento en el nivel de educación de su población. Esta relación se debe a que la educación es fundamental para el desarrollo del capital humano de un país. Un nivel educativo más elevado implica una mayor capacidad de innovación, adaptación a los cambios tecnológicos y económicos, y una mayor productividad en general.

PRODUCTO INTERNO BRUTO - (GDP)

El PIB representa el valor monetario de todos los bienes y servicios producidos dentro del país en un período de tiempo determinado. Esta variable nos indica de manera general que los países desarrollados tienden a tener un PIB per cápita más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados suelen tener economías más diversificadas, mayor productividad laboral, infraestructuras avanzadas e instituciones sólidas.

HOMICIDIOS - (HOMICIDES)

La relación entre el número de homicidios y el nivel de desarrollo de un país puede ser compleja y estar influenciada por múltiples factores. Sin embargo, de manera general se puede afirmar que existe una tendencia de una menor incidencia de homicidios en países más desarrollados en comparación con aquellos en vías de desarrollo. Esto puede atribuirse a diversos factores, como una mayor estabilidad institucional, un sistema de justicia más efectivo, una mayor inversión en seguridad pública, así como mejores condiciones socioeconómicas y de bienestar.

ÍNDICE DE DESARROLLO HUMANO - (HDI)

Es una medida compuesta que busca evaluar el nivel de desarrollo de un país en términos del ingreso per cápita, la esperanza de vida al nacer y el nivel educativo. Estas dimensiones son consideradas indicadores clave para evaluar el bienestar y el desarrollo humano de una población. En general, los países clasificados como desarrollados suelen tener un IDH más alto en comparación con los países en vías de desarrollo. Esto se debe a que los países desarrollados, en promedio, presentan mayores niveles de ingresos, una esperanza de vida más alta y una mejor educación en términos de acceso y calidad.

PRESENTACIÓN DE LA METODOLOGÍA

Aplicación del algoritmo kNN (k-Nearest Neighbors) o “k” vecinos más cercanos el cual se utiliza para realizar clasificaciones o predicciones basándose en la proximidad entre los datos, por ende se busca aprovechar la información de los ejemplos de entrenamiento más similares al nuevo ejemplo para realizar una clasificación precisa o una estimación confiable.

1. Normalización

Consiste en establecer todos los valores de los atributos en la misma escala cuando se tienen atributos con diferentes escalas.
Es decir que se reajusta los valores de los atributos a un rango común, generalmente entre 0 y 1.

\[ x_{norm} =\;\frac{x - min_{value}}{max_{value} - min_{value}} \]

Donde:

\(x:\) Es el valor original que deseas normalizar.
\(x_{\text{norm}}:\) Es el valor normalizado resultante.
\(min_{\text{value}}:\) Es el valor mínimo posible que puede tener el atributo.
\(max_{\text{value}}:\) Es el valor máximo posible que puede tener el atributo.

PRESENTACIÓN DE LA METODOLOGÍA

2. Cálculo de distancias

Se cálcula la distancia entre el nuevo ejemplo a clasificar y los ejemplos del conjunto de entrenamiento. En el algoritmo kNN, la distancia más comúnmente utilizada es la distancia euclidiana.

\[ dist(A, B) = \sqrt{(x_1 - y_1)^2 + (x_2 - y_2)^2 + \ldots + (x_n - y_n)^2} \]

En esta fórmula, \(x_{1}\), \(x_{2}\), …, \(x_{n}\) representan las coordenadas del punto A , mientras que \(y_{1}\), \(y_{2}\), …, \(y_{n}\) representan las coordenadas del punto B.

3. Selección de los k vecinos más cercanos

Una vez calculada la distancia entre el nuevo ejemplo y los ejemplos de entrenamiento, se procede a la selección de los “k” datos más cercanos al nuevo ejemplo. El valor de “k” es un parámetro predefinido que determina cuántos vecinos se considerarán en el proceso

4. Clasificación o predicción

Se utiliza la mayoría de los votos de los “k” vecinos más cercanos para determinar la clase del nuevo ejemplo, Por ejemplo, si la mayoría de los “k” vecinos pertenecen a la clase “A”, entonces el nuevo ejemplo se clasificará como clase “A”.

VALOR DE “K” ÓPTIMO PARA EL MODELO

Encontrar el valor óptimo de “k” en el algoritmo de k-Nearest Neighbors (k-NN) es crucial debido a su impacto en el rendimiento y la precisión del modelo de clasificación. Si elegimos un valor de “k” demasiado pequeño, el modelo puede volverse demasiado sensible a variaciones aleatorias o ruido en los datos, lo que puede llevar a un sobreajuste. Por otro lado, si seleccionamos un valor de “k” demasiado grande, el modelo puede perder detalles importantes y generalizar demasiado, lo que resulta en una subutilización de la información disponible. Dicho esto, a continuación se presenta una tabla de clasificación donde se evalúan 20 diferentes valores de “k” con el objetivo de encontrar el más adecuado para este caso:

Al ajustar “k” correctamente, podemos mejorar la precisión y la capacidad de generalización del modelo, lo que se traduce en predicciones más confiables y precisas. De acuerdo con los datos arrojados por la tabla anterior, se tiene que:

## El valor de 'k' (# de vecinos más cercanos) que proporciona la mayor precisión para el modelo de clasificación es de k = 5

GRÁFICA DE “K” ÓPTIMO PARA EL MODELO

Esta gráfica muestra la relación entre el valor de “k” y la precisión (Accuracy) en el modelo de clasificación utilizando el algoritmo de k-Nearest Neighbors (k-NN). A medida que aumenta el valor de “k”, de manera general es posible que la precisión inicialmente mejore, pero después de cierto punto, es probable que disminuya debido a la sobregeneralización o pérdida de detalles. Por lo tanto, el valor óptimo de “k” es aquel donde se encuentra el pico más alto en la gráfica, lo que indica el mejor equilibrio entre la capacidad de capturar patrones y la capacidad de generalización del modelo. Esta gráfica por lo tanto nos proporciona una herramienta visual importante para ajustar y mejorar el rendimiento del modelo basado en k-NN.

PREDICCIONES DEL MODELO ENTRENADO

El código en cuestión usado en este apartado permite llevar a cabo la predicción de la variable dependiente utilizando un modelo de clasificación basado en el algoritmo k-Nearest Neighbors (k-NN) previamente entrenado. Al utilizar este modelo, se busca asignar etiquetas o clases a nuevos datos no vistos previamente, basándose en la similitud con los ejemplos de entrenamiento.

La predicción por lo tanto, se lleva a cabo evaluando la proximidad de los puntos de datos de prueba a los vecinos más cercanos en el espacio de características, por lo tanto el modelo asigna una etiqueta al nuevo dato en función de la mayoría de las etiquetas de sus vecinos más próximos. El resultado de la predicción para los 36 datos de prueba se muestra en la siguiente tabla, la cual proporcionará las etiquetas o clases predichas para los datos en cuestión.

Indice	Prediccion
1	En via de desarrollo
2	En via de desarrollo
3	En via de desarrollo
4	En via de desarrollo
5	Desarollado
6	Desarollado
7	En via de desarrollo
8	En via de desarrollo
9	Desarollado
10	En via de desarrollo
11	Desarollado
12	En via de desarrollo
13	Desarollado
14	En via de desarrollo
15	En via de desarrollo
16	En via de desarrollo
17	En via de desarrollo
18	En via de desarrollo
19	Desarollado
20	Desarollado
21	En via de desarrollo
22	En via de desarrollo
23	En via de desarrollo
24	En via de desarrollo
25	Desarollado
26	En via de desarrollo
27	En via de desarrollo
28	En via de desarrollo
29	En via de desarrollo
30	En via de desarrollo
31	En via de desarrollo
32	En via de desarrollo
33	En via de desarrollo
34	En via de desarrollo
35	Desarollado
36	En via de desarrollo

PROBABILIDADES DE LAS PREDICCIONES DEL MODELO ENTRENADO

La predicción de probabilidades utilizando un modelo de clasificación basado en k-Nearest Neighbors (k-NN) brinda una información adicional sobre las predicciones realizadas. En lugar de obtener solo las etiquetas de clase para los datos de prueba, este enfoque permite calcular la probabilidad de pertenencia a cada clase para cada punto de datos. Esto resulta especialmente útil en escenarios donde se requiere una comprensión más detallada de la confianza del modelo en sus predicciones.

Al aplicar el modelo k-NN entrenado a los datos de prueba, se obtiene un conjunto de probabilidades asociadas a cada clase. Estas probabilidades indican la medida en que cada clase es probable que se ajuste a los datos de prueba en función de la similitud con los ejemplos de entrenamiento cercanos. Este enfoque de predicción de probabilidades con k-NN permite una mayor granularidad en la interpretación de los resultados y una mejor comprensión de la incertidumbre asociada a las predicciones del modelo.

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

PRECISIÓN DEL MODELO ENTRENADO

El código utilizado en este apartado se empleó para calcular la precisión o exactitud del modelo de clasificación basado en k-Nearest Neighbors (k-NN) al predecir los datos de prueba y comparar estas predicciones con los resultados reales del conjunto de prueba. Este es un indicador clave del rendimiento y la capacidad de clasificación del modelo ya que proporciona una medida cuantitativa de qué tan bien el modelo puede predecir correctamente las etiquetas de clase para nuevos datos no vistos previamente.

Al calcular la precisión, se compara cada una de las predicciones realizadas por el modelo con las etiquetas reales de los datos de prueba. Si la predicción coincide con la etiqueta real se considera un acierto, de lo contrario un fallo. Por lo tanto, evaluar la precisión del modelo k-NN proporciona una visión general de su capacidad para generalizar y clasificar nuevos datos, lo que permite tomar decisiones informadas basadas en la confiabilidad de las predicciones. Dicho lo anterior, para el caso particular del modelo desarrollado en este ejercicio, se tiene que:

## El porcentaje de aciertos (accuracy) de la predicción realizada por el modelo con respecto a los outputs del test es del: 100 %

MATRIZ DE CONFUSIÓN DEL MODELO

La información presentada anteriormente en el apartado de “Precisión del modelo” la vemos reflejada en la siguiente matriz de confusión, la cual es una herramienta fundamental en la evaluación de modelos de clasificación. Esta se utiliza principalmente para analizar el rendimiento de un modelo al comparar sus predicciones con los resultados reales. La matriz muestra el recuento de las diferentes combinaciones de predicciones y resultados, organizadas en filas y columnas que representan las clases o categorías de la variable objetivo.

En esta matriz de confusión, cada celda representa una categoría de predicción y resultado. Los valores diagonales, de la esquina superior izquierda a la esquina inferior derecha, indican los casos en los que el modelo ha acertado. Estas celdas reflejan los verdaderos positivos y verdaderos negativos, es decir, las instancias clasificadas correctamente. Por otro lado, las celdas fuera de la diagonal principal revelan los errores del modelo, ya sea en forma de falsos positivos o falsos negativos.

	Desarollado	En via de desarrollo
Desarollado	9	0
En via de desarrollo	0	27

Teniéndose en cuenta que para el desarrollo de este modelo se tomará como clase positiva la etiqueta “Desarrollado” podemos, por lo tanto, concluir las siguientes afirmaciones acerca de la precisión del modelo:

VP (Verdadero positivo): Nueve muestras fueron clasificadas correctamente como positivas.
FP (Falso Positivo): Cero muestras fueron clasificadas incorrectamente como positivas.
FN (Falso Negativo): Cero muestras fueron clasificadas incorrectamente como negativas.
VN (Verdadero Negativo): Veintisiete muestras fueron clasificadas correctamente como negativas.

EXACTITUD, SENSITIVIDAD Y ESPECIFICIDAD

	Metrica	Valor
Accuracy	Exactitud	1
Sensitivity	Sensitividad	1
Specificity	Especificidad	1

Exactitud (Accuracy): La exactitud es la proporción de predicciones correctas realizadas por el modelo en relación al total de muestras. Es una medida general de la capacidad del modelo para clasificar correctamente las muestras en todas las categorías. Se calcula como el cociente entre el número de predicciones correctas y el número total de muestras.

\[ Accuracy\;=\;\frac{VP\;+\;VN}{VP\;+\;VN\;+\;FP+\;FN}\;=\;\frac{9\;+\;27}{9\;+\;27\;+\;0+\;0}\;=\;1 \]

Sensitividad (Sensitivity): También conocida como tasa de “verdaderos positivos”, mide la proporción de muestras positivas que son correctamente identificadas por el modelo. Indica la capacidad del modelo para detectar correctamente las muestras que pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos positivos y la suma de los verdaderos positivos y los falsos negativos.

\[ Sensitivity\;=\;\frac{VP}{VP\;+\;FN}\;=\;\frac{9}{9\;+\;0}\;=\;1 \]

Especificidad (Specificity): También conocida como tasa de “verdaderos negativos”, es la proporción de muestras negativas que son correctamente identificadas como negativas por el modelo. Indica la capacidad del modelo para identificar correctamente las muestras que no pertenecen a la clase positiva. Se calcula como el cociente entre los verdaderos negativos y la suma de los verdaderos negativos y los falsos positivos.

\[ Specificity\;=\;\frac{VN}{VN\;+\;FP}\;=\;\frac{27}{27\;+\;0}\;=\;1 \]

CONCLUSIONES SOBRE LA CLASIFICACIÓN

Como conclusiones generales a partir de los resultados arrojados por el modelo desarrollado a lo largo de este ejercicio podemos concluir que:

Alta precisión: La capacidad del modelo para clasificar correctamente todas las muestras indica una alta precisión en la predicción. Esto significa que el modelo ha aprendido patrones y características relevantes en los datos de entrenamiento y es capaz de aplicarlos de manera efectiva en la clasificación de nuevos datos.
Buena capacidad de generalización: El hecho de que el modelo clasifique correctamente todos los datos indica que ha logrado generalizar bien a partir de los ejemplos de entrenamiento. Esto sugiere que el modelo ha capturado las relaciones subyacentes en los datos y puede aplicar ese conocimiento a nuevos casos.
Adecuada elección de parámetros: La elección adecuada de parámetros, como el valor de “k” en k-NN, puede haber contribuido al rendimiento exitoso del modelo. En este caso, es probable que se haya seleccionado un valor óptimo de “k” que permitió un equilibrio adecuado entre la sensibilidad al ruido y la capacidad de capturar detalles importantes en los datos.
Evaluación adicional: Aunque el modelo clasificó correctamente todos los datos, es importante realizar una evaluación adicional para garantizar que este alto rendimiento no sea el resultado de sobreajuste o coincidencia fortuita. Lo cual se comprobó a través de técnicas como la validación cruzada o la división de datos en conjuntos de entrenamiento, validación y prueba para obtener una evaluación más robusta del modelo.

REFERENCIAS BIBLIOGRÁFICAS

Domestic general government health expenditure (% of GDP). (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SH.XPD.GHED.GD.ZS
GDP - per capita (PPP) by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 15 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=67&r=xx&l=en
Infant mortality rate by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 17 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=29&r=xx&l=en
Intentional homicides (per 100,000 people). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/VC.IHR.PSRC.P5
Life expectancy at birth by country - Thematic Map - World. (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/map/?t=0&v=30&r=xx&l=en
¿Qué es el algoritmo de k vecinos más cercanos? (s. f.). Ibm.com. Recuperado 18 de mayo de 2023, de https://www.ibm.com/mx-es/topics/knn
School enrollment, secondary (% net). (s. f.). Indexmundi.com. Recuperado 18 de mayo de 2023, de https://www.indexmundi.com/facts/indicators/SE.SEC.NENR
Wikipedia contributors. (s. f.). Archivo:2021-22 UN Human Development Report.svg. Wikipedia, The Free Encyclopedia. https://es.wikipedia.org/wiki/Archivo:2021-22_UN_Human_Development_Report.svg
(S. f.-a). Recuperado 19 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://academica-e.unavarra.es/bitstream/handle/2454/29112/Memoria.pdf?sequence=2
(S. f.-b). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://oa.upm.es/68050/1/TFG_LORETO_GARCIA_TEJADA.pdf
(S. f.-c). Recuperado 22 de mayo de 2023, de http://chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://sebastianraschka.com/pdf/lecture-notes/stat479fs18/02_knn_notes.pdf

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0

Exposición aprendizaje supervisado

INTRODUCCIÓN SOBRE EL CONTEXTO

EXPECTATIVA DE VIDA - (LIFE.EXPECTANCY)

GASTO PÚBLICO GENERAL EN SALUD - (TOTAL.EXPENDITURE)

MORTALIDAD INFANTIL - (INFANT.DEATHS)

ESCOLARIZACIÓN - (SCHOOLING)

PRODUCTO INTERNO BRUTO - (GDP)

HOMICIDIOS - (HOMICIDES)

ÍNDICE DE DESARROLLO HUMANO - (HDI)

PRESENTACIÓN DE LA METODOLOGÍA

1. Normalización

PRESENTACIÓN DE LA METODOLOGÍA

2. Cálculo de distancias

3. Selección de los k vecinos más cercanos

4. Clasificación o predicción

VALOR DE “K” ÓPTIMO PARA EL MODELO

GRÁFICA DE “K” ÓPTIMO PARA EL MODELO

PREDICCIONES DEL MODELO ENTRENADO

PROBABILIDADES DE LAS PREDICCIONES DEL MODELO ENTRENADO

PRECISIÓN DEL MODELO ENTRENADO

MATRIZ DE CONFUSIÓN DEL MODELO

EXACTITUD, SENSITIVIDAD Y ESPECIFICIDAD

CONCLUSIONES SOBRE LA CLASIFICACIÓN

REFERENCIAS BIBLIOGRÁFICAS

Indice	Desarollado	En.via.de.desarrollo
1	0.0	1.0
2	0.0	1.0
3	0.0	1.0
4	0.0	1.0
5	1.0	0.0
6	1.0	0.0
7	0.0	1.0
8	0.4	0.6
9	1.0	0.0
10	0.0	1.0
11	1.0	0.0
12	0.0	1.0
13	1.0	0.0
14	0.0	1.0
15	0.0	1.0
16	0.0	1.0
17	0.0	1.0
18	0.0	1.0
19	1.0	0.0
20	1.0	0.0
21	0.2	0.8
22	0.0	1.0
23	0.0	1.0
24	0.0	1.0
25	0.8	0.2
26	0.0	1.0
27	0.0	1.0
28	0.0	1.0
29	0.0	1.0
30	0.0	1.0
31	0.0	1.0
32	0.0	1.0
33	0.0	1.0
34	0.0	1.0
35	1.0	0.0
36	0.0	1.0