Aprendizaje Supervisado

INTRODUCCIÓN

En este trabajo se aplicará una técnica de aprendizaje supervisado mediante el modelo de K-Nearest Neighbors (KNN) con el objetivo de clasificar a los países en DESARROLLADOS y SUBDESARROLLADOS. Para ello, se emplearán once variables socioeconómicas extraídas de la base de datos del Banco Mundial, las cuales permitirán analizar el comportamiento de los países para poder hacer una clasificación adecuada. Se considerarán un total de 101 países, y se realizarán análisis descriptivos para evaluar la relevancia de cada variable y su influencia en la clasificación de un país como desarrollado o subdesarrollado.

De tal manera que las variables seleccionadas para este estudio son las siguientes:

  • MAE: Materiales Agricultura Exportados.
  • MAI: Materiales Agricultura Importados.
  • ESC: Exportación de Servicios Comerciales.
  • ISC: Importación de Servicios Comerciales.
  • CM: Comercio de Mercancías.
  • EA: Exportaciones de Alimentos.
  • IA: Importaciones de Alimentos.
  • PIB: Producto Interno Bruto.
  • EV: Esperanza de Vida.
  • PAI: Personas con Acceso a Internet.
  • DES: Desempleo.

Descripción de cada variable:

  • MAE (Materiales Agricultura Exportados): Representa el valor total de los materiales agrícolas que un país exporta. Esta variable es crucial para entender la capacidad de un país para generar ingresos a través del comercio agrícola y su integración en la economía global.

  • MAI (Materiales Agricultura Importados): Indica el valor de los materiales agrícolas que un país importa. Un alto nivel de importaciones agrícolas puede reflejar una dependencia de otros países para satisfacer las necesidades alimenticias o de producción.

  • ESC (Exportación de Servicios Comerciales): Mide el valor de los servicios comerciales que un país exporta. Esto incluye actividades como el turismo, servicios financieros, y otros servicios profesionales, lo que puede ser un indicador importante del desarrollo del sector terciario de la economía.

  • ISC (Importación de Servicios Comerciales): Representa el valor de los servicios comerciales que un país importa. Un alto volumen de importaciones en este ámbito puede señalar la necesidad de servicios que no se producen localmente o que son más competitivos en otros países.

  • CM (Comercio de Mercancías): Mide el total del comercio de bienes (exportaciones más importaciones). Esta variable proporciona una visión general de la actividad económica de un país y su capacidad de comercio.

  • EA (Exportaciones de Alimentos): Refleja el valor de los productos alimenticios que un país exporta. Esto es importante para evaluar la seguridad alimentaria y la capacidad de un país para participar en el mercado global de alimentos.

  • IA (Importaciones de Alimentos): Indica el valor de los productos alimenticios que un país importa. Una alta dependencia de importaciones alimentarias puede afectar la seguridad alimentaria y la estabilidad económica.

  • PIB: Representa el Producto Interno Bruto de un país, un indicador clave del tamaño y la salud de la economía. Un PIB alto generalmente se asocia con un desarrollo económico más avanzado.

  • EV (Esperanza de Vida): Mide la cantidad promedio de años que se espera que viva una persona en un país. Es un indicador fundamental del desarrollo humano, salud pública y calidad de vida.

  • PAI (Personas con Acceso a Internet): Indica el porcentaje de la población que tiene acceso a Internet. El acceso a Internet es esencial para la educación, la comunicación y la participación en la economía global.

  • DES (Desempleo): Representa la tasa de desempleo en un país. Un alto nivel de desempleo puede reflejar problemas económicos y sociales, afectando el desarrollo general de un país.

Para lograr la clasificación de los diferentes países que están en nuestra base de datos se realizará uno de los métodos del aprendizaje supervisado el cual es el modelo de vecinos más cercanos ( KNN ). Para La realización de este modelo es necesario que en nuestra base de datos podamos entrenar una cantidad de datos los cuales son conocidos, estos serán los inputs que tienen la finalidad de poder brindarnos a nosotros un output que son los resultados obtenidos, con estos datos nuestro modelo va a tener la capacidad de poder identificar si estos resultados arrojados nos indican sí el país es desarrollado o no.

En conjunto, estas variables permiten construir un modelo que clasifica a los países en DESARROLLADOS y SUBDESARROLLADOS, al mismo tiempo que identifica los factores clave que influyen en esta clasificación. Esto facilita una mejor comprensión de los elementos esenciales que afectan que un país sea o no desarrollado, dando conclusiones al respecto de acuerdo a los resultados obtenidos.

METODOLOGÍA

Para llevar a cabo este proyecto, nuestra primera acción consistió en crear diversas gráficas descriptivas, incluyendo diagramas de barras, boxplots, diagramas de torta e incluso un diagrama de dispersión. Esta variedad de visualizaciones fue seleccionada cuidadosamente con el objetivo de entender de manera integral el comportamiento de las variables según la base de datos con la cual trabajamos, una vez finalizadas las gráficas cada una de ellas nos permitirán poder comprender mejor el comportamiento y las tendencias que tienen los datos, dándonos diferentes resultados los cuales se van a profundizar en las descriptivas.

  1. Selección de variables:

Para obtención de los datos se hizo uso de la base de datos del banco mundial en la cual está almacenada la información por diferentes series, a su vez estas series cuentan con variables relacionadas a su serie, en el desarrollo del proyecto se hizo la elección de las siguientes variables que corresponden al año 2022.

En serie de Salud las variables seleccionadas fueron :

  • Esperanza de vida al nacer, total (años).
  • Personas que utilizan Internet (% de la población).

En serie Protección social y trabajo las variables seleccionadas fueron :

  • Desempleo, total (% de la fuerza laboral total) (estimación nacional)

En serie Educación las variables seleccionadas fueron :

  • Tasa de alfabetización, total de adultos (% de personas de 15 años y más)
  • Gasto corriente en educación, total (% del gasto total en instituciones públicas)

En serie Sector privado y comercio las variables seleccionadas fueron :

  • Exportaciones de materias primas agrícolas (% de las exportaciones de mercancías).
  • Exportaciones de servicios comerciales (US$ a precios actuales).
  • Exportaciones de alimentos (% de las exportaciones de mercancías.
  • Importaciones de materias primas agrícolas (% de las importaciones de mercancías).
  • Importaciones de servicios comerciales (US$ a precios actuales).
  • Importaciones de alimentos (% de las importaciones de mercancías).

En la serie de Comercio de mercancías (% del PIB) las variables son :

  • PIB
  1. Renombre de Variables

Debido a que las variables seleccionadas del Banco Mundial tenían nombres demasiados extensos y en inglés era demasiado confuso poder utilizarlas en la base de datos, además la interpretación y la manipulación de estas iba a hacer demasiado compleja, por tal motivo decidimos renombrarlas de manera mucho más abreviada y clara. También decidimos traducir las variables para que fuese mucho mejor la comprensión, a continuación se presentan la variables que elegimos, las cuales tienen el respectivo nombre asignado y así mismo se pueden hallar en la nueva base de datos.

  • MAE = MATERIALES AGRICULTURA EXPORTADOS.
  • MAI = MATERIALES AGRICULTURA IMPORTADOS.
  • ESC = EXPORTACIÓN DE SERVICIOS COMERCIALES.
  • ISC = IMPORTACIÓN DE SERVICIOS COMERCIALES.
  • CM = COMERCIO DE MERCANCÍAS.
  • EA = EXPORTACIONES DE ALIMENTOS.
  • IA = IMPORTACIONES DE ALIMENTOS.
  • PIB = PIB
  • EV = ESPERANZA DE VIDA.
  • PAI = PERSONAS CON ACCESO A INTERNET.
  • DES= DESEMPLEO.
  1. Creación del modelo de KNN

Primeramente es necesario saber los items que van a proporcionar la información y los resultados obtenidos en nuestro modelo, para ello se cuenta con tres pero antes se dará explicación a las variables que van a tener estos tres modelos:

En donde cada una de las variables se interpretan como :

  • V P: Verdaderos Positivos.
  • V N: Verdaderos Negativos.
  • F P: Falsos Positivos.
  • F N: Falsos Negativos.

Ítems a tener en cuenta:

  1. Exactitud: También podemos encontrar está indicador como (Accuracy). Es la proporción de predicciones correctas respecto al total de predicciones realizadas. Se logra calcular de la siguiente manera:

La fórmula de Accuracy se define como:

\[ Accuracy = \frac{VP + VN}{VP + VN + FP + FN} \]

  1. Sensitividad : también podemos hablar de este indicador ( Sensitivity ), tiene la finalidad de indicarnos la proporción de positivos reales que son identificamos en nuestro modelo de knn, se puede calcular de la siguiente manera:

La fórmula de Sensitividad (o Tasa de Verdaderos Positivos) se define como:

\[ Sensitividad = \frac{VP}{VP + FN} \]

  1. Especificidad: Este indicador también puede ser llamado por (Specificity), y tiene como objetivo medir de la proporción de negativos reales que el modelo identifica correctamente. Se calcula como:

La fórmula de Especificidad (o Tasa de Verdaderos Negativos) se define como:

\[ Especificidad = \frac{VN}{VN + FP} \]

Donde:

  • \(VP\) son los Verdaderos Positivos.
  • \(VN\) son los Verdaderos Negativos.
  • \(FP\) son los Falsos Positivos.
  • \(FN\) son los Falsos Negativos.

Ya con estos datos obtenidos se usará una matriz de confusión o de error que consiste en una tabla que se utiliza para evaluar el rendimiento de un modelo de clasificación. Muestra una comparación entre las predicciones hechas por el modelo y los valores reales de las clases. Es particularmente útil cuando se trabaja con problemas de clasificación binaria o multiclase, ya que permite ver cuántas predicciones fueron correctas o incorrectas para cada clase.

Real Positivo Real Negativo
Predicción Positiva Verdaderos Positivos (VP) Falsos Positivos (FP)
Predicción Negativa Falsos Negativos (FN) Verdaderos Negativos (VN)
  • Kappa : Este valor medirá la concordancia entre las predicciones del modelo y las clases reales, ajustando por la coincidencia aleatoria.

  • Prevalencia : Mide aproximadamente el total de los casos que el conjunto al cual se le realiza la prueba pertenezca a la clase que corresponde.

  • Balanced Accuracy : Interpretación: Este valor toma en cuenta tanto la sensibilidad como la especificidad, proporcionando una medida más equilibrada del rendimiento del modelo.

ANÁLISIS DESCRIPTIVO

1. Comparación de las exportaciones agrícolas

Este gráfico muestra la cantidad de Materiales de Agricultura Exportados (MAE) por dos tipos de economías teniendo en cuenta si es un país Desarrollado o Subdesarrollado. El eje horizontal presenta las categorías de países, mientras que el eje vertical muestra la cantidad de MAE. Se observa una diferencia significativa en la cantidad de exportaciones, con los países subdesarrollados exportando mucho más en comparación con los países desarrollados. Los países subdesarrollados dependen en mayor medida de las exportaciones agrícolas, con el fin de poder soster su propia economia. Esto podría estar relacionado con economías basadas en sectores primarios, donde la agricultura es una de las principales fuentes de ingresos.

2. Importaciones de servivios comerciales.

Este gráfico representa la Proporción de Importaciones de Servicios Comerciales entre países desarrollados y subdesarrollados. La mayor parte de la gráfica, representada en color azul, corresponde a los países subdesarrollados, los cuales abarcan el 83.9% de las importaciones de servicios comerciales. La porción más pequeña, representada en color rojo, corresponde a los países desarrollados, con un 16.1% del total de importaciones de servicios comerciales.

Los países subdesarrollados importan una mayor cantidad de servicios comerciales en comparación con los países desarrollados, podemos deducir que los países subdesarrollados dependen más de la importación de servicios comerciales para satisfacer sus necesidades económicas o que sus economías no tienen una infraestructura suficiente para producir esos servicios localmente.

3. Relación entre Acceso a Internet y Esperanza de Vida por categoría.

En este gráfico de dispersión muestra la relación entre el Acceso a Internet (%) y la Esperanza de Vida (años) en dos categorías de países:

Desarrollados (en rojo) y Subdesarrollados (en azul).

A medida que aumenta el porcentaje de personas con acceso a Internet, también tiende a aumentar la esperanza de vida. Esto sugiere una correlación positiva entre el acceso a la tecnología y mejores condiciones de vida.

Los puntos rojos (países desarrollados) están mayormente concentrados en la parte superior derecha del gráfico, indicando que tienen mayor acceso a Internet al igual que una esperanza de vida alta (superior a 75 años).

Los puntos azules (países subdesarrollados) están más dispersos. Aunque se muestra un acceso considerable a Internet, por encima del 50%, hay una mayor variabilidad en la esperanza de vida ya que muchos países subdesarrollados tienen un acceso limitado a Internet, menos del 50% y una esperanza de vida más baja por debajo de 70 años.

4. Esperanza de Vida según su categoría

En esta gráfica realizamos la comparación de la distribución de la esperanza de vida entre las dos categorías, países desarrollados y subdesarrollados.

Los países desarrollados tienen una esperanza de vida más alta y uniforme. podríamos decir que esto se debe a factores como una mejor atención médica, estándares de vida más altos y un mayor acceso a servicios básicos que favorecen una mayor longevidad.

En los países subdesarrollados la esperanza de vida tiene mayor variabilidad, con una mediana más baja y un rango más amplio. Los puntos atípicos indican que algunos países subdesarrollados tienen una esperanza de vida mucho más baja que el promedio, principalmente debido a problemas graves como conflictos, pobreza extrema o sistemas de salud deficientes.

***5. D

Para la elaboración de la siguiente gráfica, se buscó realizar una comparación del comportamiento de la variable DES (desempleo) en función de las categorías de los países. Los resultados muestran una mayor variabilidad en los países subdesarrollados, mientras que en los países desarrollados se observa una mayor concentración de datos. Esto sugiere que los países desarrollados disfrutan de una economía más robusta, lo que se traduce en mejores oportunidades laborales.

Además, se puede notar que en los países subdesarrollados existen más datos atípicos, lo que indica la presencia de casos extremos de desempleo. Esto resalta las disparidades económicas y laborales que enfrentan estos países en comparación con sus contrapartes desarrolladas.

6.TASA DESEMPLEO 2022 POR PAÍS

##  num [1:242] NA 6 NA NA NA ...
## [1]    NA 5.995    NA    NA    NA    NA
## [1] 0

A continuación tenemos un mapa Mundial donde podemos observar la tasa de desempleo por país en 2022. El desempleo está clasificado por colores, los tonos más oscuros (rojos) representan tasas de desempleo más altas, y los tonos más claros (amarillos) representan tasas más bajas.

Podemos observar que Sudáfrica aparece en un tono rojo oscuro, lo que indica que tiene una de las tasas de desempleo más altas en 2022.

En América del Sur, países como Venezuela y Argentina tienen tasas relativamente altas en comparación con otros países del continente.

El mapa refleja diferencias económicas significativas en términos de empleo a nivel global, mientras que muchos países desarrollados logran mantener tasas de desempleo relativamente bajas, algunas economías emergentes y en desarrollo, especialmente en África y América Latina, continúan luchando con altas tasas de desempleo.

El alto desempleo en Sudáfrica destaca como un punto crítico en el mapa, lo que refleja los desafíos estructurales del país en términos de desarrollo económico y social.

Las tasas bajas de desempleo en países desarrollados y algunos asiáticos sugieren una mayor estabilidad económica y mejor capacidad para enfrentar problemas globales, por ejemplo los causados por la pandemia de COVID-19.

Para África y Latino Amercia el desempleo continúa siendo un desafío ya que al no contar con mayores niveles de industrialización y comercio como los países desarrollados se ve reflejado en la escasez de oportunidades laborales.

ANÁLISIS DE LOS RESULTADOS DEL MODELO KNN

Una vez se inició con el proyecto, el primer paso consistió en cambiar el nombre a las variables que se encontraban en la base de datos, para lograr eso se aplicó la siguiente estructura:

Nombrar varariables

  • names(Taller_2_base)[3] <- “MAE”
  • names(Taller_2_base)[4] <- “MAI”
  • names(Taller_2_base)[5] <- “ESC”
  • names(Taller_2_base)[6] <- “ISC”
  • names(Taller_2_base)[7] <- “CM”
  • names(Taller_2_base)[8] <- “EA”
  • names(Taller_2_base)[9] <- “IA”
  • names(Taller_2_base)[10] <- “PIB-15”
  • names(Taller_2_base)[11] <- “EV”
  • names(Taller_2_base)[12] <- “PAI”
  • names(Taller_2_base)[13] <- “DES”
  • names(Taller_2_base)[14] <- “Categoria”

El paso a seguir con la elaboración del modelo consiste en limpiar la base de datos que cuentan con valores no existentes( NA ), los cuales a la hora de correr el modelo presentan fallas impidiendo el desarrollo de este mismo, es por ello que se eliminaron los datos faltantes en la base de datos con una función, y después procedemos a eliminar las columnas que contengan los nombres de los países :

datos_limpios <- na.omit(Taller_2_base) view(datos_limpios) datos_limpios2 <- datos_limpios[, -c(1, 2)]

A continuación, se realizó la normalización de los datos, un paso crucial para asegurar que todas las variables contribuyeran de manera equitativa al modelo KNN. Esto se logró mediante la función ( scale ) y se creó un nuevo conjunto de datos normalizados.

bd <- datos_limpios2 %>% select(-Categoría) bd1 <- as.data.frame(scale(bd)) bd1\(Categoria <- datos_limpios2\)Categoria

Preparación del Modelo KNN

Se utilizó la biblioteca ( caret ) para construir el modelo KNN. Luego, se dividió el conjunto de datos en conjuntos de entrenamiento y prueba utilizando createDataPartition():

Índice MAE MAI ESC ISC CM EA IA PIB-15 EV PAI DES
1 0.755 0.863 1.42e10 2.10e10 26.9 59.9 5.91 5.98e11 76.1 88.4 6.80
2 1.77 0.745 5.14e10 6.84e10 42.6 11.0 6.15 1.59e12 83.2 94.9 3.73
3 1.71 1.79 8.24e10 7.41e10 94.6 8.02 7.18 4.22e11 81.1 93.6 4.99
4 0.494 1.69 5.03e9 7.69e9 66.9 2.37 18.1 5.67e10 73.5 88 5.65
5 1.01 0.970 1.35e11 1.38e11 215.0 9.17 8.48 5.16e11 81.7 94.0 5.57
6 76.6 1.34 4.54e8 9.36e8 47.9 18.7 30.0 1.68e10 60.0 33.8 1.68
7 0.624 0.735 9.21e8 2.73e9 60.7 23.1 5.97 3.83e10 64.9 73.3 3.55
8 4.65 1.33 2.98e9 8.92e8 102.0 5.85 15.1 2.03e10 75.3 78.8 12.7
9 0.0295 0.750 5.86e8 1.05e9 80.7 1.83 13.3 1.75e10 65.9 77.3 23.6
10 4.72 0.921 3.96e10 7.80e10 32.1 39.5 4.91 1.90e12 73.4 80.5 9.23
11 0.0112 0.0676 2.63e8 1.10e9 140.0 0.313 7.16 1.30e10 74.6 99.0 5.19
12 0.821 0.943 1.24e10 6.87e9 119.0 16.7 11.7 6.17e10 74.4 79.1 4.27
13 10.6 0.350 4.33e8 1.41e9 53.3 8.52 11.3 1.67e10 59.8 19.9 1.93
14 3.72 0.795 1.31e11 1.44e11 54.7 12.5 8.41 1.76e12 81.3 94.0 5.28
15 5.67 0.686 8.22e9 2.37e10 67.2 21.5 10.7 2.79e11 79.5 90.7 8.25
16 3.90 0.975 1.36e10 1.79e10 38.9 16.4 13.6 3.55e11 73.7 72.8 10.5
17 1.48 1.16 1.27e10 5.75e9 56.7 35.4 12.5 6.95e10 77.3 82.6 11.3
18 14.1 0.464 8.70e8 4.64e9 48.9 44.6 18.0 6.76e10 58.9 38.4 2.31
19 4.25 1.00 2.03e10 6.01e9 97.4 14.4 11.4 6.44e10 77.6 82.1 6.96
20 0.976 0.570 2.28e10 1.65e10 56.6 29.2 14.8 2.79e10 81.9 89.6 6.81

El modelo KNN fue entrenado utilizando el conjunto de entrenamiento con un rango de valores para k (número de vecinos) para encontrar el mejor rendimiento.

k Accuracy Kappa
5 0.7934425 0.4642321505
7 0.8037715 0.4944437671
9 0.8145311 0.4934578383
11 0.8301368 0.5269272457
13 0.8311308 0.5193253216
15 0.8273781 0.5026605426
17 0.8156678 0.4557031218
19 0.8061981 0.4337079431
21 0.7920340 0.3818485596
23 0.7849446 0.3424884148
25 0.7694396 0.2883612379
27 0.7663625 0.2425748221
29 0.7572117 0.2085177868
31 0.7461189 0.0802021382
33 0.7600434 0.0984207689
35 0.7569918 0.0709592821
37 0.7652988 0.0585430009
39 0.7662099 0.0455979951
41 0.7640701 0.0105901872
43 0.7665799 0.0001763376
45 0.7680271 0.0020382642
47 0.7703801 0.0186074601
49 0.7739095 0.0233191197
51 0.7779095 0.0066666667
53 0.7805761 0.0000000000
55 0.7805761 0.0000000000
57 0.7805761 0.0000000000
59 0.7805761 0.0000000000
61 0.7805761 0.0000000000
63 0.7805761 0.0000000000
65 0.7805761 0.0000000000
67 0.7805761 0.0000000000
69 0.7805761 0.0000000000
71 0.7805761 0.0000000000
73 0.7805761 0.0000000000
75 0.7805761 0.0000000000
77 0.7805761 0.0000000000
79 0.7805761 0.0000000000
81 0.7805761 0.0000000000
83 0.7805761 0.0000000000
85 0.7805761 0.0000000000
87 0.7805761 0.0000000000
89 0.7805761 0.0000000000
91 0.7805761 0.0000000000
93 0.7805761 0.0000000000
95 0.7805761 0.0000000000
97 0.7805761 0.0000000000
99 0.7805761 0.0000000000
101 0.7805761 0.0000000000
103 0.7805761 0.0000000000
105 0.7805761 0.0000000000
107 0.7805761 0.0000000000
109 0.7805761 0.0000000000
111 0.7805761 0.0000000000
113 0.7805761 0.0000000000
115 0.7805761 0.0000000000
117 0.7805761 0.0000000000
119 0.7805761 0.0000000000
121 0.7805761 0.0000000000
123 0.7805761 0.0000000000

Los resultados del entrenamiento mostraron que el mejor valor para k con los datos que nos encontramos es de 13. Además podemos analizar la gráfica que nos proporciona este modelo.

Resultados del Modelo KNN

Se realizaron predicciones sobre el conjunto de prueba y se calcularon las probabilidades asociadas a cada clase:

Desarrollado Subdesarrollado
1 0.0000000 1.0000000
2 0.1538462 0.8461538
3 0.0000000 1.0000000
4 0.1538462 0.8461538
5 0.2307692 0.7692308
6 0.6153846 0.3846154
7 0.1538462 0.8461538
8 0.7692308 0.2307692
9 0.6923077 0.3076923
10 0.0000000 1.0000000
11 0.3076923 0.6923077
12 0.1538462 0.8461538
13 0.0000000 1.0000000
14 0.3076923 0.6923077
15 0.1538462 0.8461538
16 0.3076923 0.6923077
17 0.5384615 0.4615385
18 0.1538462 0.8461538
19 0.0000000 1.0000000
20 0.0000000 1.0000000

Resultados de la matriz de confusión

Prediction Desarrollado Subdesarrollado
Desarrollado 4 0
Subdesarrollado 1 16

A partir de los resultados obtenidos en la matriz de confusión, podemos observar que el modelo KNN clasificó un total de 21 países en las categorías de desarrollados y subdesarrollados. En particular, se identificaron 4 países correctamente clasificados como desarrollados, lo que indica que el modelo fue efectivo en reconocer a estos países en su categoría correspondiente debido a que no llego a clasificar alguno como subdesarrollado.

En cuanto a los países subdesarrollados, el modelo clasificó correctamente 16 países como subdesarrollado. Sin embargo, también se detectó un error en la clasificación, ya que un país que realmente es desarrollado fue clasificado como subdesarrollado mas sin embargo debido al analisis que se realizó podemos decir que el modelo es correctamente.

Exactitud (Accuracy): 0.9524

Interpretación: El modelo tuvo una exactitud del 95.24%, lo que significa que aproximadamente 95 de cada 100 predicciones fueron correctas.

Kappa: 0.8591

Interpretación: Este valor mide la concordancia entre las predicciones del modelo y las clases reales, ajustando por la coincidencia aleatoria. Un valor de 0.8591 indica una buena concordancia.

Sensibilidad (Sensitivity): 0.8

Interpretación: Esto significa que el modelo identificó correctamente el 80% de los casos de “Desarrollado”. Hay un 20% de los casos positivos que fueron clasificados incorrectamente como negativos.

Especificidad (Specificity): 1

Interpretación: El modelo clasificó correctamente todos los casos de “Subdesarrollado”, con una especificidad del 100%. Esto indica que no hubo falsos positivos.

Intervalo de confianza - Valor-p ( P-value ): Despues del (Accuracy) podemos ver este valor respaldado con un intervalo de confianza del 95% que se encuentra en un rango de (0.7618, 0.9988), ahora en nuestro modelo podemos ver que ( P-Value [Acc > NIR] ), que tiene la función de evaluar que nuestro modelo sea menor a NIR que es 0.05 garantizando el rendimiento de nuestro modelo, en nuestro caso tenemos un valor-p de 0.02504.

CONCLUSIONES

Clasificación Efectiva: El modelo KNN demostró ser efectivo para clasificar a los 101 países analizados en las categorías de desarrollados y subdesarrollados, utilizando variables socioeconómicas clave como el PIB, la esperanza de vida y el acceso a Internet y otras.

El modelo KNN desarrollado ha demostrado ser efectivo para clasificar los datos en las categorías deseadas con una alta precisión y confiabilidad. La elección del valor óptimo de k fue crucial para mejorar el rendimiento del modelo. La alta especificidad indica que el modelo es particularmente bueno en evitar falsos positivos en la clasificación.

Dependencia de Exportaciones Agrícolas: Se observó que los países subdesarrollados dependen en gran medida de las exportaciones agrícolas, lo que sugiere una economía basada en sectores primarios, mientras que los países desarrollados diversifican más sus exportaciones.

Acceso a Internet y Esperanza de Vida: Existe una correlación el acceso a Internet y la esperanza de vida. Los países con mayor acceso a Internet tienden a tener mejores condiciones de vida, lo que se traduce en una mayor longevidad.

Desempleo y Variabilidad: La tasa de desempleo mostró mayor variabilidad en los países subdesarrollados, indicando problemas económicos más severos y oportunidades laborales limitadas en comparación con los desarrollados.

Correlaciones entre Variables: Entre el acceso a Internet y la esperanza de vida, sugerimos que mejorar la infraestructura tecnológica podría ser clave para el desarrollo humano y su bienestar, ya que tendría acceso a información de temas relacionados con el cuidado de la salud permitiendo una mayor longevidad.

Importaciones de Servicios Comerciales: Los países subdesarrollados representan una gran parte de las importaciones de servicios comerciales, lo que indica una dependencia significativa de servicios producidos en el extranjero.