1 Introducción

El nivel de desarrollo económico es una forma de medir y contabilizar la capacidad económica de los países para solventar necesidades y dar acceso a su población en general a diferentes tipos de bienes y servicios, tales como la salud, la alimentación, la educación, el empleo y el saneamiento, entre otros. Para esta investigación en la que se ve involucrado el aprendizaje supervisado se eligió analizar y modelar de qué forma se relacionan diferentes variables con el nivel de desarrollo económico de los países en el año 2022 teniendo en cuenta la reactivación económica que resultó producto de la contingencia por la pandemia del Covid-19 permitiendo clasificar los mismos en países que son avanzados y aquellos que no lo son. Los modelos de aprendizaje supervisado son modelos de Machine Learning o aprendizaje automático en los que se entrenan modelos tomando como referencia datos que ya tienen las clasificaciones correctas en cuanto a los niveles de desarrollo para luego hacer predicciones futuras con respecto a datos nuevos no vistos y realizar las respectivas clasificaciones. Los modelos a implementar son: KNN, árbol Rpart y árbol de decisión tree.

2 Metodología

2.1 Pasos necesarios:

A continuación se describen los pasos necesarios para la elaboración de los modelos que competen al aprendizaje supervisado desde la definición de variables hasta la validaciones de los mismos para establecer las respectivas comparativas y decidir cuál de los tres es el más adecuado para clasificar a los países en aquellos que son avanzados y aquellos que no lo son:

1.Después de haberse dado la selección del tema de interés y el respectivo año de análisis (Siendo de gran interés la reactivación económica que se dió en el 2022 posterior a la contingencia por la pandemia del Covid-19) , se dió la tarea de realizar una exploración de información en páginas como Our World in Data y Banco Mundial con respecto a factores determinísticos en el nivel de desarrollo económico que pueda llegar a tener un país para de esta forma dar pie a la definición de variables. Como variable respuesta u objetivo (Cuantitativa) se definió al INB per cápita (Expresado en dólares estadounidenses US$) , variable la cual , servirá como función de pronóstico a partir del entrenamiento previo sobre datos etiquetados, según el Banco Mundial (2023) dicho valor sirve como un indicador de capacidad económica ampliamente disponible (Esta capacidad se refleja en que este indicador tiene en cuenta factores como lo es el crecimiento económico, la inflación, los tipos de cambio y el crecimiento demográfico), datos los cuales fueron extraídos de la página del Banco Mundial. Como variables predictoras o explicativas, las cuales fueron cuantitativas se tienen: tasa de empleo, gasto público en educación como porcentaje del PIB, tasa de natalidad, tasa de mortalidad, valor de los bienes y servicios exportados, crecimiento del PIB, porcentaje de la población con acceso a la electricidad, esperanza de vida al nacer y emisiones del CO2.

2.Con lo anteriormente dicho después de haber realizado la respectiva limpieza de datos se tiene una base de datos con 111 países compuesta por las ya nombradas 9 variables predictoras y la variable respuesta de tipo cuantitativa, la cual debe ser transformada a tipo binaria (Sí y no) , realizándose a partir de la regla de dicotomización o punto de corte que establece el Banco Mundial para considerar a un país de tipo avanzado o no (En realidad el Banco Mundial clasifica la economía de un país en: bajo, mediano bajo, mediano alto y alto, para esta investigación en específico se asumió a países de nivel No AVANZADO como la unión entre países de nivel bajo y mediano bajo y a países de nivel AVANZADO como la unión entre países de nivel mediano alto y alto). Dicho punto de corte establecido por la entidad ya mencionada se ajusta anualmente por inflación utilizando el deflactor de los Derechos Especiales de Giro (DEG), el cual es un promedio ponderado de los deflactores del PIB de China, Japón, el Reino Unido, los Estados Unidos y la zona del euro, las monedas actualmente incluidas en la cesta del DEG. Las ponderaciones representan la proporción de la moneda de cada país en una unidad de DEG, estas pueden variar con el tiempo según los cambios en la composición de la cesta del DEG y los tipos de cambio relativos de los países incluidos.

Un dato fundamental a tener en cuenta es que exactamente el Banco Mundial realiza dicha clasificación teniendo en cuenta el año fiscal, es decir que para determinar las clasificaciones para un respectivo año se tiene en cuenta el tiempo comprendido desde el 1 de julio del año anterior hasta el 30 de junio del año al que se le van a realizar las respectivas clasificaciones, es decir que las clasificaciones del año 2022 resultan de los niveles de ingresos comprendidos entre el 1 de julio de 2021 y el 30 de junio del 2022.

Vemos a continuación el punto de corte:

Bajo: INB per cápita<=1135 Mediano bajo: INB per cápita (1136-4465) Mediano alto: INB per cápita (4466-13845) Alto: INB per cápita >13845

Al asumir la unificación de las categorías de avance que se mencionó anteriormente para diferenciar a un país que posee un nivel de desarrollo económico avanzado de uno que no lo es se tiene finalmente como punto de corte a 4465US$.

En el momento en que se realiza la transformación de la variable respuesta a binaria, se descarta la variable original (INB per cápita) para dar lugar a la nueva variable respuesta con la respectiva clasificación.

3.Teniendo ya la base de datos con la nueva variable respuesta se procede a elaborar un análisis descriptivo en el que predomina el cálculo de las medidas de tendencia central, boxplots y diagramas de dispersión para de este modo establecer patrones visuales y comparativas de las variables predictoras teniendo en cuenta la existencia de las dos clasificaciones. Al hacer este ejercicio tenemos un conocimiento del comportamiento y distribución de las variables predictoras en función de la variable respuesta identificando diferencias entre ambas clases antes de la implementación de los modelos.

4.Se tiene una proporción de 62% de los países con clase avanzada y el 38% que no lo son, por lo cual se divide el conjunto de datos en entrenamiento y testeo, se destina una proporción del 75% de los datos para entrenamiento y 25% para testeo, lo cual le permitirá a cada modelo aprender de una cantidad considerable de datos reales y aplicar ese conocimiento adquirido para predecir futuros casos y realizar las respectivas clasificaciones (Se hace uso de una semilla para manejar los mismos conjuntos para cada modelo)

5.Finalmente se da la implementación de los modelos: KNN, árbol tree y árbol Rpart a los cuales se les evaluará su rendimiento teniendo en cuenta lo que arroja la matriz de confusión y el gráfico de ROCR. Con ayuda de estos indicadores se puede analizar la influencia que pudo haber tenido cada predictora en los resultados y las posibles razones por las cuales se dieron algunas deficiencias en las clasificaciones.

2.2 Descripción de las variables

Para esta investigación todas las variables fueron cuantitativas.

Tasa de Empleo (TasaEmpleo): Se define como la razón entre la población ocupada y el número de personas en edad productiva o económicamente activa, o sea personas que están en la capacidad de laborar. Para el caso de la base de datos de este proyecto se usó la tasa referente al número de empleadores por empleos totales lo que incluye a los trabajadores por cuenta propia con y sin empleados a cargo. La razón por la cuál se eligió como variable para el modelo es que la tasa de empleo indica que tantas personas están aportando a la economía de un país, si hay empleo, hay ingreso y al haber ingreso hay consumo de bienes y servicios.

Gasto público en educación como porcentaje del PIB: (GastoEducacionPorc): Hace referencia a la cantidad de dinero perteneciente al producto interno bruto que los países destinan para invertir en la educación en todos los niveles. Puede relacionarse con el nivel de desarrollo económico de los países ya que es una inversión en el capital humano, cuando las poblaciones pueden acceder a la educación tienen más posibilidades de acceder a un empleo, y a su vez, los países con mayor PIB pueden invertir más en educación, es una relación de doble vía.

Tasa de Natalidad (TasaNatalidad): Es el número de nacidos vivos por cada 1000 habitantes en un año. Es un indicador demográfico que da cuenta de la fecundidad de una población, o sea la capacidad de tener hijos de un país. Esta variable está relacionada con el nivel de desarrollo económico ya que las estadísticas demuestran que a mayor nivel de desarrollo la tasa de natalidad disminuye ya que las personas tienen mejor acceso a la planificación familiar, las mujeres tienen mejor acceso al empleo y posponen la maternidad.

Valor de los bienes y servicios exportados (ValorExport): Es el precio en dólares de los bienes y servicios que un país exporta, para este caso está ajustado a los niveles de inflación. Las exportaciones representan una gran fuente de ingresos económicos lo que afecta directamente al nivel de desarrollo económico de los países, también podría entenderse como una relación de doble vía ya que los países con mejores economías son normalmente más industrializados y por esta razón tienen más capacidad de exportación.

Variación Anual del PIB (CrecimientoAnualPIB): Es la variación porcentual anual del producto interno bruto, también es una variable ajustada a la inflación de cada país, hace referencia a si el PIB crece o decrece en las economías de los diferentes países. Este indicador permite conocer como ha fluctuado la economía en los diversos países, actualmente el mundo se encuentra en constante movimientos sociales, políticos y económicos, algunos tienen economías emergentes, o sea, que están pasando de ser economías de niveles bajos a niveles un poco más altos, por está razón este indicador podría ser relevante de tener en cuenta para analizar el modelo del Nivel de Desarrollo Económico de los países.

Porcentaje de la población con acceso a la electricidad (PorcAccesoElectricidad): El acceso a la electricidad se define en las estadísticas internacionales como tener una fuente de electricidad que pueda proporcionar una iluminación muy básica y cargar un teléfono o alimentar una radio durante 4 horas. Esta variable se eligió para el análisis del modelo ya que puede ser un indicador de ingresos en los países, ya que a más ingreso más inversión en infraestructura, además el acceso constante y estable a la energía permite más horas activas de los países, en las fábricas, en laboratorios, en las escuelas, etc.

Esperanza de Vida (EsperanzaVida): es la duración en promedio de vida de los nacidos vivos en un periodo específico tomando como referencias las tasas de mortalidad del mismo periodo. En otras palabras es un tipo de dato predictivo de cuanto años pueden llegar a vivir las personas de determinado país teniendo en cuenta las tasas de mortalidad. Es un indicador de bienestar y calidad de vida, su relación es estrecha con el nivel de desarrollo de un país, ya que los países con mejores ingresos invierten más en salud, en saneamiento ambiental y la población con sus ingresos pueden acceder a una mejor alimentación, entretenimiento, y mejores estilos de vida.

Emisiones de C02 (EmisCO2):Hace referencia a las cantidades en toneladas de dióxido de carbono producidas por actividades como las industriales, transporte y producción de energía que se realizan en los diferentes países. Se relaciona con el nivel de desarrollo económico ya que a mayor crecimiento económico, mayores emisiones de CO₂, debido al aumento en la actividad industrial, el uso de combustibles fósiles, el transporte y la generación de energía. Esto se observa especialmente en países que se industrializaron tempranamente (como EE. UU., Alemania o China).

Tasa de Mortalidad (TasaMortalidad): Es el número de muertes por cada 1000 habitantes que suceden en un país en un periodo específico. Los países más desarrollados tienen mejor infraestructura en salud, mayor esperanza de vida, y mejores condiciones de vida en general, por tanto a mayor nivel de desarrollo económico menor es la tasa de mortalidad.

INB per Cápita (INBpercapita): El INB per cápita mide el ingreso total de los residentes de un país (incluyendo ingresos desde el extranjero) dividido entre la población total. Es una estimación del ingreso promedio por persona y se utiliza comúnmente para clasificar países según su nivel de ingresos (bajo, medio y alto). Esta variable es funcional y fundamental para realizar la regla de dicotomización para los tres modelos que se van a desarrollar.

2.3 Descripción de los modelos:

A continuación se explicará el concepto básico de cada uno de los modelos.

K-Nearest Neighbors (KNN): Según Elastic, KNN o también conocido como el algoritmo del vecino más cercano, es un algoritmo de machine learning que usa la proximidad para comparar un punto de datos con un set de datos con el que se entrenó y que memorizó para hacer predicciones. Está proximidad o distancia se mide comúnmente con ayuda de la distancia euclidiana, que mide una línea recta entre el punto de búsqueda y el otro punto que se está midiendo. Se considera un algoritmo de aprendizaje perezoso porque no construye un modelo interno durante la fase de entrenamiento. En su lugar, simplemente almacena todo el conjunto de datos de entrenamiento y pospone el procesamiento hasta que necesita realizar una predicción (SA, 2024)

Tree: Tiene como tarea elaborar una partición recursiva entre la cantidad de variables predictoras para hacer un trabajo de predicción en la variable respuesta. En específico realiza particiones binarias teniendo siempre presente a las variables predictoras hasta el punto de detectar subconjuntos de datos homógeneos en función de la variable predictora. Las divisiones internas del árbol representan una decisión sobre una variable predictora, mientras que las hojas finales del árbol tienen ya las predicciones definitivas. Posee una estructura jerárquica que hace factible su interpretación. Se utiliza para tareas de clasificación y regresión.

Recursive Partitioning and Regression Trees (Rpart): Particionado recursivo y árboles de regresión en español, es un algoritmo que permite la clasificación de diferentes variables mediante árboles de decisión, y también puede ser utilizado como modelo de predicción. Este algoritmo divide los datos en subconjuntos más homogéneos en función de las características de las variables predictoras. Además, tiene la capacidad de identificar las variables independientes que mejor separan los datos en estos subconjuntos o grupos; esto se convierte en la regla de partición. Para cada uno de los grupos resultantes, se repite el mismo proceso hasta que ya no se encuentra una mejor forma de separación. En ese punto, el algoritmo se detiene, y a este resultado se le denomina nodo terminal. Una de las ventajas de este modelo es que sus resultados son fáciles de interpretar.

3 Análisis Descriptivo

Calculamos las principales estadísticas descriptivas para las variables diferenciando el nivel de desarrollo

Estadísticas descriptivas por nivel de desarrollo
Variable Predictora Avance económico Media Mediana Desviación Mínimo Máximo
CrecimientoAnualPIB No 3.520000e+00 4.300000e+00 6.100000e+00 -28.8 1.190000e+01
CrecimientoAnualPIB Si 4.060000e+00 4.100000e+00 3.570000e+00 -8.3 1.380000e+01
EmisCO2 No 4.291750e+07 6.681168e+06 1.212133e+08 221351.0 7.370726e+08
EmisCO2 Si 1.956745e+08 4.080800e+07 6.279666e+08 150068.0 5.078871e+09
EsperanzaVida No 6.655000e+01 6.690000e+01 5.800000e+00 53.9 7.730000e+01
EsperanzaVida Si 7.744000e+01 7.800000e+01 4.680000e+00 63.4 8.410000e+01
GastoEducacionPorc No 4.320000e+00 3.900000e+00 2.470000e+00 0.0 1.070000e+01
GastoEducacionPorc Si 2.530000e+00 3.200000e+00 2.420000e+00 0.0 7.500000e+00
PorcAccesoElectricidad No 6.697000e+01 6.895000e+01 2.869000e+01 10.3 1.000000e+02
PorcAccesoElectricidad Si 9.829000e+01 1.000000e+02 6.230000e+00 67.0 1.000000e+02
TasaEmpleo No 4.040000e+00 3.750000e+00 2.620000e+00 1.4 1.860000e+01
TasaEmpleo Si 3.620000e+00 3.300000e+00 3.270000e+00 0.1 2.050000e+01
TasaMortalidad No 7.560000e+00 7.250000e+00 2.410000e+00 4.4 1.420000e+01
TasaMortalidad Si 8.840000e+00 8.700000e+00 3.550000e+00 2.0 1.690000e+01
TasaNatalidad No 2.771000e+01 2.880000e+01 9.040000e+00 5.7 4.380000e+01
TasaNatalidad Si 1.238000e+01 1.010000e+01 5.430000e+00 6.3 3.010000e+01
ValorExport No 1.528148e+10 5.407775e+09 4.028083e+10 148911686.0 2.597256e+11
ValorExport Si 2.285661e+11 5.233362e+10 4.019101e+11 34799423.0 2.442521e+12

A continuación se mostrarán boxplots y diagramas de dispersión en los cuales se evidencian relaciones entre las variables predictoras y la variable respuesta.

Los diagramas de caja muestran que los países con menos nivel de desarrollo económico o que no son considerados países avanzados tienen unas tasas de natalidad más altas, entre el 20% y 40%, mientras que los países que están dentro de la categoría “avanzado” tienen tasas menores de natalidad estando por debajo del 30%

Se puede ver que en los países no avanzados la tasa de empleo es más alta en comparación a los países no avanzados, esto puede parecer extraño, pero puede ser razonable en el sentido de que pueden existir diferencias en cuanto a la definición y medición del empleo según el tipo de país, puede ser que en muchos países no avanzados aquellas personas que se dedican a actividades de empleo informales sean consideradas dentro de la población empleada, mientras que los países avanzados son más estrictos en cuanto a que individuos pueden hacer parte de la población empleada.

En el gráfico realizado a partir de los datos de gasto en educación cómo porcentaje del PIB, se puede evidenciar que los países que no pertenecen a la categoría avanzada tienen una inversión un poco mayor en comparación a los países que sí pertenecen a la categoría avanzada.

Se puede ver que los países avanzados tienen mayores niveles de emisiones de CO2 en comparación con los no avanzados y a su vez valores de esperanza de vida por encima de los 60 años, lo cual da a entender que estos países al tener un nivel avanzado ya han alcanzado altos niveles de salud y bienestar que les permite mitigar las afectaciones que pueda llegar a ocasionar el CO2 en los niveles de esperanza de vida, pues la mayor industrialización de estos países promueve esas altas emisiones que se perciben en el gráfico. En el caso de los países no avanzados las emisiones de CO2 son relativamente más bajas en comparación con los países avanzados, lo cual puede deberse a la poca industrialización, pero pese a esto los niveles de esperanza de vida pueden ser muy bajos o muy altos, entendiendo así que en los países no avanzados las toneladas de emisiones de CO2 no influyen mucho en la esperanza de vida, siendo factores más determinantes: Acceso a servicios de salud, presencia de enfermedades infecciosas, agua potable y saneamiento básico, etc.

Se observa que la mayoría de los países no avanzados presentan niveles relativamente bajos de exportación y un crecimiento del PIB concentrado en torno a valores cercanos a cero, con algunas excepciones que muestran caídas o crecimientos marcados. Por otro lado, los países avanzados tienden a concentrarse en los rangos más altos de exportación, aunque con variabilidad en sus tasas de crecimiento económico.

En este diagrama de dispersión se puede ver que por lo general en los países avanzados hay un porcentaje total de acceso a la electricidad, mientras que en los países no avanzados este acceso a la electricidad es muy variable. Se sabe que la electricidad es lo que permite el funcionamiento de muchos servicios como lo es la salud (Funcionamiento de clínicas, refrigeración de medicamentos y equipos químicos, mayor saneamiento e higiene) y se sabe que un país al tener un buen servicio de salud contribuye a una menor tasa de mortalidad. En el caso de los países no avanzados se puede ver ese efecto ya mencionado, pero eso no se ve en los países avanzados, pues a pesar de tener un acceso del 100% esta tasa o puede ser muy baja o puede ser muy alta, lo cual da vía a inferir que en estos países las tasas de mortalidad se ven determinada por otros factores como lo son: el envejecimiento poblacional, enfermedades crónicas, estilos de vida, etc. concluyendo así que en los países no avanzados la electricidad si es un factor de influencia en la tasa de mortalidad, mientras que en los avanzados no.

4 Resultados de los modelos

4.1 KNN:

Teniendo en cuenta que el modelo trabaja con 111 datos, 9 variables predictoras y 2 clases “Si” y “No”, una proporción del 75% (Entrenamiento) y 25% (Testeo), procede a ser entrenado con ayuda de la función train especificando que se quiere evaluar 20 valores diferentes para el “k” (Para cada nuevo país que se quiera clasificar, el modelo busca los 20 países más cercanos, y le asigna la clase que sea mayoritaria entre esos 20) logrando ver que el número óptimo de vecinos es 19, alcanzando el mejor valor de precisión equivalente a 0.7914532, este número óptimo K es de gran utilidad, pues al ser una cantidad impar evita la aparición de empates a la hora de realizar las clasificaciones. Claramente se puede ver que cuando se aumenta el número de vecinos esta precisión empieza a disminuir, lo cual se da gracias a que al considerar más puntos de datos se tendrá una varianza más baja y mayor sesgo, dando lugar a lo que se conoce como un subajuste, así mismo vemos que el número de vecinos que están por debajo de 19 lógicamente manejan una menor precisión, dado esto por una varianza más alta y un menor sesgo, dando paso al sobreajuste, entendiendo así al K óptimo como un indicador que a su vez trae consigo una optimización del sesgo y la varianza.

## k-Nearest Neighbors 
## 
## 84 samples
##  9 predictor
##  2 classes: 'No', 'Si' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 84, 84, 84, 84, 84, 84, ... 
## Resampling results across tuning parameters:
## 
##   k   Accuracy   Kappa    
##    5  0.7272139  0.4171766
##    7  0.7438926  0.4545934
##    9  0.7377243  0.4465992
##   11  0.7537041  0.4833150
##   13  0.7572141  0.4876129
##   15  0.7834044  0.5470223
##   17  0.7859282  0.5570894
##   19  0.7914532  0.5679391
##   21  0.7745296  0.5285886
##   23  0.7806079  0.5418883
##   25  0.7744497  0.5326542
##   27  0.7788221  0.5460778
##   29  0.7782032  0.5456099
##   31  0.7840436  0.5578337
##   33  0.7829799  0.5595729
##   35  0.7747964  0.5491871
##   37  0.7711790  0.5466204
##   39  0.7685057  0.5438011
##   41  0.7536652  0.5245052
##   43  0.7361638  0.5045075
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 19.

A continuación se procede a hacer el análisis de lo que compete a lo que lanza ConfusionMatrix

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Si
##         No  9  5
##         Si  1 12
##                                           
##                Accuracy : 0.7778          
##                  95% CI : (0.5774, 0.9138)
##     No Information Rate : 0.6296          
##     P-Value [Acc > NIR] : 0.07817         
##                                           
##                   Kappa : 0.5598          
##                                           
##  Mcnemar's Test P-Value : 0.22067         
##                                           
##             Sensitivity : 0.9000          
##             Specificity : 0.7059          
##          Pos Pred Value : 0.6429          
##          Neg Pred Value : 0.9231          
##              Prevalence : 0.3704          
##          Detection Rate : 0.3333          
##    Detection Prevalence : 0.5185          
##       Balanced Accuracy : 0.8029          
##                                           
##        'Positive' Class : No              
## 

El modelo considera a “No” como la clase positiva y a “Si” como la negativa, al ser “No” la clase positiva resulta siendo la métrica principal, es decir que el modelo va a estar centrado en minimizar los errores de clasificación respecto a esta clase, por lo tanto el modelo se asegura de que cuando realiza predicciones respecto a esta clase sean predicciones confiables. Se evaluó la clasificación del avance económico para 27 países, en cuanto a la matriz de confusión, la cual permite evaluar el rendimiento del modelo comparando los valores predichos con valores reales. Esta predicción se divide entre verdadero positivo, falso positivo, falso negativo y verdadero negativo.

La precisión del modelo lanza una precisión del 0.7778, indicando así que el modelo alcanzó a predecir correctamente el 77.78% de los casos con un intervalo de confianza del 95% comprendido entre 57.74% y 91.38%, lo cual nos da a entender que si se entrena y se evalúa el modelo cuantas veces queramos, la eficacia o precisión de dicho modelo estará ubicada en dicho intervalo el 95% de las ocasiones. Podemos reafirmar la utilidad del modelo considerando que el Accuracy es mayor al No Information Rate (Tasa de precisión al hacer precisiones usando la clase más frecuente sin tener en cuenta las variables predictoras), lo cual sirve como punto de referencia básico para entender que en cualquier modelo que se desarrolle el Accuracy>No Information Rate para considerar al modelo útil, sin embargo se tiene un P-valor igual a 0.07817, lógicamente es mayor a 0.05, es decir que se acepta la hipótesis nula de que Accuracy no es mejor que No Information Rate, lo cual da a entender que no se tiene suficiente evidencia estadística para afirmar que el modelo es útil o tiene una mejoría a la hora de tener en cuenta a las variables predictoras, por lo tanto se puede inferir una relación débil entre la variable respuesta y las variables predictoras que da pie a una deficiencia en el modelo.

El modelo es efectivo a la hora de identificar a los países no avanzados, ya que según la matriz de confusión y la sensibilidad reconoce correctamente a la mayoría de ellos, lo cual viene siendo positivo en el sentido de que se tenga el propósito de aplicar este modelo para una investigación en la que se quiera detectar la proporción de países no avanzados y analizar qué tipo de deficiencias son las que contribuyen a que haya esa proporción de países no avanzados, pero lamentablemente esto lo hace a costa de errores (sobreclasificaciones de verdaderos positivos a costa de falsos positivos, lo cual genera una baja especificidad y se justifica con una alta prevalencia de detección y baja tasa de detección) generando posibles problemas en cuanto a la formulación de soluciones, llegando a plantearse soluciones alejadas de la realidad al creer que la cantidad detectada de países avanzados es grande cuando en realidad no es así (teniendo en cuenta lo que dice el VPP), recurriendo así a un proceso de investigación sesgado. Realizando un contraste con lo que brinda el p-valor, la relación entre la variable respuesta y las variables predictoras es muy débil, lo cual puede ser una causa de las clasificaciones erróneas que se perciben, pues al darse esta debilidad el modelo se ve en la necesidad de buscar correlaciones entre variables que surgen al azar, al punto de identificar asociaciones que existen por coincidencia en los datos de entrenamiento, es decir que ciertos valores de una variable se asocian a una clase solo por casualidad, ante esto sería esencial en una investigación de este tipo considerar y analizar qué otras variables pueden afectar de mejor forma el nivel de desarrollo de un país. Por último es importante ver la cantidad de vecinos con la que fue entrenado el modelo, en este caso el modelo fue entrenado con 19 vecinos, lo cual hace ver de que a pesar de que los países no avanzados son la clase minoritaria, estos probablemente terminan formando grupos densos en ciertas zonas del espacio generando cierta facilidad para la aparición de falsos positivos (Países avanzados que están rodeados de grandes grupos de países no avanzados), siendo fundamental entrenar el modelo aumentando el número de vecinos para considerar a los países avanzados que de por sí son mayoría, mejorando la especificidad y de esta forma tener un modelo que también sirva para investigaciones con un enfoque en países avanzados, aunque se corre el riesgo de una disminución en la sensibilidad dejando por alto algunos países no avanzados.

A continuación se mostrará el gráfico ROCR, se puede ver que la curva se eleva rápido lo cual indica que al principio detecta rápidamente verdaderos positivos con bajos falsos positivos, pero luego se ve que la curva se aplana a la derecha, es decir que para aumentar la tasa de verdaderos positivos se ve obligado a sacrificar la precisión cometiendo más falsos positivos para aumentar la tasa de verdaderos positivos.

4.2 Tree:

Ante este árbol de decisión Tree, se comienza determinando si la esperanza de vida es inferior a 73.15 años,si esto se cumple se procede a evaluar la tasa de natalidad, si esta es menor a 26.25, se pasa a evaluar el crecimiento anual del PIB, a su vez si este es menor a 1.95% entonces clasifica al país como avanzado, mientras que si es mayor lo clasifica como no avanzado. Por otro lado si se da el caso de que la tasa de natalidad es mayor o igual a 26,25 se clasifica al país como no avanzado. Por otro lado, si la esperanza de vida es mayor o igual a 73.15 años se procede a ver la tasa de natalidad, si esta es menor a 11.55 se clasifica el país como avanzado, de lo contrario se mira la tasa de empleo, independientemente si es menor o mayor al 3.2% se clasifica como avanzado. Si se establece una relación jerárquica por llamarlo de algún modo se evidencia que las variables demográficas (Esperanza de vida y natalidad) son predictores más poderosos que las variables económicas (Como el crecimiento anual del PIB y el empleo) para de esta forma decidir cual es el nivel de desarrollo de un país.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Si
##         No 10  5
##         Si  0 12
##                                          
##                Accuracy : 0.8148         
##                  95% CI : (0.6192, 0.937)
##     No Information Rate : 0.6296         
##     P-Value [Acc > NIR] : 0.03205        
##                                          
##                   Kappa : 0.64           
##                                          
##  Mcnemar's Test P-Value : 0.07364        
##                                          
##             Sensitivity : 1.0000         
##             Specificity : 0.7059         
##          Pos Pred Value : 0.6667         
##          Neg Pred Value : 1.0000         
##              Prevalence : 0.3704         
##          Detection Rate : 0.3704         
##    Detection Prevalence : 0.5556         
##       Balanced Accuracy : 0.8529         
##                                          
##        'Positive' Class : No             
## 

Aquí se presenta una matriz de confusión donde se observa que clasificó correctamente a los 10 países ´´no avanzados¨ ( clase positiva) y a 12 de los 17 países ´´´Si avanzados´´, cometiendo de esta manera 5 falsos negativos.

Tenemos que para la precisión global (Accuary) fue de un 81,48% con intervalo de confianza entre el 61.92% y el 93.7% esto nos indica una excelente capacidad de predicción general. Este valor supera al no information rate el cual es de 62.96%, y también el p valor de 0.03205 nos confirma que la precisión del modelo es estadísticamente significativa en otras palabras es mejor que una clasificación al azar, por lo tanto hay una relación de la variable respuesta con las variables predictoras

Ahora hablando de las métricas que tenemos por clase la sensibilidad fue perfecta dándonos un 100%, esto significa que todos los países no avanzados fueron identificados de una manera correcta y precisa, También la especificidad fue de un 70,59% esto nos indica que la mayoría de los países avanzados también fueron clasificados correctamente aunque con un error considerable. Ahora el valor predictivo positivo VPP fue de un 66.67%, eso nos indica que de todos los países clasificados como no avanzados un 66.7% lo eran en realidad, lo cual indica que el modelo recurre a falsos positivos para detectar a todos los países no avanzados promoviendo la aparición de un sesgo a la hora de realizar investigaciones. El valor predictivo negativo ´´VPN´´ fue perfecto dándonos un 100%, lo cual significa que todas las predicciones de países avanzados fueron confiables. Este modelo tiene un gran poder al detectar los países no avanzados, lo cual se ve al tener una prevalencia igual a la tasa de detección, pero a su vez este modelo en su afán de querer clasificar a los países no avanzados que más pueda se ve en la obligación de recurrir a los falsos positivos, lo cual nos lo dice la prevalencia de detección.

Al encontrar un desbalance gracias a lo que indica la prevalencia, se debe mirar la precisión balanceada (Balanced Accuracy), la cual es de 85,29% indicando que sólo dice que hay un rendimiento equilibrado entre ambas clases al igual hay una presencia de un leve desbalance en los datos.

En cuanto al gráfico ROCR se da una situación muy parecida al KNN, al principio la curva se eleva rápidamente demostrando una efectividad en las primeras predicciones identificando verdaderos positivos, luego se ve que la curva se aplana lo cual demuestra el esfuerzo en detectar verdaderos positivos a partir de falsos positivos, finalmente se tiene que este modelo se podría considerar útil para una investigación enfocada en los países no avanzados, pero lamentablemente esto resultaría en una investigación sesgada.

4.3 Rpart:

La primera y única partición se realiza en el punto de corte Esperanza de Vida = 73 años. Los países con una esperanza de vida menor a 73 años tienden a no ser avanzados. En este grupo, el 80 % de los países son clasificados como no avanzados y el 20 % como avanzados, representando el 42 % del total de la muestra.En contraste, los países con una esperanza de vida igual o mayor a 73 años son predominantemente avanzados. En este grupo, el 92 % son países avanzados y solo el 8 % no lo son, representando el 58 % del total.

Este resultado indica que la esperanza de vida es un fuerte predictor del nivel de desarrollo, ya que permite dividir de forma clara a los países en función de si son o no económicamente avanzados. En términos prácticos, una esperanza de vida más alta se asocia con mejores condiciones de vida, acceso a salud, educación y otros factores relacionados con el desarrollo.

## Confusion Matrix and Statistics
## 
##           Reference
## Prediction No Si
##         No  9  3
##         Si  1 14
##                                           
##                Accuracy : 0.8519          
##                  95% CI : (0.6627, 0.9581)
##     No Information Rate : 0.6296          
##     P-Value [Acc > NIR] : 0.01066         
##                                           
##                   Kappa : 0.6949          
##                                           
##  Mcnemar's Test P-Value : 0.61708         
##                                           
##             Sensitivity : 0.9000          
##             Specificity : 0.8235          
##          Pos Pred Value : 0.7500          
##          Neg Pred Value : 0.9333          
##              Prevalence : 0.3704          
##          Detection Rate : 0.3333          
##    Detection Prevalence : 0.4444          
##       Balanced Accuracy : 0.8618          
##                                           
##        'Positive' Class : No              
## 

Los resultados del modelo de clasificación muestran un desempeño sólido, con una precisión global (Accuracy) del 85.19%, lo que indica que el modelo clasificó correctamente la mayoría de los casos con un intervalo de confianza comprendido entre el 66.27% y 95.81%. La sensibilidad del 90% indica que el modelo identifica adecuadamente los países no avanzados, definidos como la clase positiva. Por otro lado, la especificidad del 82.35% revela una buena capacidad para reconocer los países avanzados, lo cual indica que hay pocos falsos positivos. Se puede observar una buena confiabilidad de las predicciones positivas realizadas por el modelo según lo que lanza el VPP y así mismo se reafirma la certeza para reconocer a la otra clase con lo que resulta en el VPN. El valor Kappa de 0.6949 sugiere un acuerdo sustancial entre las predicciones del modelo y los valores reales, más allá del azar. Por el lado de la tasa de detección se puede ver que está bastante cerca de la prevalencia real, lo cual indica que el modelo detecta una cantidad adecuada de positivos en relación con cuántos realmente existen y con la prevalencia de detección vemos que el modelo no se excede en cuanto a las predicciones de esta clase. Se puede presenciar la utilidad de este modelo al ver que Accuracy>No Information Rate, además el valor p (0.01066) asociado a la comparación entre la exactitud del modelo y la tasa de no información indica que el modelo es significativamente mejor que una clasificación aleatoria, pues es menor a 0.05, lo cual da otro motivo para considerar al modelo útil, ya que es capaz de encontrar una relación de la variable respuesta con las variables predictoras siendo predominante la esperanza de vida. Finalmente, al existir un desbalance con lo que indica la prevalencia, la exactitud balanceada de 0.8618 refuerza la idea de que el modelo mantiene un buen rendimiento en las clases.

La curva ROCR presentada permite evaluar el desempeño del modelo de clasificación aplicado para predecir el nivel de desarrollo económico de los países. Se observa que el modelo alcanza rápidamente una alta tasa de verdaderos positivos con una baja tasa de falsos positivos (Alta sensibilidad y alta especificidad), lo cual indica una buena capacidad para distinguir entre países avanzados y no avanzados. Este comportamiento sugiere que el modelo tiene un buen poder predictivo en las primeras etapas de clasificación. No obstante, a medida que se aumenta el umbral de clasificación, la tasa de falsos positivos también incrementa pero de una forma no abrupta, pues se ve un aplanamiento leve, lo que refleja una pequeña pérdida progresiva de precisión. En general, la forma de la curva evidencia un modelo eficaz para el propósito del análisis, lo cual se ve claramente al mantener un control en la tasa de los falsos positivos.

En conjunto, estas métricas reflejan que el modelo de clasificación es eficaz para predecir el nivel de desarrollo económico de los países, y puede ser una herramienta útil para análisis exploratorios o como apoyo en la toma de decisiones (Sobre todo si se da en términos de la esperanza de vida) tanto si se utiliza para países de una clase como de la otra.

5 Conclusiones:

Principalmente se debe tener en cuenta que existe un factor relevante para los resultados de los modelos y es que la relación entre las variables predictoras y el nivel de desarrollo económico es débil, lo que puede generar clasificaciones y asociaciones erróneas y en los datos, afectando los mismos. Esto se puede evidenciar en los diagramas de caja y de dispersión que se encuentran en el análisis descriptivo.

Por otro lado, teniendo en cuenta los resultados de los modelos. Tanto el modelo KNN como el modelo de arbol de decisión tree muestran alta sensibilidad para identificar países no avanzados. Sin embargo, esto se logra a costa de bajas especificidades y posibles errores de sobreclasificación, lo que puede sesgar las investigaciones y soluciones propuestas.

Los resultados demuestran que el mejor método de clasificación o el que más se ajusta a la base de datos es el es el modelo de clasificación RPart que presenta una precisión global de aproximadamente 85.19%, con una sensibilidad del 90% y una especificidad del 82.35%. Este modelo se considera el más adecuado porque muestra un alto desempeño en distinguir correctamente los países no avanzados (alta sensibilidad) y también los avanzados, lo cual es crucial si el objetivo es detectar países de una clase o la ptra con precisión. Además, cuenta con un valor Kappa de 0.6949, indicando un acuerdo sustancial entre predicciones y realidad, y una exactitud balanceada de 0.8618, que refleja firmeza incluso con clases desbalanceadas.

En general, los resultados resaltan la importancia de evaluar cuidadosamente las métricas de rendimiento, como la matriz de confusión y el gráfico ROC, para determinar cuál modelo ofrece mejores capacidades predictivas, atendiendo a las limitaciones y ventajas de cada uno. Ya que como se puede evidenciar en las gráficas la curva ROC también respalda la eficacia del modelo RPart, señalando que alcanza rápidamente una alta tasa de verdaderos positivos con una baja tasa de falsos positivos, lo que indica un buen poder predictivo.

6 Bibliografía:

1. Elastic. (s.f.). ¿Qué es KNN? Elastic. Recuperado el 7 de mayo de 2025, de https://www.elastic.co/es/what-is/knn

2. GeeksforGeeks. (2021, 18 marzo). Why is KNN a lazy learner? GeeksforGeeks. https://www.geeksforgeeks.org/why-is-knn-a-lazy-learner/

3. árboles de decisión con R, 23 de abril de 2018, Mendoza Juan : https://rpubs.com/jboscomendoza/arboles_decision_clasificacion

4. Barrios, J. (s.f.). La matriz de confusión y sus métricas. Juan Barrios. https://www.juanbarrios.com/la-matriz-de-confusion-y-sus-metricas/

5. DataCamp. (s.f.). ¿Qué es una matriz de confusión en machine learning? DataCamp. https://www.datacamp.com/es/tutorial/what-is-a-confusion-matrix-in-machine-learning