CLASIFICACIÓN DE DATOS

INTRODUCCIÓN

El objetivo del presente análisis supervisado es clasificar el grado de desarrollo de un país con base en 10 variables, la elección de dichas variables están relacionadas con el aspecto de salud y la manera en que influyen en el estado de un país como desarrollado o en desarrollo. Cabe mencionar que la salud es un bien público de vital importancia, determinante en el bienestar de la sociedad, constituye junto a la educación y demás aspectos una capacidad básica para la productividad, el crecimiento económico y el desarrollo humano. Por ello, para un país, invertir en salud significa bienestar social y reducción de la desigualdad y la pobreza. En ese sentido, la variable del gasto del gobierno en salud es relevante para determinar el estado de los países (desarrollados o emergentes), puesto que a mayor inversión en salud, aumenta el nivel de vida, el crecimiento económico y se reduce la mortalidad.

De este modo, la variable VIH - SIDA constituye una de las crisis de salud más devastadoras en el mundo, aproximadamente 39 millones de personas estuvieron infectados para el 2022. Los países afectados por esta pandemia han presenciado una oleada de mortalidad y un descenso en la esperanza de vida, entre los países gravemente afectados está Lesotho, Sudáfrica y Haití, precisamente las consecuencias son más críticas en los países donde no cuentan con un adecuado sistema de prevención y atención sanitaria, y que no se asignan los recursos necesarios.

En ese sentido, las variables: mortalidad en adultos, expectativa de vida, muerte en infantes, muertes por VIH, homicidios, tienen una relación entre sí y a su vez brindan información sobre la falta de desarrollo económico de un país, todas se involucran con diversas formas de violencia o enfermedades que conllevan a la disminución del nivel de vida. Tener altas tasas de mortalidad en adultos e infantes es síntoma de bajo gasto público en salud y en seguridad. Por ejemplo, las principales causas de muerte son enfermedades infecciosas y cardíacas, padecimientos que podrían reducirse considerablemente con un eficiente sistema de salud.

En cuanto al GDP o PIB (Producto Interno Bruto) constituye un factor importante para caracterizar un país desarrollado o en vías de desarrollo, ya que mide toda la producción comercializada, es decir, la riqueza de un país. Si el PIB aumenta, la economía está funcionando bien, lo que se refleja en el incremento de la calidad de vida. Por otro lado, diferentes autores exponen que las altas tasas de fecundidad afectan a la producción, dado que dichas tasas se traducen en capital humano sin cualificación, por lo que es otro factor relacionado al crecimiento económico de un país.

Finalmente, el IDH (índice de desarrollo humano) es el indicador más apropiado para clasificar un país como desarrollado o emergente. Mide el nivel de desarrollo de los países incluyendo parámetros de salud y educación, dicho de otro modo, ofrece una radiografía de la situación de cada país, donde no solo se tiene en cuenta el PIB. Algunos de los parámetros que se incluyen en el IDH son la esperanza de vida, la tasa de mortalidad, tasa de natalidad, años esperados de escolarización, desigualdad en la educación, Ingreso Nacional Bruto per cápita, índice de desarrollo de género, desigualdad en los ingresos, cifras de pobreza.

METODOLOGÍA

El trabajo se realizó tomando como referencia la base de datos de la Organización Mundial de la Salud (OMS), específicamente para el año 2012. Después de elegir las variables de preferencia aplicamos dos modelos de clasificación bajo el aprendizaje supervisado: El modelo KNN y el modelo de Árbol de decisión, con el fin de comparar y analizar la exactitud de estos dos modelos y escoger el más apropiado para la clasificación del grado de desarrollo de los países.

El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros. Este tipo de modelo se clasifica como modelo de clasificación ya que trata de agrupar los valores en conjuntos con características semejantes, y la respuesta es el grupo al que cree que pertenece el hecho definido en la entrada. Los diferentes algoritmos que abordan este modelo son KNN (k-Nearest Neighbour Classification) y el método de Árbol de clasificación (decisión).

Antes de usar cualquiera de los anteriores algoritmos es importante preparar los datos de origen, para ello, se divide el conjunto de datos de origen en dos subconjuntos: train y test, el primero sirve para el entrenamiento del modelo y el otro para la comprobación del modelo. El método KNN estima el valor de la función de densidad de probabilidad o directamente la probabilidad posterior de que un elemento x pertenece a la clase Ci a partir de la información proporcionada por el conjunto de entrenamiento. Es un método bastante robusto que simplemente busca en las observaciones más cercanas a la que se está tratando de predecir y clasificar el punto de interés basado en la mayoría de datos que le rodean. El parámetro K se refiere a la distancia, los vecinos más cercanos para clasificar el dato.

Por otro lado, los árboles de clasificación son un método usado en distintas disciplinas como modelo de predicción. Estos son similares a diagramas de flujo, en los que llegamos a puntos en los que se toman decisiones de acuerdo a una regla.Tenemos una variable objetivo (dependiente) y nuestra meta es obtener una función que nos permita predecir, a partir de variables predictoras (independientes), el valor de la variable objetivo para casos desconocidos. De manera general, lo que hace este algoritmo es encontrar la variable independiente que mejor separa nuestros datos en grupos, que corresponden con las categorías de la variable objetivo. Esta mejor separación es expresada con una regla. A cada regla corresponde un nodo.

MODELO KNN

MODELO DE ÁRBOL

VARIABLES DE CLASIFICACIÓN

Status: (Estado) (Developed : desarrollado, Developing: en desarrollo):

Los países en vías de desarrollo son aquellos cuyas economías están en desarrollo económico, son países que están logrando explotar sus recursos naturales y humanos y, gracias a un proceso acelerado de inversión en capital y en formación, crecen por encima de la media mundial. Se caracterizan por un nivel de vida bajo pero superior a los países subdesarrollados, inestabilidad política, nivel medio de IDH, PIB reducido, elevados índices de desigualdad y delincuencia.

Los países desarrollados son aquellos con un alto grado de industrialización, que disfrutan de un alto estándar de vida, posible gracias a la riqueza y la tecnología. Por ello, se caracterizan por tener un alto índice de desarrollo humano (IDH), atraer capitales y sostener monedas más robustas, además, tienen bajo control el problema del delito, permitiendo a sus ciudadanos vivir en relativa paz y tranquilidad.

Variables predictoras:

Life.expectancy: esperanza de vida en años.
Adult.Mortality: Probabilidad de morir entre 15 y 60 años por 1000 habitantes.
Homicides: Tasas de homicidios por 100.000 habitantes.
Infant.deaths: Número de muertes infantiles (menores de cinco años) por cada 1000 nacidos vivos.
Total.expenditure: Gasto del gobierno general en salud como porcentaje del gasto público total (%)
HIV.AIDS: Muertes por cada 1.000 nacidos vivos VIH/SIDA (0-4 años)
GDP: Producto Interno Bruto per cápita (en USD)
Thinness 5-9 years: Prevalencia de delgadez entre niños de 5 a 9 años (%)
HDI: Índice de Desarrollo Humano en términos de composición de ingresos de los recursos (índice que va de 0 a 1).
Fertility: Número de hijos que tendría una mujer si viviera hasta el final de sus años fértiles.

ESTADISTICA DESCRIPTIVA

General

        Status    Life.expectancy   Homicides           GDP          
 Developed : 41   Min.   :47.42   Min.   : 0.350   Min.   :   252.4  
 Developing:142   1st Qu.:64.37   1st Qu.: 2.055   1st Qu.:  1661.3  
                  Median :72.24   Median : 5.210   Median :  5942.2  
                  Mean   :70.46   Mean   : 8.984   Mean   : 13754.5  
                  3rd Qu.:76.24   3rd Qu.:10.405   3rd Qu.: 14772.3  
                  Max.   :83.10   Max.   :85.340   Max.   :106749.0  
      HDI         Infant.deaths    Adult.mortality  Thinness.5.9.years
 Min.   :0.3360   Min.   : 0.250   Min.   : 50.46   Min.   :-3.498    
 1st Qu.:0.5600   1st Qu.: 0.855   1st Qu.:101.80   1st Qu.: 3.770    
 Median :0.7190   Median : 1.890   Median :152.70   Median : 6.288    
 Mean   :0.6872   Mean   : 3.620   Mean   :174.86   Mean   : 7.142    
 3rd Qu.:0.8015   3rd Qu.: 5.740   3rd Qu.:234.60   3rd Qu.: 9.665    
 Max.   :0.9420   Max.   :14.890   Max.   :478.50   Max.   :42.516    
   Fertility        HIV.AIDS         Total.expenditure
 Min.   :1.220   Min.   :0.0000000   Min.   :   2.14  
 1st Qu.:1.800   1st Qu.:0.0001376   1st Qu.:   8.83  
 Median :2.400   Median :0.0014749   Median :  14.82  
 Mean   :2.912   Mean   :0.0345722   Mean   : 419.07  
 3rd Qu.:3.845   3rd Qu.:0.0208699   3rd Qu.: 332.85  
 Max.   :7.420   Max.   :0.7103025   Max.   :2012.00

Para el análisis de la estadística descriptiva de nuestro modelo, tomamos en cuenta cinco variables al momento de plantear los gráficos de caja, elegidas porque consideramos que en ellas se marca una mayor diferencia entre los países desarrollados y en desarrollo, con el fin de realizar una mejor comparación entre estos.

Los promedios que se dan entre las variables elegidas a nivel general son los siguientes: en el caso de la esperanza de vida es de 70.46 años, Japón el país con mayor esperanza de vida (80.10 años); en homicidios, es de 8.984 homicidios por cada 100000 personas; con respecto al GDP, su promedio es de 13754.5 USD, el cual es alejado al promedio en países desarrollados, esto puede suceder debido a que la base de datos utilizada tiene un mayor número de países en vía de desarrollo; la mortalidad en adultos tiene un promedio de 174.86 por 1000 habitantes, el país donde se da en menor medida es Islandia (50.46); en cuanto a la prevalencia de delgadez de niños entre 5 y 9 años es de 7.142%, donde India es el país con mayor porcentaje (42.516%).

Desarrollado

   Country          Life.expectancy   Homicides          GDP        
 Length:41          Min.   :73.78   Min.   :0.350   Min.   :  7396  
 Class :character   1st Qu.:78.08   1st Qu.:0.880   1st Qu.: 17534  
 Mode  :character   Median :80.63   Median :1.290   Median : 35054  
                    Mean   :79.64   Mean   :1.824   Mean   : 37601  
                    3rd Qu.:81.65   3rd Qu.:1.790   3rd Qu.: 48918  
                    Max.   :83.10   Max.   :6.920   Max.   :106749  
      HDI         Infant.deaths    Adult.mortality  Thinness.5.9.years
 Min.   :0.7600   Min.   :0.2500   Min.   : 50.46   Min.   :-3.498    
 1st Qu.:0.8360   1st Qu.:0.3600   1st Qu.: 59.80   1st Qu.: 1.340    
 Median :0.8860   Median :0.4100   Median : 72.44   Median : 2.605    
 Mean   :0.8739   Mean   :0.4988   Mean   : 84.77   Mean   : 2.685    
 3rd Qu.:0.9080   3rd Qu.:0.5500   3rd Qu.:102.60   3rd Qu.: 3.830    
 Max.   :0.9420   Max.   :1.6600   Max.   :179.60   Max.   :11.018    
   Fertility        HIV.AIDS         Total.expenditure
 Min.   :1.220   Min.   :0.0000000   Min.   :   7.51  
 1st Qu.:1.420   1st Qu.:0.0000000   1st Qu.:  12.90  
 Median :1.570   Median :0.0000746   Median :  15.34  
 Mean   :1.667   Mean   :0.0001047   Mean   : 379.74  
 3rd Qu.:1.890   3rd Qu.:0.0001801   3rd Qu.:  56.29  
 Max.   :3.030   Max.   :0.0004916   Max.   :2012.00

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

En Desarollo

   Country          Life.expectancy   Homicides           GDP         
 Length:142         Min.   :47.42   Min.   : 0.580   Min.   :  252.4  
 Class :character   1st Qu.:62.19   1st Qu.: 3.592   1st Qu.: 1330.1  
 Mode  :character   Median :70.04   Median : 7.235   Median : 3882.7  
                    Mean   :67.81   Mean   :11.051   Mean   : 6869.4  
                    3rd Qu.:74.24   3rd Qu.:11.678   3rd Qu.: 7500.2  
                    Max.   :79.40   Max.   :85.340   Max.   :85076.1  
      HDI         Infant.deaths    Adult.mortality  Thinness.5.9.years
 Min.   :0.3360   Min.   : 0.480   Min.   : 62.29   Min.   :-1.444    
 1st Qu.:0.5268   1st Qu.: 1.640   1st Qu.:130.70   1st Qu.: 5.240    
 Median :0.6670   Median : 3.110   Median :183.10   Median : 7.264    
 Mean   :0.6333   Mean   : 4.521   Mean   :200.87   Mean   : 8.429    
 3rd Qu.:0.7400   3rd Qu.: 7.168   3rd Qu.:256.07   3rd Qu.:10.553    
 Max.   :0.8520   Max.   :14.890   Max.   :478.50   Max.   :42.516    
   Fertility        HIV.AIDS         Total.expenditure 
 Min.   :1.270   Min.   :0.0000000   Min.   :   2.140  
 1st Qu.:2.103   1st Qu.:0.0007079   1st Qu.:   7.867  
 Median :2.775   Median :0.0033817   Median :  12.865  
 Mean   :3.271   Mean   :0.0445241   Mean   : 430.423  
 3rd Qu.:4.440   3rd Qu.:0.0398772   3rd Qu.: 333.343  
 Max.   :7.420   Max.   :0.7103025   Max.   :2012.000

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

Grafico 1

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

Grafico 2

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

Grafico 3

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

Grafico 4

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

Grafico 5

Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).

MODELO KNN

Precisión

En primer lugar planteamos el K (número de vecinos más cercanos) en un rango de 1 a 80, Sin embargo, resulta que nuestro K óptimo es 4, con una precisión de 92.23%. Si se observa el gráfico, a medida que aumenta el K la precisión sufre diversos altibajos, aumenta y disminuye entre un rango de K próximos, se puede decir que no es estable, varía o salta. Lo que sí se evidencia, es que a partir del K número 18 (88.35%) se mantiene hasta el 36 y empieza a decrecer para finalmente mantenerse en 80.58%. Prácticamente en donde la precisión de nuestro modelo es bastante inestable es en los primeros K=17. De igual manera, la precisión del modelo es de 80,58% y se estima que el valor final usado es K=21.

Prueba

    k precision
1   1 0.8737864
2   2 0.8446602
3   3 0.8834951
4   4 0.9223301
5   5 0.9029126
6   6 0.8834951
7   7 0.8932039
8   8 0.8834951
9   9 0.8834951
10 10 0.8834951
11 11 0.9029126
12 12 0.9126214
13 13 0.8932039
14 14 0.8640777
15 15 0.9029126
16 16 0.8932039
17 17 0.8932039
18 18 0.8834951
19 19 0.8834951
20 20 0.8834951
21 21 0.8834951
22 22 0.8834951
23 23 0.8834951
24 24 0.8834951
25 25 0.8834951
26 26 0.8834951
27 27 0.8834951
28 28 0.8834951
29 29 0.8834951
30 30 0.8834951
31 31 0.8834951
32 32 0.8834951
33 33 0.8834951
34 34 0.8834951
35 35 0.8834951
36 36 0.8834951
37 37 0.8737864
38 38 0.8640777
39 39 0.8640777
40 40 0.8543689
41 41 0.8543689
42 42 0.8349515
43 43 0.8058252
44 44 0.8058252
45 45 0.8058252
46 46 0.8058252
47 47 0.8058252
48 48 0.8058252
49 49 0.8058252
50 50 0.8058252
51 51 0.8058252
52 52 0.8058252
53 53 0.8058252
54 54 0.8058252
55 55 0.8058252
56 56 0.8058252
57 57 0.8058252
58 58 0.8058252
59 59 0.8058252
60 60 0.8058252
61 61 0.8058252
62 62 0.8058252
63 63 0.8058252
64 64 0.8058252
65 65 0.8058252
66 66 0.8058252
67 67 0.8058252
68 68 0.8058252
69 69 0.8058252
70 70 0.8058252
71 71 0.8058252
72 72 0.8058252
73 73 0.8058252
74 74 0.8058252
75 75 0.8058252
76 76 0.8058252
77 77 0.8058252
78 78 0.8058252
79 79 0.8058252
80 80 0.8058252

Matriz de confusión

Confusion Matrix and Statistics

            Reference
Prediction   Developed Developing
  Developed         11          2
  Developing         9         81
                                          
               Accuracy : 0.8932          
                 95% CI : (0.8169, 0.9455)
    No Information Rate : 0.8058          
    P-Value [Acc > NIR] : 0.01281         
                                          
                  Kappa : 0.6065          
                                          
 Mcnemar's Test P-Value : 0.07044         
                                          
            Sensitivity : 0.5500          
            Specificity : 0.9759          
         Pos Pred Value : 0.8462          
         Neg Pred Value : 0.9000          
             Prevalence : 0.1942          
         Detection Rate : 0.1068          
   Detection Prevalence : 0.1262          
      Balanced Accuracy : 0.7630          
                                          
       'Positive' Class : Developed

Accuracy Gráfico

De acuerdo al gráfico, nuestro K=21 es el óptimo, porque es el número de vecinos más cercanos que ayuda a obtener la mejor exactitud y valor Kappa

K Óptimo

k-Nearest Neighbors 

80 samples
10 predictors
 2 classes: 'Developed', 'Developing' 

No pre-processing
Resampling: Bootstrapped (25 reps) 
Summary of sample sizes: 80, 80, 80, 80, 80, 80, ... 
Resampling results across tuning parameters:

  k   Accuracy   Kappa    
   5  0.8318151  0.5763236
   7  0.8326642  0.5765323
   9  0.8392478  0.5893099
  11  0.8547056  0.6277358
  13  0.8585877  0.6332581
  15  0.8667630  0.6535688
  17  0.8717110  0.6610992
  19  0.8714472  0.6570949
  21  0.8743572  0.6607749
  23  0.8738275  0.6588759
  25  0.8710649  0.6496474
  27  0.8726485  0.6510939
  29  0.8627650  0.6169000
  31  0.8553576  0.5930411
  33  0.8567501  0.5927579
  35  0.8417531  0.5330180

Accuracy was used to select the optimal model using the largest value.
The final value used for the model was k = 21.

Proporción de precisión de KNN

[1] 0.8058252

Kappa es la relación de la proporción de veces en las que los evaluadores concuerdan (corregida para la concordancia en virtud de las probabilidades) a la proporción máxima de veces que los evaluadores podrían concordar (corregido para la concordancia en virtud de las probabilidades).

Se utiliza los estadísticos kappa para evaluar el grado de concordancia de las clasificaciones nominales u ordinales realizadas por múltiples evaluadores cuando los evaluadores evalúen las mismas muestras.

Curva ROC

MODELO DE ÁRBOL

Árbol de clasificación


Classification tree:
tree(formula = Status ~ ., data = base_entrena, minsize = 10)
Variables actually used in tree construction:
[1] "Infant.deaths"   "Life.expectancy" "HDI"            
Number of terminal nodes:  4 
Residual mean deviance:  0.1842 = 14 / 76 
Misclassification error rate: 0.0375 = 3 / 80

Las variables usadas en la construcción del árbol son Infant.deaths (número de muertes infantiles menores de cinco años), HDI (índice de desarrollo humano), Life.expectancy (esperanza de vida) con 4 nodos terminales.

La desviación (deviance) es una medida de la bondad del ajuste de un modelo lineal generalizado (sería equivalente a la suma de cuadrados residual de un modelo lineal; valores más altos indican peor ajuste). El ajuste se realiza por máxima verosimilitud en vez de por mínimos cuadrados ordinarios. El método de máxima verosimilitud nos dice que escogeremos como valor estimado del parámetro aquél que tiene mayor probabilidad de ocurrir según lo que hemos observado, es decir aquél que es más compatible con los datos observados, siempre suponiendo que es correcto el modelo matemático postulado.

La “desviación media residual” es la “desviación residual total” dividida por el “número de observaciones” - “número de nodos terminales”. La “desviación residual total” es la suma de los cuadrados de los residuos.

Esta variable (deviance) funciona como medida de discrepancia entre los valores observados y los valores esperados en el modelo de estudio. Observamos que este valor es de 18.42% relativamente bueno.

Por su parte, la Tasa de error de mala clasificación del modelo es de tan solo 3.75%.

Matriz de confusión

Confusion Matrix and Statistics

            Reference
Prediction   Developed Developing
  Developed         13          1
  Developing         7         82
                                          
               Accuracy : 0.9223          
                 95% CI : (0.8527, 0.9659)
    No Information Rate : 0.8058          
    P-Value [Acc > NIR] : 0.0008821       
                                          
                  Kappa : 0.7199          
                                          
 Mcnemar's Test P-Value : 0.0770999       
                                          
            Sensitivity : 0.6500          
            Specificity : 0.9880          
         Pos Pred Value : 0.9286          
         Neg Pred Value : 0.9213          
             Prevalence : 0.1942          
         Detection Rate : 0.1262          
   Detection Prevalence : 0.1359          
      Balanced Accuracy : 0.8190          
                                          
       'Positive' Class : Developed

Curva ROC

Diagrama de árbol

El diagrama de árbol nos muestra que si el número de muertes en infantes menores de cinco años por cada 1000 nacidos es menor a 0.575 el país es clasificado como desarrollado, de lo contrario es clasificado como en vía de desarrollo, en este caso las variables que presentan la esperanza de vida y el índice de desarrollo humano no se toman en cuenta al momento de tomar la decisión (del lado izquierdo, se encuentran los desarrollado y del derecho los emergentes).

ANÁLISIS

Dividimos nuestro conjunto de entrenamiento con los primeros datos hasta 80, y nuestro conjunto de prueba corresponde a 103 datos.

En la matriz de confusión las columnas representan las categorías a las que realmente pertenece cada dato mientras que las filas representan las categorías predichas por el modelo. En la diagonal principal tendremos los aciertos (verdaderos positivos y verdaderos negativos) y en las celdas restantes la cantidad de desaciertos (falsos positivos y falsos negativos).

La matriz de confusión del modelo KNN indica que se tienen 20 datos bajo la clase positiva “Developed”, pero el modelo clasificó correctamente 11 (verdaderos positivos) y los 9 restantes son falsos negativos. Por su parte, se tienen 83 datos bajo la clase “Developing”, de los cuales se clasificaron correctamente 81 (verdaderos negativos) y los otros 2 correspondientes a los falsos positivos.

Nuestro modelo tiene una exactitud del 89,32%, que resulta de sumar los aciertos y dividirlos entre el total de datos (103). Con un intervalo de confianza del 95%.

Sensitivity: Tasa de verdaderos positivos se calcula como el cociente entre: Verdaderos positivos/Total de positivos reales (11/20); se logra clasificar un 55%, cuando la clase es positiva: Developed (Desarrollado).

Specificity: Tasa de verdaderos negativos, se calcula como: Verdaderos negativos/Total de negativos (81/83). Se logra clasificar un 97.59%, cuando la clase es negativa: Developing (en desarrollo).

VPP (Pos Pred Value): Es el porcentaje de clasificación correcto cuando predice positivos. Verdadero positivos/ total de clasificados como positivos (predichos) (11/13). Probabilidad de acertar los positivos bajo la predicción es de un 84.62%

VPN (Neg Pred Value): Es el porcentaje de clasificación correcto cuando predice negativos Verdadero negativos/ total de clasificados como negativos (81/90) probabilidad de acertar los negativos bajo la predicción es de un 90%

Prevalence: Mide el desbalance de los datos. Cociente entre: Verdaderos positivos+Falsos negativos / (total de datos): (20/103). Hay un desbalance de los datos del 19.42% de acuerdo a la clase positiva “Developed” y existe una prevalencia del 80.58% hacia los negativos “Developing” (precisión).

Mientras que para el modelo de Árbol obtenemos lo siguiente:

El modelo logra clasificar correctamente como desarrollado 13 datos de 20, y clasifica correctamente como emergente (en desarrollo) 82 de 83 datos, lo que permite obtener una exactitud del 92.23%, valor mejor que el obtenido con el modelo KNN.

En ese sentido, la tasa de verdaderos positivos (sensitivity) se calcula como: (13/20). El modelo logra clasificar un 65.00%, cuando la clase es positiva (Developed).

La tasa de verdaderos negativos (Specificity) se calcula como: (82/83). El modelo logra clasificar un 98.80%, cuando la clase es negativa (Developing).

El porcentaje de clasificación correcto cuando se predice positivos (grado desarrollado) es de 92.86%, El porcentaje de clasificación correcto cuando se predice negativos (emergente) es de 92.13%, valores bastante buenos en comparación con KNN.

En cuánto a las Curvas ROC se trata de curvas en las que se presenta la sensibilidad en función de los falsos positivos (complementario de la especificidad) para distintos puntos de corte. Es la representación gráfica del rendimiento del clasificador.

El mejor método posible de predicción se situaría en un punto en la esquina superior izquierda, o coordenada (0,1) del espacio ROC, representando un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). Una clasificación totalmente aleatoria daría un punto a lo largo de la línea diagonal, que se llama también línea de no-discriminación, es decir, un modelo inútil. Por lo tanto, lo que se espera encontrar son puntos sobre una curva por encima de la diagonal y entre más cercana se encuentre de la esquina superior izquierda, mejor será su predicción.

De acuerdo a lo anterior, la curva ROC del modelo de árbol se encuentra más cercana de la esquina superior izquierda que la curva del modelo KNN, por lo tanto, gráficamente podemos observar que el modelo de árbol es mas representativo.

CONCLUSIONES

Tanto nuestro modelo KNN como Árbol de clasificación son más específicos que sensibles, lo cual significa que es más probable que nuestros modelos logren clasificar correctamente el estado en desarrollo que el desarrollado, esto puede suceder ya que hay menos países desarrollados en comparación a los emergentes. Por lo tanto, ambos modelos, demostraron ser capaces de clasificar los países como desarrollados o en desarrollo con una precisión razonablemente alta. Sin embargo, el modelo de Árbol de decisión supera al KNN en términos de precisión, alcanzando un 92.23% frente al 89.32% del KNN. Con esta diferencia podemos sugerir que el modelo de Árbol de decisión es más fiable para la clasificación.
El análisis del árbol de clasificación revela que el número de muertes en infantes menores de cinco años por cada 1000 nacidos vivos es una variable crucial para determinar si un país está desarrollado o en desarrollo. Este resultado resalta la importancia de las políticas y programas de salud infantil en la clasificación socioeconómica de un país. La eficacia en la reducción de las tasas de mortalidad infantil puede ser un indicador clave del desarrollo de un país.
Aunque los modelos han mostrado buenos resultados, es esencial reconocer las limitaciones del análisis. Las variables utilizadas están relacionadas principalmente con la salud y no abarcan todos los aspectos del desarrollo socioeconómico, como la educación, la infraestructura y el empleo. Para una clasificación más completa y precisa, sería provechoso incorporar un conjunto de datos más amplio y diverso que contemple una gama más grande de indicadores de desarrollo.
Por otro lado, el modelo de árbol de decisión es mucho más intuitivo y eficiente, puesto que es menos sensible al ruido en los datos, es decir, maneja de una mejor manera los valores atípicos o variables poco importantes en el proceso de la toma de decisiones. En cambio, KNN considera todas las variables por igual al calcular las distancias, lo que puede llevar a una clasificación menos precisa si algunas de las variables son ruidosas y especialmente cuando se trata de grandes conjuntos de datos.

REFERENCIAS

https://gsp.humboldt.edu/olm/R/05_04_CART.html
https://rpubs.com/jboscomendoza/arboles_decision_clasificacion
https://www.unir.net/ciencias-sociales/revista/que-es-el-indice-de-desarrollo-humano-idh/
https://elsalvador.unfpa.org/sites/default/files/pub-pdf/poblaciones_vih%20%281%29.pdf
https://tabasco.gob.mx/sites/default/files/users/ssaludtabasco/44_0.pdf
https://humanidades.com/paises-desarrollados/#ixzz8HTb84KkM
https://rpubs.com/JairoAyala/592802
https://rpubs.com/JairoAyala/601703