Integrantes:
2023-11-08
El objetivo del presente análisis supervisado es clasificar el grado de desarrollo de un país con base en 10 variables, la elección de dichas variables están relacionadas con el aspecto de salud y la manera en que influyen en el estado de un país como desarrollado o en desarrollo. Cabe mencionar que la salud es un bien público de vital importancia, determinante en el bienestar de la sociedad, constituye junto a la educación y demás aspectos una capacidad básica para la productividad, el crecimiento económico y el desarrollo humano. Por ello, para un país, invertir en salud significa bienestar social y reducción de la desigualdad y la pobreza. En ese sentido, la variable del gasto del gobierno en salud es relevante para determinar el estado de los países (desarrollados o emergentes), puesto que a mayor inversión en salud, aumenta el nivel de vida, el crecimiento económico y se reduce la mortalidad.
De este modo, la variable VIH - SIDA constituye una de las crisis de salud más devastadoras en el mundo, aproximadamente 39 millones de personas estuvieron infectados para el 2022. Los países afectados por esta pandemia han presenciado una oleada de mortalidad y un descenso en la esperanza de vida, entre los países gravemente afectados está Lesotho, Sudáfrica y Haití, precisamente las consecuencias son más críticas en los países donde no cuentan con un adecuado sistema de prevención y atención sanitaria, y que no se asignan los recursos necesarios.
En ese sentido, las variables: mortalidad en adultos, expectativa de vida, muerte en infantes, muertes por VIH, homicidios, tienen una relación entre sí y a su vez brindan información sobre la falta de desarrollo económico de un país, todas se involucran con diversas formas de violencia o enfermedades que conllevan a la disminución del nivel de vida. Tener altas tasas de mortalidad en adultos e infantes es síntoma de bajo gasto público en salud y en seguridad. Por ejemplo, las principales causas de muerte son enfermedades infecciosas y cardíacas, padecimientos que podrían reducirse considerablemente con un eficiente sistema de salud.
En cuanto al GDP o PIB (Producto Interno Bruto) constituye un factor importante para caracterizar un país desarrollado o en vías de desarrollo, ya que mide toda la producción comercializada, es decir, la riqueza de un país. Si el PIB aumenta, la economía está funcionando bien, lo que se refleja en el incremento de la calidad de vida. Por otro lado, diferentes autores exponen que las altas tasas de fecundidad afectan a la producción, dado que dichas tasas se traducen en capital humano sin cualificación, por lo que es otro factor relacionado al crecimiento económico de un país.
Finalmente, el IDH (índice de desarrollo humano) es el indicador más apropiado para clasificar un país como desarrollado o emergente. Mide el nivel de desarrollo de los países incluyendo parámetros de salud y educación, dicho de otro modo, ofrece una radiografía de la situación de cada país, donde no solo se tiene en cuenta el PIB. Algunos de los parámetros que se incluyen en el IDH son la esperanza de vida, la tasa de mortalidad, tasa de natalidad, años esperados de escolarización, desigualdad en la educación, Ingreso Nacional Bruto per cápita, índice de desarrollo de género, desigualdad en los ingresos, cifras de pobreza.
El trabajo se realizó tomando como referencia la base de datos de la Organización Mundial de la Salud (OMS), específicamente para el año 2012. Después de elegir las variables de preferencia aplicamos dos modelos de clasificación bajo el aprendizaje supervisado: El modelo KNN y el modelo de Árbol de decisión, con el fin de comparar y analizar la exactitud de estos dos modelos y escoger el más apropiado para la clasificación del grado de desarrollo de los países.
El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros. Este tipo de modelo se clasifica como modelo de clasificación ya que trata de agrupar los valores en conjuntos con características semejantes, y la respuesta es el grupo al que cree que pertenece el hecho definido en la entrada. Los diferentes algoritmos que abordan este modelo son KNN (k-Nearest Neighbour Classification) y el método de Árbol de clasificación (decisión).
Antes de usar cualquiera de los anteriores algoritmos es importante preparar los datos de origen, para ello, se divide el conjunto de datos de origen en dos subconjuntos: train y test, el primero sirve para el entrenamiento del modelo y el otro para la comprobación del modelo. El método KNN estima el valor de la función de densidad de probabilidad o directamente la probabilidad posterior de que un elemento x pertenece a la clase Ci a partir de la información proporcionada por el conjunto de entrenamiento. Es un método bastante robusto que simplemente busca en las observaciones más cercanas a la que se está tratando de predecir y clasificar el punto de interés basado en la mayoría de datos que le rodean. El parámetro K se refiere a la distancia, los vecinos más cercanos para clasificar el dato.
Por otro lado, los árboles de clasificación son un método usado en distintas disciplinas como modelo de predicción. Estos son similares a diagramas de flujo, en los que llegamos a puntos en los que se toman decisiones de acuerdo a una regla.Tenemos una variable objetivo (dependiente) y nuestra meta es obtener una función que nos permita predecir, a partir de variables predictoras (independientes), el valor de la variable objetivo para casos desconocidos. De manera general, lo que hace este algoritmo es encontrar la variable independiente que mejor separa nuestros datos en grupos, que corresponden con las categorías de la variable objetivo. Esta mejor separación es expresada con una regla. A cada regla corresponde un nodo.
Status: (Estado) (Developed : desarrollado, Developing: en desarrollo):
Los países en vías de desarrollo son aquellos cuyas economías están en desarrollo económico, son países que están logrando explotar sus recursos naturales y humanos y, gracias a un proceso acelerado de inversión en capital y en formación, crecen por encima de la media mundial. Se caracterizan por un nivel de vida bajo pero superior a los países subdesarrollados, inestabilidad política, nivel medio de IDH, PIB reducido, elevados índices de desigualdad y delincuencia.
Los países desarrollados son aquellos con un alto grado de industrialización, que disfrutan de un alto estándar de vida, posible gracias a la riqueza y la tecnología. Por ello, se caracterizan por tener un alto índice de desarrollo humano (IDH), atraer capitales y sostener monedas más robustas, además, tienen bajo control el problema del delito, permitiendo a sus ciudadanos vivir en relativa paz y tranquilidad.
Variables predictoras:
Life.expectancy: esperanza de vida en años.
Adult.Mortality: Probabilidad de morir entre 15 y 60 años por 1000 habitantes.
Homicides: Tasas de homicidios por 100.000 habitantes.
Infant.deaths: Número de muertes infantiles (menores de cinco años) por cada 1000 nacidos vivos.
Total.expenditure: Gasto del gobierno general en salud como porcentaje del gasto público total (%)
HIV.AIDS: Muertes por cada 1.000 nacidos vivos VIH/SIDA (0-4 años)
GDP: Producto Interno Bruto per cápita (en USD)
Thinness 5-9 years: Prevalencia de delgadez entre niños de 5 a 9 años (%)
HDI: Índice de Desarrollo Humano en términos de composición de ingresos de los recursos (índice que va de 0 a 1).
Fertility: Número de hijos que tendría una mujer si viviera hasta el final de sus años fértiles.
Status Life.expectancy Homicides GDP
Developed : 41 Min. :47.42 Min. : 0.350 Min. : 252.4
Developing:142 1st Qu.:64.37 1st Qu.: 2.055 1st Qu.: 1661.3
Median :72.24 Median : 5.210 Median : 5942.2
Mean :70.46 Mean : 8.984 Mean : 13754.5
3rd Qu.:76.24 3rd Qu.:10.405 3rd Qu.: 14772.3
Max. :83.10 Max. :85.340 Max. :106749.0
HDI Infant.deaths Adult.mortality Thinness.5.9.years
Min. :0.3360 Min. : 0.250 Min. : 50.46 Min. :-3.498
1st Qu.:0.5600 1st Qu.: 0.855 1st Qu.:101.80 1st Qu.: 3.770
Median :0.7190 Median : 1.890 Median :152.70 Median : 6.288
Mean :0.6872 Mean : 3.620 Mean :174.86 Mean : 7.142
3rd Qu.:0.8015 3rd Qu.: 5.740 3rd Qu.:234.60 3rd Qu.: 9.665
Max. :0.9420 Max. :14.890 Max. :478.50 Max. :42.516
Fertility HIV.AIDS Total.expenditure
Min. :1.220 Min. :0.0000000 Min. : 2.14
1st Qu.:1.800 1st Qu.:0.0001376 1st Qu.: 8.83
Median :2.400 Median :0.0014749 Median : 14.82
Mean :2.912 Mean :0.0345722 Mean : 419.07
3rd Qu.:3.845 3rd Qu.:0.0208699 3rd Qu.: 332.85
Max. :7.420 Max. :0.7103025 Max. :2012.00
Para el análisis de la estadística descriptiva de nuestro modelo, tomamos en cuenta cinco variables al momento de plantear los gráficos de caja, elegidas porque consideramos que en ellas se marca una mayor diferencia entre los países desarrollados y en desarrollo, con el fin de realizar una mejor comparación entre estos.
Los promedios que se dan entre las variables elegidas a nivel general son los siguientes: en el caso de la esperanza de vida es de 70.46 años, Japón el país con mayor esperanza de vida (80.10 años); en homicidios, es de 8.984 homicidios por cada 100000 personas; con respecto al GDP, su promedio es de 13754.5 USD, el cual es alejado al promedio en países desarrollados, esto puede suceder debido a que la base de datos utilizada tiene un mayor número de países en vía de desarrollo; la mortalidad en adultos tiene un promedio de 174.86 por 1000 habitantes, el país donde se da en menor medida es Islandia (50.46); en cuanto a la prevalencia de delgadez de niños entre 5 y 9 años es de 7.142%, donde India es el país con mayor porcentaje (42.516%).
Country Life.expectancy Homicides GDP
Length:41 Min. :73.78 Min. :0.350 Min. : 7396
Class :character 1st Qu.:78.08 1st Qu.:0.880 1st Qu.: 17534
Mode :character Median :80.63 Median :1.290 Median : 35054
Mean :79.64 Mean :1.824 Mean : 37601
3rd Qu.:81.65 3rd Qu.:1.790 3rd Qu.: 48918
Max. :83.10 Max. :6.920 Max. :106749
HDI Infant.deaths Adult.mortality Thinness.5.9.years
Min. :0.7600 Min. :0.2500 Min. : 50.46 Min. :-3.498
1st Qu.:0.8360 1st Qu.:0.3600 1st Qu.: 59.80 1st Qu.: 1.340
Median :0.8860 Median :0.4100 Median : 72.44 Median : 2.605
Mean :0.8739 Mean :0.4988 Mean : 84.77 Mean : 2.685
3rd Qu.:0.9080 3rd Qu.:0.5500 3rd Qu.:102.60 3rd Qu.: 3.830
Max. :0.9420 Max. :1.6600 Max. :179.60 Max. :11.018
Fertility HIV.AIDS Total.expenditure
Min. :1.220 Min. :0.0000000 Min. : 7.51
1st Qu.:1.420 1st Qu.:0.0000000 1st Qu.: 12.90
Median :1.570 Median :0.0000746 Median : 15.34
Mean :1.667 Mean :0.0001047 Mean : 379.74
3rd Qu.:1.890 3rd Qu.:0.0001801 3rd Qu.: 56.29
Max. :3.030 Max. :0.0004916 Max. :2012.00
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Country Life.expectancy Homicides GDP
Length:142 Min. :47.42 Min. : 0.580 Min. : 252.4
Class :character 1st Qu.:62.19 1st Qu.: 3.592 1st Qu.: 1330.1
Mode :character Median :70.04 Median : 7.235 Median : 3882.7
Mean :67.81 Mean :11.051 Mean : 6869.4
3rd Qu.:74.24 3rd Qu.:11.678 3rd Qu.: 7500.2
Max. :79.40 Max. :85.340 Max. :85076.1
HDI Infant.deaths Adult.mortality Thinness.5.9.years
Min. :0.3360 Min. : 0.480 Min. : 62.29 Min. :-1.444
1st Qu.:0.5268 1st Qu.: 1.640 1st Qu.:130.70 1st Qu.: 5.240
Median :0.6670 Median : 3.110 Median :183.10 Median : 7.264
Mean :0.6333 Mean : 4.521 Mean :200.87 Mean : 8.429
3rd Qu.:0.7400 3rd Qu.: 7.168 3rd Qu.:256.07 3rd Qu.:10.553
Max. :0.8520 Max. :14.890 Max. :478.50 Max. :42.516
Fertility HIV.AIDS Total.expenditure
Min. :1.270 Min. :0.0000000 Min. : 2.140
1st Qu.:2.103 1st Qu.:0.0007079 1st Qu.: 7.867
Median :2.775 Median :0.0033817 Median : 12.865
Mean :3.271 Mean :0.0445241 Mean : 430.423
3rd Qu.:4.440 3rd Qu.:0.0398772 3rd Qu.: 333.343
Max. :7.420 Max. :0.7103025 Max. :2012.000
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
Al comparar estas variables entre países desarrollados y en desarrollo, mediante el diagrama de cajas de la esperanza de vida podemos observar que el máximo en países en desarrollo es muy cercano a lo que representa la mediana en los desarrollados (la mediana es el valor que representa el valor del medio donde el 50% de los valores se encuentran por debajo o por encima de este), siendo el máximo de 79.40 años en Qatar y la mediana de 80.63 años; al observar el máximo número de homicidios en estos países, se puede ver una gran diferencia entre ellos, el país desarrollado con mayor número de homicidios en 2012 fue Latvia con 6.92 mientras que en Honduras se dieron 85.34; en el caso del GDP el mínimo entre los países desarrollados (7395.85 USD en Bulgaria) es similar al valor del tercer cuartil de los países en vía de desarrollo (7501.47 USD) que representa el 75% de los valores del GDP de los países; en la mortalidad en adultos los promedios son bastante diferentes, en los países en desarrollo es de 200.87 y en los desarrollados es de 84.77; en la prevalencia de delgadez de niños entre 5 y 9 años el máximo de los países desarrollado (11.02% en Estados Unidos), el cual se encuentra bastante alejado al resto de los valores, es semejante al tercer cuartil de los países en desarrollo (10.56%).
En primer lugar planteamos el K (número de vecinos más cercanos) en un rango de 1 a 80, Sin embargo, resulta que nuestro K óptimo es 4, con una precisión de 92.23%. Si se observa el gráfico, a medida que aumenta el K la precisión sufre diversos altibajos, aumenta y disminuye entre un rango de K próximos, se puede decir que no es estable, varía o salta. Lo que sí se evidencia, es que a partir del K número 18 (88.35%) se mantiene hasta el 36 y empieza a decrecer para finalmente mantenerse en 80.58%. Prácticamente en donde la precisión de nuestro modelo es bastante inestable es en los primeros K=17. De igual manera, la precisión del modelo es de 80,58% y se estima que el valor final usado es K=21.
k precision
1 1 0.8737864
2 2 0.8446602
3 3 0.8834951
4 4 0.9223301
5 5 0.9029126
6 6 0.8834951
7 7 0.8932039
8 8 0.8834951
9 9 0.8834951
10 10 0.8834951
11 11 0.9029126
12 12 0.9126214
13 13 0.8932039
14 14 0.8640777
15 15 0.9029126
16 16 0.8932039
17 17 0.8932039
18 18 0.8834951
19 19 0.8834951
20 20 0.8834951
21 21 0.8834951
22 22 0.8834951
23 23 0.8834951
24 24 0.8834951
25 25 0.8834951
26 26 0.8834951
27 27 0.8834951
28 28 0.8834951
29 29 0.8834951
30 30 0.8834951
31 31 0.8834951
32 32 0.8834951
33 33 0.8834951
34 34 0.8834951
35 35 0.8834951
36 36 0.8834951
37 37 0.8737864
38 38 0.8640777
39 39 0.8640777
40 40 0.8543689
41 41 0.8543689
42 42 0.8349515
43 43 0.8058252
44 44 0.8058252
45 45 0.8058252
46 46 0.8058252
47 47 0.8058252
48 48 0.8058252
49 49 0.8058252
50 50 0.8058252
51 51 0.8058252
52 52 0.8058252
53 53 0.8058252
54 54 0.8058252
55 55 0.8058252
56 56 0.8058252
57 57 0.8058252
58 58 0.8058252
59 59 0.8058252
60 60 0.8058252
61 61 0.8058252
62 62 0.8058252
63 63 0.8058252
64 64 0.8058252
65 65 0.8058252
66 66 0.8058252
67 67 0.8058252
68 68 0.8058252
69 69 0.8058252
70 70 0.8058252
71 71 0.8058252
72 72 0.8058252
73 73 0.8058252
74 74 0.8058252
75 75 0.8058252
76 76 0.8058252
77 77 0.8058252
78 78 0.8058252
79 79 0.8058252
80 80 0.8058252
Confusion Matrix and Statistics
Reference
Prediction Developed Developing
Developed 11 2
Developing 9 81
Accuracy : 0.8932
95% CI : (0.8169, 0.9455)
No Information Rate : 0.8058
P-Value [Acc > NIR] : 0.01281
Kappa : 0.6065
Mcnemar's Test P-Value : 0.07044
Sensitivity : 0.5500
Specificity : 0.9759
Pos Pred Value : 0.8462
Neg Pred Value : 0.9000
Prevalence : 0.1942
Detection Rate : 0.1068
Detection Prevalence : 0.1262
Balanced Accuracy : 0.7630
'Positive' Class : Developed
De acuerdo al gráfico, nuestro K=21 es el óptimo, porque es el número de vecinos más cercanos que ayuda a obtener la mejor exactitud y valor Kappa
k-Nearest Neighbors
80 samples
10 predictors
2 classes: 'Developed', 'Developing'
No pre-processing
Resampling: Bootstrapped (25 reps)
Summary of sample sizes: 80, 80, 80, 80, 80, 80, ...
Resampling results across tuning parameters:
k Accuracy Kappa
5 0.8318151 0.5763236
7 0.8326642 0.5765323
9 0.8392478 0.5893099
11 0.8547056 0.6277358
13 0.8585877 0.6332581
15 0.8667630 0.6535688
17 0.8717110 0.6610992
19 0.8714472 0.6570949
21 0.8743572 0.6607749
23 0.8738275 0.6588759
25 0.8710649 0.6496474
27 0.8726485 0.6510939
29 0.8627650 0.6169000
31 0.8553576 0.5930411
33 0.8567501 0.5927579
35 0.8417531 0.5330180
Accuracy was used to select the optimal model using the largest value.
The final value used for the model was k = 21.
Proporción de precisión de KNN
[1] 0.8058252
Kappa es la relación de la proporción de veces en las que los evaluadores concuerdan (corregida para la concordancia en virtud de las probabilidades) a la proporción máxima de veces que los evaluadores podrían concordar (corregido para la concordancia en virtud de las probabilidades).
Se utiliza los estadísticos kappa para evaluar el grado de concordancia de las clasificaciones nominales u ordinales realizadas por múltiples evaluadores cuando los evaluadores evalúen las mismas muestras.
Classification tree:
tree(formula = Status ~ ., data = base_entrena, minsize = 10)
Variables actually used in tree construction:
[1] "Infant.deaths" "Life.expectancy" "HDI"
Number of terminal nodes: 4
Residual mean deviance: 0.1842 = 14 / 76
Misclassification error rate: 0.0375 = 3 / 80
Las variables usadas en la construcción del árbol son Infant.deaths (número de muertes infantiles menores de cinco años), HDI (índice de desarrollo humano), Life.expectancy (esperanza de vida) con 4 nodos terminales.
La desviación (deviance) es una medida de la bondad del ajuste de un modelo lineal generalizado (sería equivalente a la suma de cuadrados residual de un modelo lineal; valores más altos indican peor ajuste). El ajuste se realiza por máxima verosimilitud en vez de por mínimos cuadrados ordinarios. El método de máxima verosimilitud nos dice que escogeremos como valor estimado del parámetro aquél que tiene mayor probabilidad de ocurrir según lo que hemos observado, es decir aquél que es más compatible con los datos observados, siempre suponiendo que es correcto el modelo matemático postulado.
La “desviación media residual” es la “desviación residual total” dividida por el “número de observaciones” - “número de nodos terminales”. La “desviación residual total” es la suma de los cuadrados de los residuos.
Esta variable (deviance) funciona como medida de discrepancia entre los valores observados y los valores esperados en el modelo de estudio. Observamos que este valor es de 18.42% relativamente bueno.
Por su parte, la Tasa de error de mala clasificación del modelo es de tan solo 3.75%.
Confusion Matrix and Statistics
Reference
Prediction Developed Developing
Developed 13 1
Developing 7 82
Accuracy : 0.9223
95% CI : (0.8527, 0.9659)
No Information Rate : 0.8058
P-Value [Acc > NIR] : 0.0008821
Kappa : 0.7199
Mcnemar's Test P-Value : 0.0770999
Sensitivity : 0.6500
Specificity : 0.9880
Pos Pred Value : 0.9286
Neg Pred Value : 0.9213
Prevalence : 0.1942
Detection Rate : 0.1262
Detection Prevalence : 0.1359
Balanced Accuracy : 0.8190
'Positive' Class : Developed
El diagrama de árbol nos muestra que si el número de muertes en infantes menores de cinco años por cada 1000 nacidos es menor a 0.575 el país es clasificado como desarrollado, de lo contrario es clasificado como en vía de desarrollo, en este caso las variables que presentan la esperanza de vida y el índice de desarrollo humano no se toman en cuenta al momento de tomar la decisión (del lado izquierdo, se encuentran los desarrollado y del derecho los emergentes).
Dividimos nuestro conjunto de entrenamiento con los primeros datos hasta 80, y nuestro conjunto de prueba corresponde a 103 datos.
En la matriz de confusión las columnas representan las categorías a las que realmente pertenece cada dato mientras que las filas representan las categorías predichas por el modelo. En la diagonal principal tendremos los aciertos (verdaderos positivos y verdaderos negativos) y en las celdas restantes la cantidad de desaciertos (falsos positivos y falsos negativos).
La matriz de confusión del modelo KNN indica que se tienen 20 datos bajo la clase positiva “Developed”, pero el modelo clasificó correctamente 11 (verdaderos positivos) y los 9 restantes son falsos negativos. Por su parte, se tienen 83 datos bajo la clase “Developing”, de los cuales se clasificaron correctamente 81 (verdaderos negativos) y los otros 2 correspondientes a los falsos positivos.
Nuestro modelo tiene una exactitud del 89,32%, que resulta de sumar los aciertos y dividirlos entre el total de datos (103). Con un intervalo de confianza del 95%.
Sensitivity: Tasa de verdaderos positivos se calcula como el cociente entre: Verdaderos positivos/Total de positivos reales (11/20); se logra clasificar un 55%, cuando la clase es positiva: Developed (Desarrollado).
Specificity: Tasa de verdaderos negativos, se calcula como: Verdaderos negativos/Total de negativos (81/83). Se logra clasificar un 97.59%, cuando la clase es negativa: Developing (en desarrollo).
VPP (Pos Pred Value): Es el porcentaje de clasificación correcto cuando predice positivos. Verdadero positivos/ total de clasificados como positivos (predichos) (11/13). Probabilidad de acertar los positivos bajo la predicción es de un 84.62%
VPN (Neg Pred Value): Es el porcentaje de clasificación correcto cuando predice negativos Verdadero negativos/ total de clasificados como negativos (81/90) probabilidad de acertar los negativos bajo la predicción es de un 90%
Prevalence: Mide el desbalance de los datos. Cociente entre: Verdaderos positivos+Falsos negativos / (total de datos): (20/103). Hay un desbalance de los datos del 19.42% de acuerdo a la clase positiva “Developed” y existe una prevalencia del 80.58% hacia los negativos “Developing” (precisión).
Mientras que para el modelo de Árbol obtenemos lo siguiente:
El modelo logra clasificar correctamente como desarrollado 13 datos de 20, y clasifica correctamente como emergente (en desarrollo) 82 de 83 datos, lo que permite obtener una exactitud del 92.23%, valor mejor que el obtenido con el modelo KNN.
En ese sentido, la tasa de verdaderos positivos (sensitivity) se calcula como: (13/20). El modelo logra clasificar un 65.00%, cuando la clase es positiva (Developed).
La tasa de verdaderos negativos (Specificity) se calcula como: (82/83). El modelo logra clasificar un 98.80%, cuando la clase es negativa (Developing).
El porcentaje de clasificación correcto cuando se predice positivos (grado desarrollado) es de 92.86%, El porcentaje de clasificación correcto cuando se predice negativos (emergente) es de 92.13%, valores bastante buenos en comparación con KNN.
En cuánto a las Curvas ROC se trata de curvas en las que se presenta la sensibilidad en función de los falsos positivos (complementario de la especificidad) para distintos puntos de corte. Es la representación gráfica del rendimiento del clasificador.
El mejor método posible de predicción se situaría en un punto en la esquina superior izquierda, o coordenada (0,1) del espacio ROC, representando un 100% de sensibilidad (ningún falso negativo) y un 100% también de especificidad (ningún falso positivo). Una clasificación totalmente aleatoria daría un punto a lo largo de la línea diagonal, que se llama también línea de no-discriminación, es decir, un modelo inútil. Por lo tanto, lo que se espera encontrar son puntos sobre una curva por encima de la diagonal y entre más cercana se encuentre de la esquina superior izquierda, mejor será su predicción.
De acuerdo a lo anterior, la curva ROC del modelo de árbol se encuentra más cercana de la esquina superior izquierda que la curva del modelo KNN, por lo tanto, gráficamente podemos observar que el modelo de árbol es mas representativo.
Tanto nuestro modelo KNN como Árbol de clasificación son más específicos que sensibles, lo cual significa que es más probable que nuestros modelos logren clasificar correctamente el estado en desarrollo que el desarrollado, esto puede suceder ya que hay menos países desarrollados en comparación a los emergentes. Por lo tanto, ambos modelos, demostraron ser capaces de clasificar los países como desarrollados o en desarrollo con una precisión razonablemente alta. Sin embargo, el modelo de Árbol de decisión supera al KNN en términos de precisión, alcanzando un 92.23% frente al 89.32% del KNN. Con esta diferencia podemos sugerir que el modelo de Árbol de decisión es más fiable para la clasificación.
El análisis del árbol de clasificación revela que el número de muertes en infantes menores de cinco años por cada 1000 nacidos vivos es una variable crucial para determinar si un país está desarrollado o en desarrollo. Este resultado resalta la importancia de las políticas y programas de salud infantil en la clasificación socioeconómica de un país. La eficacia en la reducción de las tasas de mortalidad infantil puede ser un indicador clave del desarrollo de un país.
Aunque los modelos han mostrado buenos resultados, es esencial reconocer las limitaciones del análisis. Las variables utilizadas están relacionadas principalmente con la salud y no abarcan todos los aspectos del desarrollo socioeconómico, como la educación, la infraestructura y el empleo. Para una clasificación más completa y precisa, sería provechoso incorporar un conjunto de datos más amplio y diverso que contemple una gama más grande de indicadores de desarrollo.
Por otro lado, el modelo de árbol de decisión es mucho más intuitivo y eficiente, puesto que es menos sensible al ruido en los datos, es decir, maneja de una mejor manera los valores atípicos o variables poco importantes en el proceso de la toma de decisiones. En cambio, KNN considera todas las variables por igual al calcular las distancias, lo que puede llevar a una clasificación menos precisa si algunas de las variables son ruidosas y especialmente cuando se trata de grandes conjuntos de datos.