Como es de conocimiento general, en el desarrollo de un país intervienen diferentes factores principalmente en lo social que permite el crecimiento en la parte económica, tanto la salud como la educación son aspectos importantes para el desarrollo de un país, encontrando una relación directa entre la salud y la productividad económica, conservando el capital humano. Según Alfred C. Wolf en LA SALUD COMO FACTOR DEL DESARROLLO ECONÓMICO INTERNACIONAL. (1967). BOLETÍN DE LA OFICINA SANITARIA PANAMERICANA. “La falta de salud afecta directamente la fuerza de trabajo y tiene profundas repercusiones en la economía, ocasionando la pérdida de trabajadores como unidades económicas, bien por muerte prematura o reducción del tiempo y la capacidad de trabajo” .
Los problemas de salud y las consecuencias que acarrean estas, se deben a diferentes enfermedades y problemáticas sociales que no resguardan la seguridad de la población generando que se vea afectado el sector de la producción por la falta de mano de obra o la falta de personal apto para trabajar puesto que también se ve la situación de que hay mayor población de tercera edad que jóvenes.
En el presente informe se pretende analizar una base de datos la cual contiene el estado de países, ya sea desarrollados o emergentes en el año 2012 y cómo interfieren diez variables cuantitativas seleccionadas mediante un estudio en la determinación de estos estados, la variables seleccionadas fueron: Alcohol, escolaridad, homicidios, fertilidad, mortalidad en adultos, expectativa de vida, muerte de infantes, hepatitis B, población y gasto total, a continuación se muestra la base en general.
En principio se realiza la justificación por la cual se seleccionó cada una de las variables en un contexto en la salud y con estas influencian en el desarrollo de un país. Para cada una de estas variables se realizó una descripción estadística y el análisis de cada una de ellas, en la que se obtuvo la media, la mediana, varianza, desviación estándar, los cuartiles y por último los máximos y mínimos, con el fin de observar detalladamente los datos. A continuación se muestra en las tablas.
Según la OPS el uso nocivo del consumo de alcohol influye en el desarrollo social y económico de muchos países. En el continente Americano se consume aproximadamente el 40% del promedio mundial, siendo la segunda más alta de consumo de alcohol después de Europa. Cuanto menos desarrollado es un país, mayor es la carga relativa de alcohol, resultando peligroso para la salud de la población, generando enfermedades, así como también la violencia doméstica, la pérdida de productividad, entre otros.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 9.346829 | 9.660 | 8.635162 | 2.938565 | 8.300 | 9.660 | 10.960 | 16.91 | 1.6 |
| Developing | 3.608211 | 2.975 | 9.959181 | 3.155817 | 0.785 | 2.975 | 5.825 | 14.72 | 0.0 |
En variable de alcohol, el promedio es mayor en los países desarrollados siendo de 9.34 con una desviación de 2.93 y teniendo como valor máximo 16.91 en comparación con los países emergentes que tienen como promedio 3.60 con una desviación de 3.15 y como máximo 14.72.
De acuerdo a la gráfica de Consumo de alcohol respecto al GDP, se puede observar que a pesar de que haya más países emergentes, los países desarrollados son los que más consumen alcohol y a la vez aportan más al GDP.
Se tiene la idea de que a mayor escolaridad haya en un país, mayor desarrollo presenta este ya que la población estaría más preparada para diferentes trabajos y serían más productivos. Según Sofia Reyna, los países con más índice de desarrollo y estabilidad son los que invierten en temas de educación, puesto que el conocimiento aporta a mejores oportunidades de trabajo, competitividad laboral, disminución de la pobreza, menos desigualdad social, entre otros. Por otra parte, la escolaridad influye para que la gente se sienta saludable.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 11.656098 | 11.8 | 1.657524 | 1.287449 | 11.0 | 11.8 | 12.5 | 14.0 | 7.5 |
| Developing | 7.065717 | 7.4 | 7.503796 | 2.739306 | 4.8 | 7.4 | 9.2 | 12.5 | 1.4 |
Respecto a la variable de escolaridad, el promedio es mayor en los países desarrollados en contraste de los emergentes, siendo el primero de 11.65 con una desviación de 1.28 y teniendo como máximo 14.0 y un mínimo de 7.5; en el segundo se tiene un promedio de 7.06 con una desviación aún mayor en la que se mueven los datos de 2.73 y como máximo de 12.5 y mínimo 1.4.
De la gráfica Escolaridad respecto al GDP, se puede evidenciar que en los países desarrollados y emergentes, la escolaridad es directamente proporcional al GDP, aunque se pueden notar unos pocos puntos atípicos.
Debido a organizaciones criminales, conflictos armados, delincuencia organizada y diferentes causas, se producen gran cantidad de homicidios en todo el mundo lo que desestabiliza el desarrollo socioeconómico de los países. La tasa de homicidios varía según el continente, siendo la tasa del continente Americano (17,2%) la más alta y la tasa de Africa (13,0%) estando por encima de la media mundial, mientras que Asia, Europa y Oceanía cuentan con las tasas por debajo de la media mundial (2,3%, 3,0% y 2,8%, respectivamente), lo que significa que presentan menor cantidad de homicidios en comparación con las anteriores.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 1.823659 | 1.290 | 2.807629 | 1.675598 | 0.8800 | 1.290 | 1.7900 | 6.92 | 0.35 |
| Developing | 11.051127 | 7.235 | 166.076942 | 12.887084 | 3.5925 | 7.235 | 11.6775 | 85.34 | 0.58 |
Según lo que se puede observar de la tabla 3 que es sobre los homicidios, se analiza que los países emergentes presentan una diferencia considerable en el promedio de homicidios frente a los desarrollados, siendo mayor con una valor de 11.05 alejándose los datos 12.88 de la media, con una máximo elevado de 85.34 y mínimo de 0.58, por el contrario, en lo que respecta a los países desarrollados no presentan una promedio tan alto de homicidios, siendo de 1.82 con una desviación de los datos de 1.67 y un máximo de 6.92 que en comparación al anterior mencionado en bajo, y un mínimo de 0.35.
Respecto a la gráfica de tasa de homicidios, se puede observar que a mayor aporte al GDP hay una tasa menor de homicidios y esto aplica para países desarrollados y emergentes.
Las tasas de fertilidad en los países en vía de desarrollo se estabilizan, sin embargo para los países desarrollados la fertilidad genera una gran problemática, por ejemplo en Japón, la mayoría de la población son adultos mayores entre los 65 años, y no hay suficientes nacimientos para que se balancee la fuerza laboral y se garantice su renovación, por ende no hay suficiente población de edad para mantener el rendimiento productivo.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 1.666769 | 1.570 | 0.1146553 | 0.3386079 | 1.4200 | 1.570 | 1.89 | 3.03 | 1.22 |
| Developing | 3.271077 | 2.775 | 2.0581151 | 1.4346132 | 2.1025 | 2.775 | 4.44 | 7.42 | 1.27 |
Los países emergentes presentan un promedio de 3.27 con una desviación de 1.43 además de un máximo y mínimo de 7.42 y 1.27 respectivamente, mayor a los países desarrollados que cuentan con un promedio de 1.66 y una desviación no tan evidente de 0.33, junto con un máximo de 3.03 y mínimo de 1.22, los mínimos de ambos no tienen mucha diferencia entre ellos, la cual es de 0.05.
De acuerdo a la gráfica de Fertilidad respecto al GDP, se puede inferir que en el caso de los países desarrollados, aportan más al GDP y hay menos fertilidad. En el caso de los países emergentes, se puede observar que aportan menos al GDP y presentan mayor fertilidad.
Según David Rodriguez Rodriguez, respaldado por la Universidad de Coruña, los niveles de esperanza de vida cambian dependiendo del nivel de economía de los países (emergentes o desarrollados). Así, los países desarrollados son los que tienen una mayor esperanza de vida y los países emergentes, presentan una esperanza de vida menor.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 79.64036 | 80.63415 | 7.588763 | 2.754771 | 78.07561 | 80.63415 | 81.64878 | 83.0961 | 73.77805 |
| Developing | 67.80891 | 70.03732 | 58.021126 | 7.617160 | 62.18925 | 70.03732 | 74.24275 | 79.3990 | 47.41600 |
En la variable de expectativa de vida, el promedio para las países desarrollados el cual es de 79.64, es mayor con una desviación en sus datos de 2.75 más baja en comparación a los países emergentes, respecto al máximo y mínimo, sus límites no son tan distantes puesto que uno es de 83.09 y el otro de 73.77. Ahora bien, en los países emergentes el promedio es de 67.80 con una desviación de 7.61, con un máximo de 79.39 y mínimo de 47.41.
Respecto a la gráfica de Expectativa de vida respecto al GDP, se puede evidenciar que hay mayor expectativa de vida en los países desarrollados que en los emergentes y esta expectativa de vida es directamente proporcional al GDP.
Esta variable se encuentra ligada a lo investigado en la esperanza de vida, y de acuerdo a David Rodriguez Rodriguez, hay una menor tasa de mortalidad de adultos en los países desarrollados que en los países emergentes ya que cuentan con más recursos y tecnología para atender las necesidades el sector de la salud.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 84.77098 | 72.44 | 1084.106 | 32.92577 | 59.8 | 72.44 | 102.600 | 179.6 | 50.46 |
| Developing | 200.87204 | 183.10 | 8182.788 | 90.45876 | 130.7 | 183.10 | 256.075 | 478.5 | 62.29 |
En relación con la mortalidad en adultos el promedio en países emergentes en mucho más alta que en los desarrollados con un valor de 200.87 alejándose los datos en 90.45 y con un máximo y mínimo elevado de 478.5 y 62.29 respectivamente, en lo que concierne a los países desarrollados el promedio es de 84.77 con una desviación estándar de 32.92 además de un máximo de 179.6 y un mínimo de 50.46.
Respecto a la gráfica de Mortalidad en adultos respecto al GDP, se puede observar que en los países emergentes hay mayor mortalidad, pero los que más aportan al GDP son los países desarrollados en comparación a los emergentes.
De acuerdo con el UNICEF, cada día mueren alrededor de 29 mil niños menores de cinco años, principalmente por causas evitables como la desnutrición o la falta de agua potable y la mayor parte de estas muertes ocurren en los países emergentes. Por ejemplo, un niño de Etiopía tiene 30 veces más probabilidades de morir antes de cumplir cinco años que un niño de Europa Occidental.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 0.4987805 | 0.41 | 0.069976 | 0.2645297 | 0.36 | 0.41 | 0.5500 | 1.66 | 0.25 |
| Developing | 4.5209945 | 3.11 | 13.152217 | 3.6265985 | 1.64 | 3.11 | 7.1675 | 14.89 | 0.48 |
En lo que respecta a la variable de muerte de infantes, hay más muertes de niños en los países emergentes con un promedio de 4.52, una desviación de 3.62 y un máximo de 14.89 junto con un mínimo de 0.48. En los países desarrollados el promedio es bajo, de 0.49, una desviación de 0.26 además de un máximo y mínimo de 1.66 y 0.25 respectivamente. En los países desarrollados no hay tantas muertes de infantes como en los emergentes, esto puede ser por diferentes razones como la falta de alimentación o de recursos necesarios.
En la gráfica de muertes infantiles respecto al GDP, se puede observar que la tasa más alta ocurre en los países emergentes, sin embargo, los que aportan más al GDP son los países desarrollados.
Ya que en la base de datos se tienen a los países clasificados si son emergentes o desarrollados, se toma como variable al GDP ya que este es uno de los factores más importantes que ayuda a determinar la clasificación económica del país y de acuerdo a ETIAS (Sistema Europeo de Información y Autorización de Viajes), un país desarrollado presenta un GDP alto y mejor calidad de vida, ,mientras que un país emergente, presenta un GDP bajo y una calidad de vida baja.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 37600.684 | 35053.526 | 564723443 | 23763.91 | 17534.421 | 35053.526 | 48917.898 | 106749.01 | 7395.850 |
| Developing | 6869.367 | 3882.663 | 110530948 | 10513.37 | 1330.123 | 3882.663 | 7500.176 | 85076.14 | 252.359 |
En la variable PIB por persona, se puede observar que los países desarrollados presentan un mayor promedio mayor con 376000.684 que los países emergentes con 6869.367 y se puede decir que hay una diferencia abismal entre los desarrollados y los emergentes, aunque también se puede observar que los desarrollados tienen una desviación estándar mayor con 23763.91 por lo que los datos se encuentran más dispersos, que los emergentes que tienen una desviación estándar de 10513.37. También se puede ver que hay diferencias abismales entre los máximos y mínimos, en el caso de los países desarrollados, el máximo es de 106749.01 y el mínimo es de 7395.850, en el caso de los países emergentes, el máximo es de 85076.14 y el mínimo es de 252.359.
De acuerdo a la Organización Mundial de la Salud, las regiones que tienen mayor presencia de esta enfermedad son: El Pacífico occidental con 116 millones de personas afectadas y África con 81 millones de personas afectadas, y cabe resaltar que la mayoría de los países que conforman estas regiones, son países emergentes.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 90.04668 | 94.1076 | 169.1062 | 13.00408 | 90 | 94.1076 | 96.24182 | 99.000 | 30 |
| Developing | 86.57512 | 92.0000 | 213.6564 | 14.61699 | 81 | 92.0000 | 97.00000 | 100.841 | 40 |
Analizando la tabla 10 de hepatitis B, se observa que en promedio es de 90.04 en los países desarrollados con una desviación de 13.00 junto con un máximo y mínimo de 99.00 y 30 respectivamente, en los países emergentes, el promedio es de 86.57 con una desviación de 14.61, y una máximo de 100.8 y mínimo de 40. Los máximos y mínimos en los países emergentes son mayores que en los desarrollados sin embargo el promedio es mayor en los desarrollados.
En el gráfico Hepatitis B respecto al GDP, se puede observar que los países desarrollados y emergentes tienen una tasa parecida de Hepatitis B, pero tienen mayor GDP.
Así como los países generan su PIB, también tienen unos gastos estatales que afectan al crecimiento de la economía. Es por esto que se toma el gasto total como una variable para aplicar los modelos, para ver el impacto que tiene en la clasificación de los países, ya sea emergente o desarrollado.
| Status | Promedio | Mediana | Varianza | Desviacion | Cuartil1 | Cuartil2 | Cuartil3 | Maximo | Minimo |
|---|---|---|---|---|---|---|---|---|---|
| Developed | 379.7383 | 15.340 | 569127.2 | 754.4052 | 12.9000 | 15.340 | 56.2900 | 2012 | 7.51 |
| Developing | 430.4228 | 12.865 | 554823.6 | 744.8648 | 7.8675 | 12.865 | 333.3429 | 2012 | 2.14 |
En los países emergentes el gasto total es mayor que en los desarrollados siendo de 430.42 alejándose de la media por 744.8, en los desarrollados el promedio es de 379.7 con una distribución de 754.4 , en lo que concierne a los máximos, en ambos estados son iguales, siendo de 2012, el mínimo en el primero es de 2.14 y en el segundo de 7.51.
Para el análisis de los datos, se comparan dos metodologías, el Knn, conocido como el algoritmo de k vecinos más cercanos, y el árbol de clasificación. Esto con el objetivo de determinar cuál es la mejor en este caso; teniendo en cuenta esto, hay que definir cada uno de ellos:
Por ejemplo, como se observa en la imagen, al punto que no tenía una
clasificación específica, se le asignó una de acuerdo a la distancia de
esta con cada uno de los puntos y de cuál de ellos estaba más cerca, así
mismo tomó la categoría de “su vecino más cercano”
Para realizar el modelo de Knn se utilizó el conjunto de entrenamiento que se obtuvo a partir del 75% y como vector de clasificación la variable status, además la comparación se hace mediante los 20 vecinos más cercanos.
## k-Nearest Neighbors
##
## 138 samples
## 11 predictor
## 2 classes: 'Developed', 'Developing'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 138, 138, 138, 138, 138, 138, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 5 0.8502983 0.5416436
## 7 0.8602861 0.5735248
## 9 0.8588410 0.5696413
## 11 0.8608027 0.5715937
## 13 0.8670025 0.5934684
## 15 0.8641792 0.5817078
## 17 0.8640424 0.5730181
## 19 0.8667790 0.5797225
## 21 0.8644142 0.5641957
## 23 0.8618867 0.5482177
## 25 0.8612966 0.5447783
## 27 0.8662994 0.5585283
## 29 0.8684971 0.5605106
## 31 0.8676027 0.5473398
## 33 0.8684679 0.5491387
## 35 0.8692257 0.5505114
## 37 0.8629354 0.5342357
## 39 0.8642895 0.5380996
## 41 0.8618708 0.5168241
## 43 0.8560164 0.4932802
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 35.
Para este caso se cuenta con 138 datos en total, con 11 predictores que son los input del modelo y dos clases, desarrollados o emergentes. Según la información observada, el valor óptimo de k que son la cantidad de vecinos que se deberían de tomar, en este caso son 35 y esto se obtuvo mediante el accuracy qué es el grado de precisión, seleccionando el más alto de estos, siendo de 0.8692257.
Posterior a ellos, en la siguiente gráfica se puede observar el comportamiento del modelo, tomando en cuenta el número de vecinos necesarios para una buena precisión.
Como se mencionó anteriormente, mediante la gráfica se puede observar que tomando 35 de los vecinos más cercanos se obtiene la precisión más alta. No se puede decir que mediante más vecinos se tomen, menor va a ser la precisión debido a que en algunos casos el número de vecinos que se toman es mayor al anterior, pero la precisión suele ser menor. Sin embargo, a partir de 5 se nota un aumento en la precisión aunque diminuye en ocasiones y cuando llega a 35 va disminuyendo paulatinamente.
Finalmente se realizó una matriz de confusión, para ello se debió de haber sacado previamente las predicciones con base en el knn entrenado, con el conjunto de test y de este modo se obtienen su input.
## Developed Developing
## 1 0.00000000 1.0000000
## 2 0.68571429 0.3142857
## 3 0.00000000 1.0000000
## 4 0.00000000 1.0000000
## 5 0.40000000 0.6000000
## 6 0.05714286 0.9428571
## 7 0.00000000 1.0000000
## 8 0.68571429 0.3142857
## 9 0.05714286 0.9428571
## 10 0.70270270 0.2972973
## Confusion Matrix and Statistics
##
## Reference
## Prediction Developed Developing
## Developed 7 2
## Developing 3 33
##
## Accuracy : 0.8889
## 95% CI : (0.7595, 0.9629)
## No Information Rate : 0.7778
## P-Value [Acc > NIR] : 0.04591
##
## Kappa : 0.6667
##
## Mcnemar's Test P-Value : 1.00000
##
## Sensitivity : 0.7000
## Specificity : 0.9429
## Pos Pred Value : 0.7778
## Neg Pred Value : 0.9167
## Prevalence : 0.2222
## Detection Rate : 0.1556
## Detection Prevalence : 0.2000
## Balanced Accuracy : 0.8214
##
## 'Positive' Class : Developed
##
En general el modelo cuenta con una precisión del 0.88 con un intervalo de confianza de (0.7595-0.9629).
Respecto a la Sensitivity o también conocida como la tasa de verdaderos positivos, la cantidad de casos positivos que fueron correctamente identificados en la clase de los países desarrollados es de 70%.
En la parte de Specificity o también conocida como la tasa de verdaderos negativos, arroja un resultado de 0.9429, lo que significa que el modelo identificó correctamente en la clase de los países emergentes el 94.29% de casos negativos.
El Pos Pred Value (Valor Predictivo Positivo) nos indica la relación de casos positivos que realmente son positivos, de esta manera, indica un 77.78% de las instancias que pertenecen a la clase de los países desarrollados.
El Neg Pred Value o también conocido como el Valor Predictivo Negativo nos indica la relación de los casos negativos que realmente son negativos, en este caso, indica un 91.67% de las instancias que pertenecen a la clase de los países emergentes.
Prevalence (Prevalencia) indica la proporción de la clase de los países desarrollados, se tiene que este valor es del 22.22%, se interpreta que ese porcentaje de las instancias en los datos pertenecen a la clase de países desarrollados.
Detection Rate (Tasa de detección) indica la proporción de los casos positivos profundizados por el modelo. Para este caso, se identificó correctamente el 15.56% de los casos de la clase de los países desarrollados.
Detection Prevalence, también conocido como Prevalencia de Detección que arroja la proporción de los casos positivos predichos por el modelo, en este caso el modelo predijo que el 20% de las instancias pertenecían a la clase de los países desarrollados.
Balanced Accuracy conocida como la precisión equilibrada indica el valor del promedio de sensibilidad y especificidad. El valor es de 82.14%, se interpreta que tiene un buen rendimiento general del modelo en la clasificación de ambas clases.
##
## Classification tree:
## tree(formula = Status ~ ., data = SP_entrena, minsize = 10)
## Variables actually used in tree construction:
## [1] "Infant.deaths" "Alcohol" "Life.expectancy" "Schooling"
## Number of terminal nodes: 6
## Residual mean deviance: 0.1299 = 17.14 / 132
## Misclassification error rate: 0.02899 = 4 / 138
Como se puede observar en la imagen, para la realización del árbol de clasificación solo se usaron cuatro variables: Infant.deaths (muerte de infantes), Life.expectancy (esperanza de vida), Schooling (escolaridad) y el Alcohol. Además tiene seis nodos terminales, también conocidos como hojas, y es donde es imposible obtener una mejor separación.
Teniendo en cuenta que la variable objetivo es Status y que se separa en dos niveles: Developing (emergente) o Developed (desarrollado), el modelo de árbol de clasificación encontró que la variable independiente que mejor separa los datos en grupos fue Infant.deaths por lo que se convierte en el nodo raíz y de esta se desprenden otras ramas y nodos. Entonces, si el porcentaje de la tasa de Infant.deaths es menor a 69%, surge otra rama que es Alcohol y si esta es menor a 7.015 se puede decir que el país es desarrollado, en caso de que sea mayor a 7.015 también se infiere que es un país desarrollado. Ahora, si el porcentaje de la tasa de Infant.deaths es mayor a 69% surge la rama de Life.expectancy, si esta es menor a 74.29 años, se puede interpretar que el país es emergente y si esta es mayor a 74.29 años, surge otra rama que es Alcohol y si este consumo es mayor a 8.135, significa que el país es desarrollado y si es menor a 8.135, vuelve a surgir otra rama que es Schooling y si es menor a 7.55, el país sería emergente y si es mayor a 7.55, también es emergente.
##
## predicciones Developed Developing
## Developed 10 4
## Developing 0 31
## Confusion Matrix and Statistics
##
## Reference
## Prediction Developed Developing
## Developed 10 4
## Developing 0 31
##
## Accuracy : 0.9111
## 95% CI : (0.7878, 0.9752)
## No Information Rate : 0.7778
## P-Value [Acc > NIR] : 0.01739
##
## Kappa : 0.775
##
## Mcnemar's Test P-Value : 0.13361
##
## Sensitivity : 1.0000
## Specificity : 0.8857
## Pos Pred Value : 0.7143
## Neg Pred Value : 1.0000
## Prevalence : 0.2222
## Detection Rate : 0.2222
## Detection Prevalence : 0.3111
## Balanced Accuracy : 0.9429
##
## 'Positive' Class : Developed
##
En general el modelo cuenta con una precisión del 0.91 con un intervalo de confianza de (0.7878-0.9752).
Respecto a la Sensitivity o también conocida como la tasa de verdaderos positivos, la cantidad de casos positivos que fueron correctamente identificados en la clase de los países desarrollados es de 100%.
En la parte de Specificity o también conocida como la tasa de verdaderos negativos, arroja un resultado de 0.8857, lo que significa que el modelo identificó correctamente en la clase de los países emergentes el 88.57% de casos negativos.
El Pos Pred Value (Valor Predictivo Positivo) nos indica la relación de casos positivos que realmente son positivos, de esta manera, indica un 71.43% de las instancias que pertenecen a la clase de los países desarrollados.
El Neg Pred Value o también conocido como el Valor Predictivo Negativo nos indica la relación de los casos negativos que realmente son negativos, en este caso, indica un 100% de las instancias que pertenecen a la clase de los países emergentes.
Prevalence (Prevalencia) indica la proporción de la clase de los países desarrollados, se tiene que este valor es del 22.22%, se interpreta que ese porcentaje de las instancias en los datos pertenecen a la clase de países desarrollados.
Detection Rate (Tasa de detección) indica la proporción de los casos positivos profundizados por el modelo. Para este caso, se identificó correctamente el 22.22% de los casos de la clase de los países desarrollados.
Detection Prevalence, también conocido como Prevalencia de Detección que arroja la proporción de los casos positivos predichos por el modelo, en este caso el modelo predijo que el 31.11% de las instancias pertenecían a la clase de los países desarrollados.
Balanced Accuracy conocida como la precisión equilibrada indica el valor del promedio de sensibilidad y especificidad. El valor es de 94.29%, se interpreta que tiene un buen rendimiento general del modelo en la clasificación de ambas clases.
Según los estudios previamente hechos se esperaba que los países con más consumo de alcohol fueran los emergentes sin embargo ocurrió lo contrario, los países desarrollados presentaron un promedio significativamente alto en comparación con los no desarrollados.
Se esperaba que los países desarrollados tuviesen mayor índice de escolaridad y el resultado fue equivalente a lo investigado, por lo que estos países prefieren invertir en la educación y formación de las personas para de esta forma mantener e incrementar su economía.
Analizando todas las gráficas se puede observar que los países que más aportan al GDP en mayoría son los países desarrollados; esto lo pueden causar diversos factores como por ejemplo, el desarrollo de las industrias, el nivel de educación de la población, la calidad y expectativa de vida.
La desviación estándar residual funciona para evaluar la bondad de ajuste de un modelo estadístico. Se debe tener en cuenta que la bondad de ajuste es una medida que confirma qué tan bien se ajusta un modelo a los datos, evaluando la precisión. La devianza para este caso funciona, ya que muestra una variabilidad de los datos y con esto se puede evaluar la precisión del modelo.
El modelo del árbol de clasificación tiene un accuracy más alto, es decir, tiene mejor precisión que el primer modelo, siendo del 91% en comparación al primero, el cual tiene un 88% de precisión.
Se puede concluir que uno de los factores que más influye a la clasificación de la economía del país (emergente o desarrollado), de acuerdo al modelo de árbol de clasificación es Infant.death (tasa de muertes infantiles), ya que fue la variable independiente que mejor separaba las demás variables en grupos.
Respecto a la gráfica de tasa positiva verdadera y tasa de falsos positivos de ambos modelos, se puede analizar que entre más cercano se esté al uno, más sensible es el modelo, lo que se conoce como la tasa de verdaderos positivos; además de que si se imagina una pendiente partiendo desde 0, entre más lejana esté la curva del modelo, se tiene una mayor imprecisión, menos sensibilidad. Comparándolas, se puede afirmar que el modelo del árbol de clasificación tiene mayor sensibilidad, mayor precisión, ya que su curva es la que se aleja más de la recta mencionada anteriormente, y se puede observar que se acerca más al uno, en comparación con la otra.
Respecto a los datos de la matriz de confusión, se observa que el valor de prevalencia es el mismo, es decir que, para ambos se indica la proporción de la clase de los países desarrollados, y se tiene un porcentaje de 22.22%; se interpreta que ese porcentaje de las instancias en los datos pertenecen a la clase de países desarrollados.
Se puede observar que en el modelo del árbol de clasificación de acuerdo a la matriz de confusión tuvo una detección del 100% en Sensitivity y en Neg Pred Value; es decir que detectó todo de manera correcta, por lo que este modelo podría ser el mejor para clasificar una variable. Además, la mayoría de los resultados de la matriz de confusión del modelo del árbol tienen mayor porcentaje de acierto que los del modelo Knn.