Introducción

La clasificación de los países dentro de dos categorías como desarrollado o emergente se da gracias a varios indicadores existentes, sin embargo, se la da más importancia a dos de ellos denominados: índice de desarrollo humano (IDH) y Producto interno bruto (PIB), donde con el conjunto de ambos se tienen indicadores de salud, educación, nivel de vida y económico.

Por un lado tenemos la clasificación de emergente, donde el principal indicador (IDH) es menor a 0.9, dichos países no se encuentran en mejores condiciones que los países subdesarrollados, pero van con una economía en crecimiento. Por otro lado, la clasificación de desarrollados, presentando un indicador (IDH) mayor o igual a 0.9, donde se permite a la población satisfacer necesidades en libertad y en ambientes seguros.

Dado mencionado lo anterior, se presentará una clasificación de países desarrollados o emergentes mediante un modelo de aprendizaje supervisado del año 2012 al haber seleccionado diez variables que permiten la mejor precisión del 90%.

Metodología de trabajo

A partir de la base de datos WHO, que toma estadísticas sobre diferentes variables entre países, los separa por estatus económico (Desarrollados o en vías de desarrollo) y toma en cuenta un largo estudio durante diferentes años, se realiza un filtro para trabajar solo en el año 2012.

Se procede a extraer aquellas variables que se han determinado son más influyentes en la clasificación de dicho estatus, es este caso se han seleccionado un total de 10 variables que son las siguientes:

  • “GDP”
  • “HDI”
  • “Life.expectancy”
  • “Schooling”
  • “Percentage.expenditure”
  • “Infant.deaths”
  • “Hepatitis.B”
  • “Polio”
  • “Total.expenditure”
  • “Homicides”

Una vez hecha esta depuración se deja guardada la nueva base de datos en un objeto de nombre base2 (Se ha de tener en cuenta que el la variable “Status” es convertida en tipo factor para poder ser usada en el modelo como variable de clasificación).

A continuación se genera un número de semilla para asegurar que los datos generados aleatoriamente siempre sean los mismos y los resultados no se vean alterados cada que se ejecute el código.

Con la semilla creada se procede a generar los dos índices de números aleatorios para con estos generar posteriormente la muestra y los conjuntos Entrenamiento y Test, se seleccionan 100 números entre el 1 y el 183 para la muestra, luego de estos números se seleccionan 70 números que se encuentren en el anterior índice (el de la muestra) para generar el conjunto de entrenamiento y por último se genera el conjunto de Test con los números sobrantes que no han sido seleccionados para el conjunto de entrenamiento y se encuentran dentro de los seleccionados para la muestra.

Con el conjunto de entrenamiento, como su nombre lo dice, se entrena el modelo, y con el de Test se prueba el modelo para ver que tan eficiente y acertado es.

Con ayuda de la librería “Caret” se procede a entrenar el modelo usando el conjunto “base2_entrena”, y con un “tuneLength” de 20 para que tenga un nivel de precisión lo suficientemente confiable a la hora de ver el K.

Luego se genera la prediccion con la función “predict” para que el modelo realice el test con los datos del conjunto “base2_test”, una vez realizado esto se almacena en un objeto llamado “base2_knnPrediccion” para usarse en la “confusionMatrix”.

Por último se generan los gráficos ROC para ver de una manera más cómoda que tan confiable es el modelo que se ha generado con el conjunto de entrenamiento y sus resultados después del test.

Descripción de variables

En estas primeras observaciones a los datos podemos encontrar una gran brecha entre la cantidad de países emergentes y desarrollados, siendo la primera categoría la que cuenta con un número superior.

  • Países emergentes: 142
  • Países desarrollados: 41

Descripción de indicadores

Teniendo en cuenta el status de cada país se realiza una selección, según el parámetro y se obtienen los siguientes resultados sobre algunas variables:

Índice de desarrollo humano (IDH)

Dicho indicador se encarga de medir el logro medio de los países en tres dimensiones: esperanza de vida al nacer, ingreso per cápita y nivel educativo.

Se observa que en los países desarrollados la mayoría de los datos se acumulan en los últimos cuartiles, lo que significa que buena parte de los países cuentan con un índice mayor a 0.80. Por otro lado, los países en vía de desarrollo se distribuyen de manera más uniforme y el país con el mayor índice es de 0.8520. Aúnque gran parte de los países tiene presencia en el último cuartil, hay una cantidad significativa que no supera el 0.5 en su índice de desarrollo humano.

Países desarrollados

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.7600  0.8360  0.8860  0.8739  0.9080  0.9420

Países en vía de desarrollo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.3360  0.5268  0.6670  0.6333  0.7400  0.8520

También por otro lado, podemos observar gracias a los histogramas que se tiene un mismo nivel de índice de desarrollo humano para aquellos países que ya se encuentran desarrollados, por ejemplo, 10 países se encuentran dentro del rango de IDH 0.82 hasta 0.94, alcanzando dentro de ese nivel lo requerido para capitularlo como mejor.

PIB per cápita (GDP)

Dicho indicador representa el valor promedio de los bienes y servicios finales producidos en un país durante un periodo de tiempo, en este caso, se tiene escogido el año 2012 que permite un análisis a profundidad.

Países desarrollados

La mayoría de los datos se encuentran en los dos primeros cuartiles, con una media de USD $37601 de ingresos brutos por año. Además, se puede observar que el país con un menor ingreso bruto por persona es de $7396 USD, mientras que por otro lado, el mayor ingreso fue de $106749 USD

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7396   17534   35054   37601   48918  106749

Países en vía desarrollo

Los datos están casi en su totalidad distribuidos hacia la izquierda, con una media de USD $6869.4 de ingresos brutos al año por persona. Adicionalmente, se tiene presente que el país en vía de desarrollo presenta una completa disminución a la hora de definir aquellos que se encuentren en su mínimo y su máximo, es decir, tenemos situado al país de menor ingreso en un total de $252.4 USD por año y al de mayor ingreso alcanzando los $85076.1 USD por año.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   252.4  1330.1  3882.7  6869.4  7500.2 85076.1

Las diferencias entre los PIB de dichas clasificaciones permiten evidenciar cómo la variable no es fija y depende totalmente de la brecha entre países desarrollados y aquellos que se encuentran en vía de desarrollo. Dado esto, se presentan datos alejados de la mediana y la media ya establecida para cada uno de ellos.

Expectativa de vida

Se entiende por el indicador “expectativa de vida” al promedio de años que se espera que una persona viva, basado en el nivel de mortalidad de determinado grupo de la población.

Países desarrollados

Se tiene como conclusión respecto a estos datos que se presenta una media de 80 años, donde los años mínimo que podría vivir una persona serían los 73 años apróximadamente y lo máximo 83, dando como diferencia apenas 10 entre dichos años de referencia y sobre todo, apenas 3 años desde la media hacía el punto máximo. Además, se puede observar gracias a los histogramas que se acumulan la mayoría de datos desde el primer cuartil hacía la derecha.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   73.78   78.08   80.63   79.64   81.65   83.10

Países en vía desarrollo

Por este lado, tenemos una diferencia entre la media casi de 18 años a comparación con respecto a los países desarrollados, dentro de estos se tiene un promedio de 68 años.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   47.42   62.19   70.04   67.81   74.24   79.40

Gracias a los histogramas se puede tener el intervalo de referencia de las edades, donde por una primera parte los países desarrollados están entre 79.6 hasta 83.10 y por otro lado en los países en vía de desarrollo entre 47.42 hasta 80.

Mortalidad infantil

Este indicador nos permite mostrar la probabilidad de que un recién nacido muera antes de que alcance a cumplir un año de vida, capaz de reflejar las condiciones de salud de los niños y los determinantes sociales.

Países desarrollados

Dado estos resultados tenemos que el promedio de mortalidad infantil de los países desarrollados es de 0.5 niños por cada mil niños.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2500  0.3600  0.4100  0.4988  0.5500  1.6600

Países en vía desarrollo

Por otro lado, en los paises en vía de desarrollo, tenemos una media de que 4.5 niños de cada mil niños fallece.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.480   1.640   3.110   4.521   7.168  14.890

Dados los resultados en los histogramas, se puede evidenciar la gran brecha que existe en la mortalidad de los niños, donde influyen distintos factores que permiten clasificar a los países en desarrollados, entre ellos la atención perinatal que presentan los que ya están más avanzados.

Gasto en salud

Porcentaje de PIB per cápita destinado a salud

Países desarrollados

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.328   7.021   8.715   8.476  10.241  16.285

Países en vía desarrollo

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.218   3.796   5.250   5.534   6.875  12.315

Porcentaje de gasto estatal destinado a salud

Países desarrollados

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.51   12.90   15.34  379.74   56.29 2012.00

Países en vía desarrollo

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##    2.140    7.867   12.865  430.423  333.343 2012.000

Escolaridad

Representa el promedio de años de educación formal completados por los habitantes adultos (mayores de cierta edad: 25 años) en un país específico en un momento determinado. Los años de escolaridad indican el nivel promedio de educación alcanzado por la población adulta y se utilizan como medida del capital humano en un país.

Países desarrollados

En este caso, se tiene que el promedio de años que se tienen para una educación formal dentro de los países con mayor índice de desarrollo es de 11.6 años, donde se tiene un nivel máximo de 14 años y un punto medio de 11.8 siendo mayor que la media.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    7.50   11.00   11.80   11.66   12.50   14.00

Países en vía desarrollo

Se tiene una media más baja respecto a los países desarrollados con un resultado de 7 años.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.400   4.800   7.400   7.066   9.200  12.500

Resultados

Para realizar el proceso de clasificación, se opta por usar el método KNN (K-Nearest Neighbors) ya que se trata de un algoritmo fácil de implementar y de interpretar.

## k-Nearest Neighbors 
## 
## 70 samples
## 10 predictors
##  2 classes: 'Developed', 'Developing' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 70, 70, 70, 70, 70, 70, ... 
## Resampling results across tuning parameters:
## 
##   k   Accuracy   Kappa     
##    5  0.8488764  0.49303534
##    7  0.8512261  0.47338892
##    9  0.8511667  0.46309314
##   11  0.8524729  0.46072122
##   13  0.8514266  0.42825163
##   15  0.8520440  0.42632564
##   17  0.8387685  0.37085355
##   19  0.8357255  0.33738506
##   21  0.8357881  0.32546186
##   23  0.8342445  0.30243128
##   25  0.8379772  0.33073708
##   27  0.8304551  0.27958857
##   29  0.8270621  0.26780199
##   31  0.8239053  0.22074182
##   33  0.8154212  0.12038352
##   35  0.8133160  0.08734726
##   37  0.8133160  0.08734726
##   39  0.8101160  0.05453935
##   41  0.8085160  0.02862385
##   43  0.8085160  0.02862385
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 11.

Predicciones del modelo y su respectivo porcenaje

Matriz de confusión y datos sobre exactitud (Accuracy)

## Confusion Matrix and Statistics
## 
##             Reference
## Prediction   Developed Developing
##   Developed          5          2
##   Developing         1         22
##                                           
##                Accuracy : 0.9             
##                  95% CI : (0.7347, 0.9789)
##     No Information Rate : 0.8             
##     P-Value [Acc > NIR] : 0.1227          
##                                           
##                   Kappa : 0.7059          
##                                           
##  Mcnemar's Test P-Value : 1.0000          
##                                           
##             Sensitivity : 0.8333          
##             Specificity : 0.9167          
##          Pos Pred Value : 0.7143          
##          Neg Pred Value : 0.9565          
##              Prevalence : 0.2000          
##          Detection Rate : 0.1667          
##    Detection Prevalence : 0.2333          
##       Balanced Accuracy : 0.8750          
##                                           
##        'Positive' Class : Developed       
## 

Como se puede observar en la matriz de confusión, el índice de precisión resultante es de 0.9 lo que quiere decir que hay un 90% de exactitud, lo anterior sobre un intervalo de confianza del 95%. Por otro lado podemos interpretar que el porcentaje de la base de datos que se clasificó de manera incorrecta es del 10% (tasa de error).

Resultados arrojados:

  • 5 verdaderos positivos
  • 1 falso positivo
  • 2 falsos negativos
  • 22 verdaderos negativos

Los paises fueron clasificados como desarrollados correctamente en un 83.3%, según el indicador de sensibilidad. Los paises en vía de desarrollo fueron clasificados con una tasa del 91.7% de especificidad. Mencionado lo anterior, se tiene como valor de predicción positivo de 71.4% y un valor de predicción negativo de 95.6%, dando a entender la alta probabilidad de que el país en vía de desarrollo sea clasificado como tal.

Se lograron clasificar de forma correcta 5 paises desarrollados y 22 paises emergentes.

A continuación se muestra el gráfico de exactitud, el cual indica el valor de k situado entre el intérvalo 5:43. Se determina que el valor correspondiente a la máxima exactitud es k = 11.

Curva ROC

Para visualizar el equilibrio entre la sensibilidad y especificidad del modelo utilizado se muestra el gráfico de curva ROC. Visualmente se puede determinar mediante la curva que hay un alto nivel de rendimiento en la capacidad predictiva del modelo.

Conclusiones

En el desarrollo de este taller, se han explorado las diferentes herramientas relacionadas al aprendizaje supervisado, permitiendo así una comprensión sobre cómo un algorítmo logra realizar clasificaciones de datos proporcionados que dependen de un contexto y un análisis propio del investigador.

De acuerdo a la base de datos “WHO_2” se escogieron unas variables específicas del año 2012 y con ello se dió la selección del modelo más apropiado de clasificación, en este caso, modelo KNN. Se obtuvo un resultado de k = 11 que equivale a los vecinos cercanos y valor máximo, lo cual permite evaluar con un porcentaje de exatitud del 90% qué países cuántos países son desarrollados y emergentes.

Las variables seleccionadas para la investigación cuentan con una relevancia significativa que se logró evidenciar en los resultados, haciendo énfasis en los índices de especificidad y sensibilidad del modelo, puesto que se tuvieron en cuenta ámbitos de caracter social, económico y cultural optimizando así la capacidad predictiva en cuanto a países desarrollados frente a los emergentes.