El sector de la salud tiene una relevancia significativa a nivel global. Los avances, investigaciones y desarrollos en este ámbito han propiciado un progreso sustancial en la calidad de vida de las personas y en la capacidad de los países para hacer frente a diferentes desafíos. Se infiere que el estado económico de un país influye en el desarrollo de su sistema de salud y en consecuencia, en el bienestar general de la población. Se plantea que existen diversas variables interrelacionadas que pueden ser indicadores para evaluar el estado de desarrollo de un país (estando estas ligadas al sector de la salud).
Para este estudio, se usó una base de datos brindada el área de Gestión de Datos de la Universidad del Valle, el cual incluye variables relevantes como Status, Life.expectancy, Adult.Mortality, Infant.deaths, Alcohol, percentage.expenditure, GDP, Thinness 10-19 years, HDI, Homicides, y Fertility. Se implementaron modelos de Aprendizaje Supervisado, específicamente el algoritmo k-Nearest Neighbors (knn) y un árbol de clasificación, para analizar la relación entre estas variables y el estado de desarrollo económico de un país.
Se llevaron a cabo pruebas con un conjunto de entrenamiento y un conjunto de prueba, evaluando la efectividad de los modelos mediante la comparación de las Curvas ROC, las Matrices de Confusión y la precisión. Se examinó detalladamente la relación entre las variables y la clasificación de los países de acuerdo a su estado de desarrollo económico.
Se recomienda finalmente un modelo específico basado en el resultado de los modelos hechos en R, para predecir de manera efectiva la categoría de un país en función de las variables estudiadas. Se incluirán los detalles técnicos adicionales sobre los modelos de Aprendizaje Supervisado utilizados, así como los códigos pertinentes y el análisis detallado de los resultados. Esperamos que este trabajo sea de gran interés y sirva como fuente de información y estudio para el uso de R en el área de Aprendizaje Supervisado.
El aprendizaje supervisado usa conjuntos de datos etiquetados para entrenar algoritmos que clasifican datos o prevén resultados con precisión, es decir ya se sabe cual es la categoría y sus características, ya se sabe de una u otra forma como se clasifica una variable. con el aprendizaje supervisado entonces clasificamos individuos según sus características con una categoría ya definida para esas características.
Debemos clasificar el estado de desarrollo económico de un país (desarrollado o emergente) usando las variables escogidas, para determinar el cumplimiento de la cuestión planteada inicialmente, se usan dos modelos para el proceso de clasificación los cuales son: algoritmo k-Nearest Neighbors (knn) y un árbol de clasificación.
Además de la escogencia de variables, se tiene en cuenta que los datos corresponden al año 2014 y que no hay datos faltantes. A continuación la relación de las variables para ser factores que clasifican a un país en desarrollado o emergente.
Se aclara que en los modelos estadísticos se van a reconocer las variables de desarrollado y emergente como developed y developing, pero en el análisis las nombraremos como desarrollado y emergente.
Esta variable corresponde a la esperanza de vida en edad de las personas. Consideramos que en los países desarrollados la esperanza de vida es significativamente mayor que en los países emergentes, esto se atribuye al progreso tecnológico, a una mejor calidad de vida y a un sistema de salud más avanzado en los países desarrollados en comparación con los emergentes. Gracias a lo anterior, esta variable puede influir para categorizar el estado de desarrollo económico de un país.
Estadísticas Descriptivas
Expectativa de vida en países en desarrollo
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 80.22226 | 81.30488 | 74.12439 | 83.5878 | 2.761934 | 78.82439 | 81.30488 | 82.15366 |
| Developing | 68.53768 | 70.45400 | 49.89100 | 79.6460 | 7.188610 | 63.17350 | 70.45400 | 74.46925 |
Observamos una diferencia significativa en la edad promedio que tendrán los miembros de un país desarrollado o emergente cuando mueran, lo que quiere decir que nuestro planteamiento es acertado.
Esta variable refleja las tasas de mortalidad de adultos entre los 15 y 60 años por cada 1000 habitantes de ambos sexos. Se considera que esta tasa influye en la categorización del desarrollo económico de un país. Los países desarrollados pueden mostrar menores tasas de mortalidad debido a su mejor calidad de vida, sistemas de salud y seguridad más sólidos, y posiblemente factores genéticos.
Estadísticas Descriptivas
Tasas de mortalidad de adultos entre los 15 y 60 años por cada 1000 habitantes de ambos sexos en países emergentes
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 80.89415 | 68.06 | 50.19 | 167.2 | 31.48292 | 57.860 | 68.06 | 94.030 |
| Developing | 196.07359 | 178.95 | 56.54 | 494.9 | 89.28868 | 128.125 | 178.95 | 248.175 |
Podemos observar gracias a las estadísticas descriptivas que nuestro planteamiento es acertado, y que el número de muertes estimado en adultos tiene una diferencia significativa según la categoría de un país.
Esta variable indica el número de muertes infantiles (menores de cinco años) por cada 1000 nacidos vivos. El cuidado de la población infantil es crucial, refleja la prioridad del sistema de salud de un país. Dado que los infantes representan el futuro de una nación, esta variable se encuentra relacionada con el desarrollo económico, e inferimos que los países desarrollados tienden a presentar tasas de mortalidad infantil más bajas en comparación con los países emergentes.
Estadísticas Descriptivas
Número de muertes infantiles (menores de cinco años) por cada 1000 nacidos vivos en países emergentes| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 0.4682927 | 0.41 | 0.23 | 1.44 | 0.2321411 | 0.3300 | 0.41 | 0.5400 |
| Developing | 4.2042546 | 2.86 | 0.43 | 13.98 | 3.3915436 | 1.5425 | 2.86 | 6.1975 |
Podemos observar la diferencia significativa según la categoría de un país en las estadísticas descriptivas, teniendo incluso que la media de muertes infantiles en países emergentes es de 4.2 muertes por cada 1000 nacidos vivos, a diferencia de los países desarrollados con 0.46 muertes por cada 1000 nacidos vivos.
Esta variable corresponde al consumo per cápita registrado (mayores de 15 años) (en litros de alcohol puro). Se elige debido a su influencia en accidentes, enfermedades, conflictos públicos y actividades delictivas, y creemos que su consumo es predominantemente en países emergentes. Aunque la información detallada no está disponible, se busca utilizar este indicador para categorizar países como desarrollados o emergentes.
Estadísticas Descriptivas
Consumo per cápita registrado (mayores de 15 años) (en litros de alcohol puro) en países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 9.196098 | 9.56 | 1.500 | 17.35 | 2.986779 | 7.6700 | 9.56 | 10.6500 |
| Developing | 3.588725 | 2.99 | 0.001 | 16.13 | 3.172716 | 0.7525 | 2.99 | 6.0625 |
Podemos observar que nuestro planteamiento fue incorrecto gracias a las estadísticas descriptivas, estas posicionan a los países desarrollados como mayores consumidores de alcohol, pero igual genera una distinción entre países desarrollados y emergentes
Esta variable hace alusión al gasto porcentual en relación con el gasto en salud como porcentaje del producto interno bruto (PIB), esto se refiere a la proporción del PIB de un país que se gasta en gastos relacionados con la salud. Esta medida se utiliza a menudo como indicador de la prioridad que un país otorga a su sistema de salud. Se espera que este sea mucho más alto en países desarrollados que en países emergentes, por lo que consideramos que es una variable vital para categorizar la economía de un país.
Estadísticas Descriptivas
Gasto porcentual en relación con el gasto en salud como porcentaje del producto interno bruto (PIB) en países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 8.510256 | 8.867919 | 3.871557 | 16.40645 | 2.374669 | 6.893023 | 8.867919 | 10.171905 |
| Developing | 5.753200 | 5.423637 | 1.914368 | 19.72742 | 2.395952 | 4.107189 | 5.423637 | 6.954176 |
Podemos observar según las estadísticas descriptivas que la diferencia entre países emergentes y desarrollados no es muy pronunciada, pero existe, y nuestro planteamiento es en general acertado, por lo que sirve esta variable para categorizar un país en emergente o desarrollado.
Esta variable contiene el PIB per cápita es el producto interno bruto dividido por la población a mitad de año. El PIB es la suma del valor agregado bruto de todos los productores residentes en la economía más los impuestos sobre los productos y menos los subsidios no incluidos en el valor de los productos. Es una variable que corresponde al área de economía, por ende se tiene que tomar en cuenta para categorizar si un país es desarrollado o emergente.
Estadísticas Descriptivas
PIB per cápita en paises desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 39421.762 | 37678.890 | 7876.8665 | 118823.65 | 24495.51 | 19890.920 | 37678.890 | 52830.174 |
| Developing | 6937.415 | 3878.506 | 274.8579 | 83858.48 | 10122.70 | 1454.632 | 3878.506 | 7944.508 |
Notamos con las estadísticas descriptivas la gran diferencia que existe en el PIB per cápita de los países desarrollados y emergentes, por lo cual es una variable vital para categorizar la economía de un país.
Esta variable corresponde al porcentaje de población definida con un índice de masa corporal (IMC) inferior a 2 desviaciones estándar por debajo de la mediana, según las referencias de la OMS para niños en edad escolar y adolescentes; el área de nutrición de un país es un factor de gran importancia, en el desarrollo de la sociedad y el funcionamiento de la misma, la desnutrición se encuentra en mayor medida en países emergentes, por causas económicas, escasez de alimentos, y demás factores, por ende decidimos que es una variable que categoriza el estado de desarrollo económico de un país.
Estadísticas Descriptivas
Porcentaje de delgadez de 10 a 19 años en la población de países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 1.295122 | 1.0 | 0.3 | 4.9 | 0.8564319 | 0.8 | 1.0 | 1.8 |
| Developing | 5.946844 | 5.7 | 0.1 | 26.8 | 4.2837538 | 2.7 | 5.7 | 7.7 |
Se aprecia la diferencia que existe en porcentaje de la delgadez en personas que tienen entre 10 y 19 años en los países desarrollados y emergentes, nuestro planteamiento resulta correcto y es una variable que nos sirve para categorizar el estado de desarrollo económico de un país.
Esta variable representa el Índice de Desarrollo Humano en términos de composición de ingresos de los recursos (IDH), consideramos que es el indicador más importantes para determinar el estado de un país, si es desarrollado o emergente, se compone de cuatro áreas principales de interés: años medios de escolaridad, años esperados de escolaridad, esperanza de vida al nacer e ingreso nacional bruto (INB) per cápita.
Estadísticas Descriptivas
IDH en países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 0.8822142 | 0.8940 | 0.778 | 0.946 | 0.0430730 | 0.8487839 | 0.8940 | 0.91900 |
| Developing | 0.6421667 | 0.6765 | 0.345 | 0.855 | 0.1293377 | 0.5367500 | 0.6765 | 0.74775 |
Podemos ver la diferencia del IDH en países según su economía, confirmamos con estas estadísticas descriptivas que esta variable es un factor que sirve para que un país entre a ser desarrollado o emergente.
La variable homicidios que representa las tasas de homicidios por 100.000 habitantes, la consideramos de gran importancia en el nivel de desarrollo de un país, puede indicar el nivel de desarrollo de un país en seguridad, cultura, educación, etc. Las tasas de homicidios más altas pueden pertenecer a países emergentes, y las más bajas a países desarrollados.
Estadísticas Descriptivas
Tasas de homicidios por 100.000 habitantes en países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 1.632683 | 1.09 | 0.20 | 6.29 | 1.539937 | 0.820 | 1.09 | 1.49 |
| Developing | 10.729155 | 6.92 | 0.59 | 74.93 | 12.707141 | 3.445 | 6.92 | 11.40 |
Existe una gran diferencia en las tasas de homicidios entre países desarrollados y emergentes, es una variable significativa, influye como un factor del estado de desarrollo económico de un país.
Esta variable refleja el número de hijos que tendría una mujer si viviera hasta el final de sus años fértiles. Creemos que los países con tasas de fertilidad más bajas son los más desarrollados económicamente, a medida de que los países avancen económicamente, más bajas serán sus tasas de fertilidad, por ende consideramos que esta variable es un factor que sirve para categorizar el desarrollo de la economía de un país.
Estadísticas Descriptivas
Tasa de fertilidad en países desarrollados
| Status | Media | Mediana | Minimo | Maximo | DesEst | Cuartil1 | Cuartil2 | Cuartil3 |
|---|---|---|---|---|---|---|---|---|
| Developed | 1.670220 | 1.60 | 1.25 | 3.02 | 0.3339911 | 1.44 | 1.60 | 1.8700 |
| Developing | 3.193288 | 2.74 | 1.26 | 7.34 | 1.3817160 | 2.08 | 2.74 | 4.2975 |
Podemos observar que el planteamiento hecho fue acertado, la diferencia entre países desarrollados y emergentes está bien marcada por lo que esta variable sirve para categorizar el estado de desarrollo económico de un país.
Usamos dos tipos de modelo para la clasificación en este trabajo, el modelo KNN y el modelo de árbol de clasificación.
El modelo de k vecinos más cercanos, también conocido como KNN o k-NN (k-Nearest Neighbors), es un algoritmo que cumple la función de ser un clasificador de aprendizaje supervisado no paramétrico, que utiliza la proximidad para hacer clasificaciones o predicciones sobre la agrupación de un punto de datos individual.
Un árbol de clasificación es un modelo de aprendizaje supervisado que se utiliza para la clasificación de datos en función de características específicas. Este modelo utiliza un enfoque de tipo árbol, donde cada nodo interno representa una característica, cada borde representa una regla de decisión y cada nodo hoja representa el resultado de la clasificación.
Este trabajo se realizó a través de la herramienta R y los resultados de los modelos se presentan a continuación, iniciando con la explicación general en cada modelo.
## k-Nearest Neighbors
##
## 138 samples
## 10 predictor
## 2 classes: 'Developed', 'Developing'
##
## No pre-processing
## Resampling: Bootstrapped (25 reps)
## Summary of sample sizes: 138, 138, 138, 138, 138, 138, ...
## Resampling results across tuning parameters:
##
## k Accuracy Kappa
## 5 0.8621217 0.5811601
## 7 0.8600325 0.5743175
## 9 0.8710579 0.6081210
## 11 0.8639492 0.5814854
## 13 0.8682559 0.5924887
## 15 0.8732305 0.6038092
## 17 0.8749408 0.6073883
## 19 0.8723539 0.5923600
## 21 0.8733621 0.5896940
## 23 0.8733755 0.5870909
## 25 0.8754108 0.5932651
## 27 0.8727572 0.5817045
## 29 0.8748400 0.5835964
## 31 0.8716635 0.5733024
## 33 0.8711068 0.5674658
## 35 0.8725498 0.5688629
## 37 0.8693501 0.5560274
## 39 0.8678095 0.5501034
## 41 0.8636430 0.5280289
## 43 0.8544603 0.4862047
##
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 25.
Podemos apreciar que el gráfico tiene diferentes subidas y bajadas dependiendo de la cantidad de vecinos (k), para ser más precisos analizamos lo obtenido en consola con el algoritmo.
Con estos resultados se pueden realizar diferentes análisis, inicialmente tenemos en cuenta que se usaron 138 muestras para ajustar el modelo, que se usaron 10 predictores que son las variables escogidas en nuestro trabajo y que existen dos clases las cuales corresponden a desarrollado (developed) y emergente (developing).
No se realizó ningún preprocesamiento de los datos y se realizó un método de remuestreo bootstrapped de 25 repeticiones. Si analizamos los resultados obtenidos, tenemos que el mejor resultado se tiene con un k = 25 según la precisión y el valor kappa.
Accuracy:
La precisión (accuracy) es una métrica que mide la proporción de predicciones correctas realizadas por el modelo en relación con el total de predicciones. Se calcula dividiendo el número de predicciones correctas por el número total de predicciones.
Valor Kappa:
El valor Kappa es una medida de la concordancia entre las predicciones del modelo y las observaciones reales, que ajusta la precisión del modelo por la aleatoriedad del acuerdo entre clases. El valor Kappa se utiliza para evaluar el rendimiento del modelo teniendo en cuenta el acuerdo que podría ocurrir al azar.
Se crea un modelo de árbol de clasificación utilizando la función “tree” en R, a continuación se explican los resultados brindados en la consola de R.
##
## Classification tree:
## tree(formula = Status ~ ., data = Tree_train, minsize = 10)
## Variables actually used in tree construction:
## [1] "HDI" "GDP" "Infant.deaths"
## Number of terminal nodes: 5
## Residual mean deviance: 0.1131 = 15.05 / 133
## Misclassification error rate: 0.03623 = 5 / 138
Classification tree: Se imprime el título “Classification tree” para decir que se ha aplicado un modelo de árbol de clasificación para predecir la variable “Status” en función de otras variables presentes en los datos.
Función tree: Lo importante a resaltar en esta función es que el argumento “minsize = 10” que aparece en la función tree, establece el tamaño mínimo para los nodos terminales del árbol.
Variables actually used in tree construction: Muestra las variables que se utilizaron realmente en la construcción del árbol. En este caso, las variables utilizadas son “HDI”, “GDP” y “Infant.deaths”, es decir estas son las más importantes a criterio del modelo.
Number of terminal nodes: Indica el número de nodos terminales en el árbol de clasificación. En este caso, hay 5 nodos terminales.
Residual mean deviance: Es una medida de la cantidad de varianza no explicada por el modelo. Aquí, el valor de 0.1131 indica que hay una desviación media residual de 0.1131, lo que sugiere un buen ajuste del modelo a los datos. Cuanto menor sea la deviance mejor es el ajuste del árbol a las observaciones de entrenamiento.
Deviance: En el contexto de un árbol de clasificación, la “Residual mean deviance” (Desviación media residual) es una medida que evalúa la calidad del ajuste del modelo. Representa la discrepancia entre los valores observados y los valores predichos por el modelo. Esta medida cuantifica la variabilidad no explicada por el modelo es decir que puede ayudar a determinar la precisión de las predicciones del árbol de clasificación. Para interpretar la desviación residual media, podemos decir que un valor bajo de la misma indica un mejor ajuste del modelo, lo que implica que el modelo es capaz de explicar la variabilidad en los datos de manera más efectiva, y una desviación residual media más
Misclassification error rate: Es la tasa de error de clasificación, que indica la proporción de observaciones mal clasificadas en el conjunto de datos de entrenamiento. En este caso, la tasa de error de clasificación es 0.03623, lo que equivale a 5 observaciones mal clasificadas de un total de 138 observaciones. Un valor bajo de error de clasificación indica un buen rendimiento del modelo en la clasificación de los datos de entrenamiento.
A continuación se presenta de forma gráfica el árbol de clasificación
El árbol de clasificación nos dice la decisión que se toma para determinar la clasificación del país, dependiendo de las variables más importantes, entonces podemos ver que si el IDH es inferior a 0.822 se pasa a verificar si es menor a 0.7765, en este caso el país es emergente, pero si tiene un índice de IDH entre 0.7765 y 0.822 y su PIB per cápita por persona ronda en 12246.1, el país es emergente. En caso de tener un HDI mayor a 0.822, el país será desarrollado, independientemente del resultado de la variable de muertes infantiles
A continuación se utiliza el modelo k-NN entrenado anteriormente para hacer predicciones sobre un nuevo conjunto de datos, en este caso, el conjunto de datos de prueba, y lo mismo se realiza para el árbol de clasificación.
Se calcula una matriz de confusión para evaluar el rendimiento del modelo de clasificación. La función “confusionMatrix” toma como argumentos las predicciones realizadas por el modelo y la variable objetivo real. La matriz de confusión proporciona información detallada sobre el rendimiento del modelo, incluyendo la precisión, la sensibilidad, la especificidad y otros parámetros de evaluación que veremos a continuación con respecto a los resultados dados por la consola, para ambos modelos.
## Confusion Matrix and Statistics
##
## Reference
## Prediction Developed Developing
## Developed 9 2
## Developing 1 33
##
## Accuracy : 0.9333
## 95% CI : (0.8173, 0.986)
## No Information Rate : 0.7778
## P-Value [Acc > NIR] : 0.005218
##
## Kappa : 0.8138
##
## Mcnemar's Test P-Value : 1.000000
##
## Sensitivity : 0.9000
## Specificity : 0.9429
## Pos Pred Value : 0.8182
## Neg Pred Value : 0.9706
## Prevalence : 0.2222
## Detection Rate : 0.2000
## Detection Prevalence : 0.2444
## Balanced Accuracy : 0.9214
##
## 'Positive' Class : Developed
##
## Confusion Matrix and Statistics
##
## Reference
## Prediction Developed Developing
## Developed 10 4
## Developing 0 31
##
## Accuracy : 0.9111
## 95% CI : (0.7878, 0.9752)
## No Information Rate : 0.7778
## P-Value [Acc > NIR] : 0.01739
##
## Kappa : 0.775
##
## Mcnemar's Test P-Value : 0.13361
##
## Sensitivity : 1.0000
## Specificity : 0.8857
## Pos Pred Value : 0.7143
## Neg Pred Value : 1.0000
## Prevalence : 0.2222
## Detection Rate : 0.2222
## Detection Prevalence : 0.3111
## Balanced Accuracy : 0.9429
##
## 'Positive' Class : Developed
##
A continuación analizaremos una por una las variables que contienen los resultados.
Inicialmente la matriz de confusión muestra la cantidad de predicciones correctas e incorrectas hechas por el modelo en comparación con los valores reales.
En nuestro caso podemos observar que la fila “Developed” representa las predicciones del modelo para la clase “Desarrollado”, mientras que la fila “Developing” representa las predicciones para la clase “Emergente”. La columna “Developed” muestra las instancias que el modelo predijo cómo “Desarrollado”, y la columna “Developing” muestra las instancias que el modelo predijo como “Emergente”. Tenemos entonces lo siguiente.
Para el modelo knn tenemos lo siguiente
El modelo predijo la variable Desarrollado (Developed) 9 veces de manera correcta y 2 veces de manera incorrecta.
El modelo predijo la variable Emergente (Developing) 33 veces de manera correcta y 1 vez de manera incorrecta.
Y para el modelo del árbol de clasificación
El modelo predijo la variable Desarrollado (developed) 10 veces de manera correcta y 4 veces de manera incorrecta.
El modelo predijo la variable Emergente (developing) 31 veces de manera correcta y sin errores
Donde podemos apreciar predicciones muy buenas en ambos modelos.
Se refiere a la precisión general del modelo esto indica qué tan cerca están las predicciones del modelo con respecto a los valores reales, ya que la variable precisión, lo que realiza en realidad es una proporción de predicciones correctas en comparación con el total de predicciones, por lo que el modelo resulta ser muy acertado en sus predicciones pero no exacto.
Para el modelo KNN tenemos una precisión de 93.33%, mientras que para el modelo del árbol de clasificación tenemos una precisión más baja pero no significativamente ya que es del 91.11%.
El intervalo de confianza indica el rango en el que se espera que esté la precisión real del modelo en la población. Para el modelo KNN, el intervalo de confianza del 95% para la precisión está entre 0.8173 y 0.986, mientras que en el modelo de árbol de clasificación tenemos un valor entre 0.7878 y 0.9752 el cual es más amplio que el del modelo KNN.
La tasa de no información es el rendimiento que se obtendría simplemente prediciendo la clase más común en los datos de prueba. En este caso para el modelo KNN y para el modelo del árbol de clasificación el valor es de 0.7778 , lo que indica que los modelos son mejores que simplemente predecir la clase más común, aunque está es alta debido a la cantidad desigual de datos que contiene la base de datos.
El valor de p (P-Value) muestra que la precisión es significativamente mejor que la tasa de no información, en este caso el valor para el modelo KNN es del 0.005218, significativamente mejor que el valor del modelo del árbol de clasificación que es de 0.01739
El índice Kappa mide la concordancia entre las clasificaciones observadas y las predichas por el modelo, teniendo en cuenta la posibilidad de que se deba al azar. Un valor de 1 indica una concordancia perfecta, mientras que un valor de 0 indica que la concordancia es la misma que se esperaría solo por casualidad. Aquí en el modelo KNN el valor de 0.8138 indica una buena concordancia, al igual que en el modelo del árbol de clasificación con un valor de 0.775, pero se evidencia una mayor concordancia en el modelo KNN lo cual le brinda un punto a favor.
Este valor proporciona información sobre la significancia estadística del modelo y la comparación entre las predicciones observadas y las esperadas, el cual tiene un valor de 1, lo que significa que el modelo no tiene diferencias significativas en la predicción de ambas variables, por lo tanto es consistente y preciso en la predicción de las diferentes clases.
En este caso el modelo del árbol de clasificación tiene un valor de 0.13361, que si bien sigue dando como consistente al modelo, es mucho menor que el valor obtenido en el modelo KNN
También conocida como True Positive Rate (Tasa de Verdaderos Positivos), indica la proporción de casos positivos que fueron correctamente identificados por el modelo. En este caso, la sensibilidad para el modelo KNN es de 0.9000 , lo que indica que el modelo identificó correctamente el 90% de los casos reales de la clase “Desarrollado”, y para el modelo de árbol de clasificación es de 1, lo que indica que el modelo identificó correctamente el 100% de los casos reales de la clase “Desarrollado”, ambos modelos muy precisos en este aspecto pero fue exacto el del árbol de clasificación.
También conocida como True Negative Rate (Tasa de Verdaderos Negativos), indica la proporción de casos negativos que fueron correctamente identificados por el modelo. Aquí, la especificidad para el modelo KNN es 0.9429, lo que significa que el modelo identificó correctamente el 94.29% de los casos reales de la clase “Emergente”, y para el modelo de árbol de clasificación es de 0.8857 , lo que significa que el modelo identificó correctamente el 88.57% de los casos reales de la clase “Emergente”, y aquí vemos un mejor rendimiento del modelo KNN.
Esta es la proporción de casos etiquetados como positivos que realmente son positivos. El modelo KNN tiene un valor de 0.8182 indica que el 81.82% de las instancias etiquetadas como “Desarrollado” por el modelo realmente pertenecen a la clase “Desarrollado”, para el modelo de árbol de clasificación el valor es de 0.7143 indica que el 71.43% de las instancias etiquetadas como “Desarrollado” por el modelo realmente pertenecen a la clase “Desarrollado”, nuevamente tiene un mejor rendimiento el modelo KNN
Esta es la proporción de casos etiquetados como negativos que realmente son negativos. Un valor de 0.9706 indica que el 97.06% de las instancias etiquetadas como “Emergente” por el modelo realmente pertenecen a la clase “Emergente”. Para el modelo de árbol de clasificación se tiene un valor de 1 indica que el 100% de las instancias etiquetadas como “Emergente” por el modelo realmente pertenecen a la clase “Emergente”, el modelo del árbol de clasificación identificó de manera exacta la variable que no era de interés en el modelo.
Indica la proporción de la clase positiva en la muestra, en nuestro caso tenemos en ambos modelos un valor de 0.2222, lo que significa que el 22% de las instancias pertenecen a la clase positiva, es decir “Desarrollado”.
Esto indica la proporción de casos positivos que fueron identificados correctamente por el modelo. Aquí, en el modelo KNN el valor de 0.2000 indica que el modelo identificó correctamente el 20% de los casos de la clase “Desarrollado”, siendo un poco superior el modelo del árbol de clasificación con un valor de 0.2222 indica que el modelo identificó correctamente el 22% de los casos de la clase “Desarrollado”. En ambos modelos el porcentaje de identificación es bajo.
Esto indica la proporción de casos positivos predichos por el modelo. En este caso, la prevalencia de detección en el modelo KNN es de 0.2444, lo que significa que alrededor del 24.44% de las instancias se predijeron cómo “Desarrollado” por el modelo, mientras que en el modelo del árbol de clasificación es de 0.3111, lo que significa que alrededor del 31.11% de las instancias se predijeron cómo “Desarrollado” por el modelo, siendo superior a la predicción del modelo KNN, pero en ambos modelos el porcentaje es bajo.
Esto es el promedio de sensibilidad y especificidad y proporciona una medida del rendimiento general del modelo. Aquí, el valor en el modelo KNN es de 0.9214, que indica un buen rendimiento general del modelo en la clasificación de ambas clases, siendo este del 92.14%, mientras que en el modelo del árbol de clasificación el valor es de 0.9429, que indica un buen rendimiento general del modelo en la clasificación de ambas clases, siendo este del 94.29%, no existe una diferencia significativa entre ambos modelos.
En el contexto de la matriz de confusión, la clase positiva se refiere a la categoría o clase que se considera de interés principal, esta se busca predecir con mayor precisión. En este caso específico, la clase positiva se refiere a la categoría “Desarrollado” dentro del conjunto de datos. Al considerar la “clase positiva” como “Desarrollado”, ambos modelos se enfocan en predecir con precisión los casos pertenecientes a esta categoría.
Las curvas ROCR proporcionan una representación visual efectiva del equilibrio entre la sensibilidad y la especificidad de un modelo de clasificación, y el área bajo la curva es una medida importante para evaluar la capacidad de discriminación del modelo.
A continuación se tienen las curvas ROCR de ambos modelos.
Podemos observar que ambas curvas se encuentran lejos de lo que se puede considerar la línea diagonal, esto representa el desempeño de un modelo aleatorio o no informativo, podemos ver entonces que nuestros modelos son bastante buenos debido a que se alejan en gran medida de esta diagonal.
Una curva ROC ideal se acercaría lo más posible al vértice superior izquierdo, lo que indicaría una alta sensibilidad y especificidad, y vemos este comportamiento más presente en el modelo KNN.
En el presente estudio del área gestión de datos, exploramos la eficacia de dos modelos de aprendizaje supervisado, específicamente el K-Nearest Neighbors (KNN) y el árbol de clasificación, para abordar la clasificación de la variable “Status” correspondiente al estado de desarrollo económico de un país, clasificandolo como “emergente” o ”desarrollado”, con 10 variables escogidas de una base de datos brindada en clase.
Podemos concluir que los modelos de aprendizaje supervisado son herramientas excelentes que nos pueden servir en muchas áreas, y son fundamentales para las tareas de clasificación, en nuestro caso ambos modelos presentaron un rendimiento muy bueno, no perfecto, pero se acercó mucho al 100% precisión, siendo el modelo KNN un modelo que arrojó resultados del 93.33% de precisión y el modelo de árbol de clasificación un 91% de precisión.
Nos pareció que fue mejor en la clasificación de la variable “Status” el modelo KNN, por esto recomendamos este modelo, inicialmente en las comparaciones hechas en la matriz de confusión, el modelo KNN fue superior en muchos aspectos, como lo son los apartados de: accuracy, 95% CI, P-Value [Acc > NIR], Kappa, Mcnemar’s Test P-Value, Specificity, Pos Pred Value. Consideramos que ambos modelos son muy buenos y que es importante tener en cuenta que trabajan metodologías diferentes, dependiendo de diferentes factores puede ser mejor una metodología por encima de otra, es fundamental reconocer que la elección del modelo ideal depende de la naturaleza específica de los datos y del contexto en cuestión. Un comportamiento muy particular es que el modelo del árbol de clasificación indicó que el 100% de las instancias etiquetadas como “Desarrollado” por el modelo realmente pertenecen a la clase “Desarrollado”, identificó de manera exacta la variable que no era de interés en el modelo.
Además de la comparación con la matriz de confusión también utilizamos y confirmamos la gran utilidad de las curvas ROCR, es una herramienta que a simple vista ya genera mucha informacion, el grafico es de gran ayuda y se identifica rápidamente la sensibilidad del modelo, siendo muy buena para generar una comparación entre modelos, siendo el modelo KNN el que en las curvas ROCR mostró un mayor grado de sensibilidad, alejándose más de la diagonal, también por este criterio recomendamos el modelo KNN.
Una ventaja que nos brindó el árbol de clasificación fue conocer las variables que él toma como las más importantes para la clasificación del desarrollo económico de un país, siendo estas HDI, GDP, e infant deaths, las cuales planteamos como importantes desde el análisis de las estadísticas descriptivas, siendo el modelo del árbol de clasificación una herramienta que también confirma este tipo de información.
Consideramos que siempre es bueno tener estas dos herramientas a la mano más que quedarse con una porque se pueden presentar diferentes comportamientos, es bueno que el investigador se encargue por sí mismo de comparar ambos modelos porque pueden contener información particular.