Trabajo Supervisado
Introducción
El presente trabajo tiene como propósito aplicar y comparar dos metodologías distintas con el fin de predecir si un país presenta una tasa de alfabetización alta, utilizando como base diversas variables socioeconómicas y de desarrollo. Las metodologías empleadas serán el algoritmo de vecinos más cercanos (KNN) y árboles de decisión, estos últimos implementados a través de los métodos tree y rpart. Las variables consideradas en el análisis son:
- El índice de desarrollo humano.
- La esperanza de vida al nacer.
- Los años de escolaridad esperados.
- El acceso a las tecnologías de la información y la comunicación (TIC).
- Los años promedio de escolarización.
- El ingreso nacional bruto per cápita.
- La tasa de alfabetización.
- La tasa de natalidad por cada mil habitantes .
- El acceso al agua potable.
El objetivo principal del estudio es evaluar y comparar la efectividad de estas metodologías para predecir la clasificación final de los países en términos de su nivel de alfabetización, brindando así una herramienta que permita inferir esta condición a partir de otros indicadores clave.
Punto de corte variable binaria
Cuando más del 90% de las personas en un país saben leer y escribir, se puede decir que ese país ha logrado una alfabetización alta. ¿Por qué es importante alcanzar ese punto?
Porque significa que casi todos tienen las herramientas básicas para aprender, informarse y tomar decisiones, esto se traduce en una educación más fuerte desde los primeros años, mejores resultados en la escuela y más posibilidades de seguir estudiando o acceder a un buen trabajo.
También se nota en la calidad de vida, las personas entienden mejor la información sobre salud, pueden cuidar mejor de sí mismas y de los demás, y tienen más oportunidades de mejorar sus ingresos. Además, se facilita el uso de tecnología, lo que impulsa aún más el desarrollo económico.
Al final, llegar a ese 90% no es solo una cifra, es una clara muestra de que la alfabetización ya no es un problema masivo en la siguiente Grafica podemos observar la distribuccion de la cantidad de paises clasificados e identificados con “SI” los mayores a 0.9 y “NO” los paises inferiores a esta medida.
Definición de las variables
Índice de Desarrollo Humano (IDH)
El IDH es una medida compuesta que incluye dimensiones clave como salud, educación e ingreso. Un país con un alto IDH tiende a tener políticas públicas más robustas en educación, mejor infraestructura y mayores inversiones sociales, lo que se traduce en mayores niveles de alfabetización.
Esperanza de Vida al Nacer (ESP_V)
Una mayor esperanza de vida suele asociarse con un mejor sistema de salud y calidad de vida general. Las sociedades donde las personas viven más tiempo suelen tener mayor estabilidad institucional y mejores oportunidades educativas a lo largo de la vida, favoreciendo mayores niveles de alfabetización.
Años de Escolaridad Esperados(AEE)
Esta variable refleja el número de años que un niño que entra al sistema educativo puede esperar permanecer en él. A mayor cantidad de años esperados, mayor es la probabilidad de adquirir habilidades básicas como la lectura y la escritura, fundamentales para alcanzar una alta tasa de alfabetización.
Acceso a las TIC (AC_TIC)
El acceso a tecnologías como internet y computadoras facilita la disponibilidad de recursos educativos y oportunidades de aprendizaje autónomo. Además, promueve una cultura de información y conocimiento que refuerza las competencias lectoras y cognitivas.
Años Promedio de Escolarización (APR_E)
Este indicador refleja el nivel educativo alcanzado por la población adulta. Una media alta sugiere que generaciones pasadas han accedido y permanecido en el sistema educativo, lo que correlaciona directamente con altos niveles de alfabetización en la población.
Ingreso Nacional Bruto per cápita (INB)
Un mayor INB per cápita indica un mayor poder adquisitivo y una economía más sólida, lo que generalmente se traduce en una mayor inversión estatal y familiar en educación, infraestructura escolar y materiales didácticos, factores que fomentan la alfabetización.Tasa de Natalidad (T_NAT)
Las tasas de natalidad más bajas suelen encontrarse en países con mayor desarrollo y mayor educación de las mujeres. Un menor número de hijos permite una mayor inversión por niño en educación, lo que puede impactar positivamente en los niveles de alfabetización.
Acceso al Agua Potable(ACC_AP)
El acceso generalizado al agua potable es un indicador indirecto de desarrollo e infraestructura básica. Comunidades con acceso a servicios esenciales como este tienden a contar también con servicios educativos estables y eficientes, lo cual favorece la alfabetización.Metodología
Se aplicó técnicas de aprendizaje automático para el análisis y clasificación de datos. Se utilizaron algoritmos como K-Nearest Neighbors (KNN) y árboles de decisión ya que permiten identificar patrones y realizar predicciones a partir de conjuntos de datos multivariados.Para alimentar estos modelos, se construyó una base de datos utilizando información obtenida de fuentes internacionales confiables, específicamente del Banco Mundial de Datos y de la plataforma Our World in Data, la cual se presenta a continuación:
Implementación del modelo KNN
Se utilizó la base de datos compuesta por 193 países, en la cual se incluyen las variables previamente justificadas. La metodología de predicción basada en K-Nearest Neighbors (KNN) fue implementada mediante el software R-Studio, adoptando un enfoque supervisado. Con el fin de entrenar adecuadamente el modelo, el conjunto de datos fue dividido en dos subconjuntos:
- 60% de los registros fue destinado al entrenamiento del modelo.
- 40% restante se reservó para la validación y prueba del desempeño predictivo.
Implementación de árboles de decisión
De forma paralela al enfoque basado en KNN, se implementó la metodología de árboles de decisión en R-Studio con el objetivo de comparar su capacidad predictiva respecto a la clasificación de países según su nivel de alfabetización. Para garantizar la coherencia metodológica y permitir una comparación objetiva entre ambos modelos, se utilizaron los mismos criterios de segmentación y tratamiento de datos que en el caso anterior.
En esta etapa, se aplicaron dos variantes del algoritmo de árboles de decisión:
- La función tree() del paquete tree.
- La función rpart() del paquete rpart.
Ambas implementaciones permiten construir modelos interpretativos que segmentan el espacio de decisión con base en divisiones sucesivas de las variables predictoras, identificando así patrones asociados a altos niveles de alfabetización.
Resultados Descriptivos
A continuación unas tablas en donde podemos observar estadísticas descriptivas de 2 grupos distinguidos por sí poseen una tasa de alfabetización alta o no.
Con el fin de alcanzar una explicación al porqué de la dicotomización de la base de datos encontramos que por medio de valores tales como la media, mediana, extremos se hace más evidente la correcta división de la base de datos con el criterio de una alfabetización considerada alta cuando esta sobrepasa el 90% proporcionando las siguientes inferencias sobre una tasa de alfabetización con respecto a las otras variables predictoras seleccionadas.
- Existe una brecha significativa en el IDH entre ambos grupos, lo que sugiere que los países con mejores condiciones de vida, salud y educación. tiene una alta alfabetización.
- Una mayor alfabetización se asocia con una vida más larga, probablemente debido a una mejor educación sanitaria, mayor acceso a servicios médicos y mayor nivel de conciencia sobre hábitos saludables.
- Las poblaciones altamente alfabetizadas tienen un mayor compromiso educativo proyectado, lo cual repercute positivamente en el capital humano y la empleabilidad futura.
- No solo se espera que estudien más años, sino que efectivamente ya han estudiado mucho más debido a la brecha que hay entre el promedio de de años de escolarizacion de ambos grupos.
- El ingreso (INBpc) medio es el mismo, esto solo indica que aunque el país incremente sus ingresos esto no repercute en una tasa de alfabetización alta, pensaríamos que a mayor ingreso nacional se generaría una mayor inversión a la calidad de la infraestructura de las instituciones y programas académicos, pero los números demuestran que esto no sucede.
- La baja alfabetización está fuertemente asociada con tasas de natalidad más altas, lo cual puede deberse a que mas cantidad de hijos por familia hacen dificultuoso la posibilidad de cubrir sus colegiaturas, asi mismo como la detencion abrupta de estudios de personas que estan esperando o criando un hijo.
- El acceso al agua potable refleja condiciones de infraestructura y salubridad necesarias para el continuo uso en instituciones educativas, si las instituciones no tuvieran buenas condiciones no podrían prestar el servicio de enseñanza y así incrementar la tasa de alfabetización nacional.
Métricas y herramientas para la evaluación de los modelos.
Para evaluar el rendimiento de los modelos de clasificación implementados, se utilizan tres herramientas principales: la matriz de confusión, las métricas de rendimiento derivadas de ella, y la curva ROC con su AUC.
-La Matriz de Confusión La matriz de confusión se utiliza para evaluar el rendimiento de un modelo de clasificación, proporcionando una tabla que compara las predicciones del modelo con los valores reales de los datos en un conjunto de prueba. Se organiza con las filas representando las clases reales y las columnas las clases predichas.
Contiene cuatro resultados posibles, que describen las combinaciones de predicción y realidad:
Verdaderos Positivos (VP): Casos donde el modelo predijo correctamente la clase positiva. Falsos Negativos (FN): Casos donde el modelo predijo la clase negativa pero el valor real era positivo. Falsos Positivos (FP): Casos donde el modelo predijo la clase positiva pero el valor real era negativo. Verdaderos Negativos (VN): Casos donde el modelo predijo correctamente la clase negativa. Los números en la diagonal principal (VP y VN) representan las predicciones correctas. Los valores fuera de la diagonal (FN y FP) representan los errores de clasificación. Un modelo con alto rendimiento tendrá valores altos en la diagonal y bajos fuera de ella.
Métricas de Rendimiento A partir de la matriz de confusión, se derivan métricas clave que proporcionan una evaluación más detallada del rendimiento del modelo:
-Accuracy (Exactitud): Mide la proporción total de predicciones correctas sobre el total de instancias. Es el porcentaje de aciertos generales del modelo.
-Sensitivity (Sensibilidad): Es la capacidad del modelo para identificar correctamente todos los casos positivos reales (Verdaderos Positivos sobre el total de positivos reales).
-Specificity (Especificidad): Es la capacidad del modelo para identificar correctamente todos los casos negativos reales (Verdaderos Negativos sobre el total de negativos reales).
-Pos Pred Value (Valor Predictivo Positivo): Es la proporción de instancias clasificadas como positivas que son realmente positivas (Verdaderos Positivos sobre el total de predicciones positivas).
-Neg Pred Value (Valor Predictivo Negativo): Es la proporción de instancias clasificadas como negativas que son realmente negativas (Verdaderos Negativos sobre el total de predicciones negativas).
-Kappa: Mide la concordancia entre las predicciones del modelo y las clases reales, ajustando por el azar.
-Balanced Accuracy (Exactitud Balanceada): Es el promedio de la Sensibilidad y la
-Especificidad. Es una métrica útil en datasets desbalanceados. Curva ROC y AUC
-La Curva ROC es un gráfico que permite visualizar el rendimiento de un modelo de clasificación en diferentes puntos de corte. Representa la Tasa de Verdaderos Positivos (Sensibilidad) en el eje vertical contra la Tasa de Falsos Positivos (1 - Especificidad) en el eje horizontal.
Una curva que se sitúa lejos de la línea diagonal (que representa un modelo aleatorio) indica que el modelo tiene buena capacidad de discriminación. La curva muestra el compromiso entre encontrar positivos y generar falsas alarmas al variar el umbral de clasificación.
-El AUC (Área Bajo la Curva) es un valor numérico, entre 0 y 1, que resume la capacidad de discriminación global de la curva ROC. Un AUC de 1 indica una discriminación perfecta, mientras que un valor cercano a 0.5 indica un rendimiento similar al azar. Un AUC más alto sugiere un mejor rendimiento general del modelo para distinguir entre las clases.
Resultados KNN
Para evaluar el rendimiento de este modelo específico, se presenta su matriz de confusión y las métricas derivadas, calculadas en el conjunto de prueba donde se obtuvo:
Basado en esta matriz y la definición de ‘NO’ como clase positiva:
Verdaderos Positivos (VP) para ‘NO’: 26
Falsos Negativos (FN) para ‘NO’: 4
Falsos Positivos (FP) para ‘NO’: 1
Verdaderos Negativos (VN) para ‘NO’: 45
La matriz muestra que el modelo logró 26 aciertos para la clase ‘NO’ y 45 aciertos para la clase ‘SI’. Los errores fueron 4 Falsos Negativos (para ‘NO’) y 1 Falso Positivo (para ‘NO’). Esto sugiere un modelo con baja tasa de errores en ambas direcciones para la clase positiva (‘NO’).
Métricas derivadas
Accuracy (Exactitud): Con un valor de 0.9342, el modelo clasificó correctamente el 93.42% del total de las observaciones en el conjunto de prueba.
95% CI (Intervalo de confianza del Accuracy): El intervalo (0.8531, 0.9783) indica que, con un 95% de confianza, la verdadera precisión del modelo se encuentra entre 85.31% y 97.83%.
No Information Rate (NIR): El NIR de 0.6053 es la precisión base de adivinar la clase mayoritaria. La Accuracy del modelo (0.9342) es notablemente superior.
P-Value [Acc > NIR]: Un p-valor de 6.514e-11 (muy bajo, < 0.05) indica que la Exactitud del modelo es estadísticamente muy significativa y superior a la obtenida por azar basado en la clase mayoritaria.
Kappa: Un coeficiente Kappa de 0.8599 indica una excelente concordancia entre las predicciones del modelo y las clases reales, ajustando por el azar.
McNemar’s Test P-Value: Con un p-valor de 0.3711 (mayor a 0.05), no hay evidencia estadística significativa de un desequilibrio en los errores; el modelo no muestra un sesgo claro entre Falsos Positivos y Falsos Negativos.
Clase Positiva: Se confirma que la clase considerada como positiva para métricas como Sensibilidad es NO.
Sensitivity (Tasa de Verdaderos Positivos): Con 0.8667, el modelo identificó correctamente al 86.67% de los casos que realmente eran ‘NO’ (la clase positiva).
Specificity (Tasa de Verdaderos Negativos): Con 0.9783, el modelo identificó correctamente al 97.83% de los casos que realmente eran ‘SI’ (la clase negativa en este contexto), es decir, no los clasificó erróneamente como ‘NO’.
Pos Pred Value (Valor Predictivo Positivo): Con 0.9630, de todas las veces que el modelo predijo ‘NO’ (positivo), el 96.30% de esas predicciones fueron correctas.
Neg Pred Value (Valor Predictivo Negativo): Con 0.9184, de todas las veces que el modelo predijo ‘SI’ (negativo), el 91.84% de esas predicciones fueron correctas.
Prevalence (Prevalencia): El 39.47% de los casos en el conjunto de prueba pertenecen realmente a la clase positiva ‘NO’.
Detection Rate (Tasa de Detección): El modelo identificó correctamente como ‘NO’ al 34.21% del total de observaciones.
Detection Prevalence (Prevalencia de Detección): El modelo predijo que el 35.53% del total de observaciones pertenecían a la clase ‘NO’.
Balanced Accuracy (Exactitud Balanceada): Con 0.9225 (promedio de 0.8667 y 0.9783), esta métrica de Exactitud equilibrada es alta, confirmando un buen rendimiento en ambas clases, útil en datasets desbalanceados.
Árbol de Decisión Tree
El árbol de decisión generado predice la categoría de un país basándose principalmente en la variable APR_E (Promedio de Años de Escolarización). Si este valor es bajo (<= 7.65), el modelo predice directamente NO, sugiriendo que un nivel educativo inicial bajo es un fuerte indicador. Sin embargo, si el APR_E es alto (> 7.65), el árbol considera el IDH (Índice de Desarrollo Humano) como el siguiente factor clave; un IDH alto (> 0.75) en este caso lleva a predecir SI. Para países con APR_E alto pero IDH medio o bajo (<= 0.75), la predicción se refina considerando una combinación de otras variables como APR_E, T_NAT (Tasa de Natalidad), AEE, y cortes más detallados del propio IDH. En estas ramas más complejas, la variable IDH es particularmente influyente, apareciendo con múltiples puntos de corte para ajustar la predicción en rangos de desarrollo medio a bajo, y la interacción específica de todos estos factores en sus respectivos umbrales determina la predicción final de SI o NO.
Matriz de confusión modelo tree
Para tener una visión completa del rendimiento del modelo, aquí se presenta su matriz de confusión con el detalle de sus predicciones en el conjunto de prueba.
Verdaderos Positivos (VP) para ‘NO’: 27
Falsos Negativos (FN) para ‘NO’: 3
Falsos Positivos (FP) para ‘NO’: 6
Verdaderos Negativos (VN) para ‘NO’: 40
La matriz muestra que el modelo cometió un total de 9 errores (3 Falsos Negativos + 6 Falsos Positivos) en las 76 observaciones del conjunto de prueba (27+6+3+40). Los aciertos fueron 27 para la clase positiva (‘NO’) y 40 para la clase negativa (‘SI’). Al observar los errores respecto a la clase positiva (‘NO’), se aprecia que el modelo tuvo más Falsos Positivos 6 (clasificó erróneamente 6 casos ‘SI’ como ‘NO’) que Falsos Negativos 3** (no detectó 3 casos ‘NO’ reales, clasificándolos como ‘SI’). Esto indica que le resultó un poco más difícil evitar las falsas alarmas (clasificar un ‘SI’ como ‘NO’) que omitir un positivo real (clasificar un ‘NO’ como ‘SI’) en este conjunto de datos. A pesar de esto, el número total de errores es relativamente bajo, lo que se refleja en una alta precisión general.
Árbol de Desición Rpart
La interpretación de este árbol se basa en cómo las variables IDH
(Índice de Desarrollo Humano) y APR_E (Promedio de Años de
Escolarización) dividen progresivamente los datos para llegar a una
predicción.
El árbol inicia con el IDH como la variable raíz, con un punto de corte en 0.69.
Si el IDH es bajo (<= 0.69), la predicción depende de la variable APR_E, con un corte en 9. La mayoría de los países en este grupo son clasificados como ‘NO’, aunque un pequeño subconjunto con APR_E más alto (>= 9) es clasificado como ‘SI’. Si el IDH es más alto (>= 0.69), la siguiente división principal es por APR_E, con un corte en 8.7. La combinación de un IDH de 0.69 o más y un APR_E alto (>= 8.7) predice fuertemente ‘SI’. Sin embargo, para los casos con IDH de 0.69 o más pero con un APR_E moderado (< 8.7). Esto demuestra que, si bien el IDH y el APR_E son las variables clave, el IDH tiene un papel particularmente complejo y se utiliza con múltiples umbrales específicos para ajustar la predicción, especialmente en los rangos de desarrollo intermedios a altos, donde la combinación con el APR_E no es concluyente por sí sola.
Matriz Rpart
Los resultados obtenidos reflejan la efectividad del algoritmo Rpart en la clasificación de los países según el nivel de alfabetización. A continuación se muestra la matriz de confusión junto con la matriz de predicciones de Rpart.
Basándonos en esta matriz y definiendo ‘NO’ como la clase positiva:
Verdaderos Positivos (VP) para ‘NO’: 25
Falsos Negativos (FN) para ‘NO’: 5
Falsos Positivos (FP) para ‘NO’: 3
Verdaderos Negativos (VN) para ‘NO’: 43
La matriz muestra que el modelo cometió un total de 8 errores (3 Falsos Positivos + 5 Falsos Negativos) en las 76 observaciones del conjunto de prueba (25+3+5+43). Los aciertos fueron 25 predicciones correctas para la clase ‘NO’ (Verdaderos Positivos) y 43 predicciones correctas para la clase ‘SI’ (Verdaderos Negativos). Esto indica que el modelo tuvo un buen desempeño general. Al observar los errores respecto a la clase positiva (‘NO’), se aprecia que tuvo más Falsos Negativos (5) que Falsos Positivos (3). Esto sugiere que al modelo le costó un poco más evitar omitir positivos reales (clasificar ‘NO’ como ‘SI’) que evitar las falsas alarmas (clasificar ‘SI’ como ‘NO’) para la clase positiva (‘NO’) en este conjunto de datos.
Comparación de curvas ROC
De esta gráfica de curvas ROC comparativas, podemos concluir sobre la capacidad de clasificación de los tres modelos evaluados:
-Modelo KNN (Curva Azul, AUC = 0.942): Presenta el rendimiento discriminatorio más alto. Su curva se acerca más a la esquina superior izquierda, indicando una excelente capacidad para distinguir entre la clase positiva y la clase negativa a través de diferentes umbrales de clasificación. El Área Bajo la Curva (AUC) de 0.942 sugiere una probabilidad muy alta (94.2%) de que el modelo clasifique correctamente una instancia positiva y una negativa elegidas al azar.
-Modelo Tree (Curva Verde, AUC = 0.885): Muestra un rendimiento discriminatorio bueno, aunque inferior al de KNN. Su curva está por debajo de la de KNN, y su AUC de 0.885 indica una capacidad sólida para distinguir entre las clases, pero con un poco más de superposición entre las distribuciones de probabilidad predichas para ambas clases.
-Modelo Rpart (Curva Morada, AUC = 0.897): Exhibe un rendimiento discriminatorio ligeramente mejor que el modelo Tree, con un AUC de 0.897. Su curva se sitúa entre la de KNN y el modelo Tree, sugiriendo una capacidad intermedia para diferenciar entre las clases.
Conclusiones
El proceso de evaluación de los tres modelos implementados (KNN, Árbol Tree y Árbol Rpart) sobre el conjunto de prueba ha revelado diferencias significativas en su capacidad para discriminar entre las categorías de alta y baja alfabetización. Si bien los tres algoritmos demostraron ser considerablemente más efectivos que una clasificación aleatoria, su desempeño varió en términos de precisión general y manejo de errores específicos.
Al analizar las métricas de rendimiento globales, el modelo K-Nearest Neighbors (KNN) se destacó como el de mejor desempeño. Obtuvo la mayor Accuracy, alcanzando aproximadamente un 93.42% de predicciones correctas sobre el total de observaciones evaluadas. De manera crucial, el KNN también registró el AUC más alto (0.942) en el gráfico de Curvas ROC comparativas, lo que certifica su excelente capacidad general para distinguir entre las clases positiva (‘NO’) y negativa (‘SI’) a través de diferentes umbrales de decisión.
Los modelos de árbol de decisión, Rpart y Tree, también mostraron un rendimiento muy bueno, pero consistentemente inferior al de KNN en esta evaluación. El modelo Rpart presentó una Accuracy aproximada del 89.47% y un AUC de 0.897, superando ligeramente a Tree. Por su parte, el modelo Tree registró una Accuracy aproximada del 88.16% y un AUC de 0.885. Si bien ambos modelos de árbol lograron una sólida capacidad predictiva muy superior al azar, las métricas de Rpart fueron ligeramente superiores a las de Tree.
Un examen más detallado de las matrices de confusión (considerando ‘NO’ como la clase positiva) complementa esta comparativa. El KNN mostró la menor cantidad total de errores, con solo 5 fallos (1 Falso Positivo y 4 Falsos Negativos). En contraste, el modelo Rpart registró 8 errores (3 Falsos Positivos y 5 Falsos Negativos), y el modelo Tree tuvo el mayor número de errores con 9 (6 Falsos Positivos y 3 Falsos Negativos). Analizando el tipo de error, el KNN fue notablemente más efectivo en minimizar los Falsos Positivos para la clase ‘NO’ (solo 1), mientras que el Tree tuvo la mayor cantidad de Falsos Positivos (6) y el Rpart tuvo la mayor cantidad de Falsos Negativos (5).
En definitiva, la evaluación integral de los resultados – desde las métricas de Accuracy y AUC hasta el análisis específico de los tipos de errores en las matrices de confusión – señala al modelo KNN como el clasificador más efectivo para este conjunto de datos y problema particular. Su capacidad superior para distinguir las clases, reflejada en el AUC más alto y una menor tasa de errores generales y específicos para la clase de interés.
Bibliografía
- Our world in data https://ourworldindata.org/energy-production-consumption
- Banco mundial https://www.bancomundial.org/ext/es/home
- Visualización de datos en R https://www.joaquibarandica.com/post/datavizr/