En este trabajo se analizará la valorización de la educación en el siglo XXI, empleando técnicas de aprendizaje supervisado aplicadas a variables claves como el PIB per cápita, la valoración de la educación (por encima del promedio), los años de escolaridad ajustados por aprendizaje (LAYS), la tasa de alfabetización adulta, la tasa bruta de matrícula en educación secundaria y el número de investigadores. El análisis busca comprender cómo interactúan estas variables y de qué manera los países con mejores indicadores de desarrollo educativo, económico y científico tienden a otorgar un mayor valor a la educación. Mediante el uso del algoritmo knn y logit de clasificación, el modelo busca identificar factores asociados a sistemas educativos exitosos. Los resultados proporcionarán cuantitativamente qué factores económicos y sociales permiten que haya una mayor probabilidad de valorar la educación, comparando el desempeño educativo entre países.
Para este informe, se consideraron las siguientes variables, las cuales aportan información relevante para la valoración de la educación.
Esta variable representa el porcentaje del gasto total que el gobierno destina al sector educativo dentro de su presupuesto público. Un valor alto sugiere que el gobierno asigna una mayor proporción de sus recursos a financiar actividades relacionadas con la educación, como la infraestructura escolar, salarios de docentes, materiales educativos y programas de apoyo estudiantil.
Mide el nivel promedio de ingreso por persona, reflejando la capacidad económica de un país. Un valor elevado indica que los países con mayores ingresos suelen invertir más en educación pública.
Esta variable indica el número de personas que saben leer y escribir por cada millón de habitantes. Un valor alto refleja el nivel educativo básico de la población y es un indicador importante del desarrollo humano y del acceso a la educación en un país.
Esta variable indica el número de personas dedicadas a actividades de investigación y desarrollo (I+D) por cada millón de habitantes. Refleja la capacidad científica, tecnológica e innovadora de un país, así como su inversión en educación y progreso.
Esta variable mide el porcentaje de estudiantes matriculados en la educación secundaria, independientemente de su edad. Un valor alto indica un mayor compromiso educativo y mayor gasto en educación.
La variable objetivo escogida para este análisis fue la “calidad educativa”, ya que permite clasificar a los países según el nivel de eficiencia y rendimiento de sus sistemas educativos. Este indicador combina factores como el gasto gubernamental en educación y el nivel de alfabetización. En este caso, la calidad educativa se define como una variable binaria, la cual se divide en dos categorías: Calidad educativa alta, cuando el valor es mayor o igual a 9, y calidad educativa baja, cuando el valor es menor a 9. Esta clasificación permite identificar si el sistema educativo garantiza el acceso efectivo al conocimiento y al desarrollo de competencias, o si presenta limitaciones asociadas a la falta de recursos y otros factores estructurales. Esta variable es fundamental para identificar los factores que se asocian a sistemas educativos exitosos, predecir el desarrollo de capital humano, orientar a políticas educativas públicas, comparar el desempeño educativo entre países, entre otros.
Para llevar a cabo la aplicación del algoritmo K-Nearest Neighbors (KNN), se utilizó la base de datos Our World in Data, de la cual se seleccionaron las variables necesarias para construir el modelo. Se tomó como variable objetivo la “calidad educativa”, ya que permite identificar los factores asociados a la educación de calidad. El proceso comenzó con la carga de las librerías necesarias para el análisis KNN y, posteriormente, se procedió a renombrar las 6 variables de la siguiente manera:
Luego de este proceso, se carga la base de datos completa con toda la información y se procede a crear una variable binaria, con el fin de aplicar correctamente el aprendizaje supervisado y construir el modelo KNN. Para ello, es necesario considerar tres métricas de evaluación fundamentales, las cuales se describen a continuación:
Accuracy: Es la proporción de predicciones correctas respecto al total de predicciones realizadas.
Sensitivity: Indica la proporción de positivos reales que el modelo identifica correctamente.
Specificity: Mide la proporción de negativos reales que el modelo identifica correctamente.
De igual manera, se aplicará la matriz de confusión, la cual es de mucha utilidad para el algoritmo KNN, ya que compara los resultados del modelo con los valores reales.
| Variable | Min. | 1st Qu. | Median | Mean | 3rd Qu. | Max. |
|---|---|---|---|---|---|---|
| Gasto_en_educacion | 5.40 | 11.34 | 13.88 | 14.29 | 17.22 | 24.12 |
| GDP_per_capita | 1006.04 | 5635.70 | 15025.01 | 24602.16 | 38394.12 | 118535.90 |
| promedio_alfabetismo | 23.53 | 57.70 | 79.09 | 73.75 | 91.75 | 100.00 |
| promedio_investigadores | 10.11 | 79.17 | 566.45 | 1359.74 | 1848.66 | 7396.71 |
| promedio_asistentes | 8.01 | 42.87 | 74.29 | 68.16 | 94.53 | 138.77 |
No se incluyo la variable “calidad de educacion”, ya que solo se tomaron en cuenta las variables cuantitativas.
La matriz de correlación evidencia que las variables alfabetismo,
investigadores y asistencia escolar tienden a estar positivamente
relacionadas entre sí y con el PIB per cápita, mientras que el gasto en
educación no presenta una relación directa fuerte, lo que sugiere que no
solo importa cuánto se gasta, sino cómo se invierte en la educación.
Por ultimo, se analiza la variable calidad educativa, ya que en la anterior grafica no se tomo en cuenta y se realizara mediante un diagrama de barras.
El gráfico muestra la distribución de la variable Calidad de la Educación, clasificada en dos categorías Sí y No. Se observa que la mayoría se concentran en la opción No, con una frecuencia ligeramente superior a la de la categoría Sí. Esto indica que una proporción mayor considera que la calidad de la educación no es adecuada. Aun así, la diferencia entre ambas categorías no es muy amplia, lo que indica una percepción equilibrada entre quienes valoran positivamente y negativamente la calidad educativa.
El modelo KNN en nuestro estudio demostro ser altamente efectivo, permitiendo clasificar la calidad educativa basandonos en nuestro indicadores propuestos.
Aqui tenemos una matriz de confusion que nos hace ver la precisión de nuestro modelo:
| Real Alta | Real Baja | |
|---|---|---|
| Predicción Alta | 19 | 2 |
| Predicción Bajo | 2 | 13 |
Aquí podemos ver que obtenemos:
¿Qué significa esto?
Interpretación de Resultados
El modelo KNN demuestra un alto rendimiento predictivo, con una exactitud global del 88.89%. La sensibilidad del 90.48% indica una gran capacidad para identificar correctamente los casos de calidad educativa alta, mientras que la especificidad del 86.67% refleja igualmente un muy buen desempeño en la identificación de casos de calidad educativa baja. Por parte del coeficiente Kappa es de un 0.771 confirma un acuerdo sustancial entre las predicciones y los valores reales, por lo que nuestro modelo es consistentemente bueno y no por azar.
El modelo Logit al contrario del modelo KNN en este estudio, no fue optimo, sino que demostro no ser nada efectivo e incluso ser menos viable que el azar, teniendo en cuenta que es una variable binaria.
| Real Alta | Real Baja | |
|---|---|---|
| Predicción Alta | 1 | 13 |
| Predicción Bajo | 20 | 2 |
¿Qué significa esto?
De 36 países en test, solo 3 fueron clasificados correctamente
33 errores (13 falsos positivos + 20 falsos negativos)
El modelo detecta solo el 4.76% de países con educación de alta calidad
El 13.33% de las predicciones “Baja” son correctas
Análisis de los Errores
Falsos Positivos (13): Países clasificados como “Alta” calidad educativa cuando en realidad son “Baja”. Con un impact en la sobreestimación de capacidades educativas
Falsos Negativos (20): Países clasificados como “Baja” calidad educativa cuando en realidad son “Alta”. Con un impacto en la subestimación de logros educativos existentes
No se reconocen casos exitosos que podrían servir como modelo
Exactitud (Accuracy): 8.33%
Sensibilidad: 4.76%
Especificidad: 13.33%
Coeficiente Kappa: -0.08
Interpretación de Resultados
El modelo de regresión logística demostró un *rendimiento predictivo muy bajo, con una exactitud global de solo 8.33%. La sensibilidad del 4.76% indica una capacidad casi nula para identificar correctamente los casos de calidad educativa alta, mientras que la especificidad del 13.33% refleja igualmente un desempeño muy pobre en la identificación de casos de calidad educativa baja.
El coeficiente Kappa de -0.088 indica que el modelo es peor que la clasificación por azar, sugiriendo que no existe acuerdo sustancial entre las predicciones y los valores reales.
Solo promedio_asistentes (p = 0.0332) mostró significancia estadística
Coeficiente negativo (-1.8114) indica relación inversa con calidad educativa
Gasto en educación, GDP per cápita, alfabetismo e investigadores no mostraron efectos significativos
| Métrica | KNN | Regresión Logística | Mejor Modelo |
|---|---|---|---|
| Exactitud (Accuracy) | 88.89% | 8.33% | KNN |
| Sensibilidad | 90.48% | 4.76% | KNN |
| Especificidad | 86.67% | 13.33% | KNN |
| Coeficiente Kappa | 0.771 | -0.088 | KNN |
| Verdaderos Positivos | 19/21 | 1/21 | KNN |
| Verdaderos Negativos | 13/15 | 2/15 | KNN |
El modelo de regresión logística no es adecuado para este problema de clasificación debido a su extremadamente bajo rendimiento predictivo. Aunque el AIC (63.429) sugiere un ajuste razonable a los datos de entrenamiento, el modelo no generaliza bien a nuevos datos.
Modelo Recomendado: KNN con K=13
El modelo KNN demostró un rendimiento predictivo significativamente superior en todos los aspectos evaluados, siendo la opción óptima para la clasificación de calidad educativa de países.
El modelo KNN demostró ser significativamente superior debido a:
a) Naturaleza No Lineal del Problema
Las relaciones entre variables educativas y calidad son complejas
KNN captura patrones no lineales e interacciones entre variables
Regresión logística asume linealidad que no existe en estos datos
b) Capacidad de Generalización
KNN: 88.89% accuracy en datos no vistos
Logit: 8.33% accuracy (peor que adivinar al azar)
c) Balance Predictivo
KNN mantiene alto desempeño en ambas clases
Logit falla en detectar la clase “Alta” (solo 4.76% sensibilidad)
Hallazgo Contraintuitivo: La relación negativa entre asistencia escolar y calidad educativa en el modelo logístico sugiere posibles trade-offs entre cobertura y calidad en sistemas educativos.
Variables Clave: El éxito del KNN indica que la calidad educativa emerge de la combinación específica de múltiples factores, no de relaciones lineales simples.
El modelo KNN con K=13 es altamente efectivo para clasificar la calidad educativa de países, alcanzando 88.89% de accuracy.
La regresión logística resultó inadecuada para este problema específico, debido a la naturaleza no lineal de las relaciones.
La calidad educativa depende de interacciones complejas entre factores económicos y educativos, mejor capturadas por algoritmos no lineales.
El gasto en educación por sí solo no garantiza calidad, requiriéndose una combinación balanceada de múltiples factores.
¿El modelo ajustado logró responder al objetivo de la investigación?
SÍ, el modelo KNN ajustado logró responder exitosamente al objetivo porque:
Alta Capacidad Predictiva: 88.89% accuracy demuestra efectividad en clasificación
Significancia Estadística: p-value = 6.84e-05 confirma que los resultados no son por azar
Aplicabilidad Práctica: El modelo puede ser usado por policymakers para identificar países con sistemas educativos exitosos
Generalización: Buen desempeño en datos no vistos (test set)
Benchmarking: Identificar países con patrones similares para aprender mejores prácticas
Monitoreo continuo: Seguir indicadores clave identificados por el modelo
Explorar Random Forest: Combinar poder predictivo con interpretabilidad
Incluir variables adicionales: Calidad docente, gasto por estudiante, equidad educativa, entre otras.
Análisis temporal: Estudiar evolución de la calidad educativa
Our World in Data. (2023). Global Education [Data set]. Retrieved from https://ourworldindata.org/search?topics=Global+Education&resultType=all