1 Introducción

En este trabajo se analizará la valorización de la educación en el siglo XXI, empleando técnicas de aprendizaje supervisado aplicadas a variables claves como el PIB per cápita, la valoración de la educación (por encima del promedio), los años de escolaridad ajustados por aprendizaje (LAYS), la tasa de alfabetización adulta, la tasa bruta de matrícula en educación secundaria y el número de investigadores. El análisis busca comprender cómo interactúan estas variables y de qué manera los países con mejores indicadores de desarrollo educativo, económico y científico tienden a otorgar un mayor valor a la educación. Mediante el uso del algoritmo knn y logit de clasificación, el modelo busca identificar factores asociados a sistemas educativos exitosos. Los resultados proporcionarán cuantitativamente qué factores económicos y sociales permiten que haya una mayor probabilidad de valorar la educación, comparando el desempeño educativo entre países.

2 Metodología

2.1 Descripción de las variables

Para este informe, se consideraron las siguientes variables, las cuales aportan información relevante para la valoración de la educación.

2.1.0.1 Gasto en educación (% del gasto gubernamental)

Esta variable representa el porcentaje del gasto total que el gobierno destina al sector educativo dentro de su presupuesto público. Un valor alto sugiere que el gobierno asigna una mayor proporción de sus recursos a financiar actividades relacionadas con la educación, como la infraestructura escolar, salarios de docentes, materiales educativos y programas de apoyo estudiantil.

2.1.0.2 PIB per cápita

Mide el nivel promedio de ingreso por persona, reflejando la capacidad económica de un país. Un valor elevado indica que los países con mayores ingresos suelen invertir más en educación pública.

2.1.0.3 Tasa de alfabetismo (por millón de habitantes)

Esta variable indica el número de personas que saben leer y escribir por cada millón de habitantes. Un valor alto refleja el nivel educativo básico de la población y es un indicador importante del desarrollo humano y del acceso a la educación en un país.

2.1.0.4 Investigadores (por millón de habitantes)

Esta variable indica el número de personas dedicadas a actividades de investigación y desarrollo (I+D) por cada millón de habitantes. Refleja la capacidad científica, tecnológica e innovadora de un país, así como su inversión en educación y progreso.

2.1.0.5 Asistencia escolar (tasa bruta de matrícula secundaria)

Esta variable mide el porcentaje de estudiantes matriculados en la educación secundaria, independientemente de su edad. Un valor alto indica un mayor compromiso educativo y mayor gasto en educación.

2.2 Variable Objetivo

La variable objetivo escogida para este análisis fue la “calidad educativa”, ya que permite clasificar a los países según el nivel de eficiencia y rendimiento de sus sistemas educativos. Este indicador combina factores como el gasto gubernamental en educación y el nivel de alfabetización. En este caso, la calidad educativa se define como una variable binaria, la cual se divide en dos categorías: Calidad educativa alta, cuando el valor es mayor o igual a 9, y calidad educativa baja, cuando el valor es menor a 9. Esta clasificación permite identificar si el sistema educativo garantiza el acceso efectivo al conocimiento y al desarrollo de competencias, o si presenta limitaciones asociadas a la falta de recursos y otros factores estructurales. Esta variable es fundamental para identificar los factores que se asocian a sistemas educativos exitosos, predecir el desarrollo de capital humano, orientar a políticas educativas públicas, comparar el desempeño educativo entre países, entre otros.

2.3 Descripción del modelo

Para llevar a cabo la aplicación del algoritmo K-Nearest Neighbors (KNN), se utilizó la base de datos Our World in Data, de la cual se seleccionaron las variables necesarias para construir el modelo. Se tomó como variable objetivo la “calidad educativa”, ya que permite identificar los factores asociados a la educación de calidad. El proceso comenzó con la carga de las librerías necesarias para el análisis KNN y, posteriormente, se procedió a renombrar las 6 variables de la siguiente manera:

  1. Gasto_en_educaion = Gasto en educación (% del gasto gubernamental)
  2. calidad_educacion = Calidad educativa
  3. GDP_per_capita = PIB per cápita
  4. promedio_alfabetismo = Tasa de alfabetismo (por millón de habitantes)
  5. promedio_investigadores = Investigadores (por millón de habitantes)
  6. promedio_asistentes = Asistencia escolar (tasa bruta de matrícula secundaria)

Luego de este proceso, se carga la base de datos completa con toda la información y se procede a crear una variable binaria, con el fin de aplicar correctamente el aprendizaje supervisado y construir el modelo KNN. Para ello, es necesario considerar tres métricas de evaluación fundamentales, las cuales se describen a continuación:

  • VP = Verdaderos positivos
  • VN = Verdaderos negativos
  • FP = Falsos positivos
  • FN = Falsos negativos

2.4 Métricas de evaluación

Accuracy: Es la proporción de predicciones correctas respecto al total de predicciones realizadas.

  • Accuracy = (VP + VN) / (VP + VN + FP + FN)

Sensitivity: Indica la proporción de positivos reales que el modelo identifica correctamente.

  • Sensitivity = VP / (VP + FN)

Specificity: Mide la proporción de negativos reales que el modelo identifica correctamente.

  • Specificity = VN / (VN + FP)

De igual manera, se aplicará la matriz de confusión, la cual es de mucha utilidad para el algoritmo KNN, ya que compara los resultados del modelo con los valores reales.

3 Estadisticas descriptivas

A continuación en la siguiente tabla se muestran las estadisticas descriptivas de las variables para la creacion del modelo.
Estadísticas Descriptivas de Variables Numéricas
Variable Min. 1st Qu. Median Mean 3rd Qu. Max.
Gasto_en_educacion 5.40 11.34 13.88 14.29 17.22 24.12
GDP_per_capita 1006.04 5635.70 15025.01 24602.16 38394.12 118535.90
promedio_alfabetismo 23.53 57.70 79.09 73.75 91.75 100.00
promedio_investigadores 10.11 79.17 566.45 1359.74 1848.66 7396.71
promedio_asistentes 8.01 42.87 74.29 68.16 94.53 138.77

No se incluyo la variable “calidad de educacion”, ya que solo se tomaron en cuenta las variables cuantitativas.

3.1 Grafico de correlacion

La matriz de correlación evidencia que las variables alfabetismo, investigadores y asistencia escolar tienden a estar positivamente relacionadas entre sí y con el PIB per cápita, mientras que el gasto en educación no presenta una relación directa fuerte, lo que sugiere que no solo importa cuánto se gasta, sino cómo se invierte en la educación.

Por ultimo, se analiza la variable calidad educativa, ya que en la anterior grafica no se tomo en cuenta y se realizara mediante un diagrama de barras.

El gráfico muestra la distribución de la variable Calidad de la Educación, clasificada en dos categorías Sí y No. Se observa que la mayoría se concentran en la opción No, con una frecuencia ligeramente superior a la de la categoría Sí. Esto indica que una proporción mayor considera que la calidad de la educación no es adecuada. Aun así, la diferencia entre ambas categorías no es muy amplia, lo que indica una percepción equilibrada entre quienes valoran positivamente y negativamente la calidad educativa.

4 Resultados del Modelo

4.1 Modelo K-Nearest Neighbors

El modelo KNN en nuestro estudio demostro ser altamente efectivo, permitiendo clasificar la calidad educativa basandonos en nuestro indicadores propuestos.

4.1.1 Matriz de confusion

Aqui tenemos una matriz de confusion que nos hace ver la precisión de nuestro modelo:

Real Alta Real Baja
Predicción Alta 19 2
Predicción Bajo 2 13

Aquí podemos ver que obtenemos:

  • 19 verdaderos positivos
  • 13 verdaderos negativos
  • 2 falsos positivos
  • 2 falsos negativos

¿Qué significa esto?

  • De 36 países en test, 32 fueron clasificados correctamente
  • Solo 4 errores (2 falsos altos + 2 falsos bajos)
  • El modelo detecta el 90.5% de países con educación de alta calidad
  • El 86.7% de las predicciones “Baja” son correctas

4.1.2 Métricas de Evaluación

  • Exactitud (Accuracy): 88.89%
  • Sensibilidad: 90.48%
  • Especificidad: 86.67%
  • Coeficiente Kappa: 0.771

Interpretación de Resultados

El modelo KNN demuestra un alto rendimiento predictivo, con una exactitud global del 88.89%. La sensibilidad del 90.48% indica una gran capacidad para identificar correctamente los casos de calidad educativa alta, mientras que la especificidad del 86.67% refleja igualmente un muy buen desempeño en la identificación de casos de calidad educativa baja. Por parte del coeficiente Kappa es de un 0.771 confirma un acuerdo sustancial entre las predicciones y los valores reales, por lo que nuestro modelo es consistentemente bueno y no por azar.

4.1.3 Gráfico

4.1.3.0.1 Análisis del patrón:
  • K pequeño (5-11): Accuracy estable alrededor del 85-86%
  • K óptimo (13): Pico máximo de accuracy (88.72%)
  • K grande (15-33): Accuracy disminuye gradualmente
  • Estabilidad: Buen desempeño en un rango amplio de K
4.1.3.0.2 Interpretación del patrón:
  • K=13 representa el balance perfecto entre bias y varianza
  • K muy pequeños podrían sobreajustar (memorizar ruido)
  • K muy grandes podrían subajustar (generalizar demasiado)

4.2 Modelo Logit de clasificación

El modelo Logit al contrario del modelo KNN en este estudio, no fue optimo, sino que demostro no ser nada efectivo e incluso ser menos viable que el azar, teniendo en cuenta que es una variable binaria.

4.2.1 Matriz de confusión

Real Alta Real Baja
Predicción Alta 1 13
Predicción Bajo 20 2

¿Qué significa esto?

  • De 36 países en test, solo 3 fueron clasificados correctamente

  • 33 errores (13 falsos positivos + 20 falsos negativos)

  • El modelo detecta solo el 4.76% de países con educación de alta calidad

  • El 13.33% de las predicciones “Baja” son correctas

Análisis de los Errores

  • Falsos Positivos (13): Países clasificados como “Alta” calidad educativa cuando en realidad son “Baja”. Con un impact en la sobreestimación de capacidades educativas

  • Falsos Negativos (20): Países clasificados como “Baja” calidad educativa cuando en realidad son “Alta”. Con un impacto en la subestimación de logros educativos existentes

  • No se reconocen casos exitosos que podrían servir como modelo

4.2.2 Métricas de Evaluación

  • Exactitud (Accuracy): 8.33%

  • Sensibilidad: 4.76%

  • Especificidad: 13.33%

  • Coeficiente Kappa: -0.08

Interpretación de Resultados

El modelo de regresión logística demostró un *rendimiento predictivo muy bajo, con una exactitud global de solo 8.33%. La sensibilidad del 4.76% indica una capacidad casi nula para identificar correctamente los casos de calidad educativa alta, mientras que la especificidad del 13.33% refleja igualmente un desempeño muy pobre en la identificación de casos de calidad educativa baja.

El coeficiente Kappa de -0.088 indica que el modelo es peor que la clasificación por azar, sugiriendo que no existe acuerdo sustancial entre las predicciones y los valores reales.

4.2.3 Analisis de coeficientes

4.2.3.1 Variables Significativas:

  • Solo promedio_asistentes (p = 0.0332) mostró significancia estadística

  • Coeficiente negativo (-1.8114) indica relación inversa con calidad educativa

4.2.3.2 Variables No Significativas:

Gasto en educación, GDP per cápita, alfabetismo e investigadores no mostraron efectos significativos

5 Comparación entre ambos modelos

Métrica KNN Regresión Logística Mejor Modelo
Exactitud (Accuracy) 88.89% 8.33% KNN
Sensibilidad 90.48% 4.76% KNN
Especificidad 86.67% 13.33% KNN
Coeficiente Kappa 0.771 -0.088 KNN
Verdaderos Positivos 19/21 1/21 KNN
Verdaderos Negativos 13/15 2/15 KNN

El modelo de regresión logística no es adecuado para este problema de clasificación debido a su extremadamente bajo rendimiento predictivo. Aunque el AIC (63.429) sugiere un ajuste razonable a los datos de entrenamiento, el modelo no generaliza bien a nuevos datos.

5.1 INTERPRETACIÓN DE RESULTADOS

5.1.1 Modelo KNN - Excelente Desempeño

  • 32 aciertos de 36 predicciones (88.89%)
  • Solo 4 errores en total
  • Balance perfecto entre clases
  • Detecta el 90.48% de casos de alta calidad
  • Identifica el 86.67% de casos de baja calidad

5.1.2 Modelo Logística - Bajo Desempeño

  • Solo 3 aciertos de 36 predicciones (8.33%)
  • 33 errores en total
  • Desbalance severo en predicciones
  • Detecta solo el 4.76% de casos de alta calidad
  • Identifica solo el 13.33% de casos de baja calidad

5.1.3 RECOMENDACIÓN FINAL

Modelo Recomendado: KNN con K=13

El modelo KNN demostró un rendimiento predictivo significativamente superior en todos los aspectos evaluados, siendo la opción óptima para la clasificación de calidad educativa de países.

5.2 DISCUSIÓN

5.2.1 Superioridad del Modelo KNN

El modelo KNN demostró ser significativamente superior debido a:

a) Naturaleza No Lineal del Problema

  • Las relaciones entre variables educativas y calidad son complejas

  • KNN captura patrones no lineales e interacciones entre variables

  • Regresión logística asume linealidad que no existe en estos datos

b) Capacidad de Generalización

  • KNN: 88.89% accuracy en datos no vistos

  • Logit: 8.33% accuracy (peor que adivinar al azar)

c) Balance Predictivo

  • KNN mantiene alto desempeño en ambas clases

  • Logit falla en detectar la clase “Alta” (solo 4.76% sensibilidad)

5.2.2 Interpretación del resultado

  • Hallazgo Contraintuitivo: La relación negativa entre asistencia escolar y calidad educativa en el modelo logístico sugiere posibles trade-offs entre cobertura y calidad en sistemas educativos.

  • Variables Clave: El éxito del KNN indica que la calidad educativa emerge de la combinación específica de múltiples factores, no de relaciones lineales simples.

6 Conclusiones

6.1 Conclusiones Principales

  • El modelo KNN con K=13 es altamente efectivo para clasificar la calidad educativa de países, alcanzando 88.89% de accuracy.

  • La regresión logística resultó inadecuada para este problema específico, debido a la naturaleza no lineal de las relaciones.

  • La calidad educativa depende de interacciones complejas entre factores económicos y educativos, mejor capturadas por algoritmos no lineales.

  • El gasto en educación por sí solo no garantiza calidad, requiriéndose una combinación balanceada de múltiples factores.

6.2 Respuesta al Objetivo de Investigación

¿El modelo ajustado logró responder al objetivo de la investigación?

SÍ, el modelo KNN ajustado logró responder exitosamente al objetivo porque:

  • Alta Capacidad Predictiva: 88.89% accuracy demuestra efectividad en clasificación

  • Significancia Estadística: p-value = 6.84e-05 confirma que los resultados no son por azar

  • Aplicabilidad Práctica: El modelo puede ser usado por policymakers para identificar países con sistemas educativos exitosos

  • Generalización: Buen desempeño en datos no vistos (test set)

6.3 Recomendaciones

  • Benchmarking: Identificar países con patrones similares para aprender mejores prácticas

  • Monitoreo continuo: Seguir indicadores clave identificados por el modelo

  • Explorar Random Forest: Combinar poder predictivo con interpretabilidad

  • Incluir variables adicionales: Calidad docente, gasto por estudiante, equidad educativa, entre otras.

  • Análisis temporal: Estudiar evolución de la calidad educativa

7 Bibliografía