Introducción:

En el contexto global actual, el nivel educativo de la población es uno de los principales indicadores del desarrollo social y económico. En particular, el porcentaje de personas que completan la educación media (nivel secundario) se ha convertido en un referente fundamental para evaluar el progreso de los sistemas educativos y la equidad en el acceso a oportunidades. Sin embargo, este acceso no se distribuye de manera equitativa entre los países. Diversos factores pueden influir en el logro educativo de una población, entre ellos la inversión en educación, la disponibilidad de docentes, el entorno tecnológico y el nivel de desarrollo del país.

En este análisis se busca identificar qué variables tienen mayor impacto en el porcentaje de población que finaliza la educación media. Para ello, se utilizó una base de datos con variables relevantes como la tasa de alfabetización, el PIB destinado a educación, el número de estudiantes por profesor, el nivel de desarrollo y el acceso a tecnología.

Se aplicaron herramientas estadísticas y gráficas para examinar las relaciones entre las variables, y se construyó un modelo de regresión lineal que permite explicar los factores que influyen directamente en el logro educativo.

Metodología:

Para el desarrollo de este proyecto, se utilizó una base de datos que contiene información de diversos países, incluyendo indicadores educativos, económicos y tecnológicos. Esta base fue procesada en R, donde se realizó la limpieza de datos y la transformación de variables categóricas para su posterior análisis.

Las variables incluidas en el análisis se dividieron en:

  • Variable dependiente:

Educación_media: Porcentaje de la población que ha finalizado la educación media (nivel secundario).

  • Variables independientes:

Numéricas:

- Alfabetización: porcentaje de la población alfabetizada.

- PIB_educacion: Porcentaje del PIB nacional destinado a la educación.

- Estudiantes_por_profesor: Relación promedio de estudiantes por docente.

Categóricas

- Nivel_desarrollo: Clasificación del país (por ejemplo, alto, medio o bajo desarrollo).

- Acceso_tecnologico: Nivel de acceso a tecnologías de la información y la comunicación.

Para identificar el efecto conjunto de las variables independientes sobre la variable dependiente (Educación_media), se empleó un modelo de regresión lineal múltiple. Este modelo permite cuantificar el impacto de cada predictor manteniendo constantes los demás, y así estimar cómo influye cada variable en el resultado.

La estructura del modelo se expresa mediante la siguiente fórmula:

Educacion_media = β₀ + β₁ * Alfabetizacion + β₂ * PIB_educacion + β₃ * Estudiantes_por_profesor + ε

Esta fórmula sirve para predecir el valor de la educación media a partir de otras variables que podrían influir en ella como las antes mencionadas

Se puede entender así:

  • Educación_media → es lo que queremos explicar o predecir.

  • β₀ → es un número llamado intercepto (es el valor que tendría la educación media si todas las demás variables fueran cero).

  • β₁, β₂, β₃ → son los coeficientes, es decir, números que nos dicen cuánto influye cada variable.

  • ε (épsilon) → es el error, o lo que el modelo no puede explicar.

Resultados descriptivos:

Para comenzar el análisis, se exploraron estadísticamente las variables de interés con el fin de comprender su comportamiento general y su distribución entre los países.

  • Estadisticas generales

    La variable dependiente Educación_media, que representa el porcentaje de la población que ha finalizado la educación media en cada país, presenta los siguientes estadísticos:

    Estadísticas descriptivas de las principales variables numéricas
    Variable Media Mediana Desviación
    Educación_media 79.96 87.12 20.29
    Alfabetización 80.97 85.45 18.43
    PIB_educacion 3.89 3.67 1.50
    Estudiantes_por_profesor 30.55 28.96 14.61

Estas estadísticas reflejan una alta variabilidad entre países en cuanto al nivel de finalización de la educación media, lo que sugiere la presencia de desigualdades estructurales que pueden estar relacionadas con variables económicas, tecnológicas y sociales.

También se evaluaron las estadísticas descriptivas de las variables independientes numéricas más relevantes. A continuación, se detallan los gráficos construidos para complementar el análisis estadísticos

- Distribución de la variable Educación Media

Se construyó un histograma para observar cómo se distribuye el porcentaje de población que finalizó la educación media. Este gráfico permite visualizar la concentración de países en torno a ciertos niveles educativos, identificando si existe simetría, sesgo o posibles valores atípicos. La mayoría de los países se agrupan en rangos intermedios, aunque también se observan algunos con porcentajes significativamente más altos o más bajos.

- Promedio de Educación Media según Nivel de Desarrollo

Se elaboró un gráfico de barras agrupadas que muestra el promedio de educación media en función del nivel de desarrollo del país. Esta visualización pone una relación clara entre el nivel de desarrollo económico-social y los resultados educativos, siendo los países con mayor desarrollo aquellos que presentan, en promedio, mayores tasas de finalización de la educación media.

- Promedio de Educación Media según Acceso Tecnológico

Otro gráfico de barras compara los promedios de educación media según el nivel de acceso tecnológico de cada país. Este análisis permite identificar cómo la infraestructura tecnológica puede estar asociada al logro educativo, observándose que un mayor acceso a tecnología suele corresponder con mejores resultados educativos.

- Relación entre Alfabetización y Educación Media

Para examinar la relación entre dos variables numéricas clave, se construyó un diagrama de dispersión entre la tasa de alfabetización y el porcentaje de población con educación media. Además, se añadió una línea de tendencia lineal que permite observar la dirección de la relación. La correlación positiva sugiere que a mayores niveles de alfabetización, también aumenta la proporción de personas que completan la educación media.

- Distribución por Nivel de Desarrollo

A través de un gráfico de caja, se exploró cómo varía la distribución de la educación media según el nivel de desarrollo. Este tipo de gráfico permite visualizar la mediana, los cuartiles y los valores extremos, revelando si existen diferencias significativas entre grupos.

- Matriz de Correlación entre Variables Numéricas

Finalmente,para comprender mejor las relaciones entre las variables numéricas del estudio, se elaboró una matriz de correlación, la cual permite observar el grado de asociación lineal entre variables.

El gráfico generado muestra lo siguiente:

- Alfabetización y Educación Media presentan una alta correlación positiva, lo que sugiere que a mayor nivel de alfabetización en un país, mayor es la proporción de personas que completan la educación media.

- Estudiantes por Profesor tiene una correlación negativa con la Educación Media, indicando que una mayor cantidad de estudiantes por docente tiende a asociarse con menores tasas de finalización de estudios.

- La relación entre PIB en Educación y las otras variables es más débil, lo que se alinea con los resultados del modelo, donde esta variable no fue estadísticamente significativa.

Resultados del modelo

Despues de aplicar el modelo de regresión lineal múltiple sobre el porcentaje de población que finaliza la educación media, se obtuvieron los siguientes resultados:

  • R-cuadrado (R²): 0.6826 → El modelo explica el 68.26% de la variabilidad en la variable dependiente.

  • R-cuadrado ajustado: 0.6636 → Aun considerando el número de variables, el modelo mantiene una buena capacidad explicativa.

  • Significancia global del modelo: p-value < 0.001, lo que indica que el conjunto de variables tiene un efecto significativo sobre la educación media.

Coeficientes del modelo de regresión
Variable Coeficiente Error.Est. t.value p.value Significancia
Intercepto 55.8267 13.6521 4.089 0.0001570 ***
Alfabetización 0.5171 0.1112 4.650 0.0000246 *** (Muy significativo)
PIB en Educación 0.3777 1.0958 0.345 0.7317730 No significativo
Estudiantes por Profesor -0.6287 0.1406 -4.471 0.0000449 *** (Muy significativo)

Interpretación:

  • Alfabetización: A mayor nivel de alfabetización, mayor probabilidad de que las personas finalicen la educación media. Un aumento de 1% en alfabetización se asocia con un incremento de 0.52 puntos en la educación media.

  • Estudiantes por profesor: Mientras más estudiantes por docente, menor es el porcentaje de finalización educativa. Por cada estudiante adicional por profesor, se reduce en promedio 0.63 puntos porcentuales la educación media.

  • PIB en educación: Aunque el coeficiente es positivo, no fue estadísticamente significativo en este modelo. Esto puede deberse a que el gasto por sí mismo no garantiza mejores resultados sin una gestión eficiente.

Los resultados permiten concluir que el logro educativo (finalización de la educación media) está determinado por factores tanto estructurales como pedagógicos:

  • La alfabetización es el factor más influyente. Mejorar los niveles básicos de lectura y escritura tiene un efecto directo y significativo en la permanencia escolar.

  • La carga docente (relación estudiante-profesor) también resulta determinante. Una menor cantidad de alumnos por profesor mejora los resultados educativos.

  • El gasto en educación no es suficiente por sí solo, se requiere acompañarlo con buenas prácticas de gestión, asignación de recursos y estrategias pedagógicas eficaces

Supuestos del Modelo de Regresión

Para que el modelo de regresión lineal sea válido, deben cumplirse ciertos supuestos. A continuación se presenta la verificación de los principales:

  • Histograma de los residuos

Este gráfico permite visualizar la distribución de los errores (residuos) del modelo. En este caso, los residuos se aproximan a una distribución simétrica y con forma de campana, lo que apoya el supuesto de normalidad de los errores.

  • Gráfico Q-Q (Quantile-Quantile Plot)

Este gráfico Q-Q nos ayuda a verificar si los residuos del modelo se ajustan a una distribución normal. Como se puede ver, la mayoría de los puntos se alinean bien con la línea diagonal roja, lo cual sugiere que el supuesto de normalidad de los residuos se cumple razonablemente bien. Esto es importante porque garantiza la validez de las inferencias estadísticas del modelo, como los intervalos de confianza y los valores p.

  • Gráfico de residuos vs. valores ajustados

Este gráfico sirve para evaluar si los errores del modelo tienen una variación constante a lo largo de los valores predichos. Esto es importante porque si los errores cambian mucho dependiendo del valor ajustado, puede afectar la confiabilidad del modelo.

En este caso, los residuos se distribuyen sin un patrón claro, lo que indica que la variación de los errores parece mantenerse estable. Por lo tanto, se cumple con este supuesto del modelo de regresión.

Conclusiones

El análisis estadístico permitió identificar y cuantificar los principales factores que influyen en el porcentaje de población que finaliza la educación media en distintos países. A través del modelo de regresión lineal múltiple, se comprobó que:

  • La alfabetización y la cantidad de estudiantes por profesor son variables clave con influencia significativa y directa en los resultados educativos. Promover políticas que fortalezcan las habilidades básicas y reduzcan la sobrecarga docente puede tener un impacto positivo en la tasa de finalización escolar.

  • El gasto público en educación, por sí solo, no garantiza mejores resultados. Aunque necesario, este debe ir acompañado de una eficiente administración de recursos y estrategias pedagógicas.

  • El modelo logró explicar un 68% de la variabilidad en la educación media, lo que indica un buen ajuste general y utilidad práctica para el diseño de políticas educativas.

  • En síntesis, los resultados obtenidos refuerzan la importancia de intervenir en áreas fundamentales como la alfabetización y la proporción docente-estudiante. Mientras que la inversión educativa por sí sola no garantiza mejores resultados, su efectividad depende en gran medida de la implementación y de una estructura institucional eficiente.