1. Introducción

La capacidad de los países para generar y aplicar ciencia, tecnología e innovación (CTI) se ha consolidado como un factor clave para el crecimiento económico sostenible y la competitividad global. Las instituciones de educación superior (IES) se sitúan en el centro de esta dinámica, al desempeñar un papel dual como formadoras de capital humano altamente calificado y como centros de investigación y desarrollo tecnológico.

A nivel internacional, existen marcadas diferencias en la eficiencia con la que los países transforman los recursos invertidos en educación superior en resultados científicos y tecnológicos. Estas diferencias pueden atribuirse a múltiples factores, incluyendo el volumen de inversión en investigación y desarrollo (I+D), la calidad de las políticas públicas, el entorno institucional y el nivel de desarrollo económico. Comprender estos patrones y sus determinantes es fundamental para diseñar políticas que impulsen un ecosistema de innovación inclusivo y eficiente.

El año 2020 representa un punto de análisis crucial, debido al impacto global de la pandemia por COVID-19. Las IES enfrentaron una disrupción sin precedentes en sus actividades de formación e investigación, viéndose obligadas a digitalizar procesos, redirigir agendas científicas y adaptarse a nuevas condiciones financieras y operativas. En este contexto, evaluar la eficiencia de las IES en la producción de CTI bajo condiciones excepcionales permite no solo medir su resiliencia, sino también identificar fortalezas estructurales o debilidades críticas en los sistemas nacionales de innovación.

Este estudio tiene como objetivo analizar la eficiencia de la educación superior en el desarrollo de la ciencia, la tecnología y la innovación a nivel internacional durante el año 2020, utilizando una metodología de regresión lineal de corte transversal. Se emplearán datos.

2. Descarga y preparación de datos

# Selección de indicadores WDI
indicadores <- c(
  matricula       = "SE.TER.ENRR",
  gasto_educacion = "SE.XPD.TOTL.GD.ZS",
  gasto_id        = "GB.XPD.RSDV.GD.ZS",
  investigadores   = "SP.POP.SCIE.RD.P6"
)

datos <- WDI(
  country = "all", indicator = indicadores,
  start = 2020, end = 2022, extra = TRUE
) %>%
  filter(region != "Aggregates") %>%
  group_by(country) %>%
  arrange(desc(year)) %>%
  slice(1) %>%
  ungroup() %>%
  filter(
    !is.na(matricula),
    !is.na(gasto_educacion),
    !is.na(gasto_id),
    !is.na(investigadores)
  )

n_obs <- nrow(datos)
cat("Número de países con datos completos: ", n_obs, sep = "")
## Número de países con datos completos: 30

3. Estimación del modelo

modelo <- lm(
  matricula ~ gasto_educacion + gasto_id + investigadores,
  data = datos
)
print(summary(modelo))
## 
## Call:
## lm(formula = matricula ~ gasto_educacion + gasto_id + investigadores, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -58.253 -18.293   0.951  11.190  59.933 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     57.758934  14.832966   3.894 0.000616 ***
## gasto_educacion -1.323574   3.149362  -0.420 0.677743    
## gasto_id        -0.908699   7.851632  -0.116 0.908753    
## investigadores   0.005869   0.003313   1.772 0.088199 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 26.53 on 26 degrees of freedom
## Multiple R-squared:  0.2326, Adjusted R-squared:  0.1441 
## F-statistic: 2.627 on 3 and 26 DF,  p-value: 0.07153

El intercepto (57.76) muestra de manera hipotetica que cuando todas las variables explicativas equivalen a cero, la tasa de efectividad (matrícula) sería de ~57.8 %. Lo que es significativo a p<0.001, sin embargo su interpretación práctica es limitada.

La variable independiente gasto_educación, muestra por su parte que por cada punto porcentual extra de PIB destinado a educación, se asocia con una caída de 1.3 puntos en la eficiencia (matrícula), pero no resulta ser significativo (p≫0.05). Por tanto, no podemos afirmar que exista tal efecto.

La variable independiente gasto_id, Similarmente, muestra que el coeficiente es negativo pero insignificante. Por lo que no hay evidencia de que mayores inversiones en investigación y desarrollo cambien la eficiencia (matrícula), con estos datos.

La variable independiente investigadores, muestra un efecto marginalmente significativo (p≈0.09). Sugiere que cada investigador adicional por millón de habitantes se traduce en un incremento muy pequeño (0.0059 puntos) en la matrícula. Aunque el tamaño del efecto es diminuto, apunta a un vínculo entre capital humano científico y acceso a la educación superior.

Ajuste global del modelo

La R-squared = 0.2326 nos permite observar que el modelo explica el 23.3% de la variación en la eficiencia (matrícula).

Al ajustar R-squared = 0.1441 por el número de variables, baja al 14.4%.

F-statistic p=0.0715: La prueba conjunta está cerca del umbral de 0.05; hay una evidencia débil de que alguna variable tiene efecto global.

4. Análisis de residuales y normalidad

residuos <- residuals(modelo)

# Histograma de residuos
graphics::hist(residuos,
     main = "Histograma de residuos",
     xlab = "Residuos",
     ylab = "Frecuencia",
     breaks = 15)

# Residuos vs valores ajustados
graphics::plot(fitted(modelo), residuos,
     main = "Residuos vs Ajustados",
     xlab = "Valores ajustados",
     ylab = "Residuos",
     pch = 19)
abline(h = 0, col = "red", lty = 2)

# Pruebas de normalidad
test_shapiro <- shapiro.test(residuos)
test_jarque <- jarque.bera.test(residuos)

print(test_shapiro)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuos
## W = 0.96553, p-value = 0.425
print(test_jarque)
## 
##  Jarque Bera Test
## 
## data:  residuos
## X-squared = 0.80175, df = 2, p-value = 0.6697

5. Interpretación de normalidad

La hipótesis nula de Shapiro–Wilk es que los datos (residuales) provienen de una distribución normal. Dado que p-valor ≈ 0.425 (> 0.05), no rechazamos la normalidad. Esto sugiere que no hay evidencia significativa de que los residuos se desvíen de la normalidad.

  • Shapiro–Wilk: W = 0.9655, p-valor = 0.425. p > 0.05 sugiere normalidad.

La prueba de Jarque–Bera contrasta si la asimetría y curtosis de los residuales difieren de la normalidad. Con p-valor ≈ 0.67 (> 0.05), tampoco rechazamos la normalidad. Los residuos muestran asimetría y curtosis compatibles con una distribución normal.

  • Jarque–Bera: X² = 0.8018, p-valor = 0.6697. p > 0.05 sugiere normalidad.

6. Pruebas de heterocedasticidad

# Breusch-Pagan usando lmtest::bptest
test_bp <- lmtest::bptest(modelo)
# White (BP con cuadráticos)
test_white <- lmtest::bptest(modelo, ~ fitted(modelo) + I(fitted(modelo)^2))
# Harvey (ncvTest)
test_harvey <- car::ncvTest(modelo)
# Glejser: modelo sobre residuos absolutos
glejser_mod <- lm(abs(residuos) ~ gasto_educacion + gasto_id + investigadores, data = datos)
test_glejser <- summary(glejser_mod)

print(test_bp)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 1.2936, df = 3, p-value = 0.7307
print(test_white)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo
## BP = 2.7612, df = 2, p-value = 0.2514
print(test_harvey)
## Non-constant Variance Score Test 
## Variance formula: ~ fitted.values 
## Chisquare = 0.0006923099, Df = 1, p = 0.97901
print(test_glejser)
## 
## Call:
## lm(formula = abs(residuos) ~ gasto_educacion + gasto_id + investigadores, 
##     data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -20.829  -9.907  -1.147   4.737  41.456 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)  
## (Intercept)     23.0783874  9.2146997   2.505   0.0189 *
## gasto_educacion -0.3824294  1.9564814  -0.195   0.8465  
## gasto_id        -4.3867937  4.8776783  -0.899   0.3767  
## investigadores   0.0008895  0.0020583   0.432   0.6692  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 16.48 on 26 degrees of freedom
## Multiple R-squared:  0.04144,    Adjusted R-squared:  -0.06916 
## F-statistic: 0.3747 on 3 and 26 DF,  p-value: 0.772

7. Interpretación de heterocedasticidad

  • Breusch–Pagan: χ² = 1.2936, p = 0.7307. p > 0.05 sugiere homocedasticidad.
  • White: χ² = 2.7612, p = 0.2514. p > 0.05 sugiere homocedasticidad.
  • Harvey (ncvTest): Chi² = 7^{-4}, p = 0.979. p > 0.05 sugiere homocedasticidad.
  • Glejser: Revisar p-valores de los coeficientes en el modelo glejser_mod; p > 0.05 para todas sugiere homocedasticidad.

8. Estimación con errores estándar, Método robusto

# Cargar paquetes necesarios para estimación robusta
library(sandwich)
library(lmtest)

# Estimación de coeficientes con errores estándar Huber–White (HC1)
robust_se <- coeftest(modelo, vcov. = vcovHC(modelo, type = "HC1"))
print(robust_se)
## 
## t test of coefficients:
## 
##                   Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)     57.7589343 14.8783803  3.8821 0.0006354 ***
## gasto_educacion -1.3235739  3.1689877 -0.4177 0.6796215    
## gasto_id        -0.9086987  7.5514235 -0.1203 0.9051431    
## investigadores   0.0058694  0.0032846  1.7869 0.0856127 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

9. Conclusión y recomendaciones

En conjunto, los resultados respaldan la validez de nuestro modelo:

  • Las pruebas de normalidad (Shapiro–Wilk y Jarque–Bera) no detectaron desviaciones significativas de una distribución normal en los residuos.
  • Las pruebas de homocedasticidad (Breusch–Pagan, White, Harvey y Glejser) tampoco evidenciaron varianza no constante.
  • La estimación con errores estándar robustos confirma la estabilidad de los coeficientes, aun cuando aplicamos un método más conservador.

Sin embargo, aunque los supuestos clásicos se cumplen razonablemente bien, es recomendable mantener siempre una actitud cautelosa. En contextos de datos macroeconómicos, ligeras irregularidades pueden pasar desapercibidas. Por ello, sugerimos complementar este análisis con:

  1. Estimadores robustos de varianza (Huber–White) para reforzar la confianza en los intervalos de confianza.
  2. Modelos ponderados o transformaciones que ajusten la influencia de observaciones extremas.
  3. Análisis de sensibilidad, probando distintas especificaciones para verificar si los hallazgos se mantienen estables.

Estos pasos adicionales añaden una capa de seguridad estadística.

10. Referencias

Fox, J. (2015). Applied Regression Analysis and Generalized Linear Models (3rd ed.). SAGE Publications.

Gujarati, D. N., & Porter, D. C. (2009). Econometría (5.ª ed.). McGraw-Hill Interamericana.

Hayes, A. F. (2017). Introduction to Mediation, Moderation, and Conditional Process Analysis: A Regression-Based Approach (2nd ed.). The Guilford Press.

White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 48(4), 817–838. https://doi.org/10.2307/1912934

Wooldridge, J. M. (2013). Introductory Econometrics: A Modern Approach (5th ed.). South-Western Cengage Learning.

R Core Team. (2024). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/

The World Bank. (2024). World Development Indicators. https://databank.worldbank.org/source/world-development-indicators