La capacidad de los países para generar y aplicar ciencia, tecnología e innovación (CTI) se ha consolidado como un factor clave para el crecimiento económico sostenible y la competitividad global. Las instituciones de educación superior (IES) se sitúan en el centro de esta dinámica, al desempeñar un papel dual como formadoras de capital humano altamente calificado y como centros de investigación y desarrollo tecnológico.
A nivel internacional, existen marcadas diferencias en la eficiencia con la que los países transforman los recursos invertidos en educación superior en resultados científicos y tecnológicos. Estas diferencias pueden atribuirse a múltiples factores, incluyendo el volumen de inversión en investigación y desarrollo (I+D), la calidad de las políticas públicas, el entorno institucional y el nivel de desarrollo económico. Comprender estos patrones y sus determinantes es fundamental para diseñar políticas que impulsen un ecosistema de innovación inclusivo y eficiente.
El año 2020 representa un punto de análisis crucial, debido al impacto global de la pandemia por COVID-19. Las IES enfrentaron una disrupción sin precedentes en sus actividades de formación e investigación, viéndose obligadas a digitalizar procesos, redirigir agendas científicas y adaptarse a nuevas condiciones financieras y operativas. En este contexto, evaluar la eficiencia de las IES en la producción de CTI bajo condiciones excepcionales permite no solo medir su resiliencia, sino también identificar fortalezas estructurales o debilidades críticas en los sistemas nacionales de innovación.
Este estudio tiene como objetivo analizar la eficiencia de la educación superior en el desarrollo de la ciencia, la tecnología y la innovación a nivel internacional durante el año 2020, utilizando una metodología de regresión lineal de corte transversal. Se emplearán datos.
# Selección de indicadores WDI
indicadores <- c(
matricula = "SE.TER.ENRR",
gasto_educacion = "SE.XPD.TOTL.GD.ZS",
gasto_id = "GB.XPD.RSDV.GD.ZS",
investigadores = "SP.POP.SCIE.RD.P6"
)
datos <- WDI(
country = "all", indicator = indicadores,
start = 2020, end = 2022, extra = TRUE
) %>%
filter(region != "Aggregates") %>%
group_by(country) %>%
arrange(desc(year)) %>%
slice(1) %>%
ungroup() %>%
filter(
!is.na(matricula),
!is.na(gasto_educacion),
!is.na(gasto_id),
!is.na(investigadores)
)
n_obs <- nrow(datos)
cat("Número de países con datos completos: ", n_obs, sep = "")
## Número de países con datos completos: 30
modelo <- lm(
matricula ~ gasto_educacion + gasto_id + investigadores,
data = datos
)
print(summary(modelo))
##
## Call:
## lm(formula = matricula ~ gasto_educacion + gasto_id + investigadores,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -58.253 -18.293 0.951 11.190 59.933
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 57.758934 14.832966 3.894 0.000616 ***
## gasto_educacion -1.323574 3.149362 -0.420 0.677743
## gasto_id -0.908699 7.851632 -0.116 0.908753
## investigadores 0.005869 0.003313 1.772 0.088199 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 26.53 on 26 degrees of freedom
## Multiple R-squared: 0.2326, Adjusted R-squared: 0.1441
## F-statistic: 2.627 on 3 and 26 DF, p-value: 0.07153
El intercepto (57.76) muestra de manera hipotetica que cuando todas las variables explicativas equivalen a cero, la tasa de efectividad (matrícula) sería de ~57.8 %. Lo que es significativo a p<0.001, sin embargo su interpretación práctica es limitada.
La variable independiente gasto_educación, muestra por su parte que por cada punto porcentual extra de PIB destinado a educación, se asocia con una caída de 1.3 puntos en la eficiencia (matrícula), pero no resulta ser significativo (p≫0.05). Por tanto, no podemos afirmar que exista tal efecto.
La variable independiente gasto_id, Similarmente, muestra que el coeficiente es negativo pero insignificante. Por lo que no hay evidencia de que mayores inversiones en investigación y desarrollo cambien la eficiencia (matrícula), con estos datos.
La variable independiente investigadores, muestra un efecto marginalmente significativo (p≈0.09). Sugiere que cada investigador adicional por millón de habitantes se traduce en un incremento muy pequeño (0.0059 puntos) en la matrícula. Aunque el tamaño del efecto es diminuto, apunta a un vínculo entre capital humano científico y acceso a la educación superior.
Ajuste global del modelo
La R-squared = 0.2326 nos permite observar que el modelo explica el 23.3% de la variación en la eficiencia (matrícula).
Al ajustar R-squared = 0.1441 por el número de variables, baja al 14.4%.
F-statistic p=0.0715: La prueba conjunta está cerca del umbral de 0.05; hay una evidencia débil de que alguna variable tiene efecto global.
residuos <- residuals(modelo)
# Histograma de residuos
graphics::hist(residuos,
main = "Histograma de residuos",
xlab = "Residuos",
ylab = "Frecuencia",
breaks = 15)
# Residuos vs valores ajustados
graphics::plot(fitted(modelo), residuos,
main = "Residuos vs Ajustados",
xlab = "Valores ajustados",
ylab = "Residuos",
pch = 19)
abline(h = 0, col = "red", lty = 2)
# Pruebas de normalidad
test_shapiro <- shapiro.test(residuos)
test_jarque <- jarque.bera.test(residuos)
print(test_shapiro)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.96553, p-value = 0.425
print(test_jarque)
##
## Jarque Bera Test
##
## data: residuos
## X-squared = 0.80175, df = 2, p-value = 0.6697
La hipótesis nula de Shapiro–Wilk es que los datos (residuales) provienen de una distribución normal. Dado que p-valor ≈ 0.425 (> 0.05), no rechazamos la normalidad. Esto sugiere que no hay evidencia significativa de que los residuos se desvíen de la normalidad.
La prueba de Jarque–Bera contrasta si la asimetría y curtosis de los residuales difieren de la normalidad. Con p-valor ≈ 0.67 (> 0.05), tampoco rechazamos la normalidad. Los residuos muestran asimetría y curtosis compatibles con una distribución normal.
# Breusch-Pagan usando lmtest::bptest
test_bp <- lmtest::bptest(modelo)
# White (BP con cuadráticos)
test_white <- lmtest::bptest(modelo, ~ fitted(modelo) + I(fitted(modelo)^2))
# Harvey (ncvTest)
test_harvey <- car::ncvTest(modelo)
# Glejser: modelo sobre residuos absolutos
glejser_mod <- lm(abs(residuos) ~ gasto_educacion + gasto_id + investigadores, data = datos)
test_glejser <- summary(glejser_mod)
print(test_bp)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 1.2936, df = 3, p-value = 0.7307
print(test_white)
##
## studentized Breusch-Pagan test
##
## data: modelo
## BP = 2.7612, df = 2, p-value = 0.2514
print(test_harvey)
## Non-constant Variance Score Test
## Variance formula: ~ fitted.values
## Chisquare = 0.0006923099, Df = 1, p = 0.97901
print(test_glejser)
##
## Call:
## lm(formula = abs(residuos) ~ gasto_educacion + gasto_id + investigadores,
## data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -20.829 -9.907 -1.147 4.737 41.456
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 23.0783874 9.2146997 2.505 0.0189 *
## gasto_educacion -0.3824294 1.9564814 -0.195 0.8465
## gasto_id -4.3867937 4.8776783 -0.899 0.3767
## investigadores 0.0008895 0.0020583 0.432 0.6692
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 16.48 on 26 degrees of freedom
## Multiple R-squared: 0.04144, Adjusted R-squared: -0.06916
## F-statistic: 0.3747 on 3 and 26 DF, p-value: 0.772
glejser_mod
; p > 0.05 para todas sugiere
homocedasticidad.# Cargar paquetes necesarios para estimación robusta
library(sandwich)
library(lmtest)
# Estimación de coeficientes con errores estándar Huber–White (HC1)
robust_se <- coeftest(modelo, vcov. = vcovHC(modelo, type = "HC1"))
print(robust_se)
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 57.7589343 14.8783803 3.8821 0.0006354 ***
## gasto_educacion -1.3235739 3.1689877 -0.4177 0.6796215
## gasto_id -0.9086987 7.5514235 -0.1203 0.9051431
## investigadores 0.0058694 0.0032846 1.7869 0.0856127 .
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En conjunto, los resultados respaldan la validez de nuestro modelo:
Sin embargo, aunque los supuestos clásicos se cumplen razonablemente bien, es recomendable mantener siempre una actitud cautelosa. En contextos de datos macroeconómicos, ligeras irregularidades pueden pasar desapercibidas. Por ello, sugerimos complementar este análisis con:
Estos pasos adicionales añaden una capa de seguridad estadística.
Fox, J. (2015). Applied Regression Analysis and Generalized Linear Models (3rd ed.). SAGE Publications.
Gujarati, D. N., & Porter, D. C. (2009). Econometría (5.ª ed.). McGraw-Hill Interamericana.
Hayes, A. F. (2017). Introduction to Mediation, Moderation, and Conditional Process Analysis: A Regression-Based Approach (2nd ed.). The Guilford Press.
White, H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity. Econometrica, 48(4), 817–838. https://doi.org/10.2307/1912934
Wooldridge, J. M. (2013). Introductory Econometrics: A Modern Approach (5th ed.). South-Western Cengage Learning.
R Core Team. (2024). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/
The World Bank. (2024). World Development Indicators. https://databank.worldbank.org/source/world-development-indicators