Rendimiento académico estudiantil en lectura y su relación con factores económicos, sociales y culturales en Argentina

Introducción

La educación formal de pregrado es considerada una etapa clave en el ciclo de vida de las personas para la adquisición de conocimientos y habilidades esenciales que faciliten su participación plena en la sociedad en la fase adulta. Contribuye además a la preparación de los estudiantes para el aprendizaje permanente en las distintas áreas del conocimiento, incluida la lectura.

Existe evidencia que indica que los factores económicos, sociales y/o culturales pueden actuar como facilitadores o condicionantes del rendimiento escolar en adolescentes. Esto podría determinar, en consecuencia, situaciones de desigualdad en este grupo poblacional, con potenciales impactos en su vida adulta.

En este marco, el Programa para la Evaluación Internacional de Alumnos (PISA) constituye una fuente de información de relevancia para indagar este tema, ya que brinda datos abiertos sobre rendimiento escolar a nivel de estudiantes de 15 años de todo el mundo, con desagregación por áreas (lectura, matemática, ciencias), países e información del contexto próximo de los estudiantes (condiciones socioeconómicas y materiales de vida, características de la familia y escuela). Este Programa, conducido regularmente por la OECD (Organisation for Economic Co-operation and Development), involucró a 79 países y a más de 600.000 estudiantes de todo el mundo en 2022, incluyendo a Argentina.

Objetivo de estudio

El presente estudio tiene como Objetivo General evaluar la relación entre el rendimiento académico en lectura y el nivel económico, social y cultural (NESC) de los estudiantes de 15 años que participaron de la edición 2022 de las pruebas PISA en Argentina.

Se parte de la hipótesis principal de que, en este grupo poblacional, existe una asociación directa y significativa entre el rendimiento escolar en lectura y el índice de NESC estimado en las pruebas PISA. En otras palabras, se espera que, en promedio, a mayores valores de este índice, mayor sea el score de rendimiento escolar en lectura.

En particular para el índice de NESC, interesa además conocer si ha cambiado de manera significativa en relación al período anterior evaluado en PISA (2018 vs. 2022).

Metodología

Fuente de datos y variables seleccionadas

En este trabajo se utilizó el dataset de learningtower en R que replica resultados de las pruebas PISA elaborado por la OCDE, cuya población objetivo fueron todos los estudiantes de 15 años de edad de cada país o economía participante, que al momento de la evaluación estuviesen matriculados en una institución educativa, en grado equivalente al 7º grado o superior, independientemente del grado exacto, tipo de escuela o modalidad.

Para el caso de Argentina en particular, fueron descargados todos los datos de los estudiantes que participaron de estas pruebas en 2022 y 2018, empleando la función load_student del paquete learningtower.

Las variables principales a los fines de este estudio fueron:

-read: Score o puntaje estimado en lectura (variable cuantitativa continua).

-escs: índice de nivel económico, social y cultural (NESC) (variable cuantitativa continua).

Se utilizó también la variable year (año de recolección de los datos de PISA) y country (código de 3 caracteres del país) para realizar el recorte temporal y geográfico requerido. En la etapa exploratoria, se describió la muestra también según la variable gender, correspondiente al género de cada estudiante, clasificado como masculino (male) o femenino (female).

Otras variables fueron agregadas como variables de ajuste al aplicar una regresión lineal, entre ellas el nivel educativo máximo alcanzado por la madre y el padre (mother_educ y father_educ, variable tipo factor -categórica- ordinal) y el acceso a internet (internet, variable dicotómica con respuesta de tipo si/no).

Análisis estadísticos

En una primera etapa se realizó un análisis exploratorio de las variables seleccionadas, año 2022, describiendo su distribución a partir de gráficos (histogramas, boxplot, gráficos de dispersión) y realizando el cálculo de medidas resumen de posición (media, mediana, cuartil 1 y 3) y dispersión (desvío estándar -DE- y rango intercuartílico).

Seguidamente se condujo, para ese mismo año, un Análisis de Correlación de Pearson a los fines de evaluar si existe relación lineal entre el score de rendimiento académico obtenido en lectura y el índice de NESC de los estudiantes, y explorar la dirección y fuerza de esta relación.

En una tercera etapa se realizó un Análisis de Regresión Lineal Simple, estableciendo el score en lectura como variable dependiente (Y) y el índice de NESC como variable independiente (X), para predecir dicho rendimiento en función del nivel social, económico y cultural de los estudiantes. Complementariamente, se construyó un gráfico de dispersión entre las variables X e Y con la recta de regresión ajustada, de modo de obtener una representación visual de la relación explorada en el modelo.

Además, para evaluar si el modelo de regresión lineal propuesto cumplía o no con los supuestos necesarios, se condujeron los siguientes análisis:

  • Test de normalidad de Anderson Darling, cuya hipótesis nula postula que los errores siguen una distribución normal. Esto se complementó con su representación gráfica mediante un Q-Q plot.
  • Test de linealidad, mediante el Ramsey RESET Test (RESET: Regression Specification Error test).
  • Prueba de homocedasticidad de White, en complemento a la exploración mediante un gráfico representando la relación de los residuos vs. valores ajustados.

El supuesto de Independiencia, por su parte, fue discutido.

En función de estos resultados, como posibles solución a la violación de algunos supuestos, se propuso un modelo de regresión lineal múltiple que incorporó variables de ajuste e incluyó la transformación logarítmica del índice de NESC.

Finalmente, se realizó una prueba de hipótesis de diferencia de medias mediante Test T para evaluar si el índice de NESC cambió de manera significativa en el último periodo, estableciendo un nivel de significación de 0,05. Específicamente, se planteó como hipótesis nula que los valores medios del índice de NESC en Argentina no difieren entre 2018 y 2022, y como hipótesis alternativa que el valor medio del índice en 2018 fue inferior al de 2022.

Resultados

Control preliminar del dataset:

En primer lugar, se descargaron los datos de las Prueba PISA 2022, y se filtraron los correspondientes a Argentina. Se realizó un control sobre dicho recorte geográfico, incluyendo la revisión de datos faltantes para las variables principales de este estudio, read y escs, como sigue:

student_data_2022 <- load_student(2022)
data_ARG2022<- student_data_2022 %>% filter(country == "ARG")

dim(data_ARG2022)
## [1] 12111    22
names(data_ARG2022)
##  [1] "year"        "country"     "school_id"   "student_id"  "mother_educ"
##  [6] "father_educ" "gender"      "computer"    "internet"    "math"       
## [11] "read"        "science"     "stu_wgt"     "desk"        "room"       
## [16] "dishwasher"  "television"  "computer_n"  "car"         "book"       
## [21] "wealth"      "escs"
sum(is.na(data_ARG2022$read))
## [1] 0
sum(is.na(data_ARG2022$escs))
## [1] 392

Se observa que el total de participantes en Argentina en 2022 fue 12.111 estudiantes, proveyendo el dataset información sobre 22 variables, entre las que se incluyen las de interés a los fines de este trabajo. De ese total de participantes, se identificaron 392 casos con datos faltantes en la variable índice de NESC (escs), mientras que la información correspondiente al score en lectura (read) se encuentra completa.

Análisis exploratorio de las variables principales seleccionadas

La muestra de estudio estuvo conformada por 12.111 estudiantes de 15 años que participaron de las Prueba PISA en Argentina, 2022, cuya distribución por género mostró igual porcentaje de varones y mujeres (próximo al 50% en cada género):

table(data_ARG2022$gender)
## 
## female   male 
##   6094   6017
prop.table(table(data_ARG2022$gender))
## 
##    female      male 
## 0.5031789 0.4968211

Respecto del score en lectura, se detallan a continuación sus medidas resumen:

summary(data_ARG2022$read)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   93.59  345.52  409.98  412.61  476.11  785.13
sd(data_ARG2022$read)
## [1] 93.14498
IQR(data_ARG2022$read)
## [1] 130.5825

A partir de estos resultados, se observa que el score en lectura de los participantes de las Pruebas PISA 2022 de Argentina mostró un valor promedio (±DE) igual a 412.61 (±93.14) puntos, con valores mínimo y máximo de 93.59 y 785.13 puntos, respectivamente. Esto da cuenta de una notable diferencia entre los valores extremos de este score.

En complemento con lo anterior, en la Figura 1 puede observarse la existencia de algunos valores atípicos extremos que se ubican por encima de 600 ptos. y otros por debajo de 200 ptos. del score. Excluyendo estos valores, el rango medio de los datos (esto es, el rango intercuatílico) indica que la diferencia entre el tercer y primer cuartil (Q3 y Q1) está en torno a 130 puntos. La línea central de la caja en el boxplot (Figura 1) señala además que el 50% de los participantes obtuvo un score en lectura en torno a 410 o menor, y el 50% restante un valor superior a ese (Mediana= 409.98 puntos).

A partir del histograma (Figura 2) puede agregarse que la distribución del score muestra una forma simétrica, con las mayores frecuencias en torno a los 300-500 puntos (lo que es consistente con las medidas de tendencia central -media y mediana- y dispersión -DE- antes descriptas).

Sumado a lo anterior, se obtuvieron también las medidas resumen del índice del nivel económico, social y cultutal (NESC):

summary(data_ARG2022$escs, na.rm = TRUE)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
## -5.4880 -1.4918 -0.6756 -0.6715  0.2524  2.4781     392
sd(data_ARG2022$escs, na.rm = TRUE)
## [1] 1.145581
IQR(data_ARG2022$escs, na.rm = TRUE)
## [1] 1.7442

Se observa que el índice de NESC de los estudiantes argentinos evaluados en las Pruebas PISA 2022 presentó un valor promedio (±DE) de –0.6715 (±1.1456), con un rango que se extiende desde –5,4880 hasta 2,4781 como valores mínimo y máximo, respectivamente.

Tal como se muestra en la Figura 3, la distribución de esta variable muestra algunos valores atípicos que se ubican en el extremos inferior del eje (inferiores a -4 ptos. del índice), aunque la mayoría de los valores se concentra en torno al rango medio. Este rango, correspondiente al rango intercuartílico (Q3–Q1), es de 1,74 puntos. La mediana del índice, por su parte, es de –0.6756, indicando que la mitad de los estudiantes presenta un índice de NESC igual o inferior a ese valor.

Sumado a lo anterior, el histograma que se muestra en Figura 4 permite evidenciar dos picos de frecuencias en su distribución, en torno a los valores -1 y 0.5 ptos., aproximadamente.

Finalmente, a modo de realizar una exploración preliminar de la relación entre las variables hasta aquí descriptas se construyó un diagrama de dispersión (Figura 5), el cual sugiere que, en términos generales, a medida que aumenta el índice de NESC, los valores del score en lectura tienden a ser superiores.

Análisis de Correlación

cor(data_ARG2022$read, data_ARG2022$escs, use = "complete.obs")
## [1] 0.3837003

El análisis de correlación de Pearson obtuvo un coeficiente igual a 0.38, lo que indica que existe una correlación positiva, aunque relativamente débil, entre el score en lectura y el índice de NESC de los estudiantes de Argentina en 2022. Esto significa que, a medida que aumenta una de estas variables la otra también aumenta (se mueven en el mismo sentido y de manera directa), lo que es consistente con lo que ya sugería el diagrama de dispersión antes señalado (Figura 5).

Análisis de Regresión Lineal Simple

Los resultados del análisis de regresión lineal simple se muestran a continuación:

modelo_read <- lm(read ~ escs, data = data_ARG2022)
summary(modelo_read)
## 
## Call:
## lm(formula = read ~ escs, data = data_ARG2022)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -280.27  -59.61   -0.37   58.17  325.71 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 434.3252     0.9272  468.43   <2e-16 ***
## escs         31.4060     0.6983   44.98   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 86.59 on 11717 degrees of freedom
##   (392 observations deleted due to missingness)
## Multiple R-squared:  0.1472, Adjusted R-squared:  0.1472 
## F-statistic:  2023 on 1 and 11717 DF,  p-value: < 2.2e-16

El intercepto obtenido representa el valor esperado del score en lectura si el índice de NESC fuese exactamente 0. Es decir, que podemos esperar que el score en lectura, si el índice de NESC toma valor 0, sea 434,3 (IC95% 432,5;436,2), en promedio.

Por su parte, el coeficiente beta obtenido para el índice de ESCS indica que por cada aumento unitario (en un punto) de dicho índice, el score de NESC aumenta en 31 puntos, en promedio, siendo este efecto estadísticamente significativo (con un p<0,001).

Con un 95% de confianza, podemos agregar que, por cada punto adicional en el índice del NESC, el score en lectura de los estudiantes va a aumentar entre 30,0 y 32,8 puntos, en promedio.

El valor de R2 estimado, además, indica que el modelo explica aproximadamente el 14.7% de la variabilidad de los scores en lectura en la población estudiada. Es decir que el porcentaje restante se debe a factores no incluidos en el modelo o a ruido aleatorio.

Finalmente, dado el valor de p<0,05 obtenido para el test F, se interpreta que las variables incluidas en el modelo, en conjunto, son significativas. En este caso, en que sólo se usó un único predictor lineal (escs) diríamos que este resultado confirma lo antes descripto respecto al efecto significativo observado de esta variable sobre el score en lectura.

Visualización de Datos

El siguiente gráfico de dispersión ilustra la recta que mejor se ajusta a los datos analizados, obtenida a partir de la regresión lineal antes ajustada. Su pendiente representa una relación lineal positiva (por su inclinación ascendente) entre las variables índice de NESC y score en lectura. Esto implica que, en promedio, cada aumento en el nivel económico, social y cultural de los estudiantes se acompaña de una mejora en su rendimiento en lectura.

Evaluación de los supuestos en la regresión

1. Normalidad:

Dado que en la regresión lineal se asume la normalidad de los errores, procedemos a testear este supuesto como sigue:

residuos <- residuals(modelo_read)
ad_result <- ad.test(residuos)
print(ad_result)
## 
##  Anderson-Darling normality test
## 
## data:  residuos
## A = 0.44884, p-value = 0.2777

En el test de normalidad de Anderson Darling la hipótesis nula (H0) postula que los errores siguen una distribución normal. Por ende, dado que obtuvimos un p valor mayor a 0,05, se acepta la H0, lo que confirma que se cumple el principio de normalidad.

Esta normalidad de los residuos se puede comprobar también a partir de su representación gráfica (Figura 7 y Q-Q plot). Se observa que la distribución de los residuos obtenidos del modelo propuesto muestra una distribución con forma bastante próxima a la normal (Figura 7) y que el quantile-quantile (Q-Q) plot que compara los residuos del modelo con los residuos de lo que sería (teóricamente) una perfecta distribución normal están casi perfectamente alineados.

hist(residuos,
     breaks = 30,          
     col = "purple",     
     border = "white",
     main = "Figura 7. Histograma de los residuos",
     xlab = "Residuos",
     ylab = "Frecuencia")

qqnorm(residuos)        
qqline(residuos, col="purple", lwd=2) 

2. Linealidad:

Este supuesto indica que las variables predictoras deben tener una relación lineal con las variables a predecir. Procedemos a testearlo:

ggplot(augment(modelo_read), aes(x = .fitted, y = .resid)) +
  labs(
    title = "Figura 8. Gráfico de residuos vs valores ajustados",
    x = "Valores ajustados del modelo",
    y = "Residuos del modelo"
  ) +
geom_point() +
geom_hline(yintercept = 0)

library(lmtest)
reset_result <- resettest(modelo_read)
print(reset_result)
## 
##  RESET test
## 
## data:  modelo_read
## RESET = 17.223, df1 = 2, df2 = 11715, p-value = 3.398e-08

A partir de los resultados mostrados en la Figura 8 vemos que al plotear los residuos vs. los valores ajustados (que son los valores predichos del modelo propuesto) la media no aparece cercana a 0 a medida que tenemos más valores predichos (parece aumentar la dispersión en torno a ella en la nube de puntos), lo cual sugiere que no tenemos la correcta forma de la función lineal.

Esto es luego confirmado con el test RESET, que estima un valor de p menor que 0.05, lo que sugiere que hay problemas de especificación en el modelo.

3. Homocedasticidad:

Otro supuesto que debiera cumplirse es el de homocedasticidad, que implica variación constante de errores. Procedemos a testearlo a partir de la Prueba de homocedasticidad de White:

whitestrap::white_test(modelo_read)
## White's test results
## 
## Null hypothesis: Homoskedasticity of the residuals
## Alternative hypothesis: Heteroskedasticity of the residuals
## Test Statistic: 92.82
## P-value: 0

A partir de estos resultados podemos afirmar que se encontró evidencia de heterocedasticidad en el modelo dado que se obtuvo un valor p<0,05 (lo cual nos lleva a rechazar la H0 de homocedasticidad).

4. Independencia:

A modo de discusión de este supuesto, dado que este trabajo propuso hasta aquí un modelo lineal simple, se puede suponer que existan posibles violaciones del supuesto de exogeneidad en este estudio y/o sesgo por variables omitidas, sobre todo al haber considerado sólo una variable predictora, cuando es sabido que el rendimiento escolar es un resultado complejo que responde a múltiples factores.

Por ejemplo, es posible que en ciertos grupos poblacionales con alto rendimiento en lectura tengan mejores redes sociales de apoyo, que a su vez tiendan a aumentar las posibilidades de tener un mejor nivel socioeconómico. Es decir que al omitir esta variable potencialmente correlacionada tanto con el índice de NESC (nuestra variable predictora) como con el score en lectura (nuestra variable dependiente), el supuesto de independencia puede verse comprometido.

En el mismo sentido, otras variables omitidas hasta aquí, disponibles en el dataset seleccionado y que podría comprometer este supuesto son el género, el nivel educativo de la madre y el padre y el acceso a internet.

Soluciones para la corrección de supuestos

Se probaron diversas soluciones para la corrección de supuestos, incluyendo distintas transformaciones de la variable dependiente, independiente o ambas, y la incorporación de variables de ajuste al modelo inicial. El modelo que mostró el mejor ajuste y brindó la mejor corrección a los supuestos fue el que se describe a continuación.

Específicamente, para contrarrestar el sesgo por variables omitidas en el modelo, el modelo final propuesto incorpora como variables de ajuste el género (gender), el nivel educativo máximo alcanzado por la madre y el padre (mother_educ y father_educ, incorporado como factor ordenado de manera creciente) y el acceso a internet (internet, variable dicotómica si/no).

Además, como estrategia para afrontar el problema de violación del supuesto de linealidad y homocedasticidad se realizó una transformación logarítmica de la variable independiente (escs).

El modelo resultante es el que sigue:

modelo_logESCS <- lm(read ~ log(escs) + gender + mother_educ_num + father_educ_num 
                     + internet, data = data_ARG2022)
summary(modelo_logESCS)
## 
## Call:
## lm(formula = read ~ log(escs) + gender + mother_educ_num + father_educ_num + 
##     internet, data = data_ARG2022)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -272.369  -58.029    0.505   58.916  300.069 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      188.359     19.762   9.531  < 2e-16 ***
## log(escs)         10.913      1.509   7.233 5.77e-13 ***
## gendermale       -17.714      2.907  -6.094 1.22e-09 ***
## mother_educ_num   25.518      3.384   7.540 5.93e-14 ***
## father_educ_num   28.941      2.662  10.871  < 2e-16 ***
## internetyes       81.317     13.904   5.848 5.41e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 86.89 on 3571 degrees of freedom
##   (8534 observations deleted due to missingness)
## Multiple R-squared:  0.1074, Adjusted R-squared:  0.1061 
## F-statistic:  85.9 on 5 and 3571 DF,  p-value: < 2.2e-16

Se observa que el RSE se mantuvo muy próximo al del modelo original, lo cual indica similar ajuste (Residual standard error= 86.89, versus 86.59 obtenido en el modelo lineal simple). El Test F sigue mostrando que las variables consideradas, en conjunto, son significativas. Se destaca además que la estimación del coeficiente del índice de NESC mantiene la misma tendencia (en cuanto a relación positiva y significancia estadística).

Tras los ajuste realizados, no obstante, debemos interpretar que un aumento de 1% en el índice de NESC se asocia con un cambio de 0,109 puntos en el score en lectura, en promedio, si se mantienen constantes el resto de las variables. Esta estimación es estadísticamente significativa al nivel del 0.001.

Sobre este nuevo modelo, exploramos también el cumplimiento de supuestos para la regresión lineal:

residuos2 <- residuals(modelo_logESCS)
ad_result2 <- ad.test(residuos2)
print(ad_result2)
## 
##  Anderson-Darling normality test
## 
## data:  residuos2
## A = 0.21115, p-value = 0.8582
whitestrap::white_test(modelo_logESCS)
## White's test results
## 
## Null hypothesis: Homoskedasticity of the residuals
## Alternative hypothesis: Heteroskedasticity of the residuals
## Test Statistic: 0.3
## P-value: 0.861987
library(lmtest)
reset_modlog <- resettest(modelo_logESCS)
print(reset_modlog)
## 
##  RESET test
## 
## data:  modelo_logESCS
## RESET = 8.9778, df1 = 2, df2 = 3569, p-value = 0.0001291

El nuevo modelo propuesto mantiene el cumplimiento del supuesto de normalidad (p valor del test de normalidad= 0.8582, es decir superior a 0,05). Además asegura ahora el supuesto de homocedasticidad, siendo el p valor en la Prueba de White= 0.861987 (es decir, mayor a 0.05, lo que lleva a aceptar la H0 de homocedasticidad). Además, se redujo algo la especificación incorrecta (el p valor en el RESET test pasó de extremadamente pequeño a 0,0001291), aunque este problema persiste, posiblemente existiendo sesgo por variables omitidas.

Test de hipótesis

Finalmente se comparó el índice de NESC obtenido en las Prueba PISA 2022 de Argentina, con el resultado para dicho índice correspondiente a la edición anterior, 2018, a partir del Test T de diferencia de medias.

Para ello, se descargó el dataset de las Pruebas PISA 2018 anexado al 2022, para Argentina, como sigue:

student_data_18y22 <- load_student(c(2018, 2022))
unique(student_data_18y22$year)
## [1] 2018 2022
data_ARG18y22<- student_data_18y22 %>% filter(country == "ARG")

Se realizó un test de diferencia de medias unilateral, postulando como hipótesis nula (H0) que no existen diferencias en los valores promedio del índice de NESC en las Pruebas PISA del año 2018 y el año 2022 en Argentina; y como hipótesis alternativa (H1) que el índice promedio fue inferior en 2018, en comparación con 2022.

t_test_result <- t.test(escs ~ year,
                        data = data_ARG18y22,
                        alternative = "less") 
t_test_result
## 
##  Welch Two Sample t-test
## 
## data:  escs by year
## t = -8.61, df = 23540, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group 2018 and group 2022 is less than 0
## 95 percent confidence interval:
##        -Inf -0.1061529
## sample estimates:
## mean in group 2018 mean in group 2022 
##         -0.8027033         -0.6714808

A partir de estos resultados se observa un valor de p muy inferior a 0,001. Por lo tanto, se rechaza la hipótesis nula y se concluye con un 99% de confianza que existe una diferencia significativa en el índice de ESCS entre 2018 y 2022 (t= -8.61, valor p<2.2e-16), con un valor medio superior en 2022.

En otras palabras, el nivel econcómico, social y cultural de los estudiantes que participaron de las Pruebas PISA en 2018 fue significativamente mayor en los participantes de la edición 2022, en comparación con los del 2018.

Comentarios finales

El presente trabajo permitió conocer y describir cómo es la relación entre el rendimiento académico en lectura y un índice de nivel económico, social y cultural de los estudiantes de 15 años que participaron de la edición 2022 de las Pruebas PISA en Argentina, y establecer comparaciones entre los valores de dicho índice estimados para ese año versus el correspondiente al 2018. Para ello se aplicaron herramientas de análisis de la estadística descriptiva, así como de la estadística inferencial incluyendo, entre otras, la obtención de estimaciones basadas en la regresión lineal y análisis de diferencia de medias mediante prueba de hipótesis.

En base a los resultados principales presentados se concluye que la hipótesis de investigación de este estudio fue confirmada, dado que se halló evidencia de que, en el grupo poblacional estudiado, existe una asociación directa y significativa entre el rendimiento escolar en lectura y el índice de NESC estimado en las pruebas PISA. Se encontró que, en promedio, a mayores valores de este índice, mayor es el score de rendimiento escolar en lectura. Sumado a ello, los resultados sugieren que el nivel económico, social y cultural de los participantes de las Prueba PISA en Argentina cambió de manera favorable en 2022 (versus 2018), siendo la diferencia entre los valores promedio registrados esos años estadísticamente significativas.

Como limitación de este trabajo debe mencionarse, no obstante, que ciertos supuestos de la regresión lineal aún no se cumplieron. Para su abordaje en futuros trabajos posiblemente sea conveniente explorar modelos no lineales que se ajusten mejor a la distribución de las variables dependiente y/o independiente analizadas. También sería conveniente incorporar más variables para contrarrestar el sesgo por variables omitidas, de modo de abordar de manera mas acabada la complejidad del fenómeno analizado.