Identificar la existencia de efectos de la concentración territorial de escuelas en los puntajes obtenidos en Comprensión Lectora y Matemática en la Evaluación Censal de Estudiantes por los alumnos de 2do. de primaria en escuelas públicas y privadas.
Controlar la presencia de otros determinantes en el rendimiento educativo y los logros educacionales, como factores atribuibles a la demanda y oferta educativa, así como aspectos de financiación pública.
Identificar instrumentos que permitan tratar la endogeneidad de la “elección” de escuelas para los alumnos, basados en el performance promedio de la misma en las pruebas de evaluación estandarizadas.
Existe endogeneidad de la “elección” de escuela del alumno, la cual es un efecto relevante en el rendimiento educativo del mismo. La intuición de la elección educativa se basa en el performance promedio del centro educativo en cada área. La misma es tratada incorporando como variables instrumentales la concentración geográfica de escuelas, como proxy de competencia por calidad (basándonos en literatura empírica de organización industrial).
Existen efectos significativos e indirectos de la concentración de escuelas en el rendimiento educativo y logro educacional en las áreas de Comprensión Lectora y Matemática. Existe exogeneidad entre la concentración geográfica de escuelas y la ecuación de rendimiento educativo del alumno, en tanto no hay una afectación directa de la primera sino únicamente a través del efecto “elección” de escuela.
Existen significancia de dichos efectos por tipo de gestión del centro educativo (público y privado).
El nivel socioeconómico del hogar al que pertenece el alumno, así como otros aspectos de la demanda y oferta educativa afectan significativamente el logro educacional promedio de los niños en áreas urbanas.
El modelo que explica el rendimiento educativo viene determinado por:
\[log(R_i)=X_i\beta+Z_i\Gamma+u_i\] Donde Xi es el vector de variables explicativas exógenas. - Corrigiendo por variables instrumentales. Zi es el vector de instrumentos. La estimación va a ser llevada a cabo por dos etapas (2sls) corregido por clusterización y heterocedasticidad. - La ecuación de primera etapa se determina por:
\[G_i=Z_i\Gamma+\epsilon_i\] Donde Gi es la variable endógena y Zi el vector de instrumentos. e es el término de error idiosincrático.
Los datos provienen de dos fuentes de información
Bases de datos de las Evaluaciones Censales a Estudiantes (ECE 2015 y 2016): Con la cual se obtuvieron los puntajes y logros educacionales en Compresión Lectora y Matemática por cada alumno de 2do de primaria de una muestra de colegios. Se eligieron escuelas correspondientes a áreas urbanas. Las bases de datos contienen información básica sobre la escuela, y dos variables vinculadas al alumno: sexo, índice socioeconómico, y sección a la que pertenece.
Padrón de Instituciones Educativas: Las que contienen información espacial del centro educativa (coordenadas UTM), con la cual se elaboraron índices geográficos de concentración de escuelas (basadas en isócronas por radio de distancia).
## 2SLS in R ##
library(foreign)
AllData <- read.dta("ea.dta", convert.factors=FALSE)
CData <- na.omit(subset(AllData, select=c(dpto, codgeo, sexo, goc, gom, oc, om, ise, tipo, ges, ioc, iom, size, periodo, n1k, n2k, n3k, n4k, n5k)))
summary(CData)
## dpto codgeo sexo goc
## Min. : 1.00 Length:304127 Min. :0.0000 Min. :1.000
## 1st Qu.: 7.00 Class :character 1st Qu.:0.0000 1st Qu.:2.000
## Median :13.00 Mode :character Median :0.0000 Median :2.000
## Mean :13.17 Mean :0.4993 Mean :2.354
## 3rd Qu.:20.00 3rd Qu.:1.0000 3rd Qu.:3.000
## Max. :25.00 Max. :1.0000 Max. :3.000
## gom oc om ise
## Min. :1.00 Min. :148.0 Min. : 97.0 Min. :-2.94258
## 1st Qu.:2.00 1st Qu.:537.0 1st Qu.:515.0 1st Qu.:-0.81233
## Median :2.00 Median :593.0 Median :600.9 Median :-0.15276
## Mean :2.24 Mean :595.1 Mean :602.6 Mean :-0.07281
## 3rd Qu.:3.00 3rd Qu.:644.0 3rd Qu.:680.0 3rd Qu.: 0.66278
## Max. :3.00 Max. :826.0 Max. :896.1 Max. : 4.06468
## tipo ges ioc iom
## Min. :0.0000 Min. :0.0000 Min. :274.7 Min. :172.0
## 1st Qu.:0.0000 1st Qu.:1.0000 1st Qu.:561.4 1st Qu.:549.5
## Median :0.0000 Median :1.0000 Median :598.5 Median :607.8
## Mean :0.1012 Mean :0.8486 Mean :593.2 Mean :600.1
## 3rd Qu.:0.0000 3rd Qu.:1.0000 3rd Qu.:630.0 3rd Qu.:652.5
## Max. :1.0000 Max. :1.0000 Max. :812.8 Max. :893.5
## size periodo n1k n2k
## Min. : 1.00 Min. :2015 Min. : 0.000 Min. : 0.000
## 1st Qu.:19.00 1st Qu.:2015 1st Qu.: 1.188 1st Qu.: 2.857
## Median :25.00 Median :2015 Median : 7.853 Median : 16.000
## Mean :24.07 Mean :2015 Mean : 21.563 Mean : 48.336
## 3rd Qu.:30.00 3rd Qu.:2016 3rd Qu.: 30.617 3rd Qu.: 73.991
## Max. :50.00 Max. :2016 Max. :407.846 Max. :552.466
## n3k n4k n5k
## Min. : 0.000 Min. : 0.000 Min. : 0.00
## 1st Qu.: 5.241 1st Qu.: 8.261 1st Qu.: 11.51
## Median : 23.030 Median : 29.182 Median : 38.36
## Mean : 78.771 Mean : 111.152 Mean : 143.08
## 3rd Qu.:107.838 3rd Qu.: 136.609 3rd Qu.: 150.77
## Max. :893.712 Max. :1332.153 Max. :1672.07
hist(CData$oc,main="Puntajes en Comprension Lectora")
hist(CData$om, main="Puntajes en Matemática")
hist(CData$ise, main="Índice Socioeconómico del Hogar")
hist(CData$size, main="Tamaño de clase")
hist(CData$n1k, main="Concentración de escuelas 1 km a la redonda")
hist(CData$n2k, main="Concentración de escuelas 2 km a la redonda")
hist(CData$n3k, main="Concentración de escuelas 3 km a la redonda")
hist(CData$n4k, main="Concentración de escuelas 4 km a la redonda")
hist(CData$n5k, main="Concentración de escuelas 5 km a la redonda")
library(ggplot2)
ggplot(CData,aes(x=oc,y=..density..))+geom_histogram()+facet_grid(~ges)+theme_bw() + ggtitle("Puntajes en Comprensión Lectora según gestión de la escuela")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(CData,aes(x=om,y=..density..))+geom_histogram()+facet_grid(~ges)+theme_bw() + ggtitle("Puntajes en Matemática según gestión de la escuela")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
plot(CData$oc,CData$om)
plot(CData$oc,CData$ioc)
plot(CData$om,CData$iom)
plot(CData$ioc,CData$n1k)
plot(CData$iom,CData$n1k)
ols_c_tot <- lm(goc ~ ioc + iom + ise + ges + sexo + size, data=CData)
summary(ols_c_tot)
##
## Call:
## lm(formula = goc ~ ioc + iom + ise + ges + sexo + size, data = CData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.24856 -0.39940 0.07469 0.44502 1.82674
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.664e+00 1.584e-02 -104.990 <2e-16 ***
## ioc 6.132e-03 4.962e-05 123.572 <2e-16 ***
## iom 5.239e-04 3.168e-05 16.536 <2e-16 ***
## ise 4.716e-02 1.410e-03 33.458 <2e-16 ***
## ges 1.408e-01 3.645e-03 38.637 <2e-16 ***
## sexo 5.038e-03 2.103e-03 2.395 0.0166 *
## size -2.212e-03 1.476e-04 -14.986 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5796 on 304120 degrees of freedom
## Multiple R-squared: 0.2913, Adjusted R-squared: 0.2913
## F-statistic: 2.084e+04 on 6 and 304120 DF, p-value: < 2.2e-16
library(AER)
## Loading required package: car
## Loading required package: carData
## Loading required package: lmtest
## Loading required package: zoo
##
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
##
## as.Date, as.Date.numeric
## Loading required package: sandwich
## Loading required package: survival
iv_c_tot <- ivreg(goc ~ ges + sexo + size + ise + ioc + iom | ges + sexo + size + ise + n1k + n3k + n5k, data=CData)
summary(iv_c_tot)
##
## Call:
## ivreg(formula = goc ~ ges + sexo + size + ise + ioc + iom | ges +
## sexo + size + ise + n1k + n3k + n5k, data = CData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.11225 -0.40602 0.09274 0.47056 1.63000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.4243360 0.1368357 -3.101 0.001928 **
## ges 0.0750200 0.0209431 3.582 0.000341 ***
## sexo 0.0095267 0.0022932 4.154 3.26e-05 ***
## size 0.0015851 0.0003513 4.512 6.43e-06 ***
## ise 0.0883528 0.0044830 19.708 < 2e-16 ***
## ioc 0.0029883 0.0006527 4.578 4.70e-06 ***
## iom 0.0015089 0.0004769 3.164 0.001558 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5861 on 304120 degrees of freedom
## Multiple R-Squared: 0.2755, Adjusted R-squared: 0.2755
## Wald test: 6467 on 6 and 304120 DF, p-value: < 2.2e-16
ols_m_tot <- lm(gom ~ ioc + iom + ise + ges + sexo + size, data=CData)
summary(ols_m_tot)
##
## Call:
## lm(formula = gom ~ ioc + iom + ise + ges + sexo + size, data = CData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.15511 -0.41402 0.03286 0.44887 1.94469
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.480e-01 1.585e-02 -28.268 < 2e-16 ***
## ioc -1.971e-03 4.964e-05 -39.713 < 2e-16 ***
## iom 6.297e-03 3.169e-05 198.684 < 2e-16 ***
## ise 5.434e-02 1.410e-03 38.540 < 2e-16 ***
## ges -4.664e-02 3.646e-03 -12.790 < 2e-16 ***
## sexo 1.128e-02 2.104e-03 5.361 8.29e-08 ***
## size 4.856e-03 1.476e-04 32.894 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.5798 on 304120 degrees of freedom
## Multiple R-squared: 0.3451, Adjusted R-squared: 0.3451
## F-statistic: 2.671e+04 on 6 and 304120 DF, p-value: < 2.2e-16
library(AER)
iv_m_tot <- ivreg(gom ~ ges + sexo + size + ise + ioc + iom | ges + sexo + size + ise + n1k + n3k + n5k, data=CData)
summary(iv_m_tot)
##
## Call:
## ivreg(formula = gom ~ ges + sexo + size + ise + ioc + iom | ges +
## sexo + size + ise + n1k + n3k + n5k, data = CData)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.14428 -0.41356 0.03434 0.45069 1.93280
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.6228808 0.1354182 -4.600 4.23e-06 ***
## ges -0.0268718 0.0207262 -1.297 0.1948
## sexo 0.0103348 0.0022694 4.554 5.27e-06 ***
## size 0.0044890 0.0003477 12.911 < 2e-16 ***
## ise 0.0488263 0.0044366 11.005 < 2e-16 ***
## ioc -0.0012711 0.0006460 -1.968 0.0491 *
## iom 0.0058829 0.0004720 12.464 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.58 on 304120 degrees of freedom
## Multiple R-Squared: 0.3447, Adjusted R-squared: 0.3447
## Wald test: 6630 on 6 and 304120 DF, p-value: < 2.2e-16