1. Marco Teórico

Determinantes de logros educacionales (GG Kingdon, 2017; DeAngelis, 2017; Sánchez, 2005)
Función de producción educativa (Seinfeld y Beltrán, 2012; Asencios, 2016; Carrasco, 2007; Cueto, 2004)
Aspectos espaciales y rendimiento educacional (Astaburuaga, 2013; Bellei, 2010; Garner y Raudenbush, 1991; Talen, 2001)
Aspectos empíricos de Organización Industrial (BLP, 2005)

2. Objetivos

General

Hallar los efectos de la concentración territorial de escuelas en el rendimiento educativo y los logros educacionales en áreas urbanas.

Específicos

Identificar la existencia de efectos de la concentración territorial de escuelas en los puntajes obtenidos en Comprensión Lectora y Matemática en la Evaluación Censal de Estudiantes por los alumnos de 2do. de primaria en escuelas públicas y privadas.
Controlar la presencia de otros determinantes en el rendimiento educativo y los logros educacionales, como factores atribuibles a la demanda y oferta educativa, así como aspectos de financiación pública.
Identificar instrumentos que permitan tratar la endogeneidad de la “elección” de escuelas para los alumnos, basados en el performance promedio de la misma en las pruebas de evaluación estandarizadas.

3. Hipótesis

Existe endogeneidad de la “elección” de escuela del alumno, la cual es un efecto relevante en el rendimiento educativo del mismo. La intuición de la elección educativa se basa en el performance promedio del centro educativo en cada área. La misma es tratada incorporando como variables instrumentales la concentración geográfica de escuelas, como proxy de competencia por calidad (basándonos en literatura empírica de organización industrial).
Existen efectos significativos e indirectos de la concentración de escuelas en el rendimiento educativo y logro educacional en las áreas de Comprensión Lectora y Matemática. Existe exogeneidad entre la concentración geográfica de escuelas y la ecuación de rendimiento educativo del alumno, en tanto no hay una afectación directa de la primera sino únicamente a través del efecto “elección” de escuela.
Existen significancia de dichos efectos por tipo de gestión del centro educativo (público y privado).
El nivel socioeconómico del hogar al que pertenece el alumno, así como otros aspectos de la demanda y oferta educativa afectan significativamente el logro educacional promedio de los niños en áreas urbanas.

4. Modelo econométrico

El modelo que explica el rendimiento educativo viene determinado por:

\[log(R_i)=X_i\beta+Z_i\Gamma+u_i\] Donde Xi es el vector de variables explicativas exógenas. - Corrigiendo por variables instrumentales. Zi es el vector de instrumentos. La estimación va a ser llevada a cabo por dos etapas (2sls) corregido por clusterización y heterocedasticidad. - La ecuación de primera etapa se determina por:

\[G_i=Z_i\Gamma+\epsilon_i\] Donde Gi es la variable endógena y Zi el vector de instrumentos. e es el término de error idiosincrático.

5. Datos

Los datos provienen de dos fuentes de información

Bases de datos de las Evaluaciones Censales a Estudiantes (ECE 2015 y 2016): Con la cual se obtuvieron los puntajes y logros educacionales en Compresión Lectora y Matemática por cada alumno de 2do de primaria de una muestra de colegios. Se eligieron escuelas correspondientes a áreas urbanas. Las bases de datos contienen información básica sobre la escuela, y dos variables vinculadas al alumno: sexo, índice socioeconómico, y sección a la que pertenece.
Padrón de Instituciones Educativas: Las que contienen información espacial del centro educativa (coordenadas UTM), con la cual se elaboraron índices geográficos de concentración de escuelas (basadas en isócronas por radio de distancia).

6. Resultados

## 2SLS in R ##
library(foreign)
AllData <- read.dta("ea.dta",  convert.factors=FALSE)
CData <- na.omit(subset(AllData, select=c(dpto, codgeo, sexo, goc, gom, oc, om, ise, tipo, ges, ioc, iom, size, periodo, n1k, n2k, n3k, n4k, n5k)))

6.1 Estadísticas Descriptivas

summary(CData)

##       dpto          codgeo               sexo             goc       
##  Min.   : 1.00   Length:304127      Min.   :0.0000   Min.   :1.000  
##  1st Qu.: 7.00   Class :character   1st Qu.:0.0000   1st Qu.:2.000  
##  Median :13.00   Mode  :character   Median :0.0000   Median :2.000  
##  Mean   :13.17                      Mean   :0.4993   Mean   :2.354  
##  3rd Qu.:20.00                      3rd Qu.:1.0000   3rd Qu.:3.000  
##  Max.   :25.00                      Max.   :1.0000   Max.   :3.000  
##       gom             oc              om             ise          
##  Min.   :1.00   Min.   :148.0   Min.   : 97.0   Min.   :-2.94258  
##  1st Qu.:2.00   1st Qu.:537.0   1st Qu.:515.0   1st Qu.:-0.81233  
##  Median :2.00   Median :593.0   Median :600.9   Median :-0.15276  
##  Mean   :2.24   Mean   :595.1   Mean   :602.6   Mean   :-0.07281  
##  3rd Qu.:3.00   3rd Qu.:644.0   3rd Qu.:680.0   3rd Qu.: 0.66278  
##  Max.   :3.00   Max.   :826.0   Max.   :896.1   Max.   : 4.06468  
##       tipo             ges              ioc             iom       
##  Min.   :0.0000   Min.   :0.0000   Min.   :274.7   Min.   :172.0  
##  1st Qu.:0.0000   1st Qu.:1.0000   1st Qu.:561.4   1st Qu.:549.5  
##  Median :0.0000   Median :1.0000   Median :598.5   Median :607.8  
##  Mean   :0.1012   Mean   :0.8486   Mean   :593.2   Mean   :600.1  
##  3rd Qu.:0.0000   3rd Qu.:1.0000   3rd Qu.:630.0   3rd Qu.:652.5  
##  Max.   :1.0000   Max.   :1.0000   Max.   :812.8   Max.   :893.5  
##       size          periodo          n1k               n2k         
##  Min.   : 1.00   Min.   :2015   Min.   :  0.000   Min.   :  0.000  
##  1st Qu.:19.00   1st Qu.:2015   1st Qu.:  1.188   1st Qu.:  2.857  
##  Median :25.00   Median :2015   Median :  7.853   Median : 16.000  
##  Mean   :24.07   Mean   :2015   Mean   : 21.563   Mean   : 48.336  
##  3rd Qu.:30.00   3rd Qu.:2016   3rd Qu.: 30.617   3rd Qu.: 73.991  
##  Max.   :50.00   Max.   :2016   Max.   :407.846   Max.   :552.466  
##       n3k               n4k                n5k         
##  Min.   :  0.000   Min.   :   0.000   Min.   :   0.00  
##  1st Qu.:  5.241   1st Qu.:   8.261   1st Qu.:  11.51  
##  Median : 23.030   Median :  29.182   Median :  38.36  
##  Mean   : 78.771   Mean   : 111.152   Mean   : 143.08  
##  3rd Qu.:107.838   3rd Qu.: 136.609   3rd Qu.: 150.77  
##  Max.   :893.712   Max.   :1332.153   Max.   :1672.07

Algunos plots de distribuciones

hist(CData$oc,main="Puntajes en Comprension Lectora")

hist(CData$om, main="Puntajes en Matemática")

hist(CData$ise, main="Índice Socioeconómico del Hogar")

hist(CData$size, main="Tamaño de clase")

hist(CData$n1k, main="Concentración de escuelas 1 km a la redonda")

hist(CData$n2k, main="Concentración de escuelas 2 km a la redonda")

hist(CData$n3k, main="Concentración de escuelas 3 km a la redonda")

hist(CData$n4k, main="Concentración de escuelas 4 km a la redonda")

hist(CData$n5k, main="Concentración de escuelas 5 km a la redonda")

library(ggplot2)
ggplot(CData,aes(x=oc,y=..density..))+geom_histogram()+facet_grid(~ges)+theme_bw() + ggtitle("Puntajes en Comprensión Lectora según gestión de la escuela")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(CData,aes(x=om,y=..density..))+geom_histogram()+facet_grid(~ges)+theme_bw() + ggtitle("Puntajes en Matemática según gestión de la escuela")

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Algunos plots de correlaciones.

plot(CData$oc,CData$om)

plot(CData$oc,CData$ioc)

plot(CData$om,CData$iom)

plot(CData$ioc,CData$n1k)

plot(CData$iom,CData$n1k)

6.2 Resultados econométricos

Estimación por OLS Área Comprensión Lectora

ols_c_tot <- lm(goc ~ ioc + iom + ise + ges + sexo + size, data=CData)
summary(ols_c_tot)

## 
## Call:
## lm(formula = goc ~ ioc + iom + ise + ges + sexo + size, data = CData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.24856 -0.39940  0.07469  0.44502  1.82674 
## 
## Coefficients:
##               Estimate Std. Error  t value Pr(>|t|)    
## (Intercept) -1.664e+00  1.584e-02 -104.990   <2e-16 ***
## ioc          6.132e-03  4.962e-05  123.572   <2e-16 ***
## iom          5.239e-04  3.168e-05   16.536   <2e-16 ***
## ise          4.716e-02  1.410e-03   33.458   <2e-16 ***
## ges          1.408e-01  3.645e-03   38.637   <2e-16 ***
## sexo         5.038e-03  2.103e-03    2.395   0.0166 *  
## size        -2.212e-03  1.476e-04  -14.986   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5796 on 304120 degrees of freedom
## Multiple R-squared:  0.2913, Adjusted R-squared:  0.2913 
## F-statistic: 2.084e+04 on 6 and 304120 DF,  p-value: < 2.2e-16

Estimación por IV Área Comprensión Lectora

library(AER)

## Loading required package: car

## Loading required package: carData

## Loading required package: lmtest

## Loading required package: zoo

## 
## Attaching package: 'zoo'

## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric

## Loading required package: sandwich

## Loading required package: survival

iv_c_tot <- ivreg(goc ~ ges + sexo + size + ise + ioc + iom | ges + sexo + size + ise + n1k + n3k + n5k, data=CData)
summary(iv_c_tot)

## 
## Call:
## ivreg(formula = goc ~ ges + sexo + size + ise + ioc + iom | ges + 
##     sexo + size + ise + n1k + n3k + n5k, data = CData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.11225 -0.40602  0.09274  0.47056  1.63000 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.4243360  0.1368357  -3.101 0.001928 ** 
## ges          0.0750200  0.0209431   3.582 0.000341 ***
## sexo         0.0095267  0.0022932   4.154 3.26e-05 ***
## size         0.0015851  0.0003513   4.512 6.43e-06 ***
## ise          0.0883528  0.0044830  19.708  < 2e-16 ***
## ioc          0.0029883  0.0006527   4.578 4.70e-06 ***
## iom          0.0015089  0.0004769   3.164 0.001558 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5861 on 304120 degrees of freedom
## Multiple R-Squared: 0.2755,  Adjusted R-squared: 0.2755 
## Wald test:  6467 on 6 and 304120 DF,  p-value: < 2.2e-16

Estimación por OLS Área Matemática

ols_m_tot <- lm(gom ~ ioc + iom + ise + ges + sexo + size, data=CData)
summary(ols_m_tot)

## 
## Call:
## lm(formula = gom ~ ioc + iom + ise + ges + sexo + size, data = CData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.15511 -0.41402  0.03286  0.44887  1.94469 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -4.480e-01  1.585e-02 -28.268  < 2e-16 ***
## ioc         -1.971e-03  4.964e-05 -39.713  < 2e-16 ***
## iom          6.297e-03  3.169e-05 198.684  < 2e-16 ***
## ise          5.434e-02  1.410e-03  38.540  < 2e-16 ***
## ges         -4.664e-02  3.646e-03 -12.790  < 2e-16 ***
## sexo         1.128e-02  2.104e-03   5.361 8.29e-08 ***
## size         4.856e-03  1.476e-04  32.894  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5798 on 304120 degrees of freedom
## Multiple R-squared:  0.3451, Adjusted R-squared:  0.3451 
## F-statistic: 2.671e+04 on 6 and 304120 DF,  p-value: < 2.2e-16

Estimación por IV Área Matemática

library(AER)
iv_m_tot <- ivreg(gom ~ ges + sexo + size + ise + ioc + iom | ges + sexo + size + ise + n1k + n3k + n5k, data=CData)
summary(iv_m_tot)

## 
## Call:
## ivreg(formula = gom ~ ges + sexo + size + ise + ioc + iom | ges + 
##     sexo + size + ise + n1k + n3k + n5k, data = CData)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.14428 -0.41356  0.03434  0.45069  1.93280 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.6228808  0.1354182  -4.600 4.23e-06 ***
## ges         -0.0268718  0.0207262  -1.297   0.1948    
## sexo         0.0103348  0.0022694   4.554 5.27e-06 ***
## size         0.0044890  0.0003477  12.911  < 2e-16 ***
## ise          0.0488263  0.0044366  11.005  < 2e-16 ***
## ioc         -0.0012711  0.0006460  -1.968   0.0491 *  
## iom          0.0058829  0.0004720  12.464  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.58 on 304120 degrees of freedom
## Multiple R-Squared: 0.3447,  Adjusted R-squared: 0.3447 
## Wald test:  6630 on 6 and 304120 DF,  p-value: < 2.2e-16

7. Bibliografía

Kingdon, G. G. (2017). The private schooling phenomenon in India: A review.
DeAngelis, C. A. (2017). Does Private Schooling Improve International Test Scores? Evidence from a Natural Experiment.
Hugalde, A. S. EFECTOS DE LA INMIGRACIÓN EN EL RENDIMIENTO EDUCATIVO: EL CASO ESPAÑOL.
Asencios, R. (2016). Rendimiento Escolar en el Perú: Análisis Secuencial de los resultados de la Evaluación Censal de Estudiantes. Bco Ctral Rev Perú, 5, 1-9.
Beltrán, B., & Seinfeld, J. (2013). La trampa educativa en el Perú: cuando la educación llega a muchos pero sirve a pocos. Universidad Pacifico.
Carrasco Gutiérrez, G. (2007). Calidad y equidad en las escuelas peruanas: un estudio del efecto Escuela en la prueba de matemática-PISA 2000. CIES, DESCO.
Cueto, S. (2004). Factores predictivos del rendimiento escolar, deserción e ingreso a educación secundaria en una muestra de estudiantes de zonas rurales del Perú.
Astaburuaga, J. (2013). Disparidades comunales frente al rendimiento educacional en la Región Metropolitana (2000-2010): Distribución de la oferta educativa y su relación con los resultados SIMCE (Doctoral dissertation, Tesis para optar al Grado de Magíster en Geografía y Geomática. PUC).
Berry, S., Levinsohn, J., & Pakes, A. (1995). Automobile prices in market equilibrium. Econometrica: Journal of the Econometric Society, 841-890.

Efectos de la concentración de escuelas en el rendimiento educativo y los logros de aprendizajes en áreas urbanas

Santiago Torres

15 de mayo de 2018