Estadistica descriptiva y tabla de balance

(1.a)

Tabla de Balance entre Grupos
Variable Media Total Tratamiento Control Diferencia p-value
gender 0.241 0.221 0.249 -0.029 0.408
age 41.987 41.883 42.034 -0.151 0.887
religion 0.710 0.714 0.708 0.005 0.886
caste 0.413 0.371 0.431 -0.060 0.134
education 0.313 0.394 0.277 0.117 0.003
homeBuilt 15.372 18.272 14.054 4.218 0.000

(1.b)

La tabla presenta una comparación entre hogares con conexión legal a la red eléctrica (tratamiento) y aquellos sin conexión (control). La columna de diferencia muestra la magnitud de las diferencias entre grupos, mientras que el p-value indica si estas diferencias son estadísticamente significativas. Valores de p menores a 0.05 sugieren que existe un desbalance en esa variable, lo cual podría afectar la validez de inferencias causales en análisis posteriores.

La tabla de balance permite evaluar la presencia de sesgo de selección en variables observables. Si los grupos de tratamiento y control presentan diferencias sistemáticas en sus características iniciales, la estimación del efecto causal puede estar sesgada, ya que el tratamiento no es asignado de manera aleatoria.

(1.c)

La especificación estimada es:

\(treat_i = β_0 + β_1 gender_i + β_2 age_i + β_3 religion_i + β_4 caste_i + β_5 education_i + β_6 homeBuilt_i + ε_i\)

Regresión: Determinantes del Tratamiento
Variable Coeficiente Error estándar p-value
(Intercept) (Intercept) 0.1837 0.0876 0.0363
gender gender 0.0139 0.0481 0.7730
age age 0.0001 0.0016 0.9295
religion religion -0.0015 0.0439 0.9729
caste caste -0.0106 0.0409 0.7958
educationTRUE educationTRUE 0.1193 0.0489 0.0149
homeBuilt homeBuilt 0.0060 0.0018 0.0009

Prueba de significacia conjunta

## Wald test
## 
## Model 1: treat ~ gender + age + religion + caste + education + homeBuilt
## Model 2: treat ~ 1
##   Res.Df Df      F   Pr(>F)   
## 1    534                      
## 2    540 -6 3.2158 0.004122 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La prueba de Wald evalúa la hipótesis nula de que todos los coeficientes asociados a las covariables son simultáneamente iguales a cero.

\(H0: β_1 = β_2 = ... = β_6 = 0\) \(H1: \text{Al menos uno de los coeficientes es distinto de cero.}\)

En este caso, la prueba rechaza la hipótesis nula de que las covariables no explican la asignación al tratamiento \((p < 0.01)\). Esto indica que las características observables de los hogares están correlacionadas con la probabilidad de recibir tratamiento, lo que sugiere la presencia de sesgo de selección en variables observables y que la evidencia sugiere que hay correlación con observables.

Estimación del efecto del tratamiento bajo un marco experimetal

(2.a)

En el marco de resultados potenciales, para cada hogar \(i\) existen dos resultados posibles asociados al gasto total del hogar:

\(Y_i(1)\), que representa el gasto si el hogar cuenta con conexión legal a la red eléctrica, y \(Y_i(0)\), que representa el gasto si el hogar no cuenta con dicha conexión. Estos dos resultados corresponden a dos estados alternativos del mundo

Sin embargo, para cada hogar solo es posible observar uno de estos resultados, dependiendo de su estatus de tratamiento.

El parámetro principal de interés es el efecto promedio del tratamiento (ATE), definido como la diferencia esperada entre los resultados potenciales bajo tratamiento y control:

\(ATE = E[Y(1) - Y(0)]\)

Este parámetro mide el efecto causal promedio de tener conexión legal a la red eléctrica sobre el gasto total del hogar.

(2.b)

Comparación de estimadores
Metodo Estimador
Neyman (Diff Means) 2386.056
treat Regresion OLS 2386.056

Modelo estimado:

\(Y_i = β_0 + β_1 T_i + ε_i\)

Donde \(β_1\) representa la diferencia promedio entre el grupo tratado y el grupo de control.

El coeficiente asociado a la variable de tratamiento en la regresión lineal simple es exactamente igual a la diferencia de medias entre los grupos de tratamiento y control.

Esto demuestra que el estimador de Neyman es algebraicamente equivalente al estimador OLS en una regresión con una variable dummy de tratamiento.

(2.c)

En promedio, los hogares con conexión legal a la red eléctrica gastan aproximadamente 2,386 unidades monetarias más que aquellos sin conexión. la magnitud del efecto es considerable, ya que representa una proporción relevante del gasto promedio, lo que indica que no solo es estadísticamente significativo, sino también económicamente importante. Por lo tanto, se puede concluir que el acceso a electricidad está asociado con cambios sustanciales en el comportamiento de consumo de los hogares.*

*Nota: Dado que la asignación al tratamiento no es aleatoria, esta estimación puede estar sesgada y no debe interpretarse estrictamente como un efecto causal.

Estratificación

(3.a)

Estimador Estratificado por Edad
Estrato Media Tratamiento Media Control Diferencia N Peso Efecto Ponderado
Ideal 6370.588 4733.668 1636.920 284 0.4133916 676.6889
Joven 7560.976 4633.721 2927.255 255 0.3711790 1086.5356
Mayor 7455.556 4631.373 2824.183 147 0.2139738 604.3012
NA NaN NaN NaN 1 0.0014556 NaN

(3.b)

Se estimaron tres especificaciones para evaluar el efecto de la conexión eléctrica sobre el gasto del hogar.

Primero, se estimó una regresión lineal simple donde el gasto total del hogar se modela como función del indicador de tratamiento (como en seccion 2). En esta especificación, el coeficiente asociado a la variable de tratamiento corresponde exactamente a la diferencia de medias entre los grupos.

En segundo lugar, se incorporaron efectos fijos por estratos de edad, lo cual permite controlar por heterogeneidad en la edad del jefe del hogar y mejora la precisión del estimador.

Finalmente, se estimó una especificación saturada del tipo estrato × tratamiento, sin intercepto global, de modo que los coeficientes identifiquen directamente las medias de cada celda. Bajo esta parametrización, las diferencias entre las medias estimadas para tratamiento y control dentro de cada estrato replican exactamente las diferencias de medias intra-estrato observadas en los datos.

Comparación de Especificaciones de Regresión
Variable Simple SE_simple Controles SE_controles Interacciones SE_interacciones
(Intercept) 4675.264 148.296 4511.269 225.929 4733.668 238.372
treat 2386.056 356.120 2379.996 353.132 1636.920 432.721
factor(estrato)Joven NA NA 299.126 310.268 -99.947 297.142
factor(estrato)Mayor NA NA 256.079 403.889 -102.296 476.059
treat:factor(estrato)Joven NA NA NA NA 1290.335 799.655
treat:factor(estrato)Mayor NA NA NA NA 1187.263 895.071

#Lee Bounds

(4.a)

Tasas de Atrición por Grupo
Tratamiento Tasa Observada Tasa de Atrición N
0 0.7357294 0.2642706 473
1 0.5821596 0.4178404 213
NA 0.0000000 1.0000000 1

Se calcularon las tasas de atrición para los grupos de tratamiento y control como el complemento de la proporción de observaciones disponibles.

Se observa que la tasa de atrición es mayor en el grupo de tratamiento (~41.8%) que en el grupo de control (~26.4%), lo que indica una pérdida diferencial de observaciones entre ambos grupos.

Esta diferencia no constituye por sí misma una violación del supuesto de monotonicidad utilizado en Lee Bounds. Dicho supuesto no requiere tasas de atrición iguales entre tratamiento y control, sino que el tratamiento afecte la probabilidad de observación en una sola dirección para todos los individuos. En este caso, el hecho de que el grupo tratado presente menor proporción de observaciones sugiere que, si la monotonicidad es plausible,la selección inducida por el tratamiento operaría en la dirección de reducir la probabilidad de observación. Por ello, la atrición diferencial observada justifica la aplicación de Lee Bounds, pero no permite concluir automáticamente que el supuesto se inclumple.

(4.b)

Estimador con Corrección de Lee
Estimador Valor
Naive 2005.9047
Lee Lower Bound 433.5684
Lee Upper Bound 2984.0735

El estimador sin corrección sugiere que los hogares con conexión eléctrica presentan un mayor gasto en aproximadamente 2006 unidades. Sin embargo, al aplicar el procedimiento de Lee para corregir por atrición, se obtiene un intervalo de posibles valores del efecto que va de 433 a 2984.

Dado que ambos límites son positivos, se puede concluir que el efecto del tratamiento es robustamente positivo incluso bajo distintos escenarios de selección. No obstante, la amplitud del intervalo indica que existe incertidumbre sobre la magnitud exacta del efecto, lo cual es consecuencia de la atrición en los datos

Poder estadístico

(5.a)

Se construyó la curva de poder estadístico como función del tamaño de muestra, utilizando un nivel de significancia del 7% y el efecto estandarizado derivado del ATE estimado.

La gráfica muestra que el poder aumenta conforme crece el tamaño de muestra. A partir de la inspección visual, se identifica que se requiere aproximadamente un tamaño de muestra de n≈120 observaciones para alcanzar un poder estadístico de 83%.

IV: Caso Simple

(6.a)

Para identificar el efecto causal de la electrificación legal sobre el gasto del hogar mediante variables instrumentales, el instrumento debe cumplir ciertos supuestos. Primero, relevancia: la variable forcing debe afectar la probabilidad de estar legalmente electrificado. En este contexto, el supuesto parece plausible porque la regla institucional facilita la conexión de los hogares ubicados más cerca del poste, por lo que estar entre 20 y 35 metros debería aumentar la probabilidad de electrificación respecto a estar entre 45 y 60 metros.

Segundo, exogeneidad e independencia: condicional en los controles observables y en los efectos fijos por poste, la asignación del instrumento no debe estar correlacionada con determinantes no observados del gasto. Este supuesto es plausible si la ubicación exacta del hogar respecto al poste no refleja diferencias sistemáticas de ingreso, infraestructura o desarrollo local.

Tercero, restricción de exclusión: la distancia al poste debe afectar el gasto solo a través de la electrificación legal y no por otros canales. Este es el supuesto más fuerte y el más discutible, porque los hogares más cercanos al poste podrían también estar mejor ubicados respecto a caminos, mercados o servicios, lo que afectaría directamente su gasto.

Cuarto, monotonicidad: estar en el grupo favorecido por el instrumento no debe reducir la probabilidad de electrificación para ningún hogar. En este caso, parece razonable pensar que vivir más cerca del poste solo facilita la conexión, por lo que este supuesto resulta bastante plausible.

En conjunto, la relevancia y la monotonicidad parecen creíbles en este contexto. Las principales amenazas a la validez del instrumento son la posible selección residencial y que la cercanía al poste capture ventajas de localización distintas al acceso a electricidad. Por ello, la credibilidad del diseño depende sobre todo de qué tan bien los controles y efectos fijos logren aislar variación verdaderamente exógena en la electrificación.

(6.b)

Primera etapa
Forcing (20-35 m) 0.595***
(0.023)
Gender −0.023
(0.085)
Age 0.000
(0.001)
Religion 0.109*
(0.058)
Caste −0.090**
(0.038)
Birthplace 0.055
(0.081)
Observations 685
R-squared 0.530
Observable controls Yes
Pole fixed effects Yes
* p < 0.1, ** p < 0.05, *** p < 0.01

(6.c)

El coeficiente estimado de forcing es 0.595 con error estándar de 0.023. Esto implica que estar en el rango de 20 a 35 metros del poste eléctrico incrementa la probabilidad de electrificación legal en aproximadamente 59.5 puntos porcentuales, en comparación con los hogares ubicados entre 45 y 60 metros, controlando por características observables y efectos fijos por poste.

Para evaluar la relevancia del instrumento, se realizó una prueba \(F\) de significancia conjunta sobre la variable forcing en la primera etapa. La hipótesis nula de esta prueba es:

\(H_0:\ \beta_{\text{forcing}} = 0\)

es decir, que el supuesto de relevancia no se cumple. La hipótesis alternativa es:

$H_1: _{} $

Los resultados de la prueba rechazan de manera contundente la hipótesis nula. En particular, se obtiene un estadístico \(F = 675.6\) con un \(p\text{-value} < 2.2 \times 10^{-16}\), utilizando errores estándar agrupados a nivel de Pole. Esto indica que forcing es altamente significativo en la primera etapa y, por tanto, constituye un instrumento relevante para explicar la variación en \(treat_i\).

Además, el coeficiente estimado para forcing es positivo y estadísticamente significativo, lo que confirma que los hogares ubicados dentro del rango definido por la regla institucional tienen una mayor probabilidad de acceder a la conexión eléctrica. Estos resultados sugieren que no existe evidencia a favor de la hipótesis nula y que el instrumento satisface la condición de relevancia.

(6.d)

ggplot(fig2_data, aes(x = distance, y = share_legal, color = condition)) +
  geom_point(size = 2.5, alpha = 0.8) +
  geom_vline(xintercept = 40, linetype = "dashed", linewidth = 0.8) +
  scale_color_manual(values = c("Control" = "#F4A261", "Forcing" = "#2A9D8F")) +
  scale_y_continuous(limits = c(0, 1.02)) +
  labs(
    title = "Distancia al poste y proporción de hogares con conexión legal",
    caption = "La línea punteada marca el umbral de elegibilidad",
    x = "Distancia del poste",
    y = "Proporcion con conexion legal",
    color = "Condición"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    legend.position = "right",
    plot.title = element_text(face = "bold", size=12)
  )

La figura evidencia la consistencia con el supuesto de relevancia del instrumento, ya que sugiere que la variable instrumental induce variación en la probabilidad de tratamiento. Si el instrumento fuera relevante, justamente debería observarse un cambio marcado en la proporción de hogares con conexión legal entre ambos grupos: una proporción claramente mayor del lado elegible y una menor del lado no elegible. Por el contrario, si la figura no mostrara diferencias visibles entre ambas condiciones, ello sugeriría que la distancia al poste no afecta de manera sustantiva la probabilidad de electrificación legal, debilitando la plausibilidad del supuesto de relevancia.

En este caso, se observa que para las distancias asociadas al tratamiento, la proporción de hogares con conexión legal es sistemáticamente más alta que en la condición control. En cambio, entre los hogares ubicados más lejos del poste, dicha proporción se concentra cerca de cero.

(6.e)

Primera etapa Forma reducida
Forcing (20-35 m) 0.593*** 2676.257***
(0.023) (364.165)
Gender −0.044 −136.942
(0.086) (529.527)
Age 0.000 5.154
(0.001) (16.934)
Religion 0.108* −1017.191**
(0.058) (442.688)
Caste −0.092** −431.095
(0.038) (333.481)
Birthplace 0.032 417.787
(0.082) (596.124)
Observations 684 684
R-squared 0.530 0.409
Observable controls Yes Yes
Pole fixed effects Yes Yes
* p < 0.1, ** p < 0.05, *** p < 0.01
pi_hat  <- coef(m_first)["forcing"]
rho_hat <- coef(m_rf)["forcing"]

se_pi   <- se(m_first)["forcing"]
se_rho  <- se(m_rf)["forcing"]

results_key <- data.frame(
  Estimacion = c("Primera etapa", "Forma reducida"),
  Coeficiente_forcing = c(pi_hat, rho_hat),
  Error_estandar = c(se_pi, se_rho)
)

results_key[, 2:3] <- round(results_key[, 2:3], 4)

kable(results_key, caption = "Coeficientes del instrumento") %>%
  kable_styling(full_width = FALSE)
Coeficientes del instrumento
Estimacion Coeficiente_forcing Error_estandar
Primera etapa 0.5935 0.0232
Forma reducida 2676.2569 364.1650
Cálculo del efecto de electrificación legal sobre gasto total
Forma.reducida Primera.etapa Estimador.
forcing 2676.257 0.5935 4509.399

La forma reducida muestra que pertenecer al grupo elegible por la regla de distancia incrementa el gasto total del hogar en aproximadamente 2676.257 unidades monetarias. Por su parte, la primera etapa indica que dicha elegibilidad aumenta la probabilidad de electrificación legal en 0.5935.

\[ \hat{\beta}_{IV} = \frac{\text{coef. de forma reducida}}{\text{coef. de primera etapa}}= \frac{2676.257}{0.5935} = 4509.399 \]

Por lo tanto, la estimación IV sugiere que la electrificación legal aumenta el gasto total del hogar en aproximadamente 4509.399 unidades monetarias.

Estimación 2SLS y comparación con el experimento

(7.a)

Dependent variable: Treat
Primera etapa
1(distance &lt;= 25) 0.668***
(0.047)
1(25 &lt; distance &lt;= 40) 0.568***
(0.034)
1(40 &lt; distance &lt; 55) 0.032
(0.030)
Gender −0.026
(0.088)
Age 0.000
(0.001)
Religion 0.110*
(0.059)
Caste −0.088**
(0.039)
Birthplace 0.048
(0.083)
Observations 684
R-squared 0.534
Observable controls Yes
Pole fixed effects Yes
* p < 0.1, ** p < 0.05, *** p < 0.01
Nota:
Errores estándar agrupados a nivel Pole entre paréntesis. * p < 0.10, ** p < 0.05, *** p < 0.01.
Dependent variable: Total household expenditure
&nbsp;2SLS
Electrificación legal 4483.931***
(605.367)
Gender 61.330
(528.743)
Age 4.013
(16.991)
Religion −1503.506***
(440.877)
Caste −20.564
(323.250)
Birthplace 276.677
(611.758)
Observations 684
R-squared 0.409
Instruments Z1, Z2, Z3
Observable controls Yes
Pole fixed effects Yes
* p < 0.1, ** p < 0.05, *** p < 0.01
Nota:
Errores estándar agrupados a nivel Pole entre paréntesis. * p < 0.10, ** p < 0.05, *** p < 0.01.
Primera etapa Forma reducida Primera etapa &nbsp;2SLS GMM
Forcing (20-35 m) 0.593*** 2676.257***
(0.023) (364.165)
Electrificación legal 4483.931*** 4483.931***
(605.367) (480.752)
(distance &lt;= 25) 0.668***
(0.047)
(25 &lt; distance &lt;= 40) 0.568***
(0.034)
(40 &lt; distance &lt; 55) 0.032
(0.030)
Gender −0.044 −136.942 −0.026 61.330 61.330
(0.086) (529.527) (0.088) (528.743) (852.368)
Age 0.000 5.154 0.000 4.013 4.013
(0.001) (16.934) (0.001) (16.991) (13.016)
Religion 0.108* −1017.191** 0.110* −1503.506*** −1503.506**
(0.058) (442.688) (0.059) (440.877) (590.885)
Caste −0.092** −431.095 −0.088** −20.564 −20.564
(0.038) (333.481) (0.039) (323.250) (400.071)
Birthplace 0.032 417.787 0.048 276.677 276.677
(0.082) (596.124) (0.083) (611.758) (862.923)
Observations 684 684 684 684 685
R-squared 0.530 0.409 0.534 0.409 0.336
Observable controls Yes Yes Yes Yes Yes
Pole fixed effects Yes Yes Yes Yes Yes
* p < 0.1, ** p < 0.05, *** p < 0.01

El coeficiente estimado de 4483.931 en la regresión 2SLS indica que, para los hogares cuya probabilidad de contar con electrificación legal cambia como consecuencia de los instrumentos construidos a partir de la distancia al poste, obtener una conexión legal incrementa el gasto total del hogar en aproximadamente 4484 unidades monetarias. Dado que la variable dependiente está en niveles, este efecto se interpreta como un aumento absoluto en el gasto, no como un porcentaje.1

Más precisamente, este coeficiente debe entenderse como un efecto causal local (LATE): no describe necesariamente el impacto para todos los hogares de la muestra, sino para aquellos hogares cuya decisión de electrificarse legalmente sí responde a la cercanía relativa al poste capturada por los instrumentos.2

(7.b)

El efecto estimado en con RCT es mucho menor que el obtenido con IV. En el RCT, el coeficiente de tratamiento es de ~2386 en la especificación simple y 2380 al incluir controles, lo que sugiere un efecto bastante estable. En la especificación con interacciones, el efecto base de tratamiento es 1636.9 para el grupo de referencia, y aumenta para jóvenes y mayores a través de los términos de interacción. Esto implica efectos aproximados de 2927.3 para jóvenes (1636.9+1290.3)y 2824.2 para mayores (1636.9+1187.3). Aun así, estos valores siguen siendo menores que los estimadores IV, que se ubican alrededor de 4484–4509.

Esta diferencia sugiere que la estrategia IV está identificando un grupo de hogares distinto al del RCT. Mientras el RCT recupera un efecto promedio del tratamiento para la población experimental, IV identifica el LATE, i.e., el efecto para los hogares cuya electrificación legal cambia como consecuencia del instrumento. En este caso, los hogares inducidos a conectarse por su distancia al poste parecen experimentar ganancias en gasto mayores que el promedio observado en el experimento. Esto apunta a heterogeneidad en efectos de tratamiento. No todos los hogares se benefician igual de la electrificación, y los compliers identificados por IV podrían ser precisamente aquellos para los que el acceso legal a la electricidad tiene un valor económico más alto.

En términos de sesgo, el hecho de que IV arroje efectos mayores no implica automáticamente que el RCT esté sesgado o que IV esté “inflando” el resultado. Más bien, la diferencia sugiere que ambos métodos están capturando parámetros distintos sobre subpoblaciones distintas. El RCT tiene alta validez interna para su muestra y entrega un efecto promedio. IV, en cambio, depende de los supuestos de exclusión y monotonicidad, pero su interpretación es local. Por ello, es razonable decir que el RCT describe mejor el impacto medio en la población experimental, mientras que IV refleja el impacto sobre hogares marginales cuya decisión de electrificarse sí responde a la cercanía al poste. En ese sentido, los resultados sugieren menos un problema de sesgo puro y más una diferencia de representatividad entre las poblaciones efectivamente identificadas por cada estrategia.

Categorización de los hogares e interpretación del IV

Sea \(D_i(z)\) el tratmiento potencial del hogar \(i\) bajo el valor del instrumento \(z\), donde toma el valor 1 si el hogar cuenta con electrificación legal, y 0 si no la tiene. En este caso \(z=1\) representa estar en una distancia al poste favorecida institucionalmente y \(z=0\) el caso contrario.

En el contexto de este ejercicio, categorizamos con respecto a las siguientes definiciones:

Always-takers

Decimos que \(i\) es un always-taker si \((D_i(1), D_i(0))=(1,1)\), i.e., independiente de la condición de la distancia al poste,\(i\) siempre elegirá el tratamiento, el cual es contar con electrificación legal.

Esto podría ocurrir, por ejemplo, si cuentan con mayores recursos, facilidades adicionales para conectarse independientes a la distancia, o si la electrificación legals es una parte necesaria de su estilo de vida.

Never-takers

Decimos que \(i\) es un never-taker si \((D_i(1), D_i(0))=(0,0)\), i.e., independiente de la condición de la distancia al poste,\(i\) nunca elegirá el tratamiento, el cual es contar con electrificación legal.

Esto podría ocurrir, por ejemplo, si tienen una barrera económica para contar con electricidad legal incluso con la regla institucional, o no cuentan con el equipo y recursos necesarios para su instalación.

Compliers

Decimos que \(i\) es un complier si \((D_i(1), D_i(0))=(1,0)\), i.e.,\(i\) contará con electrificación legal (tratamiento), solo si se encuentra en la condición favorecida por la regla de distancia al poste.

Esto podría ocurrir, por ejemplo, si se tiene una elasticidad de su demanda por electrificación legal relativamente grande con respecto a la regla instutucional.

Esta categoría es la subpoblación relevante para la interpretación del estimador IV, ya que el efecto identificado corresponde al efecto causal de estos hogares.

Defiers

Decimos que \(i\) es un defier si \((D_i(1), D_i(0))=(0,1)\), i.e.,\(i\) no contará con electrificación legal (tratamiento), si se encuentra en la condición favorecida por la regla de distancia al poste.

Esta última categoria reacciona en sentido contrario al inducido por el tratamiento, por lo cual, en el contexto de la electrificación en India, resulta poco plausible porque la regla de distancia debería de facilitar la electrificación legal, que además es un efecto deseable.

Por lo tanto, el supuesto de monotonicidad establece que no existen defieres, i.e., \((D_i(1) ≥ D_i(0)\). Este supuesto implica que el instrumento no puede reducir la probabilidad de electrificación legal, por lo cual el estimador IV se interpreta comoo un LATE, el efecto causal de la electrificación en el gasto total para los hogares compliers.

IV simple

El instrumento utilizado fue forcing, una variable dicotómica que compara hogares ubicados entre 20 y 25 metros del poste con hogares ubicados entre 45 y 60. Por lo tanto, la variación explotada por el estimador es discreta y exógena ya que es inducida por la regla institucional de elegibilidad. El parámetro identificado es un LATE para los compliers definidos con respecto a este instrumento, i.e., para los hogares cuya electrifiación legal cambia por pasar del grupo no favorecido al favorecido.

2SLS

Se utilizaron múltiples instrumentos. En este caso, la variación explotada también es exógena, pero es más rica porque la distancia se descompone en varios intervalos. El modelo utiliza diferencias en la probabilidad de electrifiación legal con respecto a diferentes rangos de distancia, en lugar de una comparación binaria como en el IV simple. El parámetro identifiado sigue siendo un estimador IV local, pero ahora correspondiendo a una combinación ponderada de los efectos locales asociados a distintos instrumentos. A diferencia del IV simple, corresponde a una población cuya conexión legal responde a distintos intervalos, no solo a 2.

GMM con sobreidentificación

El GMM utiliza la misma fuente de variación exógena que el 2SLS con múltiples instrumentos. La diferencia con 2SLS radica en el procedimiento de estimación. A pesar de que la población del parámetro es esencialmente la misma en los dos casos, el peso asignado por GMM puede ser diferente ya que este combina las condiciones de momento impuestas por los múltiples instrumentos de manera eficiente.

En todos los casos, el parámetro identificado no es necesariamente el efecto promedio para todos los hogares rurales de India, sino un efecto causal local para aquellos hogares cuya decisión de electrificarse legalmente sí responde a la variación inducida por la distancia al poste. Así, la diferencia entre los distintos estimadores IV no radica en que la variación de unos sea exógena y la de otros no, sino en que cada uno puede estar dando más peso a subpoblaciones distintas de compliers, dependiendo de qué margen de variación del instrumento se esté utilizando.

Declaración de uso de Inteligencia Artificial

En la elaboración de esta tarea utilicé dos herramientas de inteligencia artificial: ChatGPT (OpenAI) y Claude (Anthropic). Su uso se limitó a los siguientes propósitos: revisión y depuración de código en R, apoyo en la redacción y claridad de explicaciones conceptuales, y verificación de la estructura y formato del documento. Las herramientas de IA fueron utilizadas como apoyo y no como sustituto del razonamiento propio.

Ejemplo de prompt (utilizado en (6.c)):


  1. Aunque inicialmente se consideró una estimación por GMM, en la práctica se optó por ivreg(), que implementa el estimador clásico de mínimos cuadrados en dos etapas (2SLS). Esto se debe a que la estimación GMM resultó computacionalmente más demandante y presentó dificultades de implementación en esta especificación.↩︎

  2. La variable \(Z_4\) no se incluye en la estimación porque se utiliza como categoría de referencia.↩︎