Introducción

Dentro de regresiones discontinuas, hay un tipo particular de estrategia y diseño metodológico que se ha hecho popular: el diseño de elecciones ajustadas. Esencialmente, este diseño explota una característica de las democracias americanas según la cual los ganadores de las contiendas políticas se declaran cuando un candidato obtiene el porcentaje mínimo necesario de votos. En la medida en que las elecciones muy reñidas representan asignaciones exógenas de la victoria de un partido, podemos utilizar estas elecciones reñidas para identificar el efecto causal del ganador en una serie de resultados. También podemos poner a prueba teorías de economía política que, de otro modo, serían casi imposibles de evaluar.
ĀæSon los polĆ­ticos o los votantes quienes eligen las polĆ­ticas? La gran pregunta que motiva a Lee et al.Ā (2004) tiene que ver con si los votantes afectan a la polĆ­tica y de quĆ© manera. Hay dos visiones fundamentalmente diferentes del papel de las elecciones en una democracia representativa: la teorĆ­a de la convergencia y la teorĆ­a de la divergencia. La teorĆ­a de la convergencia afirma que la ideologĆ­a heterogĆ©nea de los votantes obliga a cada candidato a moderar su posición. La teorĆ­a de la divergencia, por su parte, sostiene que cuando los polĆ­ticos partidistas no pueden comprometerse de forma creĆ­ble con determinadas polĆ­ticas, la convergencia se ve socavada y el resultado puede ser una ā€œdivergenciaā€ polĆ­tica total. La divergencia se produce cuando el candidato ganador, tras tomar posesión de su cargo, se limita a aplicar su polĆ­tica preferida. En este caso extremo, los votantes son incapaces de obligar a los candidatos a alcanzar ningĆŗn tipo de compromiso polĆ­tico, lo que se traduce en dos candidatos opuestos que eligen polĆ­ticas muy diferentes en distintos escenarios contrafactuales de victoria.

Modelo

\(R\) y \(D\) son candidatos compitiendo por un escaño en el Congreso. El espacio político es una sola dimensión en la que las preferencias políticas de \(R\) y \(D\) en un periodo son funciones de pérdida cuadrÔticas, \(u(l)\) y \(v(l)\), y \(l\) es la variable política.
Cada jugador tiene un punto de felicidad, que es su posición preferida en la gama unidimensional de políticas. Para los demócratas, es \(l* =c(>0)\), y para los republicanos es \(l* = 0\).
El posible resultado de la votación nominal del candidato tras unas elecciones es:
\[RC_t= D_t x_t+(1-D_t)y_t\]
Donde \(D_t\) indica si un demócrata ganó las elecciones. Es decir, sólo se observa la política del candidato ganador. A contuniación se expresan las ecuaciones de regresión derivadas de la expresión anterior:
\[RC_t= \alpha_0 +\pi_0 P^{*}_t+\pi_1 D_t+\varepsilon_t \] \[RC_{t+1}= \beta_0 +\pi_0 P^{*}_{t+1}+\pi_1 D_{t+1}+\varepsilon_{t+1}\]
Donde \(\alpha_0\) y \(\beta_0\) son constantes y \(P^{*}\) representa la popularidad subyacente del Partido Demócrata, o dicho de otro modo, la probabilidad de que \(D\) ganara si la política elegida \(x\) igualara el punto \(c\) de felicidad del demócrata.
Es importante destacar que la asignación aleatoria de \(D_t\) es crucial. Porque sin ella, esta ecuación reflejarĆ­a \(\pi_1\) y la selección (es decir, los distritos demócratas tienen puntos de felicidad mĆ”s liberales). AsĆ­ que los autores intentan aleatorizar \(D_t\) utilizando un RDD. Para efectuar la asignacion aleatoria, los autores utilizan una variación posiblemente exógena en las victorias demócratas para comprobar si la convergencia o la divergencia son correctas. Si la convergencia es cierta, entonces los republicanos y los demócratas que apenas ganaron deberĆ­an votar casi idĆ©nticamente, mientras que si la divergencia es cierta, deberĆ­an votar de forma diferente en los mĆ”rgenes de una carrera reƱida. ā€œEn los mĆ”rgenes de una carrera reƱidaā€ es crucial porque la idea es que es en los mĆ”rgenes de una carrera reƱida donde la distribución de las preferencias de los votantes es practicamnerte, la misma. Si las preferencias de los votantes son las mismas, pero las polĆ­ticas divergen en el lĆ­mite, esto sugiere que son los polĆ­ticos, y no los votantes, los que dirigen la elaboración de las polĆ­ticas.
Pare replicar los resultados de los autores se utilizÔn regresiones limitadas a la ventana alrededor del punto de corte para estimar el efecto. Se trata de regresiones locales en el sentido de que utilizan datos cercanos al punto de corte. Sólo se utilizan observaciones entre 0,48 y 0,52 votos. Por tanto, esta regresión estima el coeficiente en torno al punto de corte.
Model 1 Model 2 Model 3
(Intercept) 31.196*** 18.747*** 0.242***
lagdemocrat 21.284*** 0.484***
democrat 47.706***
Num.Obs. 915 915 915
R2 0.115 0.578 0.235
R2 Adj. 0.114 0.578 0.234
RMSE 29.49 20.36 0.44
Std.Errors by: id by: id by: id
Cuando se utilizan todos los datos, obtenemos efectos algo diferentes. El efecto sobre los resultados futuros del Americans for Democratic Action (ADA) aumenta en 10 puntos, pero el efecto contemporÔneo disminuye. Sin embargo, el efecto sobre la ocupación del cargo aumenta considerablemente. Así que aquí vemos que simplemente ejecutando la regresión se obtienen estimaciones diferentes cuando incluimos datos alejados del propio punto de corte.
Model 1 Model 2 Model 3
(Intercept) 23.539*** 17.576*** 0.120***
lagdemocrat 31.506*** 0.818***
democrat 40.763***
Num.Obs. 13588 13588 13588
R2 0.227 0.376 0.676
R2 Adj. 0.227 0.376 0.676
RMSE 28.69 25.78 0.28
Std.Errors by: id by: id by: id
Sin embargo, ninguna de estas regresiones incluye controles para la running variable. Tampoco se utiliza el recentrado de la variable de ejecución. Para incorporar estos dos puntos, simplemente restaremos 0,5 a la variable de funcionamiento, de forma que los valores de 0 sean aquellos en los que el porcentaje de votos sea igual a 0,5, los valores negativos sean los porcentajes de votos demócratas inferiores a 0,5 y los valores positivos sean los porcentajes de votos demócratas superiores a 0,5.
Model 1 Model 2 Model 3
(Intercept) 22.883*** 11.034*** 0.212***
lagdemocrat 33.451*** 0.552***
demvoteshare_c -5.626** -48.938*** 0.773***
democrat 58.502***
Num.Obs. 13577 13577 13577
R2 0.227 0.424 0.735
R2 Adj. 0.227 0.424 0.735
RMSE 28.68 24.76 0.25
Std.Errors by: id by: id by: id
Es habitual permitir que la variable en curso varíe a ambos lados de la discontinuidad, Para implementarlo necesitamos que haya una línea de regresión a cada lado, lo que significa necesariamente que tenemos dos líneas a la izquierda y a la derecha de la discontinuidad. Para ello, necesitamos una interacción, específicamente, entre la variable de ejecución con la variable de tratamiento.
Model 1 Model 2 Model 3
(Intercept) 31.435*** 16.816*** 0.287***
lagdemocrat 30.508*** 0.526***
demvoteshare_c 66.042*** -5.683* 1.403***
lagdemocrat Ɨ demvoteshare_c -96.475*** -0.849***
democrat 55.431***
democrat Ɨ demvoteshare_c -55.152***
Num.Obs. 13577 13577 13577
R2 0.267 0.434 0.749
R2 Adj. 0.267 0.434 0.749
RMSE 27.94 24.54 0.25
Std.Errors by: id by: id by: id
Por último, se estimarÔ el modelo con una cuadrÔtica. La inclusión de la cuadrÔtica hace que el efecto estimado de una victoria democrÔtica sobre el voto futuro disminuya considerablemente:
Model 1 Model 2 Model 3
(Intercept) 33.547*** 15.606*** 0.330***
lagdemocrat 13.030*** 0.322***
demvoteshare_c 134.977*** -23.850*** 2.798***
demvoteshare_sq 212.127*** -41.729** 4.294***
lagdemocrat Ɨ demvoteshare_c 57.055*** 0.091
lagdemocrat Ɨ demvoteshare_sq -641.851*** -8.804***
democrat 44.402***
democrat Ɨ demvoteshare_c 111.896***
democrat Ɨ demvoteshare_sq -229.954***
Num.Obs. 13577 13577 13577
R2 0.371 0.456 0.822
R2 Adj. 0.370 0.456 0.822
RMSE 25.89 24.07 0.21
Std.Errors by: id by: id by: id
Esto sugiere que existen fuertes valores atípicos en los datos que estÔn causando que la distancia en \(c_0\) se extienda mÔs ampliamente. Así que una solución natural es limitar de nuevo nuestro anÔlisis a una ventana mÔs pequeña. Lo que esto hace es descartar las observaciones alejadas de \(c_0\) y omitir la influencia de los valores atípicos de nuestra estimación en el punto de corte. Esta vez utilizaremos +/- -0,05. Cuando limitamos nuestro anÔlisis a 0,05 alrededor del punto de corte, se utilizan mÔs observaciones lejos del punto de corte que las que se utilizaron en nuestro anÔlisis inicial. Por eso sólo tenemos 2.441 observaciones para el anÔlisis, frente a las 915 que teníamos en nuestro anÔlisis original.
Model 1 Model 2 Model 3
(Intercept) 37.121*** 21.437*** 0.418***
lagdemocrat 7.347*** 0.167***
demvoteshare_c 830.925*** 450.846** 15.699***
demvoteshare_sq 5333.335*** 7878.904** 91.607***
lagdemocrat Ɨ demvoteshare_c -156.876*** 0.125
lagdemocrat Ɨ demvoteshare_sq -10116.678*** -188.329***
democrat 45.191***
democrat Ɨ demvoteshare_c -688.343**
democrat Ɨ demvoteshare_sq -3887.820
Num.Obs. 2387 2387 2387
R2 0.445 0.563 0.774
R2 Adj. 0.444 0.562 0.774
RMSE 23.50 20.86 0.24
Std.Errors by: id by: id by: id
Los métodos no paramétricos significan muchas cosas diferentes para distintas personas en estadística, pero en contextos de RDD, la idea es estimar un modelo que no asuma una forma funcional para la relación entre la variable de resultado (Y) y la variable de ejecución (X). A continuación se presentan grÔficamente distintas opciones de ajuste, lineal, cuadrÔtico y lowess:
Hahn, Todd y Klaauw (2001) han demostrado que la estimación kernel unilateral, como lowess, puede tener propiedades deficientes porque el punto de interĆ©s se encuentra en el lĆ­mite (es decir, la discontinuidad). Esto se llama el ā€œproblema del lĆ­miteā€. Proponen utilizar en su lugar regresiones lineales locales no paramĆ©tricas. En estas regresiones, se da mĆ”s peso a las observaciones del centro.
También puede estimar regresiones polinómicas locales ponderadas por kernel, una regresión ponderada restringida a una ventana como las que se han realizado previamnete, donde el kernel elegido proporciona los pesos.
Debido a que el supuesto de continuidad implica específicamente funciones de expectativas condicionales continuas de los resultados potenciales a lo largo de la línea de corte, por lo tanto, no se puede probar. Eso es correcto, es un supuesto no comprobable. Pero, lo que podemos hacer es comprobar si hay cambios en las funciones de expectativa condicional para otras covariables exógenas que no pueden o no deben cambiar como resultado del corte. Luego, la importancia de la selección del ancho de banda, o ventana, para estimar el efecto causal utilizando este método, así como la importancia de la selección de la longitud del polinomio. A la hora de elegir el ancho de banda, siempre hay un equilibrio entre el sesgo y la varianza: cuanto mÔs corta es la ventana, menor es el sesgo, pero al tener menos datos, aumenta la varianza de la estimación.
## Sharp RD estimates using local polynomial regression.
## 
## Number of Obs.                13577
## BW type                       mserd
## Kernel                   Triangular
## VCE method                       NN
## 
## Number of Obs.                 5480         8097
## Eff. Number of Obs.            2112         1893
## Order est. (p)                    1            1
## Order bias  (q)                   2            2
## BW est. (h)                   0.086        0.086
## BW bias (b)                   0.141        0.141
## rho (h/b)                     0.609        0.609
## Unique Obs.                    2770         3351
## 
## =============================================================================
##         Method     Coef. Std. Err.         z     P>|z|      [ 95% C.I. ]       
## =============================================================================
##   Conventional    46.491     1.241    37.477     0.000    [44.060 , 48.923]    
##         Robust         -         -    31.425     0.000    [43.293 , 49.052]    
## =============================================================================
Lo ideal es utilizar este tipo de métodos cuando se dispone de un gran número de observaciones en la muestra, de forma que se tenga un número considerable de observaciones en la discontinuidad. En ese caso, debería haber cierta armonía entre los resultados. Si no es así, es posible que no tenga suficiente potencia para detectar este efecto.
Por último, se examina la implementación de la prueba de densidad de McCrary, utilizando la estimación de densidad polinómica local (Cattaneo, Jansson y Ma 2019) y no se obtiene evidencia de que haya habido manipulación en la variable de ejecución en el punto de corte.

## [1] 0.5925909

## $Estl
## Call: lpdensity
## 
## Sample size                                      5480
## Polynomial order for point estimation    (p=)    2
## Order of derivative estimated            (v=)    1
## Polynomial order for confidence interval (q=)    3
## Kernel function                                  triangular
## Scaling factor                                   0.40357984678845
## Bandwidth method                                 user provided
## 
## Use summary(...) to show estimates.
## 
## $Estr
## Call: lpdensity
## 
## Sample size                                      8097
## Polynomial order for point estimation    (p=)    2
## Order of derivative estimated            (v=)    1
## Polynomial order for confidence interval (q=)    3
## Kernel function                                  triangular
## Scaling factor                                   0.596346493812611
## Bandwidth method                                 user provided
## 
## Use summary(...) to show estimates.
## 
## $Estplot