Se estamos interessados em inferir causalidade devemos pensar como uma mesma unidade responderia a diferentes tratamentos, isto é, à exposição a alguma intervenção, isto é, qual seria a reposta se ela fosse tratada e qual se ela não fosse tratada. Vamos supor que a intervenção é a transferência de renda e a resposta é apoio ou não ao presidente. Se transferirmos renda para a uma pessoa podemos medir o apoio desta pessoa ao presidente depois da transferência. Aí voltamos no tempo, não transferimos renda para essa mesma pessoa e medimos seu apoio. Como a única coisa que mudamos na nossa viagem no tempo foi a transferência de renda, a diferença entre o nível de apoio nas duas situações pode ser atribuída ao tratamento. Formalmente:
Juntando em uma só equação podemos representar o resultado potencial como
\[Y_{i} = Y_{0i} + (Y_{1i} - Y_{0i})*T_{i}\]
Essa notação nos mostra que \(Y_{1i} - Y_{0i}\) é o efeito do tratamento \(T_{i}\) . Para cada pessoa \(i\) o efeito do tratamento pode ser diferente. Como não podemos controlar o tempo, não podemos observar \(Y_{1i}\) e \(Y_{0i}\) ao mesmo tempo, o que podemos fazer é comparar a média da resposta entre os tratados e os não tratados na população.
Vemos que ao equalizar a diferença de média entre tratados e não tratados à diferença entre os resultados potencias do tratamento na mesma pessoa surgem dois componentes. \(\text{E}[Y_{1i}\mid T_{i} = 1] - \text{E}[Y_{0i}\mid T_{i} = 1]\) é, como vimos acima, o efeito médio do tratamento entre aqueles que foram tratados. O segundo elemento \(\text{E}[Y_{0i}\mid T_{i} = 1] - \text{E}[Y_{0i}\mid T_{i} = 0]\) nos dá o viés de seleção, isto é, características de base dois dois grupos (tratados e não-tratados) que já tornavam a resposta diferente antes do tratamento. A equação nos diz que, se o viés de seleção for muto grande ele pode mascarar o efeito do tratamento. Portanto, para podermos constatar o efeito do tratamento temos que nos livrar do viés de seleção.
Aleatorização
Variáveis omitidas de noso modelo podem gerar o viés de seleção, ou seja podemos ter o que se chama de Viés de Variável Omitida. As equações abaixo ajudam a ilustrar o porque disso.
Vamos supor que queiramos determinar o efeito de uma política pública, o Bolsa Família (BF), por exemplo, na aprovação presidencial (AP). Supomos que há um efeito direto de BF em AP e outro determinante (\(x\)) da aprovação que desconhecemos. A correta especificação de nosso modelo seria:
Como fazemos para nos livrar desse viés se não observamos a variável omitida? Se atribuimos o tratamento de maneira aleatória tornamos esse tratamento independente do resultado potencial, obtendo
Como \(Y_{i} \perp T_{i} \mid X\) a média dos valores da resposta não se altera se a observamos no grupo tratado ou no grupo controle (não tratado). Por isso as duas linhas da equação são equivalentes. Isso acontece por que ao atribuir o tratamento de forma aleatória tendemos a anular diferenças sistemáticas que poderiam causar algum viés.
Se atribuírmos o tratamento de forma aleatória podemos identificá-lo usando nossa estratégia de modelagem:
Onde \(\alpha = Y_{0i}\) e \(\rho\) é o efeito do tatamento \((Y_{1i} - Y_{0i})\).
Como podemos aleatorizar o tratamento? Podemos fazer um experimento onde certas pessoas recebem o tratamento e outras não recebem por sorteio. Um exemplo clássico é o experimento STAR onde procurou-se medir o efeito do tamanho da sala de aula na aprendizagem. Esse experimento foi feito no Tennessee (EUA) e consistiu em atribuir 11.600 alunos do infantil a classes de diferentes tamanhos por meio de sorteio. Esses alunos foram acompanhados até o terceiro ano e comparou-se o desemepnho desses alunos em um teste (ver Angrist e Pischke, p. 17). A pesquisa constatou que alunos em classes menores obtiveram um rendimento 5% maior no teste.
A aleatorização garante que características individuais que poderiam causar viés estejam balanceadas nos grupos, o que pode ser constatado comparando-se as médias dessas características. Além da aleatorização em intervenções como a do STAR podemos nos valer de uma amostra aleatória da população e atribuir parte desta amostra ao grupo de tratamento e outra parte ao grupo de controle. Isso é o que fazemos quando usamos experimentos de survey, por exemplo.
Ainda outra forma de aleatorização se dá quando temos os chamados experimentos naturais. Zimmerman (2003) se aproveitou do fato de que em determinada faculdade os alunos residentes no campus eram atribuídos de forma aleatória, com relação ao desempenho, a quartos compartilhados, para medir o efeito dos pares (companheiros de quarto) neste desempenho, constatando que alunos no meio da distribuição do teste desempenhavam pior quando tinham companheiors de quarto com baixo desempenho.
Em todas essas formas de aleatorização os dados nos dão comparações entre unidades, mas o que queremos é inferir causalidade nas unidades. Quando em um experimento designamos unidades para o tratamento ou para controle, procuramos criar dois grupos balanceados. Esta estrutura unidade –> grupos tem um caráer multinível com a forma:
Isto é, o parâmetro \(\alpha_{[j]}\) controla por toda informação usada no desenho do experimento. Em outras palvras, modelos multinível nos ajudam a incorporar todas as informações que a estrutura de nossos dados nos fornecem, aumentando a eficiência de nossa estimativa.
Exemplo: Gelman e Hill cap. 23
Estudos observacionais
Quando não podemos recorrer a experimentos podemos nos valer de alguma forma de ajuste estatístico para nos aproximar da aleatorização. Esses ajustes procuram garantir a premissa da **independência condicional** dos resultados potenciais com relação ao tratamento que permite a identificação do efeito causal. Essa premissa, também chamada de **ignorabilidade** ou **seleção em observáveis**, garante que, se controlamos por todas as variáveis que possam causar viés, podemos tratar nossas observações como se fossem resultado de um experimento.
Para garantir a ignorabilidade nosso objetivo é comparar unidades o mais parecidas o possível. Não é necessário que a probabilidade dos dois tratamentos seja a mesma, mas a probabilidade de tratamento, condicional às variáveis de confusão, Pr(\(T = 1 \mid X\)) deve ser a mesma para todos as observações. Se garantimos a ignorabilidade podemos expressar o efeito causal como
Isso é, se assumirmos a ignorabilidade, a diferença entre tratados e não tratados, condicional aos possíveis valores que variáveis de controle assumem quando \(T = 1\), nos dá o efeito causal do tratamento nos tratados (\(\delta_{TOT}\)). Se \(X\) assume valores fora daqueles abrangidos pelo tratamento temos que extrapolar de nossos dados e estimamos o efeito médio do tratamento (\(\delta_{ATE}\)). Usando o exemplo do BF podemos associar o \(\delta_{TOT}\) ao efeito do tratamento comparando pessoas elegíveis para participar no programa que receberam ou não o BF. \(\delta_{ATE}\) nos dá o efeito entre os que receberam o tratamento (BF) e todos os demais.
O balancemento da distribuição dos valores dos controles é feito por matching, isto é, compara-se observações de controle que possuem distribuições de covariantes muito parecidas com as das observações que recebem o tratamento. Quando isso não ocorre, isto é, quando não há um balanceamento no tratamento ou quando não há sobreposição nas covariantes dos dois grupos exige-se muito do modelo forçando ele a extrapolar para estas regiões. Quando usamos regressão linear, por exemplo, e as observações não são balanceadas pode surgir um viés em regiões fora da região do TOT e o efeito causal pode ser subestimado ou superestimado.
Na prática o matching é feito aplicando-se algum algoritmo que calacula a ‘distância’ entre observações onde as dimensões são as covariantes. Entre os métodos mais utilizados estão o Mahalanobis Distance Matching (MDM), que escolhe o par conforme a distância seja menor que um certo valor \(\sqrt{(X_{i} - X_{j})S^{-1}(X_{i} - X_{j})} < \delta\), onde \(S\) é a matriz de covariânca de \(X\), e o Coarsened Exact Matching (CEM) onde se compara subespaços de X conforme se agrupa as categorias ou valores de uma ou mais variáveis (juntando quem tem ensino médio e superior completo, por exemplo) e o matching se dá quando \(C_{\delta}X_{i} = C_{\delta}X_{j}\), sendo \(\delta\) aqui o grau de granularidade. Esses algoritmos são implementados em pacotes como o MatchIt que também usa como método o matching exato ou o KNN entre outros.
library(MatchIt)data("lalonde")m.out2 <-matchit(treat ~ age + educ + race + nodegree + married + re74 + re75, data = lalonde,distance ="mahalanobis", replace =TRUE,exact =~ married + race)m.out2
A matchit object
- method: Variable ratio 1:1 nearest neighbor matching with replacement
- distance: Mahalanobis
- number of obs.: 614 (original), 263 (matched)
- target estimand: ATT
- covariates: age, educ, race, nodegree, married, re74, re75
summary(m.out2)
Call:
matchit(formula = treat ~ age + educ + race + nodegree + married +
re74 + re75, data = lalonde, distance = "mahalanobis", exact = ~married +
race, replace = TRUE)
Summary of Balance for All Data:
Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
age 25.8162 28.0303 -0.3094 0.4400 0.0813
educ 10.3459 10.2354 0.0550 0.4959 0.0347
raceblack 0.8432 0.2028 1.7615 . 0.6404
racehispan 0.0595 0.1422 -0.3498 . 0.0827
racewhite 0.0973 0.6550 -1.8819 . 0.5577
nodegree 0.7081 0.5967 0.2450 . 0.1114
married 0.1892 0.5128 -0.8263 . 0.3236
re74 2095.5737 5619.2365 -0.7211 0.5181 0.2248
re75 1532.0553 2466.4844 -0.2903 0.9563 0.1342
eCDF Max
age 0.1577
educ 0.1114
raceblack 0.6404
racehispan 0.0827
racewhite 0.5577
nodegree 0.1114
married 0.3236
re74 0.4470
re75 0.2876
Summary of Balance for Matched Data:
Means Treated Means Control Std. Mean Diff. Var. Ratio eCDF Mean
age 25.8162 24.8973 0.1284 0.8265 0.0330
educ 10.3459 10.5784 -0.1156 0.9046 0.0179
raceblack 0.8432 0.8432 0.0000 . 0.0000
racehispan 0.0595 0.0595 -0.0000 . 0.0000
racewhite 0.0973 0.0973 0.0000 . 0.0000
nodegree 0.7081 0.5892 0.2616 . 0.1189
married 0.1892 0.1892 0.0000 . 0.0000
re74 2095.5737 1780.4016 0.0645 1.8106 0.0429
re75 1532.0553 1161.2419 0.1152 2.0101 0.0258
eCDF Max Std. Pair Dist.
age 0.1676 0.3400
educ 0.1189 0.3038
raceblack 0.0000 0.0000
racehispan 0.0000 0.0000
racewhite 0.0000 0.0000
nodegree 0.1189 0.3329
married 0.0000 0.0000
re74 0.2000 0.2483
re75 0.0811 0.2086
Percent Balance Improvement:
Std. Mean Diff. Var. Ratio eCDF Mean eCDF Max
age 58.5 76.8 59.5 -6.2
educ -110.3 85.7 48.4 -6.8
raceblack 100.0 . 100.0 100.0
racehispan 100.0 . 100.0 100.0
racewhite 100.0 . 100.0 100.0
nodegree -6.8 . -6.8 -6.8
married 100.0 . 100.0 100.0
re74 91.1 9.7 80.9 55.3
re75 60.3 -1462.3 80.8 71.8
Sample Sizes:
Control Treated
All 429. 185
Matched (ESS) 34.96 185
Matched 78. 185
Unmatched 351. 0
Discarded 0. 0
fit1 <-lm(re78 ~ treat + age + educ + race + married + nodegree + re74 + re75, data = m.data1, weights = weights)summary(fit1)
Call:
lm(formula = re78 ~ treat + age + educ + race + married + nodegree +
re74 + re75, data = m.data1, weights = weights)
Weighted Residuals:
Min 1Q Median 3Q Max
-9177 -5203 -2114 3792 53634
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3191.2529 4446.4759 -0.718 0.4736
treat 697.4177 995.4036 0.701 0.4842
age 44.5530 64.6265 0.689 0.4912
educ 625.4476 306.9881 2.037 0.0427 *
racehispan 1547.7690 1934.0224 0.800 0.4243
racewhite 1538.4034 1538.7432 1.000 0.3184
married 390.7490 1236.2362 0.316 0.7522
nodegree 808.9273 1379.1619 0.587 0.5580
re74 0.0271 0.1335 0.203 0.8393
re75 0.1806 0.2058 0.878 0.3810
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7284 on 253 degrees of freedom
Multiple R-squared: 0.04119, Adjusted R-squared: 0.007084
F-statistic: 1.208 on 9 and 253 DF, p-value: 0.2905
O uso de modelagem multinível para incorporar as informações que o desenho experimental proporciona pode ser estendida para estudos observacionais, onde o pesquisador não pode inteferir no processo de geração dos dados, mas onde este processo é conhecido e pode ser explorado para se aproximar de um experimento. Vimos o exemplo do pareamento que se estende naturalmente para o matching.
Apesar de usarmos o matching para garantir a comparação de unidades semelhantes, garantindo balanceamento e sobreposição, há uma maneira de utilizar a falta de sobreposição para estimar um efeito causal. Se uma covariante utilizada para selecionar quem recebe o tratamento for a responsável por uma clara falha na sobreposição podemos usar uma análise da descontinuidade em uma regressão nesta variável para estabelecer um efeito causal.
Pense por exemplo na adoção da urna eletrônica e seu efeito sobre o número de votos inválidos (Hidalgo, 2014). Nas eleições de 1998 apenas municípios com mais de 40 mil eleitores receberam a urna eletrônica. Assim o tratamento foi aplicado para as unidades onde $x \ge 40 mil$ . Se assumimos que a relação entre o número de votos inválidos e a população é contínua na região de corte a descontinuidade mede o efeito do tratamento.
Como, por desenho, não temos sobreposição no ponto de corte, somos obrigados a extrapolar nosso modelo para além dos dados. O que geralmente se faz para mitigar esta extrapolação é limitar a análise a observações próximas ao ponto de corte supondo que estas unidades serão bem balanceadas com relação a possíveis variáveis de confusão.
A escolha do corte e da forma funcional tem importantes consequências, em um modelo multinível incorporamos essas informações explícitamente.
Exemplo: estendendo Gelman e Hill cap. 9.
Outro exemplo é o caso das variáveis instrumentais. Até agora nossa estatégia para assegurar a premissa de independência condicional dos resultados potenciais com relação ao tratamento foi controlar por variáveis de confusão, \((y_{0i},y_{1i}) \perp T_{i} \mid X_{i}\). Com a aleatorização ou experimentos controlados essa premissa era diretamente assegurada, pois a natureza aleatória do tratamento garante a independência. Com dados observacionais isso só ocorre com a inclusão das variáveis omitidas garantindo o balanceamento e a sobreposição destas variáveis nos grupos tratado e controle.
O que acontece quando não podemos controlar por variáveis omitidas? Vamos supor, usando o exemplo em Angrist e Pischke, que estamos interessados no efeito da escolaridade na renda. Variáveis que podem influir tanto na escolaridade quanto na renda são o ambiente familiar, as abilidades inatas, a motivação pessoal etc. Essas variáveis não são facilmente mensuradas, mas sabemos que elas podem afetar substantivamente nossa conclusão sobre o efeito da escolaridade na renda. Como podemos lidar com isso?
Uma estratégia é substituirmos a escolaridade por uma variável fortemente correlacionada com ela, mas que seja independente da abilidade, motivação e ambiente familiar. Ao mesmo tempo, essa variável só deve impactar a renda por meio do seu impacto na escolaridade. Chamamos uma variável com estas características de *variável instrumental*.
Usando a notação de Angrist e Pischke a relação entre a variável instrumental, o tratamento e a variável de interesse se dá em duas etapas. Primeiro temos a relação entre o tratamento (T) e a variável instrumental (z)1, o primeiro estágio e, então a regressão da variável de interesse (Y) no instrumento:
Na última linha da equação \(\pi_{20} = \alpha + \rho\pi_{10}\), \(\eta_{2i} = \rho\xi_{1i} + \eta_{i}\) e \(\pi_{21} = \rho\pi_{11}\), Desta última igualdade resulta que o efeito causal do tratamento é dado por \(\rho = \frac{\pi_{21}}{\pi_{11}}\).
O que mostra que o efeito causal de T em Y pode ser obtido fazendo a regressão de \(Y_{i}\) em \(X_{i}\) e nos valores ajustados da regressão de \(T_{i}\) em \(X_{i}\) e \(z_{i}\). Na prática obtemos os valores ajustados
Essa equação é conhecida como 2SLS (two-stage least square) pois envolve a estimativa dos valores preditos \(\hat{t}\) num primeiro estágio e, então, o uso desses valores para obter \(Y_{i}\) num segundo estágio.
Em geral, devido ao cálculo dos erros padrão e de outros ajustes (ver Gelman e Hill pg. 224), a estimativa é feita utilizando-se algum agoritmo específico como o ivreg() de Fox, Kleiber e Zeileis (2020). Ou podemos usar uma modelagem multinível.
Exemplo: do Rethinking, impacto da educação na renda.
Footnotes
No jargão da inferência causal, as variáveis T e Y são chamadas de variáveis endógenas, pois são definidas dentro do sistema de equações. As variáveis \(X_{[i]}\) e \(z_{[i]}\) são chamadas de variáveis exógenas.↩︎