Descrição, predição e causalidade

Ao interpretar os modelos que vimos até agora fizemos comparações entre unidades diferentes de observação. Nossos modelos tinham a forma

\[ Y_{i} \sim f(y_{i}|\theta_{i},\alpha) \\ \theta_{i} = g(X, \beta) \]

Usamos cada unidade para prever um valor de \(Y_{i}\). Essa previsão carregava a incerteza na relação entre uma observação específica de \(Y_{i}\) e o parâmetro \(\theta_{i} = g(X, \beta)\) para a previsão da distribuição de \(Y\). Portanto, quando interpretamos \(\beta\) em um modelo linear como o impacto da mudança em unidade de \(X\) em \(Y\) estamos comparando duas unidades diferentes. Essa interpretação nos permite decrever nossos dados, inferir relações mais gerais a partir deles e fazer previsões.

Quando observamos correlações entre variáveis mutas vezes somos tentados a pensar nessas correlações como efeitos causais. Quando constatamos que, mesmo sem crianças em casa, R$ 1000 a mais na renda do maridos estava associado com mulheres canadenses trabalhando menos fora somos tentados a imaginar que o fato do marido ganhar mais dinheiro fazia com que a mulher decidisse deixar de trabalhar. O problema é que estamos comparando unidades diferentes e não temos mais informações sobre como aqueles dados foram gerados. E se homens com mais renda preferiam casar com mulheres que foram educadas para não trabalhar fora? E se as mulheres desses homens se sentissem constrangidas a não trabalhar fora? E se uma mulher casada com um homem com menos renda não sentisse o mesmo constrangimento, será que ela deixaria de trabalhar se o marido ganhasse mais?

Essa última pergunta é essencial para se estabelecer uma relação de causalidade. Como uma mesma pessoa se comportaria se alterássemos certo aspecto de sua realidade? E se uma mesma mulher casada com alguém com $5mil de renda fosse casada com alguém de $30mil, mantendo-se todos os outros aspectos de sua realidade constantes, ela trabalharia fora? A resposta a essa pergunta nos permite afirmar que, neste caso, o aumento da renda provocou sua decisão de trabalhar fora ou não. Essa realidade alternativa se chama contrafatual.

Resultados Potenciais

Se estamos interessados em inferir causalidade devemos pensar como uma mesma unidade responderia a diferentes tratamentos, isto é, à exposição a alguma intervenção, isto é, qual seria a reposta se ela fosse tratada e qual se ela não fosse tratada. Vamos supor que a intervenção é a transferência de renda e a resposta é apoio ou não ao presidente. Se transferirmos renda para a uma pessoa podemos medir o apoio desta pessoa ao presidente depois da transferência. Aí voltamos no tempo, não transferimos renda para essa mesma pessoa e medimos seu apoio. Como a única coisa que mudamos na nossa viagem no tempo foi a transferência de renda, a diferença entre o nível de apoio nas duas situações pode ser atribuída ao tratamento. Formalmente:

\[ Y_{i} = \begin{cases} Y_{1i} & \quad \text{se } T_{i} =1\\ Y_{0i} & \quad \text{se } T_{i} =0 \end{cases} \]

Juntando em uma só equação podemos representar o resultado potencial como

\[ Y_{i} = Y_{0i} + (Y_{1i} - Y_{0i})*T_{i}\]

Essa notação nos mostra que \(Y_{1i} - Y_{0i}\) é o efeito do tratamento \(T_{i}\). Para cada pessoa \(i\) o efeito do tratamento pode ser diferente. Como não podemos controlar o tempo não podemos observar \(Y_{1i}\) e \(Y_{0i}\) ao mesmo tempo, o que podemos fazer é comparar a média da resposta entre os tratados e os não tratados na população.

\[ \begin{align} \text{E}[Y_{i} \mid T_{i} = 1] - \text{E}[Y_{i} \mid T_{i} = 0] &= \text{E}[Y_{1i} \mid T_{i} = 1] - \text{E}[Y_{0i} \mid T_{i} = 1]\\ &+ \text{E}[Y_{0i} \mid T_{i} = 1] - \text{E}[Y_{0i} \mid T_{i} = 0] \end{align} \]

Vemos que ao equalizar a diferença de média entre tratados e não tratados à diferença entre os resultados potencias do tratamento na mesma pessoa surgem dois componentes. \(\text{E}[Y_{1i}\mid T_{i} = 1] - \text{E}[Y_{0i}\mid T_{i} = 1]\) é, como vimos acima, o efeito médio do tratamento na resposta entre aqueles que foram tratados. O segundo elemento \(\text{E}[Y_{0i}\mid T_{i} = 1] - \text{E}[Y_{0i}\mid T_{i} = 0]\) nos dá o viés de seleção, isto é, características de base dois dois grupos (tratados e não-tratados) que já tornavam a resposta diferente antes do tratamento. A equação nos diz que, se o viés de seleção for muto grande ele pode mascarar o efeito do tratamento. Portanto, para podermos constatar o efeito do tratamento temos que nos livrar do viés de seleção.

Viés de Seleção e o DAG

Suponha que o efeito de um tratamento seja zero, mas os grupos tratado e controle diferem sistematicamente com o tratamento sendo atribuído conforme certas característcias pessoais. Essa atribuição não aleatória faz com que haja uma diferença positiva na variável resposta entre os grupos, mesmo que, na realidade, o tratamento não tenha efeito.

[simulação]

De onde vem esta diferença? Ela pode vir de variáveis de confusão (counfounding), variáveis cuja presença ou ausência mudam a relação entre \(Y\) e \(T\). Como fazer para identificar estas variáveis? Precisamos refletir sobre como nossos dados foram gerados. Isto só pode ser feito com apoio em teoria. No caso da simulação sabemos exatamente o processo pelo qual os dados foram gerados. Uma boa teoria científica tenta se aproximar deste processo.

Vamos continuar com o exemplo do impacto do BF na aprovação presidencial que usamos na simulação. Por que elas estariam associadas? O que a teoria nos diz sobre isso? O que determina a aprovação presidencial? E a participação no BF? Vamos supor que a teoria nos diz que a aprovação presidencial depende da ideologia e do quanto uma pessoa se beneficou de programas do governo. A ideologia teria uma relação direta com a renda. Os programas de governo por sua vez dependem da região e sexo, tendo o governo investido mais em regiões mais pobres e em políticas para mulheres. Por outro lado o sexo e a renda são, junto com o número de filhos, os critérios de elegibilidade para participar do BF. Podemos representar nossa teoria graficamente, conforme a figura abaixo:

DAG do efeito de BF em AP

Este tipo de representação é um grafo direcional acíclico (Directed Acyclic Graph ou DAG em inglês). Um grafo é a representação de uma rede, direcional pois temos a direção da influência de uma variável sobre outra e acíclico porque uma variável não tem influência sobre si mesma. Cada nó (círculo) representa uma variável de nosso modelo teórico e as linhas representam relações entre variáveis. Imagine que há um fluxo de “influência” de uma variável sobre outra e que esse fluxo segue a direção das setas até a variável resposta, no nosso caso a variável AP. Agora imagine que ao selecionar uma variável cancela-se o fluxo que chega até ela, mas o fluxo abaixo dela, isto é, o fluxo que passa por nós mais próximos à variável resposta, continua fluindo. Quando selecionamos a variável BF todo o fluxo que fluia passando por ela em direção à AP segue fluindo. Como só selecionamos esta variável parece que todo fluxo que chega em AP vem dela.

O DAG mostra que BF se liga à AP por dois caminhos: BF -> RD -> ID -> AP e BF -> SX -> PP e AP. Se incluimos qualquer variável mais próxima à AP do que BF a relação entre estas duas variáveis desaparece, pois todo ‘fluxo’ que vem antes é interrompido. Como mostra a figura abaixo.

Podemos ver esse efeito ao controlar por ID e PP em uma regressão.

[Simulação]

Aleatorização

Fora do mundo simulado não temos como controlar todas as variáveis de confusão. Variáveis omitidas no noso modelo podem gerar o viés de seleção, ou seja podemos ter o que se chama de Viés de Variável Omitida. As equações abaixo ajudam a ilustrar o porque disso.

Vamos supor que temos um efeito direto de BF em AP e a correta especificação de nosso modelo seja

\[ AP_{i} = \beta_{0} + \beta_{1} BF_{i} + \beta_{2} x_{i} + \epsilon_{i} \]

Se não observamos \(x_{i}\) estaremos ajustando o seguinte modelo

\[ AP_{i} = \beta_{0}^{*} + \beta_{1}^{*} BF_{i} + \epsilon_{i}^{*} \]

Se BF tem relação com \(x_{i}\) teríamos algo como

\[ x_{i} = \gamma_{0} + \gamma_{1} BF_{i} + \nu_{i} \]

O que substituindo acima nos dá

\[ AP_{i} = \beta_{0} + \beta_{2} \gamma_{0} + (\beta_{1} + \beta_{2}\gamma_{1}) BF_{i} + \epsilon_{i} + \nu_{i} \]

Então quando estimamos o coeficiente sem \(x_{i}\), ou seja, com essa variável omitida temos

\[\beta_{1}^{*} = \beta_{1} + \beta_{2}^{*}\gamma_{1}\]

Como fazemos para nos livrar desse viés se não observamos a variável omitida? Se atribuimos o tratamento de maneira aleatória tornamos esse tratamento independente do resultado potencial, obtendo

\[ \begin{align} \text{E}[Y_{i}\mid T_{i} = 1] - \text{E}[Y_{i}\mid T_{i} = 0] &= \text{E}[Y_{1i}\mid T_{i} = 1] - \text{E}[Y_{0i}\mid T_{i} = 0]\\ &= \text{E}[Y_{1i}\mid T_{i} = 1] + \text{E}[Y_{0i}\mid T_{i} = 1] \end{align} \]

Como \(Y_{i} \perp T_{i} \mid X\) a média dos valores da resposta não se altera se a observamos no grupo tratado ou no grupo controle (não tratado). Por isso as duas linhas da equação são equivalentes. Isso acontece por que ao atribuir o tratamento de forma aleatória tendemos a anular diferenças sistemáticas que poderiam causar algum viés.

Se atribuírmos o tratamento de forma aleatória podemos identificá-lo usando nossa estratégia de modelagem:

\[ Y_{i} \sim f(y_{i}|\theta_{i},\alpha) \\ \theta_{i} = g(\alpha + \rho T) \]

Onde \(\alpha = Y_{0i}\) e \(\rho\) é o efeito do tatamento \((Y_{1i} - Y_{0i})\).

[SIMULAÇÃO]

Como podemos aleatorizar o tratamento? Podemos fazer um experimento onde certas pessoas recebem o tratamento e outras não recebem por sorteio. Um exemplo clássico é o experimento STAR onde procurou-se medir o efeito do tamanho da sala de aula na aprendizagem. Esse experimento foi feito no Tennessee (EUA) e consistiu em atribuir 11.600 alunos do infantil a classes de diferentes tamanhos por meio de sorteio. Esses alunos foram acompanhados até o terceiro ano e comparou-se o desemepnho desses alunos em um teste (ver Angrist e Pischke, p. 17). A pesquisa constatou que alunos em classes menores obtiveram um rendimento 5% maior no teste.

A aleatorização garante que características individuais que poderiam causar viés estejam balanceadas nos grupos, o que pode ser constatado comparando-se as médias dessas características. Além da aleatorização em intervenções como a do STAR podemos nos valer de uma amostra aleatória da população e atribuir parte desta amostra ao grupo de tratamento e outra parte ao grupo de controle. Isso é o que fazemos quando usamos experimentos de survey, por exemplo.

Ainda outra forma de aleatorização se dá quando temos os chamados experimentos naturais. Zimmerman (2003) se aproveitou do fato de que em determinada faculdade os alunos residentes no campus eram atribuídos de forma aleatória, com relação ao desempenho, a quartos compartilhados, para medir o efeito dos pares (companheiros de quarto) neste desempenho, constatando que alunos no meio da distribuição do teste desempenhavam pior quando tinham companheiors de quarto com baixo desempenho.