Atividade 7

Author

Pedro Teles

Code

library(dagitty)
library(ggdag)

1 Questão 1

Considere o DAG apresentado abaixo, o qual não contém os termos de erro a título de simplificação:

\[ Y = aW_3 + bZ_3 + cW_2 + U \quad \quad \quad X = t_1W_1 + t_2Z_3 + U' \]

\[ W_3 = c_3X + U'_3 \quad \quad \quad \quad \quad \quad W_1 = a'_1Z_1 + U'_1 \]

\[ Z_3 = a_3Z_1 + b_3Z_2 + U_3 \quad \quad \quad \quad \quad Z_1 = U_1 \]

\[ W_2 = c_2Z_2 + U'_2 \quad \quad \quad \quad \quad \quad Z_2 = U_2 \]

Code

dag_q1 <- dagitty('dag {
bb="0,0,1,1"
W1 [pos="0.050,-0.500"]
W2 [pos="0.900,-0.500"]
W3 [pos="0.475,-0.900"]
X [pos="0.050,-0.900"]
Y [pos="0.900,-0.900"]
Z1 [pos="0.050,-0.100"]
Z2 [pos="0.900,-0.100"]
Z3 [pos="0.475,-0.500"]
W1 -> X
W2 -> Y
W3 -> Y
X -> W3
Z1 -> W1
Z1 -> Z3
Z2 -> W2
Z2 -> Z3
Z3 -> X
Z3 -> Y
}')

dagified_q1 <- tidy_dagitty(dag_q1)

ggdag(dagified_q1) +
  theme_dag()

Além disso, definimos os parâmetros de cada conexão:

\[ Z1 \xrightarrow{a_1} W1 \xrightarrow{t_1} X \xrightarrow{c_3} W3 \xrightarrow{a} Y \]

\[ Z1 \xrightarrow{a_3} Z3 \xrightarrow{b} Y \]

\[ Z2 \xrightarrow{b_3} Z3 \]

\[ Z2 \xrightarrow{c_2} W2 \xrightarrow{c} Y \]

1.1 Letra A

Identifique três implicações testáveis deste modelo relacionadas às variáveis \(Y\), \(W1\) e \(W3\).

1.1.1 Implicação 1

Na equação de regressão abaixo, caso o modelo causal esteja bem especificado, \(r_1\) deve ser diferente \(0\). Isso porque o conjunto \(Z = \{W3\}\), não é suficente para d-separar \(W1\) e \(Y\).

\[ Y =r_0 + r_1W1 + r_2W3 + \epsilon \]

Entretanto, na equação de regressão abaixo, \(r_1\) precisa ser igual a 0, dado que o conjunto \(Z = \{W3, Z1\}\) d-separa \(W1\) e \(Y\), fechando o backdoor path \(W1 \leftarrow Z1 \rightarrow Z3 \rightarrow Y\).

\[ Y =r_0 + r_1W1 + r_2W3 + r_3Z1 + \epsilon \]

1.1.2 Implicação 2

Considere as regressões abaixo:

\[ W3 = r_{1,0} + r_{1,1} W1 + \epsilon_1 \]

\[ Y = r_{2,0} + r_{2,1}W1 + r_{2,2}Z1 + \epsilon_2 \]

\[ Y = r_{3,0} + r_{3,1}W3 + r_{3,2}X + \epsilon_3\]

Nesse caso, supondo que o modelo causal está bem especificado, \(r_{3,1} = \frac{r_{2,1}}{r_{1,1}} = a\).

1.1.3 Implicação 3

\[ Y = r_0 + r_1Z1 + \epsilon\]

Nesse caso, supondo que o modelo causal está bem especificado, \(r_1 = (a_1 \times t_1 \times c_3 \times a) + (a_3 \times b)\). Os valores de \(a_1, t_1, c_3, a, a_3, b\), podem ser facilmente encontrados através de regressões auxiliares, supondo que o pesquisador tenha acesso ao conjunto de variáveis necessárias para encontrar tais valores.

1.2 Letra B

Suponha que \(X\), \(Y\) e \(W3\) sejam as únicas variáveis observadas. Quais parâmetros podem ser identificados a partir dos dados? O efeito total de \(X\) em \(Y\) pode ser estimado? Como?

1.2.1 Pergunta 1

Apenas os parâmetros \(c_3 \: \text{e} \: a\) podem ser identificados a partir dos dados, dado que \(X\), \(Y\) e \(W3\) são as únicas variáveis observáveis.

\(c_3\) é o parâmetro \(r_{1}\) na equação abaixo:

\[W3 = r_{0} + r_{1}X + \epsilon\]

\(a\), por sua vez, é o parâmetro \(r_{1}\) na equação abaixo:

\[Y = r_{0} + r_{1}W3 + r_{2}X + \epsilon\]

1.2.2 Pergunta 2

O efeito total de \(X\) em \(Y\) pode ser estimado apenas com dados referentes a \(X\), \(Y\) e \(W3\).

Para estimarmos tal efeito, basta fazer o produto de \(r_{1,1}\) e \(r_{2,1}\) nas equações de regressão abaixo:

\[Y = r_{1,0} + r_{1,1}W3 + r_{1,2}X + \epsilon_1 \]

\[W3 = r_{2,0} + r_{2,1}X + \epsilon_2 \]

Nesse caso, \(r_{1,1} = a\) e \(r_{2,1} = c_3\).

Apenas por curiosidade, apresentamos dois métodos para calcular o efeito total de \(X\) sobre \(Y\) no caso em que não temos como medir \(W3\).

A primeira seria o coeficiente \(r_{1}\) na equação abaixo.

\[Y = r_{0} + r_{1}X + r_{2}Z3 + r_{3}W1 + \epsilon \]

A segunda seria a razão entre \(r_{1,1}\) e \(r_{2,1}\) nas equações de regressão abaixo:

\[Y = r_{1,0} + r_{1,1}W1 + r_{1,2}Z1 + \epsilon_1 \]

\[X = r_{2,0} + r_{2,1}W1 + r_{2,2}Z1 + \epsilon_2\]