Code
library(dagitty)
library(ggdag)library(dagitty)
library(ggdag)Considere o DAG apresentado abaixo, o qual não contém os termos de erro a título de simplificação:
\[ Y = aW_3 + bZ_3 + cW_2 + U \quad \quad \quad X = t_1W_1 + t_2Z_3 + U' \]
\[ W_3 = c_3X + U'_3 \quad \quad \quad \quad \quad \quad W_1 = a'_1Z_1 + U'_1 \]
\[ Z_3 = a_3Z_1 + b_3Z_2 + U_3 \quad \quad \quad \quad \quad Z_1 = U_1 \]
\[ W_2 = c_2Z_2 + U'_2 \quad \quad \quad \quad \quad \quad Z_2 = U_2 \]
dag_q1 <- dagitty('dag {
bb="0,0,1,1"
W1 [pos="0.050,-0.500"]
W2 [pos="0.900,-0.500"]
W3 [pos="0.475,-0.900"]
X [pos="0.050,-0.900"]
Y [pos="0.900,-0.900"]
Z1 [pos="0.050,-0.100"]
Z2 [pos="0.900,-0.100"]
Z3 [pos="0.475,-0.500"]
W1 -> X
W2 -> Y
W3 -> Y
X -> W3
Z1 -> W1
Z1 -> Z3
Z2 -> W2
Z2 -> Z3
Z3 -> X
Z3 -> Y
}')
dagified_q1 <- tidy_dagitty(dag_q1)
ggdag(dagified_q1) +
theme_dag()Além disso, definimos os parâmetros de cada conexão:
\[ Z1 \xrightarrow{a_1} W1 \xrightarrow{t_1} X \xrightarrow{c_3} W3 \xrightarrow{a} Y \]
\[ Z1 \xrightarrow{a_3} Z3 \xrightarrow{b} Y \]
\[ Z2 \xrightarrow{b_3} Z3 \]
\[ Z2 \xrightarrow{c_2} W2 \xrightarrow{c} Y \]
Identifique três implicações testáveis deste modelo relacionadas às variáveis \(Y\), \(W1\) e \(W3\).
Na equação de regressão abaixo, caso o modelo causal esteja bem especificado, \(r_1\) deve ser diferente \(0\). Isso porque o conjunto \(Z = \{W3\}\), não é suficente para d-separar \(W1\) e \(Y\).
\[ Y =r_0 + r_1W1 + r_2W3 + \epsilon \]
Entretanto, na equação de regressão abaixo, \(r_1\) precisa ser igual a 0, dado que o conjunto \(Z = \{W3, Z1\}\) d-separa \(W1\) e \(Y\), fechando o backdoor path \(W1 \leftarrow Z1 \rightarrow Z3 \rightarrow Y\).
\[ Y =r_0 + r_1W1 + r_2W3 + r_3Z1 + \epsilon \]
Considere as regressões abaixo:
\[ W3 = r_{1,0} + r_{1,1} W1 + \epsilon_1 \]
\[ Y = r_{2,0} + r_{2,1}W1 + r_{2,2}Z1 + \epsilon_2 \]
\[ Y = r_{3,0} + r_{3,1}W3 + r_{3,2}X + \epsilon_3\]
Nesse caso, supondo que o modelo causal está bem especificado, \(r_{3,1} = \frac{r_{2,1}}{r_{1,1}} = a\).
\[ Y = r_0 + r_1Z1 + \epsilon\]
Nesse caso, supondo que o modelo causal está bem especificado, \(r_1 = (a_1 \times t_1 \times c_3 \times a) + (a_3 \times b)\). Os valores de \(a_1, t_1, c_3, a, a_3, b\), podem ser facilmente encontrados através de regressões auxiliares, supondo que o pesquisador tenha acesso ao conjunto de variáveis necessárias para encontrar tais valores.
Suponha que \(X\), \(Y\) e \(W3\) sejam as únicas variáveis observadas. Quais parâmetros podem ser identificados a partir dos dados? O efeito total de \(X\) em \(Y\) pode ser estimado? Como?
Apenas os parâmetros \(c_3 \: \text{e} \: a\) podem ser identificados a partir dos dados, dado que \(X\), \(Y\) e \(W3\) são as únicas variáveis observáveis.
\(c_3\) é o parâmetro \(r_{1}\) na equação abaixo:
\[W3 = r_{0} + r_{1}X + \epsilon\]
\(a\), por sua vez, é o parâmetro \(r_{1}\) na equação abaixo:
\[Y = r_{0} + r_{1}W3 + r_{2}X + \epsilon\]
O efeito total de \(X\) em \(Y\) pode ser estimado apenas com dados referentes a \(X\), \(Y\) e \(W3\).
Para estimarmos tal efeito, basta fazer o produto de \(r_{1,1}\) e \(r_{2,1}\) nas equações de regressão abaixo:
\[Y = r_{1,0} + r_{1,1}W3 + r_{1,2}X + \epsilon_1 \]
\[W3 = r_{2,0} + r_{2,1}X + \epsilon_2 \]
Nesse caso, \(r_{1,1} = a\) e \(r_{2,1} = c_3\).
Apenas por curiosidade, apresentamos dois métodos para calcular o efeito total de \(X\) sobre \(Y\) no caso em que não temos como medir \(W3\).
A primeira seria o coeficiente \(r_{1}\) na equação abaixo.
\[Y = r_{0} + r_{1}X + r_{2}Z3 + r_{3}W1 + \epsilon \]
A segunda seria a razão entre \(r_{1,1}\) e \(r_{2,1}\) nas equações de regressão abaixo:
\[Y = r_{1,0} + r_{1,1}W1 + r_{1,2}Z1 + \epsilon_1 \]
\[X = r_{2,0} + r_{2,1}W1 + r_{2,2}Z1 + \epsilon_2\]