Controle Sintético

O método de controle sintético é um método relativamente novo proposto por Abadie e Gardeazabal (2003) e e aperfeiçoado por Diamond Hainmuller (2010). O método “é construído sobre a estimativa de diferenças em diferenças e apontas escolhas e restrições alternativas que podem ser impostas para melhorar o desempenho do método de estimação de diferenças em diferenças puro.” (pág.44, IPEA)

A estratégia envolve utilizar informações da região tratada e de outras regiões candidatas que possam servir como grupo de controle. Assim, o contrafactual é construído com base nas características das potenciais unidades de comparação, selecionando os elementos que mais se assemelham à região tratada no período em que ocorreu o tratamento estimando o que teria ocorrido na região de tratamento caso a intervenção não ocorresse.

Resumindo, o desempenho do tratado e sintético é similar anterior a intervenção, a diferenças após o tratamento representam os efeito resultante da intervenção.

Modelagem

Na existência de \(J + 1\) unidade submetidos a intervenção, as unidades \(J\) restantes são as unidade de potenciais de controle. Sejam \(Y_{N}^{it}\) os resultados observáveis e \(i\) estado no tempo \(t\) na ausência de intervenção e \(Y_{it}^{I}\) como o resultado observado na unidade \(i\) no tempo \(t\), se a unidade \(i\) for subemtida à intervenção entre \(T_{0} + 1\) e \(T\). Supõem-se inicialmente que não efeitos da intervenção no período pré-tratamento, assim \(Y_{N}^{it} = Y_{it}^{I}\).

Considerando, \(\alpha_{it} = Y_{it}^{I} - Y_{it}^{N}\) o efeito da intervenção para o estado \(i\) no perído \(T\), temos que

\[Y_{it}^{I} = Y_{N}^{it} + \alpha_{it}\]

Sendo \(D_{it}\) um indicador que recebe um valor um, se a unidade \(i\) sofre intervenção no tempo \(t\), e valor zero, caso contrário, pode-se inferir o resultado observado para as unidades como \(Y_{it}^{I} = Y_{N}^{it} + \alpha_{it}D_{it}\). Como somente o primeiro modelo sofre intervenção e somente após o período \(T_{0}\), tem-se que:

\[ D\ = \ \left\{ \begin{array}{rcl} 1\ se\ i = 1\ e\ t > T_{0} \\ 0, \ c.c. \end{array}\right. \]

O objetivo consiste em estimar o efeito da intervenção no sobre o estado de interesse da unidade de análise no período posterior ao tratamento, ou seja o vetor \((\alpha_{1 T0+1}, ..., \alpha_{T})\), para o \(t > T_{0}\):

\[\alpha_{1t} = Y_{1t}^{I} - Y_{N}^{1t} = Y_{it} - Y_{1t}^{N}\]

Como \(Y_{1t}^{I}\) é observado, para encontrar o efeito de interesse, é necessário apenas estimar \(Y_{N}^{1t}\). Sendo \(Y_{it}^{N}\) dado por um modelo de fatores como:

\[Y_{it}^{N} = \delta_{t} + \theta_{t} Z_{i} + \lambda_{t} \mu_{i} + \varepsilon_{it}\]

onde:

  • \(\delta_{t}\): fator comum a todos os estados
  • \(Z_{i}\): vetor \((r\ x\ 1)\) de caracteristicas observadas
  • \(\theta_{t}\): vetor \((1\ x\ r)\) de parâmetros desconhecidos
  • \(\lambda_{y}\): vetor \((1\ x\ F)\) de fatores comuns desconhecidos
  • \(\mu_{i}\): vetor \((1\ x\ F)\) de cargas fatoriais
  • \(\varepsilon_{it}\): valores aleatórios com média zero

Sendo um vetor \(J + 1\) de pesos \(W = (w_{2}, ..., w_{j+1})'\), tal que \(w_{j} \geq 0\) para \(j = 1, ..., j+1\) e \(w_{2} + ... + w_{j+1}\). Cada unidade do vetor \(W\) representa um potencial controle sintético, em outras palavras, cada vetor \(W\) representa uma combinação particular de pesos associados aos estados de comparação. O valor da variável resultado para cada controle sintético é dado por

\[\sum_{j = 2}^{ J + 1} w_{j} Y_{jt} = \delta_{t} + \theta_{t} \sum_{J + 1}^{j = 2} w_{j} Z_{j} + \lambda_{t}\sum_{J + 1}^{j = 2} w_{j} \mu_{j} + \sum_{J + 1}^{j = 2} w_{j} \varepsilon_{it} \]

Defini-se o vetor \(K = (k_{1}, k_{2}, ..., k_{T_{0}})\), um vetor \((T_{0}\ x\ 1)\) de pesos, fomando um combinação linear do valores da variávle antes da intervenção:

\[\bar{Y}_{i}^{K} = \sum_{s=1}^{T_{0}} k_{s}Y_{is}\]

Abadie, Diamond & Hainmueller exemplificam se \(k_{1} = k_{2} = ... = k_{T_{0}} = \frac{1}{T_{0}}\), \(\bar{Y}_{K}^{i}\) é a média da variável nos períodos pré-intervenção.

Reliza-se \(M\) combinações lineares definidas pelos vetores \(K_{1}, ..., K_{m}\). Seja \(X_{1} = (Z´_{1}, \bar{Y}_{i}^{K_{1}}, ...,\bar{Y}_{i}^{K_{M}})´\) um vetor \((k\ x\ 1)\) de caracterísiticas da região tratada no período anterior a intervenção, com \(K = r +M\) (sendo \(r\) o número de covariáveis lineares do valores da variável resultado). Igualmente \(X_{0}\) é um matriz \((k\ x\ J)\) das mesmas variáveis não afetadas. O vetor \(W^{*}\) é selecionado de uma forma que minima a distância, \(|| X_{1} - X_{0}W||\), sujeito a \(w_{2} \geq 0, w_{j+1} \geq 0, w_{2} + ... w_{j+1} = 1\). O vetor escolhido é o que minimiza:

\[|| X_{1} - X_{0}W||v = \sqrt{(X_{1} - X_{0}W)'V(|| X_{1} - X_{0}W||)}\]

onde V é alguma matriz simétrica \((k\ x\ k)\) e positiva e semi-definida. Sua escolha é sujeita ao conhecimento subjetivo sobre o poder preditivo das variáveis ou ser baseadas no dados.

Resumindo

  1. Objetivo: Construir uma combinação linear das unidades de controle para que o comportamento de apoxime da unidade tratada antes da intervenção

  2. Pesos: Obtem-se os pesos das unidade de controle, \(W = (w_{2}, ..., w_{j+1})'\), onde \(w_{j} \geq 0\) e \(\sum_{j=1}^{J} w_{j} = 1\)

  3. Combinaçao Sintética: Controle sintético \(Y_{0t}^{S} = \sum_{j=1}^{j=1} w_{j} Y_{jt}\) onde \(Y_{0t}\) é a variável de interesse para unidade de controle \(j\) no tempo t

  4. Critério de Minimção: Escolhe-se os pesos \(W\) de mondo a minimar a diferença entre a unidade tratada e a combinação sintética antes da intervenção. Formalemnte, escolhemos \(W\) para minimizar:

\[\sum_{t=1}^{T_{0}} (Y_{0t} - Y_{0t}^{S})^2 = \sum_{t=1}^{t_{0}} (Y_{0t} - \sum_{j=1}^{J} w_{j} Y_{jt})^2\]

  1. Estimativa do efeito

    5.1 Estimativa Confractual: Para \(t > T_{0}\), o contrafactual \(Y_{0t}^{N}\) é estimado pelo controle sintético:

    \[Y_{0t}^{N} = \sum_{j=1}^{J} w_{j} Y_{jt}\]

    5.2 Estimativa do efeito: o efeito da intevenção:

    \[\alpha_{0t} = Y_{0t} - Y_{N}^{1t} = Y_{0t} - \sum_{j=1}^{J} w_{j} Y_{jt}\]

Conclusão

O método de Controle Sintético é utilizado para comparar o impacto de uma intervenção em uma região específica com um cenário contrafactual no qual a intervenção não ocorreu. Ele é especialmente útil em diversos contextos, como:

  • Políticas Públicas: Avaliação do impacto de novas políticas em uma região.
  • Estudos de Caso: Análise de intervenções específicas em uma unidade.
  • Estimativa de Impacto na Ausência de um Grupo de Controle Natural: Criação de um contrafactual a partir de uma combinação ponderada de outras unidades não tratadas.
  • Estudos de Longo Prazo: Avaliação de impactos ao longo do tempo.
  • Análise de Intervenções Únicas ou Raras: Estudo de intervenções únicas ou raras onde é difícil encontrar um grupo de controle adequado.

Suas vantagens incluem flexibilidade, podendo ser aplicado em vários contextos; robustez, produzindo estimativas confiáveis; e clareza, pela facilidade de interpretação. Suas limitações estão na dependência de dados de qualidade, na complexidade computacional e na subjetividade na seleção de variáveis.

Alguns exemplos práticos incluem a política antitabaco na Califórnia, os efeitos da austeridade fiscal e os impactos de leis em regiões específicas.

Por fim, é um método poderoso para análise causal em situações onde experimentos randomizados não são viáveis, permitindo a criação de contrafactuais.

Segue a seguir um exemplo criado:

  • Contexto do Exemplo

Queremos avaliar o impacto de uma nova lei antitabagismo implementada em uma cidade específica em 2013. Para isso, comparamos a cidade tratada (onde a lei foi aplicada) com um controle sintético, construído a partir de cidades que não implementaram a lei. A ideia é simular o que teria acontecido com a cidade tratada caso a lei não tivesse sido implementada, permitindo isolar o efeito da intervenção.

library(Synth)
##
## Synth Package: Implements Synthetic Control Methods.
## See https://web.stanford.edu/~jhain/synthpage.html for additional information.
  • Estrutura dos Dados Temos dados de quatro cidades de 2010 a 2016:

Cidade tratada: cidade onde a lei foi implementada em 2013. Cidades de controle: três cidades onde a lei não foi implementada. Cada cidade tem uma taxa de tabagismo em cada ano. A cidade tratada teve uma queda significativa na taxa de tabagismo após 2013, possivelmente devido à lei. Queremos saber se essa queda é maior do que a que teria ocorrido sem a intervenção.

  • Objetivo do Controle Sintético

O controle sintético cria uma “cidade fictícia” que simula a cidade tratada, combinando ponderadamente as cidades de controle. A ideia é que essa cidade sintética, formada a partir das taxas de tabagismo das cidades de controle, siga a mesma trajetória que a cidade tratada no período pré-intervenção (2010-2013). Em seguida, usamos essa cidade sintética para prever o comportamento da cidade tratada no pós-intervenção (2014-2016), caso a lei não tivesse sido implementada.

library(Synth)

# Transformando os dados em formato longo e adicionando um identificador numérico para cada cidade
data <- data.frame(
  ano = rep(2010:2016, 4),
  cidade = c(rep(1, 7), rep(2, 7), rep(3, 7), rep(4, 7)),  # IDs numéricos para as cidades
  nome_cidade = c(rep("tratada", 7), rep("controle1", 7), rep("controle2", 7), rep("controle3", 7)),
  tabagismo = c(22, 21.5, 21, 20.5, 15, 14, 13,   # Cidade tratada
                23, 22.8, 22.5, 22.2, 22, 21.8, 21.5,  # Controle 1
                20, 19.8, 19.5, 19.3, 19.1, 18.9, 18.8,  # Controle 2
                25, 24.5, 24, 23.5, 23.2, 23, 22.8)     # Controle 3
)

# Preparando os dados para o modelo de controle sintético
dataprep_out <- dataprep(
  foo = data,
  predictors = "tabagismo",
  predictors.op = "mean",
  dependent = "tabagismo",
  unit.variable = "cidade",  # Identificador numérico da cidade
  time.variable = "ano",
  treatment.identifier = 1,  # ID numérico da cidade tratada
  controls.identifier = c(2, 3, 4),  # IDs numéricos das cidades de controle
  time.predictors.prior = 2010:2013,
  time.optimize.ssr = 2010:2013,
  unit.names.variable = "nome_cidade",  # Nome das cidades
  time.plot = 2010:2016
)

Se a taxa de tabagismo na cidade tratada cai mais rapidamente do que na cidade sintética após 2013, podemos inferir que a lei teve um efeito positivo na redução do tabagismo

# Construindo o controle sintético
synth_out <- synth(dataprep_out)

X1, X0, Z1, Z0 all come directly from dataprep object.


**************** 
 optimization over w weights: computing synthtic control unit 
 


**************** 
**************** 
**************** 

MSPE (LOSS V): 0.05163912 

solution.v:
 1 

solution.w:
 0.2404878 0.5669208 0.1925914 
# Extraindo os valores observados e sintéticos para a cidade tratada e controle
observed_values <- subset(data, cidade == 1)$tabagismo  # Valores reais da cidade tratada
synthetic_values <- dataprep_out$Y0plot %*% synth_out$solution.w  # Valores sintéticos para o período completo

# Garantindo que os comprimentos são iguais
synthetic_values <- as.numeric(synthetic_values)  # Convertendo para vetor numérico

# Plotando os resultados
plot(2010:2016, observed_values, type = "l", col = "blue", ylim = c(10, 25),
     xlab = "Ano", ylab = "Taxa de Tabagismo (%)", main = "Controle Sintético: Impacto da Lei Antitabagismo")
lines(2010:2016, synthetic_values, col = "orange", lty = 2)  # Controle sintético
abline(v = 2013, col = "gray", lty = 2)  # Linha vertical no ano da intervenção
legend("topright", legend = c("Cidade Tratada", "Controle Sintético"), col = c("blue", "orange"), lty = c(1, 2))

O método de controle sintético é uma abordagem para avaliar o impacto causal de intervenções, especialmente em estudos de caso onde há apenas uma unidade tratada e múltiplas unidades de controle. Ao construir uma combinação ponderada de unidades não tratadas para formar um “controle sintético” que melhor se assemelha à unidade tratada antes da intervenção, o método permite comparações mais robustas e precisas. Ele é útil quando as alternativas tradicionais, como diferenças em diferenças, podem não ser adequadas devido à falta de grupos comparáveis. No entanto, a eficácia do controle sintético depende da seleção cuidadosa das variáveis preditoras e das unidades de controle, bem como da suposição de que o controle construído replica fielmente a trajetória da unidade tratada na ausência da intervenção. Dessa forma, o método de controle sintético é uma ferramenta versátil, mas seu sucesso requer uma aplicação rigorosa.