Monitoria 2 de Econometria II - VI

Estimador IV com um Único Regressor e um Único Instrumento

Definição

Considere o modelo de regressão simples

\[ Y_i = \beta_0 + \beta_1 X_i + u_i \ \ , \ \ i=1,\dots,n \]

onde o termo de erro \(u\) é correlacionado com o regressor \(X_i\) (\(X\) é endógeno), tal que o estimador de mínimos quadrados ordinários é inconsistente para o verdadeiro \(\beta_1\).

No caso mais simples, a regressão IV usa uma única variável instrumental para obter um estimador consistente para \(\beta_1\). \(Z\) deve satisfazer duas condições para ser um instrumento válido:

Condições de Validade do Instrumento

1. Condição de relevância do instrumento:

\(X\) e seu instrumento \(Z\) devem estar correlacionados: \(corr(Z_i,X_i) \neq 0\)

2. Condição de exogeneidade do instrumento:

O instrumento \(Z\) não deve ser correlacionado com o termo de erro \(u\): \(corr(Z_i,u_i) = 0\)

O estimador de Mínimos Quadrados em Dois Estágio (MQ2E)

O modelo de regressão do primeiro estágio é

\[X_i = \pi_0 + \pi_1 Z_i + \nu_i\]

onde \(\pi_0 + \pi_1 Z_i\) é o componente de \(X_i\) que é explicado por \(Z_i\), enquanto \(\nu_i\) o componente que não pode ser explicado é explicado por \(Z_i\) e possui correlação com \(u_i\)

Através dos estimadores MQO \(\widehat{\pi}_0\) e \(\widehat{\pi}_1\) obtemos os valores previstos \(\widehat{X}_i\ , \ \ i=1,\dots,n\). Se \(Z\) é um instrumento válido, nosso \(\widehat{X}_i\) está livre de problemas, dado que \(\widehat{X}\) é exógeno em uma regressão de \(Y\) sobre \(\widehat{X}\), que é feito na regressão do segundo estágio. A segunda etapa produz \(\widehat{\beta}_0^{TSLS}\) e \(\widehat{\beta}_1^{TSLS}\), os estimadores MQ2E para \(\beta_0\) e \(\beta_1\)

Para o caso de um único instrumento pode-se mostrar que o estimador MQ2E de \(\beta_1\) é

\[ \begin{align} \widehat{\beta}_1^{TSLS} = \frac{s_{ZY}}{s_{ZX}} = \frac{\frac{1}{n-1}\sum_{i=1}^n(Y_i - \overline{Y})(Z_i - \overline{Z})}{\frac{1}{n-1}\sum_{i=1}^n(X_i - \overline{X})(Z_i - \overline{Z})}, \tag{12.2} \end{align} \]

que não é nada mais do que a razão da covariância da amostra entre \(Z\) e \(Y\) para a covariância amostral entre \(Z\) e \(X\).

Aplicação à Demanda por Cigarros

A relação entre a procura e o preço das mercadorias é um problema simples mas extremamnte importante na economia. A economia da saúde preocupa-se com o estudo de como o comportamento dos indivíduos que afeta a saúde é influenciado pelo sistema de saúde e pela política regulatória. Provavelmente, o exemplo mais proeminente nos debates sobre políticas públicas é o tabagismo, uma vez que está relacionado com muitas doenças e externalidades negativas.

É plausível que o consumo de cigarros possa ser reduzido através de uma tributação mais pesada dos cigarros. A questão é saber até que ponto os impostos devem ser aumentados para se alcançar uma certa redução no consumo de cigarros. Os economistas usam elasticidades para responder a este tipo de questão.

Dado que a elasticidade-preço da procura de cigarros é desconhecida, deve ser estimada. Uma regressão OLS do log da quantidade sobre o log do preço não pode ser usada para estimar o efeito dos juros, uma vez que há causalidade simultânea entre demanda e oferta. Em vez disso, a regressão IV pode ser usada.

Usamos o conjunto de dados CigarettesSW que vem com o pacote AER. É um conjunto de dados em painel que contém observações sobre o consumo de cigarros e vários indicadores económicos para todos os 48 estados federais dos EUA de 1985 a 1995. Para o exercício, vamos considerar os dados de corte transversal dos estados apenas em 1995.

Começamos carregando o pacote, anexando o conjunto de dados e obtendo uma visão geral.

library(AER)
data("CigarettesSW")
summary(CigarettesSW)
##      state      year         cpi          population           packs       
##  AL     : 2   1985:48   Min.   :1.076   Min.   :  478447   Min.   : 49.27  
##  AR     : 2   1995:48   1st Qu.:1.076   1st Qu.: 1622606   1st Qu.: 92.45  
##  AZ     : 2             Median :1.300   Median : 3697472   Median :110.16  
##  CA     : 2             Mean   :1.300   Mean   : 5168866   Mean   :109.18  
##  CO     : 2             3rd Qu.:1.524   3rd Qu.: 5901500   3rd Qu.:123.52  
##  CT     : 2             Max.   :1.524   Max.   :31493524   Max.   :197.99  
##  (Other):84                                                                
##      income               tax            price             taxs       
##  Min.   :  6887097   Min.   :18.00   Min.   : 84.97   Min.   : 21.27  
##  1st Qu.: 25520384   1st Qu.:31.00   1st Qu.:102.71   1st Qu.: 34.77  
##  Median : 61661644   Median :37.00   Median :137.72   Median : 41.05  
##  Mean   : 99878736   Mean   :42.68   Mean   :143.45   Mean   : 48.33  
##  3rd Qu.:127313964   3rd Qu.:50.88   3rd Qu.:176.15   3rd Qu.: 59.48  
##  Max.   :771470144   Max.   :99.00   Max.   :240.85   Max.   :112.63  
## 

Calculo das variaveis

Estamos interessados em estimar \(\beta_1\) em

\[ \begin{align} \log(Q_i^{cigarros}) = \beta_0 + \beta_1 \log(P_i^{cigarros}) + u_i, \tag{1} \end{align} \]

onde:

  • \(Q_i^{cigarros}\) é o número de maços de cigarros vendidos per capita e

  • \(P_i^{cigarros}\) é o preço real médio após impostos por maço de cigarros no estado \(i\) .

A variável instrumental que usaremos para instrumentar o regressor endógeno \(\log(P_i^{cigarettes})\) é \(SalesTax\) , a parcela dos impostos sobre cigarros decorrente do imposto geral sobre vendas. SalesTax é medido em dólares por pacote.

A ideia é que o \(SalesTax\) seja um instrumento relevante, pois está incluído no preço médio por pacote após impostos. Além disso, é plausível que \(SalesTax\) seja exógeno, uma vez que o imposto sobre vendas não influencia a quantidade vendida diretamente, mas indiretamente através do preço.

Realizamos algumas transformações para obter dados de seção transversal deflacionados para o ano de 1995.

Também calculamos a correlação amostral entre o imposto sobre vendas e o preço por pacote. A correlação amostral é um estimador consistente da correlação populacional. A estimativa de aproximadamente \(0,614\) indica que \(SalesTax\) e \(P_i^{cigarettes}\) apresentam correlação positiva que atende às nossas expectativas: impostos mais altos sobre vendas levam a preços mais altos. No entanto, uma análise de correlação como esta não é suficiente para verificar se o instrumento é relevante. Mais tarde voltaremos à questão de verificar se um instrumento é relevante e exógeno.

library(tidyverse)

c1995 = CigarettesSW %>% 
  filter(year == "1995")

# compute real per capita prices
#  compute the sales tax
c1995 = c1995  %>% 
  mutate(rprice = price / cpi,
         salestax = (taxs - tax) / cpi)

# check the correlation between sales tax and price
cor(c1995 $salestax, c1995 $price)
## [1] 0.6856138

Primeiro Estágio

A regressão do primeiro estágio é

\[ \log(P_i^{cigarettes}) = \pi_0 + \pi_1 SalesTax_i + \nu_i \tag{2} \]

Estimamos este modelo em R usando lm().

No segundo estágio, executaremos uma regressão de \(\log(Q_i^{cigarettes})\) em \(\widehat{\log(P_i^{cigarettes})}\) para obter \(\widehat{\beta}_0^{TSLS}\) e \(\widehat{\beta}_1^{TSLS}\)

# perform the first stage regression
cig_s1 <- lm(log(rprice) ~ salestax, data = c1995)

coeftest(cig_s1, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error  t value  Pr(>|t|)    
## (Intercept) 4.6165463  0.0289177 159.6444 < 2.2e-16 ***
## salestax    0.0307289  0.0048354   6.3549 8.489e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Ou seja, o 1º estágio da regressão é

\[ \widehat{\log(P_i^{cigarettes})} = \underset{(0.03)}{4.62} + \underset{(0.005)}{0.031} SalesTax_i \tag{3} \]

que prevê que a relação entre o preço do imposto sobre vendas por cigarro seja positiva. Quanto da variação observada em \(\log(P_i^{cigarettes})\) é explicado pelo instrumento \(SalesTax\)? Isso pode ser respondido observando o \(R^2\) da regressão

summary(cig_s1)$r.squared
## [1] 0.4709961

O \(R^2\) mostra que \(47\%\) a variação dos preços é explicada pela variação do imposto sobre vendas entre os estados.

Antes de prosseguir para o segundo estágio, precisamos guardar os valores previstos na regressão. Isto é, \(\widehat{\log(P_i^{cigarettes})}\)

lcigp_pred <- cig_s1$fitted.values

Segundo Estágio

Agora, estimamos nossa regressão utilizando \(\widehat{\log(P_i^{cigarettes})}\) da seguinte forma:

# run the stage 2 regression
cig_s2 <- lm(log(c1995$packs) ~ lcigp_pred)
coeftest(cig_s2, vcov = vcovHC)
## 
## t test of coefficients:
## 
##             Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)  9.71988    1.70304  5.7074 7.932e-07 ***
## lcigp_pred  -1.08359    0.35563 -3.0469  0.003822 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Assim, o modelo a estimação de Mínimos Quadrados em Dois Estágios produz

\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.70)}{9.72} - \underset{(0.36)}{1.08} \log(P_i^{cigarettes}), \tag{4} \end{align} \]

Realizando diretamente

# perform TSLS using 'ivreg()'
cig_ivreg <- ivreg(log(packs) ~ log(rprice) | salestax, data = c1995)

coeftest(cig_ivreg, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##             Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)  9.71988    1.52832  6.3598 8.346e-08 ***
## log(rprice) -1.08359    0.31892 -3.3977  0.001411 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

O Modelo de Regressão Geral IV

O modelo de regressão IV simples é facilmente estendido para um modelo de regressão múltipla que chamamos de modelo de regressão IV geral. Neste modelo distinguimos quatro tipos de variáveis: a variável dependente, incluía variáveis exógenas, incluía variáveis endógenas e variáveis instrumentais.

Definição

\[ \begin{align} Y_i = \beta_0 + \beta_1 X_{1i} + \dots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \dots + \beta_{k+r} W_{ri} + u_i \end{align} \] com \(u = 1, \dots,n\) é o modelo geral de regressão de variáveis instrumentais gerais onde

  • \(Y_i\) a variável dependente
  • \(\beta_0,\dots,\beta_{k+1}\) são os \(1+k+r\) coeficientes de regressão desconhecidos
  • \(X_{1i}, \dots, X_{ki}\) são os \(k\) regressores endógenos
  • \(W_{1i}, \dots, W_{ki}\) são os \(r\) regressores exógenos que não estão correlacionados com \(u\)
  • \(u_i\) é o termo de erro
  • \(Z_{1i}, \dots, Z_{mi}\) são as \(m\) variáveis instrumentais

Os coeficientes são sobreidentificados se \(m>k\). Se \(m<k\), os coeficientes são subidentificados e quando \(m=k\) eles são exatamente identificados. Para estimativa do modelo de regressão IV, exigimos identificação exata ou sobreidentificação.

Embora calcular os estágios do MQO2E manualmente não seja um grande problema no modelo de regressão simples com um único regressor endógeno, fazer isso fica inconveniente quando o conjunto de regressores potencialmente endógenos (e instrumentos) é grande. Para isso, existem funções como o ivreg()

Estimar modelos de regressão com TSLS usando vários instrumentos por meio de ivreg() é simples. Existem, no entanto, algumas sutilezas na especificação correta da fórmula de regressão.

Suponha que você queira estimar o modelo

\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + W_{1i} + u_i \]

onde \(X_{1i}\) e \(X_{2i}\) são regressores endógenos que serão instrumentados por \(Z_{1i}\), \(Z_{2i}\) e \(X_{3i}\) e \(W_{1i}\) é um regressor exógeno. Os dados correspondentes estão disponíveis em um data.frame com nomes de colunas y ,x1, x2 , w1 , z1 , z2 e z3 . Pode ser tentador especificar a fórmula do argumento em sua chamada de ivreg() como y ~ x1 + x2 + w1 | z1 + z2 + z3, mas está está errado!.

Conforme explicado na documentação do ivreg() (ver ?ivreg), é necessário listar todas as variáveis exógenas também como instrumentos, ou seja, juntá-las por +’s à direita da barra vertical: y ~ x1 + x2 + w1 | w1 + z1 + z2 + z3 onde w1 está “instrumentando a si mesmo”.

Aplicação

A elasticidade estimada da demanda por cigarros no modelo de Regressão Simples é \(1.08\). Embora tenha sido estimado usando regressão IV, é plausível que esta estimativa IV seja tendenciosa: neste modelo, o estimador TSLS é inconsistente para o verdadeiro \(\beta_1\) se o instrumento (o imposto real sobre vendas por pacote) se correlacionar com o termo de erro. É provável que seja esse o caso, uma vez que existem fatores económicos, como o rendimento do Estado, que têm impacto na procura de cigarros e se correlacionam com o imposto sobre vendas. Os estados com rendimentos pessoais elevados tendem a gerar receitas fiscais através do imposto sobre o rendimento e menos através dos impostos sobre vendas. Consequentemente, a renda do Estado deveria ser incluída no modelo de regressão.

\[ \begin{align} \log(Q_i^{cigarettes}) = \beta_0 + \beta_1 \log(P_i^{cigarettes}) + \beta_2 \log(income_i) + u_i \tag{5} \end{align} \] Antes de estimar usando ivreg(), definimos \(income\) como renda real per capita e anexá-lo ao conjunto de dados CigarettesSW .

# add rincome to the dataset
CigarettesSW = CigarettesSW %>% 
  mutate(rincome = income / population / cpi)

c1995 <- subset(CigarettesSW, year == "1995")

c1995 = c1995  %>% 
  mutate(rprice = price / cpi,
         salestax = (taxs - tax) / cpi)
# estimate the model
cig_ivreg2 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) + 
                    salestax, data = c1995)

coeftest(cig_ivreg2, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)   9.43066    1.25939  7.4883 1.935e-09 ***
## log(rprice)  -1.14338    0.37230 -3.0711  0.003611 ** 
## log(rincome)  0.21452    0.31175  0.6881  0.494917    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

E obtemos:

\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.26)}{9.42} - \underset{(0.37)}{1.14} \log(P_i^{cigarettes}) + \underset{(0.31)}{0.21} \log(income_i). \tag{6} \end{align} \]

Podemos adicionar impostos específicos do cigarro (\(cigtax_i\)) como outra variável instrumental e estimar novamente usando TSLS

data(CigarettesSW)

CigarettesSW = CigarettesSW %>% 
  mutate(rincome = income / population / cpi)

# compute real per capita prices
#  compute the sales tax
c1995 = c1995  %>% 
  mutate(rprice = price / cpi,
         salestax = (taxs - tax) / cpi,
         rincome = income / population / cpi,
         cigtax = tax/cpi)

# estimate the model
cig_ivreg3 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | 
                    log(rincome) + salestax + cigtax, 
                    data = c1995)

coeftest(cig_ivreg3, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)   9.89496    0.95922 10.3157 1.947e-13 ***
## log(rprice)  -1.27742    0.24961 -5.1177 6.211e-06 ***
## log(rincome)  0.28040    0.25389  1.1044    0.2753    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Usando os dois instrumentos \(salestax_i\) e \(cigtax_i\) nós temos \(m=2\) e \(k=1\), então o coeficiente no regressor endógeno \(\log(P_i^{cigarettes})\) é sobreidentificado. A estimativa MQO2E é

\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(0.96)}{9.89} - \underset{(0.25)}{1.28} \log(P_i^{cigarettes}) + \underset{(0.25)}{0.28} \log(income_i) \tag{8} \end{align} \]

Devemos confiar nas estimativas apresentadas em (7) ou melhor, confiar em (8) ? As estimativas obtidas utilizando ambos os instrumentos são mais precisas, uma vez que em (8) todos os erros padrão reportados são menores que em (7) . Na verdade, o erro padrão para a estimativa da elasticidade da procura é de apenas dois terços do erro padrão quando o imposto sobre vendas é o único instrumento utilizado. Isto se deve ao fato de mais informações serem utilizadas na estimativa (8) . Se os instrumentos forem válidos, (8) pode ser considerado mais confiável.

Contudo, sem insights sobre a validade dos instrumentos, não é sensato fazer tal afirmação. Isto sublinha a razão pela qual a verificação da validade do instrumento é essencial. Veremos a seguir os passos para verificar a validade dos instrumentos e apresentar abordagens que permitem testar a relevância e a exogeneidade dos instrumentos sob certas condições.

Comparação entre os modelos

# estimate the three models
attach(c1995)

cig_ivreg_1 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) + salestax)

cig_ivreg_2 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(income) + cigtax)

cig_ivreg_3 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) + salestax + cigtax)

Estatísticas

coeftest(cig_ivreg_1, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)   9.43066    1.25939  7.4883 1.935e-09 ***
## log(rprice)  -1.14338    0.37230 -3.0711  0.003611 ** 
## log(rincome)  0.21452    0.31175  0.6881  0.494917    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
coeftest(cig_ivreg_2, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)  10.05775    0.96103 10.4656 1.226e-13 ***
## log(rprice)  -0.93746    0.40264 -2.3283   0.02445 *  
## log(rincome) -0.38665    0.65901 -0.5867   0.56033    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
coeftest(cig_ivreg_3, vcov = vcovHC, type = "HC1")
## 
## t test of coefficients:
## 
##              Estimate Std. Error t value  Pr(>|t|)    
## (Intercept)   9.89496    0.95922 10.3157 1.947e-13 ***
## log(rprice)  -1.27742    0.24961 -5.1177 6.211e-06 ***
## log(rincome)  0.28040    0.25389  1.1044    0.2753    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Visualizando com Stargazer

library(stargazer)

# gather robust standard errors in a list
rob_se <- list(sqrt(diag(vcovHC(cig_ivreg_1, type = "HC1"))),
               sqrt(diag(vcovHC(cig_ivreg_2, type = "HC1"))),
               sqrt(diag(vcovHC(cig_ivreg_3, type = "HC1"))))

# generate table
stargazer(cig_ivreg_1, cig_ivreg_2,cig_ivreg_3,
  header = FALSE, 
  type = "html",
  omit.table.layout = "n",
  digits = 3, 
  column.labels = c("IV: salestax", "IV: cigtax", "IVs: salestax, cigtax"),
  dep.var.labels.include = FALSE,
  dep.var.caption = "Dependent Variable: 1995 Log per Pack Price",
  se = rob_se)
Dependent Variable: 1995 Log per Pack Price
IV: salestax IV: cigtax IVs: salestax, cigtax
(1) (2) (3)
log(rprice) -1.143*** -0.937** -1.277***
(0.372) (0.403) (0.250)
log(rincome) 0.215 -0.387 0.280
(0.312) (0.659) (0.254)
Constant 9.431*** 10.058*** 9.895***
(1.259) (0.961) (0.959)
Observations 48 48 48
R2 0.419 0.310 0.429
Adjusted R2 0.393 0.279 0.404
Residual Std. Error (df = 45) 0.190 0.207 0.188

A Tabela apresenta estimativas negativas do coeficiente de preços que são bastante diferentes em magnitude. Em qual devemos confiar? Isto depende da validade dos instrumentos utilizados. Para avaliar isso, calculamos estatísticas \(F\) para as regressões do primeiro estágio de todos os três modelos para verificar a relevância do instrumento.

Testes

Teste de Relevância do Instrumento

# first-stage regressions
mod_relevance1 <- lm(rprice ~ salestax + rincome,
                     data = c1995)
mod_relevance2 <- lm(rprice ~ cigtax + rincome,
                     data = c1995)
mod_relevance3 <- lm(rprice ~ rincome + salestax + cigtax,
                     data = c1995)
linearHypothesis(mod_relevance1, 
                 "salestax = 0", 
                 vcov = vcovHC, type = "HC1")
## Linear hypothesis test
## 
## Hypothesis:
## salestax = 0
## 
## Model 1: restricted model
## Model 2: rprice ~ salestax + rincome
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F    Pr(>F)    
## 1     46                        
## 2     45  1 35.585 3.516e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
linearHypothesis(mod_relevance2, 
                 "cigtax = 0", 
                 vcov = vcovHC, type = "HC1")
## Linear hypothesis test
## 
## Hypothesis:
## cigtax = 0
## 
## Model 1: restricted model
## Model 2: rprice ~ cigtax + rincome
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F    Pr(>F)    
## 1     46                        
## 2     45  1 139.67 2.158e-15 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
linearHypothesis(mod_relevance3, 
                 c("salestax = 0", "cigtax = 0"), 
                 vcov = vcovHC, type = "HC1")
## Linear hypothesis test
## 
## Hypothesis:
## salestax = 0
## cigtax = 0
## 
## Model 1: restricted model
## Model 2: rprice ~ rincome + salestax + cigtax
## 
## Note: Coefficient covariance matrix supplied.
## 
##   Res.Df Df      F    Pr(>F)    
## 1     46                        
## 2     44  2 163.88 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Teste de restrições sobreidentificadas

Definição:

Seja \(\widehat{u}_i^{TSLS} \ , \ i = 1,\dots,n\) , os resíduos da estimativa TSLS do modelo de regressão IV geral. Execute a regressão OLS

\[ \begin{align} \widehat{u}_i^{TSLS} =& \, \delta_0 + \delta_1 Z_{1i} + \dots + \delta_m Z_{mi} + \delta_{m+1} W_{1i} + \dots + \delta_{m+r} W_{ri} + e_i \tag{9} \end{align} \]

e teste a hipótese conjunta

\[H_0: \delta_1 = 0, \dots, \delta_{m} = 0\] que afirma que todos os instrumentos são exógenos. Isso pode ser feito usando a estatística \(F\) correspondente calculando \[J = mF\]. Este teste é o teste de restrições de superidentificação e a estatística é chamada de estatística \(J\) com \[J \sim \chi^2_{mk}\] em grandes amostras sob o pressuposto nulo e de homocedasticidade. Os graus de liberdade \(mk\) indicam o grau de sobreidentificação, uma vez que este é o número de instrumentos \(m\) menos o número de regressores endógenos \(k\) .

Aplicação

Realizaremos o teste de restrições de sobreposição para o modelo 3, que é o único modelo onde o coeficiente da diferença nos preços logarítmicos é superidentificado \((m=2,k = 1)\) tal que a estatística \(J\) pode ser calculada. Para fazer isso, pegamos os resíduos armazenados em cig_ivreg_3 e os regredimos em ambos os instrumentos e no regressor presumivelmente exógeno income . Novamente usamos linearHypothesis() para testar se os coeficientes em ambos os instrumentos são zero, o que é necessário para que a suposição de exogeneidade seja cumprida. Observe que com test = “Chisq” obtemos uma estatística de teste distribuída qui-quadrado em vez de uma estatística F.

attach(c1995)

# compute the J-statistic
cig_iv_OR <- lm(residuals(cig_ivreg_3) ~ rincome + salestax + cigtax)

cig_OR_test <- linearHypothesis(cig_iv_OR, 
                               c("salestax = 0", "cigtax = 0"), 
                               test = "Chisq")
cig_OR_test
## Linear hypothesis test
## 
## Hypothesis:
## salestax = 0
## cigtax = 0
## 
## Model 1: restricted model
## Model 2: residuals(cig_ivreg_3) ~ rincome + salestax + cigtax
## 
##   Res.Df    RSS Df Sum of Sq  Chisq Pr(>Chisq)
## 1     46 1.5879                               
## 2     44 1.5776  2  0.010233 0.2854      0.867
pchisq(cig_OR_test[2, 5], df = 1, lower.tail = FALSE)
## [1] 0.5931817