Monitoria 2 de Econometria II - VI
Estimador IV com um Único Regressor e um Único Instrumento
Definição
Considere o modelo de regressão simples
\[ Y_i = \beta_0 + \beta_1 X_i + u_i \ \ , \ \ i=1,\dots,n \]
onde o termo de erro \(u\) é correlacionado com o regressor \(X_i\) (\(X\) é endógeno), tal que o estimador de mínimos quadrados ordinários é inconsistente para o verdadeiro \(\beta_1\).
No caso mais simples, a regressão IV usa uma única variável instrumental para obter um estimador consistente para \(\beta_1\). \(Z\) deve satisfazer duas condições para ser um instrumento válido:
Condições de Validade do Instrumento
1. Condição de relevância do instrumento:
\(X\) e seu instrumento \(Z\) devem estar correlacionados: \(corr(Z_i,X_i) \neq 0\)
2. Condição de exogeneidade do instrumento:
O instrumento \(Z\) não deve ser correlacionado com o termo de erro \(u\): \(corr(Z_i,u_i) = 0\)
O estimador de Mínimos Quadrados em Dois Estágio (MQ2E)
O modelo de regressão do primeiro estágio é
\[X_i = \pi_0 + \pi_1 Z_i + \nu_i\]
onde \(\pi_0 + \pi_1 Z_i\) é o componente de \(X_i\) que é explicado por \(Z_i\), enquanto \(\nu_i\) o componente que não pode ser explicado é explicado por \(Z_i\) e possui correlação com \(u_i\)
Através dos estimadores MQO \(\widehat{\pi}_0\) e \(\widehat{\pi}_1\) obtemos os valores previstos \(\widehat{X}_i\ , \ \ i=1,\dots,n\). Se \(Z\) é um instrumento válido, nosso \(\widehat{X}_i\) está livre de problemas, dado que \(\widehat{X}\) é exógeno em uma regressão de \(Y\) sobre \(\widehat{X}\), que é feito na regressão do segundo estágio. A segunda etapa produz \(\widehat{\beta}_0^{TSLS}\) e \(\widehat{\beta}_1^{TSLS}\), os estimadores MQ2E para \(\beta_0\) e \(\beta_1\)
Para o caso de um único instrumento pode-se mostrar que o estimador MQ2E de \(\beta_1\) é
\[ \begin{align} \widehat{\beta}_1^{TSLS} = \frac{s_{ZY}}{s_{ZX}} = \frac{\frac{1}{n-1}\sum_{i=1}^n(Y_i - \overline{Y})(Z_i - \overline{Z})}{\frac{1}{n-1}\sum_{i=1}^n(X_i - \overline{X})(Z_i - \overline{Z})}, \tag{12.2} \end{align} \]
que não é nada mais do que a razão da covariância da amostra entre \(Z\) e \(Y\) para a covariância amostral entre \(Z\) e \(X\).
Aplicação à Demanda por Cigarros
A relação entre a procura e o preço das mercadorias é um problema simples mas extremamnte importante na economia. A economia da saúde preocupa-se com o estudo de como o comportamento dos indivíduos que afeta a saúde é influenciado pelo sistema de saúde e pela política regulatória. Provavelmente, o exemplo mais proeminente nos debates sobre políticas públicas é o tabagismo, uma vez que está relacionado com muitas doenças e externalidades negativas.
É plausível que o consumo de cigarros possa ser reduzido através de uma tributação mais pesada dos cigarros. A questão é saber até que ponto os impostos devem ser aumentados para se alcançar uma certa redução no consumo de cigarros. Os economistas usam elasticidades para responder a este tipo de questão.
Dado que a elasticidade-preço da procura de cigarros é desconhecida, deve ser estimada. Uma regressão OLS do log da quantidade sobre o log do preço não pode ser usada para estimar o efeito dos juros, uma vez que há causalidade simultânea entre demanda e oferta. Em vez disso, a regressão IV pode ser usada.
Usamos o conjunto de dados CigarettesSW que vem com o
pacote AER. É um conjunto de dados em painel que contém
observações sobre o consumo de cigarros e vários indicadores económicos
para todos os 48 estados federais dos EUA de 1985 a 1995. Para o
exercício, vamos considerar os dados de corte transversal dos estados
apenas em 1995.
Começamos carregando o pacote, anexando o conjunto de dados e obtendo uma visão geral.
## state year cpi population packs
## AL : 2 1985:48 Min. :1.076 Min. : 478447 Min. : 49.27
## AR : 2 1995:48 1st Qu.:1.076 1st Qu.: 1622606 1st Qu.: 92.45
## AZ : 2 Median :1.300 Median : 3697472 Median :110.16
## CA : 2 Mean :1.300 Mean : 5168866 Mean :109.18
## CO : 2 3rd Qu.:1.524 3rd Qu.: 5901500 3rd Qu.:123.52
## CT : 2 Max. :1.524 Max. :31493524 Max. :197.99
## (Other):84
## income tax price taxs
## Min. : 6887097 Min. :18.00 Min. : 84.97 Min. : 21.27
## 1st Qu.: 25520384 1st Qu.:31.00 1st Qu.:102.71 1st Qu.: 34.77
## Median : 61661644 Median :37.00 Median :137.72 Median : 41.05
## Mean : 99878736 Mean :42.68 Mean :143.45 Mean : 48.33
## 3rd Qu.:127313964 3rd Qu.:50.88 3rd Qu.:176.15 3rd Qu.: 59.48
## Max. :771470144 Max. :99.00 Max. :240.85 Max. :112.63
##
Calculo das variaveis
Estamos interessados em estimar \(\beta_1\) em
\[ \begin{align} \log(Q_i^{cigarros}) = \beta_0 + \beta_1 \log(P_i^{cigarros}) + u_i, \tag{1} \end{align} \]
onde:
\(Q_i^{cigarros}\) é o número de maços de cigarros vendidos per capita e
\(P_i^{cigarros}\) é o preço real médio após impostos por maço de cigarros no estado \(i\) .
A variável instrumental que usaremos para instrumentar o regressor endógeno \(\log(P_i^{cigarettes})\) é \(SalesTax\) , a parcela dos impostos sobre cigarros decorrente do imposto geral sobre vendas. SalesTax é medido em dólares por pacote.
A ideia é que o \(SalesTax\) seja um instrumento relevante, pois está incluído no preço médio por pacote após impostos. Além disso, é plausível que \(SalesTax\) seja exógeno, uma vez que o imposto sobre vendas não influencia a quantidade vendida diretamente, mas indiretamente através do preço.
Realizamos algumas transformações para obter dados de seção transversal deflacionados para o ano de 1995.
Também calculamos a correlação amostral entre o imposto sobre vendas e o preço por pacote. A correlação amostral é um estimador consistente da correlação populacional. A estimativa de aproximadamente \(0,614\) indica que \(SalesTax\) e \(P_i^{cigarettes}\) apresentam correlação positiva que atende às nossas expectativas: impostos mais altos sobre vendas levam a preços mais altos. No entanto, uma análise de correlação como esta não é suficiente para verificar se o instrumento é relevante. Mais tarde voltaremos à questão de verificar se um instrumento é relevante e exógeno.
library(tidyverse)
c1995 = CigarettesSW %>%
filter(year == "1995")
# compute real per capita prices
# compute the sales tax
c1995 = c1995 %>%
mutate(rprice = price / cpi,
salestax = (taxs - tax) / cpi)
# check the correlation between sales tax and price
cor(c1995 $salestax, c1995 $price)## [1] 0.6856138
Primeiro Estágio
A regressão do primeiro estágio é
\[ \log(P_i^{cigarettes}) = \pi_0 + \pi_1 SalesTax_i + \nu_i \tag{2} \]
Estimamos este modelo em R usando lm().
No segundo estágio, executaremos uma regressão de \(\log(Q_i^{cigarettes})\) em \(\widehat{\log(P_i^{cigarettes})}\) para obter \(\widehat{\beta}_0^{TSLS}\) e \(\widehat{\beta}_1^{TSLS}\)
# perform the first stage regression
cig_s1 <- lm(log(rprice) ~ salestax, data = c1995)
coeftest(cig_s1, vcov = vcovHC, type = "HC1")##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 4.6165463 0.0289177 159.6444 < 2.2e-16 ***
## salestax 0.0307289 0.0048354 6.3549 8.489e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Ou seja, o 1º estágio da regressão é
\[ \widehat{\log(P_i^{cigarettes})} = \underset{(0.03)}{4.62} + \underset{(0.005)}{0.031} SalesTax_i \tag{3} \]
que prevê que a relação entre o preço do imposto sobre vendas por cigarro seja positiva. Quanto da variação observada em \(\log(P_i^{cigarettes})\) é explicado pelo instrumento \(SalesTax\)? Isso pode ser respondido observando o \(R^2\) da regressão
## [1] 0.4709961
O \(R^2\) mostra que \(47\%\) a variação dos preços é explicada pela variação do imposto sobre vendas entre os estados.
Antes de prosseguir para o segundo estágio, precisamos guardar os valores previstos na regressão. Isto é, \(\widehat{\log(P_i^{cigarettes})}\)
Segundo Estágio
Agora, estimamos nossa regressão utilizando \(\widehat{\log(P_i^{cigarettes})}\) da seguinte forma:
# run the stage 2 regression
cig_s2 <- lm(log(c1995$packs) ~ lcigp_pred)
coeftest(cig_s2, vcov = vcovHC)##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.71988 1.70304 5.7074 7.932e-07 ***
## lcigp_pred -1.08359 0.35563 -3.0469 0.003822 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Assim, o modelo a estimação de Mínimos Quadrados em Dois Estágios produz
\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.70)}{9.72} - \underset{(0.36)}{1.08} \log(P_i^{cigarettes}), \tag{4} \end{align} \]
Realizando diretamente
# perform TSLS using 'ivreg()'
cig_ivreg <- ivreg(log(packs) ~ log(rprice) | salestax, data = c1995)
coeftest(cig_ivreg, vcov = vcovHC, type = "HC1")##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.71988 1.52832 6.3598 8.346e-08 ***
## log(rprice) -1.08359 0.31892 -3.3977 0.001411 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
O Modelo de Regressão Geral IV
O modelo de regressão IV simples é facilmente estendido para um modelo de regressão múltipla que chamamos de modelo de regressão IV geral. Neste modelo distinguimos quatro tipos de variáveis: a variável dependente, incluía variáveis exógenas, incluía variáveis endógenas e variáveis instrumentais.
Definição
\[ \begin{align} Y_i = \beta_0 + \beta_1 X_{1i} + \dots + \beta_k X_{ki} + \beta_{k+1} W_{1i} + \dots + \beta_{k+r} W_{ri} + u_i \end{align} \] com \(u = 1, \dots,n\) é o modelo geral de regressão de variáveis instrumentais gerais onde
- \(Y_i\) a variável dependente
- \(\beta_0,\dots,\beta_{k+1}\) são os \(1+k+r\) coeficientes de regressão desconhecidos
- \(X_{1i}, \dots, X_{ki}\) são os \(k\) regressores endógenos
- \(W_{1i}, \dots, W_{ki}\) são os \(r\) regressores exógenos que não estão correlacionados com \(u\)
- \(u_i\) é o termo de erro
- \(Z_{1i}, \dots, Z_{mi}\) são as \(m\) variáveis instrumentais
Os coeficientes são sobreidentificados se \(m>k\). Se \(m<k\), os coeficientes são subidentificados e quando \(m=k\) eles são exatamente identificados. Para estimativa do modelo de regressão IV, exigimos identificação exata ou sobreidentificação.
Embora calcular os estágios do MQO2E manualmente não seja um grande
problema no modelo de regressão simples com um único regressor endógeno,
fazer isso fica inconveniente quando o conjunto de regressores
potencialmente endógenos (e instrumentos) é grande. Para isso, existem
funções como o ivreg()
Estimar modelos de regressão com TSLS usando vários instrumentos por meio de ivreg() é simples. Existem, no entanto, algumas sutilezas na especificação correta da fórmula de regressão.
Suponha que você queira estimar o modelo
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + W_{1i} + u_i \]
onde \(X_{1i}\) e \(X_{2i}\) são regressores endógenos que
serão instrumentados por \(Z_{1i}\),
\(Z_{2i}\) e \(X_{3i}\) e \(W_{1i}\) é um regressor exógeno. Os dados
correspondentes estão disponíveis em um data.frame com
nomes de colunas y ,x1, x2 ,
w1 , z1 , z2 e z3 .
Pode ser tentador especificar a fórmula do argumento em sua chamada de
ivreg() como y ~ x1 + x2 + w1 | z1 + z2 + z3,
mas está está errado!.
Conforme explicado na documentação do ivreg() (ver
?ivreg), é necessário listar todas as variáveis exógenas
também como instrumentos, ou seja, juntá-las por +’s à
direita da barra vertical:
y ~ x1 + x2 + w1 | w1 + z1 + z2 + z3 onde w1
está “instrumentando a si mesmo”.
Aplicação
A elasticidade estimada da demanda por cigarros no modelo de Regressão Simples é \(1.08\). Embora tenha sido estimado usando regressão IV, é plausível que esta estimativa IV seja tendenciosa: neste modelo, o estimador TSLS é inconsistente para o verdadeiro \(\beta_1\) se o instrumento (o imposto real sobre vendas por pacote) se correlacionar com o termo de erro. É provável que seja esse o caso, uma vez que existem fatores económicos, como o rendimento do Estado, que têm impacto na procura de cigarros e se correlacionam com o imposto sobre vendas. Os estados com rendimentos pessoais elevados tendem a gerar receitas fiscais através do imposto sobre o rendimento e menos através dos impostos sobre vendas. Consequentemente, a renda do Estado deveria ser incluída no modelo de regressão.
\[
\begin{align}
\log(Q_i^{cigarettes}) = \beta_0 + \beta_1 \log(P_i^{cigarettes}) +
\beta_2 \log(income_i) + u_i \tag{5}
\end{align}
\] Antes de estimar usando ivreg(), definimos \(income\) como renda real per capita e
anexá-lo ao conjunto de dados CigarettesSW .
# add rincome to the dataset
CigarettesSW = CigarettesSW %>%
mutate(rincome = income / population / cpi)
c1995 <- subset(CigarettesSW, year == "1995")
c1995 = c1995 %>%
mutate(rprice = price / cpi,
salestax = (taxs - tax) / cpi)# estimate the model
cig_ivreg2 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) +
salestax, data = c1995)
coeftest(cig_ivreg2, vcov = vcovHC, type = "HC1")##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.43066 1.25939 7.4883 1.935e-09 ***
## log(rprice) -1.14338 0.37230 -3.0711 0.003611 **
## log(rincome) 0.21452 0.31175 0.6881 0.494917
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
E obtemos:
\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(1.26)}{9.42} - \underset{(0.37)}{1.14} \log(P_i^{cigarettes}) + \underset{(0.31)}{0.21} \log(income_i). \tag{6} \end{align} \]
Podemos adicionar impostos específicos do cigarro (\(cigtax_i\)) como outra variável instrumental e estimar novamente usando TSLS
data(CigarettesSW)
CigarettesSW = CigarettesSW %>%
mutate(rincome = income / population / cpi)
# compute real per capita prices
# compute the sales tax
c1995 = c1995 %>%
mutate(rprice = price / cpi,
salestax = (taxs - tax) / cpi,
rincome = income / population / cpi,
cigtax = tax/cpi)
# estimate the model
cig_ivreg3 <- ivreg(log(packs) ~ log(rprice) + log(rincome) |
log(rincome) + salestax + cigtax,
data = c1995)
coeftest(cig_ivreg3, vcov = vcovHC, type = "HC1")##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.89496 0.95922 10.3157 1.947e-13 ***
## log(rprice) -1.27742 0.24961 -5.1177 6.211e-06 ***
## log(rincome) 0.28040 0.25389 1.1044 0.2753
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Usando os dois instrumentos \(salestax_i\) e \(cigtax_i\) nós temos \(m=2\) e \(k=1\), então o coeficiente no regressor endógeno \(\log(P_i^{cigarettes})\) é sobreidentificado. A estimativa MQO2E é
\[ \begin{align} \widehat{\log(Q_i^{cigarettes})} = \underset{(0.96)}{9.89} - \underset{(0.25)}{1.28} \log(P_i^{cigarettes}) + \underset{(0.25)}{0.28} \log(income_i) \tag{8} \end{align} \]
Devemos confiar nas estimativas apresentadas em (7) ou melhor, confiar em (8) ? As estimativas obtidas utilizando ambos os instrumentos são mais precisas, uma vez que em (8) todos os erros padrão reportados são menores que em (7) . Na verdade, o erro padrão para a estimativa da elasticidade da procura é de apenas dois terços do erro padrão quando o imposto sobre vendas é o único instrumento utilizado. Isto se deve ao fato de mais informações serem utilizadas na estimativa (8) . Se os instrumentos forem válidos, (8) pode ser considerado mais confiável.
Contudo, sem insights sobre a validade dos instrumentos, não é sensato fazer tal afirmação. Isto sublinha a razão pela qual a verificação da validade do instrumento é essencial. Veremos a seguir os passos para verificar a validade dos instrumentos e apresentar abordagens que permitem testar a relevância e a exogeneidade dos instrumentos sob certas condições.
Comparação entre os modelos
# estimate the three models
attach(c1995)
cig_ivreg_1 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) + salestax)
cig_ivreg_2 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(income) + cigtax)
cig_ivreg_3 <- ivreg(log(packs) ~ log(rprice) + log(rincome) | log(rincome) + salestax + cigtax)Estatísticas
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.43066 1.25939 7.4883 1.935e-09 ***
## log(rprice) -1.14338 0.37230 -3.0711 0.003611 **
## log(rincome) 0.21452 0.31175 0.6881 0.494917
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.05775 0.96103 10.4656 1.226e-13 ***
## log(rprice) -0.93746 0.40264 -2.3283 0.02445 *
## log(rincome) -0.38665 0.65901 -0.5867 0.56033
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## t test of coefficients:
##
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.89496 0.95922 10.3157 1.947e-13 ***
## log(rprice) -1.27742 0.24961 -5.1177 6.211e-06 ***
## log(rincome) 0.28040 0.25389 1.1044 0.2753
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Visualizando com Stargazer
library(stargazer)
# gather robust standard errors in a list
rob_se <- list(sqrt(diag(vcovHC(cig_ivreg_1, type = "HC1"))),
sqrt(diag(vcovHC(cig_ivreg_2, type = "HC1"))),
sqrt(diag(vcovHC(cig_ivreg_3, type = "HC1"))))
# generate table
stargazer(cig_ivreg_1, cig_ivreg_2,cig_ivreg_3,
header = FALSE,
type = "html",
omit.table.layout = "n",
digits = 3,
column.labels = c("IV: salestax", "IV: cigtax", "IVs: salestax, cigtax"),
dep.var.labels.include = FALSE,
dep.var.caption = "Dependent Variable: 1995 Log per Pack Price",
se = rob_se)| Dependent Variable: 1995 Log per Pack Price | |||
| IV: salestax | IV: cigtax | IVs: salestax, cigtax | |
| (1) | (2) | (3) | |
| log(rprice) | -1.143*** | -0.937** | -1.277*** |
| (0.372) | (0.403) | (0.250) | |
| log(rincome) | 0.215 | -0.387 | 0.280 |
| (0.312) | (0.659) | (0.254) | |
| Constant | 9.431*** | 10.058*** | 9.895*** |
| (1.259) | (0.961) | (0.959) | |
| Observations | 48 | 48 | 48 |
| R2 | 0.419 | 0.310 | 0.429 |
| Adjusted R2 | 0.393 | 0.279 | 0.404 |
| Residual Std. Error (df = 45) | 0.190 | 0.207 | 0.188 |
A Tabela apresenta estimativas negativas do coeficiente de preços que são bastante diferentes em magnitude. Em qual devemos confiar? Isto depende da validade dos instrumentos utilizados. Para avaliar isso, calculamos estatísticas \(F\) para as regressões do primeiro estágio de todos os três modelos para verificar a relevância do instrumento.
Testes
Teste de Relevância do Instrumento
# first-stage regressions
mod_relevance1 <- lm(rprice ~ salestax + rincome,
data = c1995)
mod_relevance2 <- lm(rprice ~ cigtax + rincome,
data = c1995)
mod_relevance3 <- lm(rprice ~ rincome + salestax + cigtax,
data = c1995)## Linear hypothesis test
##
## Hypothesis:
## salestax = 0
##
## Model 1: restricted model
## Model 2: rprice ~ salestax + rincome
##
## Note: Coefficient covariance matrix supplied.
##
## Res.Df Df F Pr(>F)
## 1 46
## 2 45 1 35.585 3.516e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Linear hypothesis test
##
## Hypothesis:
## cigtax = 0
##
## Model 1: restricted model
## Model 2: rprice ~ cigtax + rincome
##
## Note: Coefficient covariance matrix supplied.
##
## Res.Df Df F Pr(>F)
## 1 46
## 2 45 1 139.67 2.158e-15 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Linear hypothesis test
##
## Hypothesis:
## salestax = 0
## cigtax = 0
##
## Model 1: restricted model
## Model 2: rprice ~ rincome + salestax + cigtax
##
## Note: Coefficient covariance matrix supplied.
##
## Res.Df Df F Pr(>F)
## 1 46
## 2 44 2 163.88 < 2.2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Teste de restrições sobreidentificadas
Definição:
Seja \(\widehat{u}_i^{TSLS} \ , \ i = 1,\dots,n\) , os resíduos da estimativa TSLS do modelo de regressão IV geral. Execute a regressão OLS
\[ \begin{align} \widehat{u}_i^{TSLS} =& \, \delta_0 + \delta_1 Z_{1i} + \dots + \delta_m Z_{mi} + \delta_{m+1} W_{1i} + \dots + \delta_{m+r} W_{ri} + e_i \tag{9} \end{align} \]
e teste a hipótese conjunta
\[H_0: \delta_1 = 0, \dots, \delta_{m} = 0\] que afirma que todos os instrumentos são exógenos. Isso pode ser feito usando a estatística \(F\) correspondente calculando \[J = mF\]. Este teste é o teste de restrições de superidentificação e a estatística é chamada de estatística \(J\) com \[J \sim \chi^2_{mk}\] em grandes amostras sob o pressuposto nulo e de homocedasticidade. Os graus de liberdade \(mk\) indicam o grau de sobreidentificação, uma vez que este é o número de instrumentos \(m\) menos o número de regressores endógenos \(k\) .
Aplicação
Realizaremos o teste de restrições de sobreposição para o modelo 3,
que é o único modelo onde o coeficiente da diferença nos preços
logarítmicos é superidentificado \((m=2,k =
1)\) tal que a estatística \(J\)
pode ser calculada. Para fazer isso, pegamos os resíduos armazenados em
cig_ivreg_3 e os regredimos em ambos os instrumentos e no
regressor presumivelmente exógeno income . Novamente usamos
linearHypothesis() para testar se os coeficientes em ambos
os instrumentos são zero, o que é necessário para que a suposição de
exogeneidade seja cumprida. Observe que com test = “Chisq”
obtemos uma estatística de teste distribuída qui-quadrado em vez de uma
estatística F.
attach(c1995)
# compute the J-statistic
cig_iv_OR <- lm(residuals(cig_ivreg_3) ~ rincome + salestax + cigtax)
cig_OR_test <- linearHypothesis(cig_iv_OR,
c("salestax = 0", "cigtax = 0"),
test = "Chisq")
cig_OR_test## Linear hypothesis test
##
## Hypothesis:
## salestax = 0
## cigtax = 0
##
## Model 1: restricted model
## Model 2: residuals(cig_ivreg_3) ~ rincome + salestax + cigtax
##
## Res.Df RSS Df Sum of Sq Chisq Pr(>Chisq)
## 1 46 1.5879
## 2 44 1.5776 2 0.010233 0.2854 0.867
## [1] 0.5931817