Questão 5 - Resoluções de questões do livro do Gujarati
Questão 11.1
Diga se as afirmações a seguir são verdadeiras, falsas ou incertas e apresente uma breve justificativa:
Na presença da heterocedasticidade, os estimadores de MQO são tendenciosos, bem como ineficientes.
Não, isso é falso, pois a heterocedasticidade não provoca viéis ou inconsistência nos estimadores de mínimos quadrados, todavia ele não é mais o estimador BLUE, ou seja, eles não são mais eficientes.
Se a heterocedasticidade estiver presente, os testes t e F convencionais serão inválidos.
Se a heterocedasticidade estiver presente, os resultados dos testes t e F, provavelmente vão nos fornercer resultados imprecisos.
Na presença de heterocedasticidade, o método usual de MQO sempre estima os erros padrão dos estimadores para mais.
Não, geralmente eles são subestimados, ou seja, estimados para menos.
Se os resíduos estimados de uma regressão MQO exibirem um padrão sistemático, significa que a heterocedasticidade está presente nos dados.
Se eles exibirem esse padrão sistemático, existe grande indícios de que apresente heterocedasticidade.
Não há teste geral de heterocedasticidade que seja livre de qualquer pressuposto a respeito de qual variável o termo de erro está correlacionado.
Sim, existe teste que permite que seja verificado sem a utilização desse pressuposto de indicação de qual variável está afetando a heterocedasticidade dos erros.
Se um modelo de regressão for mal especificado (isto é, uma variável importante é omitida), os resíduos de MQO mostrarão um padrão distinto.
Sim, o erro de precificação do modelo, pode acarretar em vários erros para o ajuste considerado.
Se o regressor que tem uma variância não constante for (incorretamente) omitido de um modelo, os resíduos (MQO) serão heterocedásticos.
Sim, pois haverá um erro de precificação, e isso pode afetar a heterocedasticidade do modelo.
Questão 11.2
Em uma regressão de salários médios (W, $) contra o número de funcionários (N), para uma amostra randômica de 30 empresas, foram obtidos os seguintes resultados da regressão:
Podemos interpretar as duas regressões como, a medida que o número de funcionários aumenta, ou seja, aumentando uma unidade no número de funcionário da primeira equação, em média o salário médio aumentará em 0.009 unidades. E na segunda equação, que a cada unidade acrescida no número de funcionários, o salário médio vai aumentar em 7.8 unidades.
O que o autor está supondo ao passar da Equação (1) para a Equação (2)? Ele estaria preocupado com a heterocedasticidade? Como se pode saber?
Sim, existe indícios de que o autor esteja preocupado com a heterocedasticidade, pois ele está ponderando os valores para que seja atribuído um peso diferente a cada observação de acordo com a distância a reta de regressão estimada.
É possível relacionar os coeficientes angulares e os interceptos dos dois modelos?
Visualmente parece que sim, pois aparentemente existe uma relação entre eles.
Pode-se comparar os valores \(R^2\) dos dois modelos? Por quê?
Não, pois temos duas equações com variáveis regressoras distintas, sendo assim não podemos comparar, pois uma está ponderada e a outra não.
Questão 11.6
Para fins pedagógicos, Hanushek e Jackson estimaram o seguinte modelo:
em que \(C_t\) = despesa agregada privada de consumo no ano t, \(PNB_t\) = produto nacional bruto no ano t e D = despesas com defesa nacional no ano t, sendo o objetivo da análise estudar o efeito das despesas com defesa contra outras despesas na economia. Postulando que \(\sigma_t^{2} = \sigma^2(PNB_t)^2\), eles transformam (1) e estimam
O que os autores pressupõem sobre a natureza da heterocedasticidade? É possível justificá-la?
Os autores pressupõem que a variável existe heterocedasticidade, e que a variavel GNP é que está produzindo, todavia, de acordo com o resultado me parece que não existe esse pressuposto.
Compare os resultados das duas regressões. A transformação do modelo original contribuiu para os resultados, isto é, reduziu os erros padrão estimados? Por quê?
Não, como podemos analisar não houve uma redução na estimação dos erros padrões.
É possível comparar os dois valores \(R^2?\) Por quê? (Sugestão: examine as variáveis dependentes.)
Não, pois, com a pressuposição de heterocesdasticidade houve a necessidade de transformação nas variáveis regressoras, sendo assim elas acabam se tornando variáveis diferente, não sendo possível utiliza-las..
Questão 11.15
A Tabela 11.7 apresenta dados de 81 carros sobre MPG (milhas por galão de combustível), HP (potência do motor), VOL (espaço interno em metros cúbicos), VM (velocidade máxima, milhas por hora), e PV (peso do veículo em 100 libras).
Code
banco <- gujarati::Table11_7names(banco) <-c("HP", "MPG", "VOL", "PV", "VM")banco %>% knitr::kable(caption ="Banco de dados para a questão")
Call:
lm(formula = MPG ~ VM + HP + PV, data = df)
Residuals:
Min 1Q Median 3Q Max
-6.1349 -2.9527 -0.0052 1.6701 12.4834
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 189.95968 22.52879 8.432 1.50e-12 ***
VM -1.27170 0.23312 -5.455 5.72e-07 ***
HP 0.39043 0.07625 5.121 2.19e-06 ***
PV -1.90327 0.18552 -10.259 4.64e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.508 on 77 degrees of freedom
Multiple R-squared: 0.8829, Adjusted R-squared: 0.8783
F-statistic: 193.5 on 3 and 77 DF, p-value: < 2.2e-16
Podemos observar que a cada unidade de velocidade média acrescida, existe um consumo menor de 1.27 aproximadamente milhas por galão de combustível, e que a cada unidade na potência do motor acrescentada, existe um aumento de 0.39 no consumo de milhas por galão de combustível. E por último, que a cada unidade de peso do veículo acrescentada existe uma redução de 1.90 no consumo de milhas por galão de combustível.
Por fim, concluímos que economicamente não faz sentido, pois, era esperado que todos os coeficientes fossem positivos, afetando positivamente o consumo de combustível do carro.
Seria de esperar que a variância do erro no modelo anterior seja heterocedástica? Por quê?
**Vamos fazer a visualização dos gráficos dos resíduos com as variáveis regressoras, para observar. Já na saída do teste, podemos ter um possível indício.
Code
library(patchwork)residuos <- fit$residualsdf2 <-data.frame(residuos, df$VM, df$HP, df$PV)a <- ggplot2::ggplot(df2, ggplot2::aes(y = residuos, x = df$VM))+ ggplot2::geom_point()+ ggplot2::labs(y ="Resíduos", x ="VM")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS VM")b <- ggplot2::ggplot(df2, ggplot2::aes(y = residuos, x = df$HP))+ ggplot2::geom_point()+ ggplot2::labs(y ="Resíduos", x ="HP")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS HP")c <- ggplot2::ggplot(df2, ggplot2::aes(y = residuos, x = df$PV))+ ggplot2::geom_point()+ ggplot2::labs(y ="Resíduos", x ="PV")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS PV")gridExtra::grid.arrange(a,b,c,nrow =1, ncol =3)
Code
df1 <-data.frame(fitted(fit),residuos)ggplot2::ggplot(df1, ggplot2::aes(x = df1[,1], y =residuos))+ ggplot2::geom_point()+ ggplot2::labs(x ="Valores Ajustados", y ="Resíduos")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS Valores Ajustados")
Code
library(ggplot2)library(ggfortify)autoplot(fit)
Sim, podemos observar que provavelmente haverá problema de heterocedasticidade nos erros do modelo ajustado. Como a própria natureza das variáveis já nos indicavam de que provavelmente haveria este problema.
Use o teste de White para descobrir se a variância de erro é heterocedástica.
Realizando o teste de White, via bptest
Code
lmtest::bptest(fit, ~VM+HP+PV+I(VM^2)+I(HP^2)+I(PV^2), data = df)
studentized Breusch-Pagan test
data: fit
BP = 33.474, df = 6, p-value = 8.499e-06
Podemos observar que ao nível de 5% de significância, rejeitamos \(H_0\), ou seja, existe a presençã de heterocedasticidade na variância dos erros.
Obtenha os erros padrão consistentes com a heterocedasticidade e valores t, e compare seus resultados com aqueles obtidos pelos MQO.
Code
resultado <- lmtest::coeftest(fit, vcov = sandwich::vcovHC(fit, type ="HC4"))resultado
t test of coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 189.95968 36.82074 5.1590 1.878e-06 ***
VM -1.27170 0.36560 -3.4784 0.0008331 ***
HP 0.39043 0.11989 3.2567 0.0016773 **
PV -1.90327 0.31390 -6.0632 4.630e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Obtivemos melhores resultados, o erro padrão ficou bem estabilizado, mas, como utilizamos apenas MQG, não temos ainda estimadores BLUE.
Se a heterocedasticidade for comprovada, como os dados seriam transformados para que a variância seja homocedástica? Mostre os cálculos necessários.
Os dados poderiam ser transformados, fazendo uma ponderação, como foi feita acima para se ter erros padrões mais robustos, e estabilizar a variância.
Como vimos na análise gráfica acima, poderíamos fazer uma transformação com a variável VM, ponderando com ela, para que seja obtido estimadores BLUE.
Questão 11.20
A Tabela 11.8 apresenta dados sobre salários médios de professores de estatística em tempo integral em universidades de pesquisa nos Estados Unidos para o ano acadêmico de 2007.
Warning in FUN(X[[i]], ...): NAs introduzidos por coerção
Code
banco[,-1] %>% knitr::kable(caption ="Banco de dados")
Banco de dados
Year
Year.2
Count
Median
0.5
0.25
40
101478
2.5
6.25
24
102400
4.5
20.25
35
124578
6.5
42.25
34
122850
8.5
72.25
33
116900
12.0
144.00
73
119465
17.0
289.00
69
114900
22.0
484.00
54
129072
27.5
756.25
44
131704
32.0
1024.00
25
143000
a Trace um gráfico dos salários médios contra os anos de exercício da atividade (como uma medida dos anos de experiência). Para traçar o gráfico, suponha que os salários médios referem-se ao ponto médio dos anos em ordem. Assim, o salário de $ 124.578 na ordem 4-5 refere-se aos 4,5 anos na ordem e assim por diante. Para o último grupo, suponha que a ordem seja 31-33.
Code
ggplot2::ggplot(banco, ggplot2::aes(x = Year, y = Median))+ ggplot2::geom_point()+ ggplot2::labs(x ="Anos no Cargo", y ="Salário médio")+ ggplot2::ggtitle("Gráfico de dispersão dos salários médios por anos no cargo")
em que Y = salário médio, X = anos no cargo (medidos no ponto médio do intervalo) e u e v são os termos de erro. Que argumentos poderiam ser usados para defender por que o modelo (2) poderia ser preferível ao modelo (1)? Por meio dos dados, calcule os modelos.
Ajustando os modelos
Code
fit1 <-lm(Median~Year, data = banco)summary(fit1)
Call:
lm(formula = Median ~ Year, data = banco)
Residuals:
Min 1Q Median 3Q Max
-9330.3 -5720.9 38.2 3377.1 12495.0
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 107709.9 3872.1 27.817 3.01e-09 ***
Year 971.8 229.8 4.228 0.00288 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7516 on 8 degrees of freedom
Multiple R-squared: 0.6909, Adjusted R-squared: 0.6522
F-statistic: 17.88 on 1 and 8 DF, p-value: 0.002883
Resposta: Podemos observar que o modelo ajustado na primeira equação de regressão tem um \(R^2\) de 69%, ou seja, o modelo explica quase 70% da variabilidade total, tivemos estimativas para o erro padrão muito elevadas, apesar de que foi significativo o intercepto e o ano médio para explicar o salário médio.
Code
fit2 <-lm(Median~Year+Year.2, data = banco)summary(fit2)
Call:
lm(formula = Median ~ Year + Year.2, data = banco)
Residuals:
Min 1Q Median 3Q Max
-9054 -5961 253 3149 12454
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.081e+05 5.856e+03 18.452 3.4e-07 ***
Year 8.938e+02 9.741e+02 0.918 0.389
Year.2 2.447e+00 2.957e+01 0.083 0.936
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 8031 on 7 degrees of freedom
Multiple R-squared: 0.6912, Adjusted R-squared: 0.6029
F-statistic: 7.833 on 2 and 7 DF, p-value: 0.01637
Resposta: De acordo com o modelo ajustado, podemos perceber que o melhor modelo é o primeiro, pois temos a significância das variáveis regressoras, melhores resultados para as estimativas do erro padrão, todavia o que podemos pensar é que a preferência se deu por violação na heterocedasticidade.
Se for observada heterocedasticidade no modelo (1), mas não no modelo (2), a que conclusão se poderia chegar? Mostre os cálculos necessários.
Vamos fazer a visualização gráfica e proceder com a aplicação dos testes para verificar a heterocedasticidade.
Visualização gráfica do primeiro modelo.
Code
banco2 <-data.frame(fit1$residuals, banco$Year, fitted(fit1))resvsano <- ggplot2::ggplot(banco2, ggplot2::aes(x = banco2[,2], y = banco2[,1]))+ ggplot2::geom_point()+ ggplot2::labs(x ="Ano médio", y ="Resíduos")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS Ano médio")resvsajus <- ggplot2::ggplot(banco2, ggplot2::aes(x = banco2[,3], y = banco2[,1]))+ ggplot2::geom_point()+ ggplot2::labs(x ="Valor Ajustado", y ="Resíduos")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS Valores Ajustados")gridExtra::grid.arrange(resvsano, resvsajus, nrow =1, ncol =2)
Análise: Parece de fato haver a presença de heterocedasticidade no modelo (1), o que pode ser confirmado ou rejeitado com a aplicação dos testes, que procederemos agora:
Teste Breusch-Pagan
Code
lmtest::bptest(fit1, studentize =FALSE)
Breusch-Pagan test
data: fit1
BP = 1.2912, df = 1, p-value = 0.2558
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de Koenker
Code
lmtest::bptest(fit1, studentize =TRUE)
studentized Breusch-Pagan test
data: fit1
BP = 2.2374, df = 1, p-value = 0.1347
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de Goldfeld-Quandt
Code
lmtest::gqtest(fit1)
Goldfeld-Quandt test
data: fit1
GQ = 0.34849, df1 = 3, df2 = 3, p-value = 0.7952
alternative hypothesis: variance increases from segment 1 to 2
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de White
Code
lmtest::bptest(fit1, ~Year+I(Year^2), data = banco)
studentized Breusch-Pagan test
data: fit1
BP = 2.2937, df = 2, p-value = 0.3176
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Visualização gráfica do segundo modelo.
Code
banco3 <-data.frame(fit2$residuals, banco$Year, fitted(fit2), banco$Year.2)resvsano <- ggplot2::ggplot(banco3, ggplot2::aes(x = banco3[,2], y = banco3[,1]))+ ggplot2::geom_point()+ ggplot2::labs(x ="Ano médio", y ="Resíduos")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS Ano médio")resvsajus <- ggplot2::ggplot(banco3, ggplot2::aes(x = banco3[,3], y = banco3[,1]))+ ggplot2::geom_point()+ ggplot2::labs(x ="Valor Ajustado", y ="Resíduos")+ ggplot2::ggtitle("Gráfico de dispersão dos resíduos VS Valores Ajustados")resvsano2 <- ggplot2::ggplot(banco3, ggplot2::aes(x = banco3[,4], y = banco3[,1]))+ ggplot2::geom_point()+ ggplot2::labs(x ="Ano médio 2", y ="Resíduos", title ="Gráfico de dispersão dos resíduos vs Ano ao quadrado")gridExtra::grid.arrange(resvsano, resvsajus, resvsano2,nrow =1, ncol =3)
Análise: Parece de fato haver a presença de heterocedasticidade no modelo (2), o que pode ser confirmado ou rejeitado com a aplicação dos testes, que procederemos agora:
Teste Breusch-Pagan
Code
lmtest::bptest(fit2, studentize =FALSE)
Breusch-Pagan test
data: fit2
BP = 1.5115, df = 2, p-value = 0.4696
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de Koenker
Code
lmtest::bptest(fit2, studentize =TRUE)
studentized Breusch-Pagan test
data: fit2
BP = 2.6536, df = 2, p-value = 0.2653
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de Goldfeld-Quandt
Code
lmtest::gqtest(fit2)
Goldfeld-Quandt test
data: fit2
GQ = 0.39006, df1 = 2, df2 = 2, p-value = 0.7194
alternative hypothesis: variance increases from segment 1 to 2
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
Teste de White
Code
lmtest::bptest(fit2, ~Year+I(Year^2)+Year.2+I(Year.2^2), data = banco)
studentized Breusch-Pagan test
data: fit2
BP = 2.725, df = 3, p-value = 0.436
Resposta: Não Rejeitamos \(H_0\), ao nível de significância de 5%, ou seja, não temos a presença de heterocedasticidade nos resíduos.
De acordo com a aplicação dos testes, não foi encontrada a presença de heterocedasticidade nos resíduos, sendo assim sem ser preciso proceder com nenhuma transformação nos dados.
Isso pode acontecer dado ao tamanho de amostra ser pequeno.