em que Y = consumo, X = renda e t = tempo. O modelo anterior postula que a despesa de consumo no tempo t é uma função não só da renda no tempo t, mas também da renda através dos períodos anteriores. Assim, a despesa de consumo no primeiro trimestre de 2000 é uma função da renda naquele trimestre e no quarto trimestre de 1999. Tais modelos são chamados de modelos com defasagens distribuídas e serão examinados em um dos próximos capítulos.
Você esperaria multicolinearidade em tais modelos e por quê?
Em tais modelos é esperado que exista um problema de multicolinearidade principalmente pelo fato de que é esperado uma correlação alta entre essas variáveis regressoras.
Se a colinearidade é esperada, como você resolveria o problema?
Poderiamos retirar alguma variável do modelo, ou fazer alguma transformação nas variáveis para lidar com o problema de multicolinearidade, ou podemos, trazer informações não amostrais, que podem vir de princípios econômicos ou de experiências anteriores.
Em que \(PNB_t\) = PNB no período t, $M_t = $ oferta de moeda no período t, $M_{t-1} = $ oferta no período (t-1) e \((M_t - M_{t-1})=\) variação na oferta de moeda entre os períodos t e (t-1). Este modelo postula que o nível de PNB no período t é uma função da oferta de moeda nos períodos t e (t-1), bem como da variação da oferta de moeda entre esses períodos.
Supondo que tenhamos os dados, para estimar o modelo anterior conseguiriamos estimar todos os coeficiente desse modelo? Por quê?
Não, pois temos uma depêndencia da informação e eles são uma combinação linear da informação anterior.
Em caso negativo, que coeficientes podem ser estimados? De acordo com o modelo ajustado, só poderiamos estimar os coeficientes\(\beta_1\)e\(\beta_3\).
Suponha que os termos \(\beta_3M_{t-1}\) estivessem ausentes do modelo. Sua resposta para (a), seria a mesma?
Sim
Repita (c), supondo que os termos \(\beta_2M_t\), estivessem ausentes do modelo.
Não.
Questão 10.26
Klein e Goldberger tentaram ajustar o seguinte modelo de regressão para a economia dos Estados Unidos:
\[Y_i = \beta_1 + \beta_2X_{2i}+ \beta_3X_{3i}+\beta_4X_{4i}+ u_i\] em que Y = consumo, \(X_2\) = renda salarial, \(X_3\) = renda não agrícola, excluídos os salários, e \(X_4\) = renda agrícola. Mas desde que se espera que \(X_2\), \(X_3\) e \(X_4\) sejam altamente colineares, eles obtiveram estimativas de \(\beta_3\) e \(\beta_4\) com base nos dados de corte transversal, como se segue:
Código
library(dplyr)
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
Código
rm(list=ls(all=T))banco <- gujarati::Table10_12banco[] <-sapply(banco, function(x) as.numeric(as.character(x)))banco%>%knitr::kable(caption ="Banco de dados")
Banco de dados
Year
Y
X2
X3
X4
1936
62.8
43.41
17.10
3.96
1937
65.0
46.44
18.65
5.48
1938
63.9
44.35
17.09
4.37
1939
67.5
47.82
19.28
4.51
1940
71.3
51.02
23.24
4.88
1941
76.6
58.71
28.11
6.37
1945
86.3
87.69
30.29
8.96
1946
95.7
76.73
28.26
9.76
1947
98.3
75.91
27.91
9.31
1948
100.3
77.62
32.30
9.85
1949
103.2
78.01
31.39
7.21
1950
108.9
83.57
35.61
7.39
1951
108.5
90.59
37.58
7.98
1952
111.4
95.47
35.17
7.42
\(\beta_3 = 0,75\beta_2\) e \(\beta_4 = 0.625\beta_2\). Usando essas estimativas, eles reformularam sua função de consumo da seguinte forma:
\[Y_i = \beta_1 + \beta_2(X_{2i} + 0.75X_{3i}+0.625X_{4i})+u_i = \beta_1 + \beta_2Z_i\] em que \(Z_i = X_{2i}+ 0.75X_{3i}+0.625X_{4i}\)
Adapte o modelo modificado para os dados da Tabela 10.12 e obtenha as estimativas de \(\beta_1\) para \(\beta_4\).
Call:
lm(formula = Y ~ X1 + X2 + X3, data = new_banco)
Residuals:
Min 1Q Median 3Q Max
-18.7769 -1.0529 -0.0888 3.3370 7.6544
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 23.53207 6.77607 3.473 0.00461 **
X1 0.92992 0.09576 9.711 4.91e-07 ***
X2 NA NA NA NA
X3 NA NA NA NA
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.52 on 12 degrees of freedom
Multiple R-squared: 0.8871, Adjusted R-squared: 0.8777
F-statistic: 94.3 on 1 and 12 DF, p-value: 4.912e-07
Resposta: Como podemos enxergar não temos estimativas para \(\beta_3\) e \(\beta_4\), pois são combinação linear de \(\beta_2\)
Código
ajuste <-lm(Y~X2+X3+X4, data = banco)summary(ajuste)
Call:
lm(formula = Y ~ X2 + X3 + X4, data = banco)
Residuals:
Min 1Q Median 3Q Max
-13.494 -1.847 1.116 2.541 6.460
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.7021 6.8454 2.732 0.0211 *
X2 0.3803 0.3121 1.218 0.2511
X3 1.4186 0.7204 1.969 0.0772 .
X4 0.5331 1.3998 0.381 0.7113
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.06 on 10 degrees of freedom
Multiple R-squared: 0.9187, Adjusted R-squared: 0.8943
F-statistic: 37.68 on 3 and 10 DF, p-value: 9.271e-06
Como você interpretaria a variável Z?
Uma combinação linear que atribui peso menor as rendas agrícolas e não agrícolas.
Questão 10.27
A Tabela 10.13 apresenta dados sobre as importações, PIB, e Índice de Preços ao Consumidor (IPC) para os Estados Unidos durante o período 1975-2005. Pede-se para considerar o seguinte modelo:
Call:
lm(formula = log(Importações) ~ log(PIB) + log(IPC), data = banco2)
Residuals:
Min 1Q Median 3Q Max
-0.127538 -0.037037 -0.005865 0.031455 0.193769
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.4094 0.2701 5.219 1.53e-05 ***
log(PIB) 1.8501 0.1829 10.115 7.48e-11 ***
log(IPC) -0.8734 0.2848 -3.067 0.00476 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.07053 on 28 degrees of freedom
Multiple R-squared: 0.992, Adjusted R-squared: 0.9914
F-statistic: 1737 on 2 and 28 DF, p-value: < 2.2e-16
Você acredita que há multicolinearidade nos dados?
Devido a natureza dos dados existe um grande indício de existir multicolinearidade nos dados, o que se pode ter uma noção mais apurada através da matriz de correlação
Com base nessas regressões, o que se pode dizer sobre a natureza da multicolinearidade nos dados?
Código
ajuste_aux <-lm(log(Importações)~log(PIB), data = banco2)summary(ajuste)
Call:
lm(formula = Y ~ X2 + X3 + X4, data = banco)
Residuals:
Min 1Q Median 3Q Max
-13.494 -1.847 1.116 2.541 6.460
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.7021 6.8454 2.732 0.0211 *
X2 0.3803 0.3121 1.218 0.2511
X3 1.4186 0.7204 1.969 0.0772 .
X4 0.5331 1.3998 0.381 0.7113
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.06 on 10 degrees of freedom
Multiple R-squared: 0.9187, Adjusted R-squared: 0.8943
F-statistic: 37.68 on 3 and 10 DF, p-value: 9.271e-06
Código
ajuste_aux2 <-lm(log(Importações)~log(IPC), data = banco2)summary(ajuste_aux2)
Call:
lm(formula = log(Importações) ~ log(IPC), data = banco2)
Residuals:
Min 1Q Median 3Q Max
-0.23596 -0.09321 -0.02500 0.10703 0.27658
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.57829 0.34806 10.28 3.51e-11 ***
log(IPC) 1.98650 0.07251 27.39 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1495 on 29 degrees of freedom
Multiple R-squared: 0.9628, Adjusted R-squared: 0.9615
F-statistic: 750.5 on 1 and 29 DF, p-value: < 2.2e-16
Código
ajuste_aux3 <-lm(log(PIB)~log(IPC), data = banco2)summary(ajuste_aux3)
Call:
lm(formula = log(PIB) ~ log(IPC), data = banco2)
Residuals:
Min 1Q Median 3Q Max
-0.14792 -0.05649 -0.01380 0.05918 0.10857
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.17230 0.16670 7.033 9.82e-08 ***
log(IPC) 1.54579 0.03473 44.509 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.07161 on 29 degrees of freedom
Multiple R-squared: 0.9856, Adjusted R-squared: 0.9851
F-statistic: 1981 on 1 and 29 DF, p-value: < 2.2e-16
Resposta: Conforme já havíamos observado a natureza da multicolinearidade nos dados é devido as variáveis regressoras terem uma alta correlação.
Código
plot(banco2)
Suponha que haja multicolinearidade nos dados, mas \(\beta_2\) e \(\beta_3\) sejam individualmente significativos no nível de 5% e que o teste F geral também seja significativo. Nesse caso, deveríamos ficar preocupados com o problema da colinearidade?
Deveríamos ficar alertas apenas com o fato de que teríamos intervalos bem maiores por conta da influência da variabilidade que não consegue ser detectada.
Questão 10.32
Retome os dados de Longley da Seção 10.10. Repita a regressão da tabela, omitindo os dados para 1962; ou seja, faça a regressão para o período de 1947-1961. Compare as duas regressões. A que conclusão geral você chega com este exercício?
Código
df <- gujarati::Table10_8df[] <-sapply(df, function(x) as.numeric(as.character(x)))df %>% knitr::kable(caption ="Dados para a resolução da questão")
Dados para a resolução da questão
obs
Y
X1
X2
X3
X4
X5
TIME
1947
60323
830
234289
2356
1590
107608
1
1948
61122
885
259426
2325
1456
108632
2
1949
60171
882
258054
3682
1616
109773
3
1950
61187
895
284599
3351
1650
110929
4
1951
63221
962
328975
2099
3099
112075
5
1952
63639
981
346999
1932
3594
113270
6
1953
64989
990
365385
1870
3547
115094
7
1954
63761
1000
363112
3578
3350
116219
8
1955
66019
1012
397469
2904
3048
117388
9
1956
67857
1046
419180
2822
2857
118734
10
1957
68169
1084
442769
2936
2798
120445
11
1958
66513
1108
444546
4681
2637
121950
12
1959
68655
1126
482704
3813
2552
123366
13
1960
69564
1142
502601
3931
2514
125368
14
1961
69331
1157
518173
4806
2572
127852
15
Código
ajuste3 <-lm(Y~X1+X2+X3+X4+X5+TIME, data = df)summary(ajuste3)
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + TIME, data = df)
Residuals:
Min 1Q Median 3Q Max
-381.7 -167.6 13.7 105.5 488.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.727e+04 2.324e+04 2.895 0.02005 *
X1 -2.051e+00 8.710e+00 -0.235 0.81974
X2 -2.733e-02 3.317e-02 -0.824 0.43385
X3 -1.952e+00 4.767e-01 -4.095 0.00346 **
X4 -9.582e-01 2.162e-01 -4.432 0.00219 **
X5 5.134e-02 2.340e-01 0.219 0.83181
TIME 1.585e+03 4.827e+02 3.284 0.01112 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 295.6 on 8 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9921
F-statistic: 295.8 on 6 and 8 DF, p-value: 6.041e-09
Análise: Com a retirada da observação de 1962, tivemos um bom \(R^2\), e que modelo de regressão ajustado foi significativo passando assim no teste de significância global, e que três variáveis não foram significativas no ajuste do modelo, provavelmente devido ao seu grau de influência uma nas outras. Um outro modo de visualizar é observando a matriz de correlação dessas variáveis regressoras.
Dados de Longley atualizados. Ampliamos o número de dados apresentados na Seção 10.10 para incluir as observações de 1959-2005. Os novos dados estão na Tabela 10.17. Eles estão ligados a: Y = número de pessoas empregadas, em milhares; \(X_1\) = deflator implícito do PNB; \(X_2\) = PNB, em milhares de dólares; \(X_3\) = número de pessoas desempregadas, em milhares; \(X_4\) = número de pessoas nas forças armadas, em milhares; \(X_5\) = população não institucionalizada com mais de 16 anos; \(X_6\) = ano, igual a 1 em 1959, 2 em 1960 e 47 em 2005.
Crie diagramas de dispersão como sugerido no capítulo para avaliar as relações entre as variáveis independentes. As relações são fortes? Elas parecem lineares?
Resposta: Parece haver uma relação bastante forte das variáveis \(X_1\), \(X_2\) ,\(X_5\) e \(X_6\).
Faça uma regressão MQO padrão para prever o número de pessoas empregadas em milhares. Os coeficientes das variáveis independentes comportam-se como esperado?
Código
reg <-lm(Y~X1+X2+X3+X4+X5+X6, data = df2)summary(reg)
Call:
lm(formula = Y ~ X1 + X2 + X3 + X4 + X5 + X6, data = df2)
Residuals:
Min 1Q Median 3Q Max
-1102.47 -476.63 -2.51 402.29 1531.17
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.130e+04 9.964e+03 -1.135 0.26330
X1 8.745e+01 6.650e+00 13.151 4.14e-16 ***
X2 -1.468e-03 1.535e-04 -9.559 6.98e-12 ***
X3 -1.432e+00 1.011e-01 -14.168 < 2e-16 ***
X4 -1.066e+00 3.675e-01 -2.901 0.00602 **
X5 6.433e-01 8.376e-02 7.680 2.16e-09 ***
X6 -9.129e+01 1.995e+02 -0.458 0.64972
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 646 on 40 degrees of freedom
Multiple R-squared: 0.9994, Adjusted R-squared: 0.9993
F-statistic: 1.106e+04 on 6 and 40 DF, p-value: < 2.2e-16
Resposta: Não, pois, o oposto que era esperado ao menos nas variáveis \(X_1\) e \(X_5\).
Com base nos resultados, podemos acreditar que eles apresentam multicolinearidade?
Resposta: Sim, existe grandes indícios de multicolineariade nos resíduos.
À medida que o queijo envelhece, vários processos químicos ocorrem, determinando o sabor do produto final. Os dados apresentados na Tabela 10.18 abaixo, pertencem a concentrações de vários produtos químicos em uma amostra de 30 queijos cheddar maduros e medidas subjetivas de paladar para cada amostra. As variáveis ácido acético e H2S são o logaritmo natural de concentração de ácido acético e ácido sulfídrico, respectivamente. A variável ácido lático não foi transformada em logaritmo.
Código
knitr::kable(exemplo)
Paladar
Ácido_Acético
H2S
Ácido_Lático
12.3
4.543
3.135
0.86
20.9
5.159
5.043
1.53
39.0
5.366
5.438
1.57
47.9
5.759
7.496
1.81
5.6
4.663
3.807
0.99
25.9
5.697
7.601
1.09
37.3
5.892
8.726
1.29
21.9
6.078
7.966
1.78
18.1
4.898
3.850
1.29
21.0
5.242
4.174
1.58
34.9
5.740
6.142
1.68
57.2
6.446
7.908
1.90
0.7
4.477
2.996
1.06
25.9
5.236
4.942
1.30
54.9
6.151
6.752
1.52
40.9
3.365
9.588
1.74
15.9
4.787
3.912
1.16
6.4
5.142
4.700
1.49
18.0
5.247
6.174
1.63
38.9
5.438
9.064
1.99
14.0
4.564
4.949
1.15
15.2
5.298
5.220
1.33
32.0
5.455
9.242
1.44
56.7
5.855
10.199
2.01
16.8
5.366
3.664
1.31
11.6
6.043
3.219
1.46
26.5
6.458
6.962
1.72
0.7
5.328
3.912
1.25
13.4
5.802
6.685
1.08
5.5
6.176
4.787
1.25
a. Trace um diagrama de dispersão das quatro variáveis.
Shapiro e Lillie mantém a hipotese nula de normalidade.
Breusch e Goldfeld não rejeitam a hipotese nula, não existe heterocedasticidade.
O \(R^2\) ajustado explica 61% da variabilidade total dos dados.
O p-valor da variável Ácido_Acético de 0.61, maior que o nível de significância de 5%, indica que variável não é estatísticamente significante para o modelo.
e. Dados os seus conhecimentos sobre multicolinearidade, como decidiria entre essas regressões?
Como o ajuste feito na alternativa anterior deu que a variável Ácido Acético não era significante para o modelo, optaria pelo moodelo da letra c.