Os arquivos em eviews wage1.wf1 bwght.wf1, aula4, dados simulados.xlsx, returns.wf1 seguem anexos para quem for utilizar eviews, quem optar por utilizar r instalar o pacote wooldridge e usar as mesmas bases.
library(wooldridge)
library(tidyverse)
data("wage1")
data("bwght")
data("return")
library(readxl)
dados_simulados <- read_excel("dados_simulados.xlsx")
dados_simulados
•Calcule os estimadores dos coeficientes para cada processo. (Utilize a formula de Bo e B1 para duas séries e nas seguintes use a função correlação x e y dividido por variância x.)
# Processo 1
# Cálculo da média de x e y
x_medio <- mean(dados_simulados$x1)
y_medio <- mean(dados_simulados$y1)
# Cálculo da soma dos produtos e quadrados dos desvios de x e y
soma_prod_xy <- sum((dados_simulados$x1 - x_medio) * (dados_simulados$y1 - y_medio))
soma_quad_desv_x <- sum((dados_simulados$x1 - x_medio)^2)
# Cálculo dos coeficientes Bo e B1
b1_processo_1 <- soma_prod_xy / soma_quad_desv_x
bo_processo_1 <- y_medio - b1_processo_1 * x_medio
# Processo 2
# Cálculo da correlação e variância de x
correlacao_xy <- cor(dados_simulados$x1, dados_simulados$y1)
variancia_x <- var(dados_simulados$x1)
# Cálculo do coeficiente B1
b1_processo_2 <- correlacao_xy / variancia_x
cat("Processo 1:", "\n")
Processo 1:
cat("Bo:", bo_processo_1, "\n")
Bo: 1.510523
cat("B1:", b1_processo_1, "\n")
B1: 1.106429
cat("Processo 2:", "\n")
Processo 2:
cat("B1:", b1_processo_2, "\n")
B1: 0.004689226
•Faça um histograma com os diversos coeficientes estimados (para b1 e b2), calcule média, variância, mínimo, máximo e primeiro e terceiro quartis dos b1_hat´s.
•Multiplique o valor de x por 10 e recalcule o b1_hat, o que acontece com o estimador?
•Calcule para cada observação média de u_hat e correlação de x e u_uhat
•Estime o R2 para as 5 primeiras séries. Calcule a soma dos resíduos, soma dos quadrados explicados.
wage=β_0+ β_1 educ+u
lm(wage~educ,wage1)->mod
mod %>% summary()
Call:
lm(formula = wage ~ educ, data = wage1)
Residuals:
Min 1Q Median 3Q Max
-5.3396 -2.1501 -0.9674 1.1921 16.6085
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.90485 0.68497 -1.321 0.187
educ 0.54136 0.05325 10.167 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.378 on 524 degrees of freedom
Multiple R-squared: 0.1648, Adjusted R-squared: 0.1632
F-statistic: 103.4 on 1 and 524 DF, p-value: < 2.2e-16
O coeficiente β₁ na equação fornecida representa o efeito da variável independente “educ” (anos de educação) no salário (wage), mantendo todas as outras variáveis constantes. Nesse caso, o coeficiente de 0.5414 sugere que, em média, para cada aumento de uma unidade no número de anos de educação, o salário aumenta em 0.5414 unidades, assumindo que outros fatores permaneçam constantes. O p-valor é uma medida estatística que indica a probabilidade de observar o resultado sob a hipótese nula de que o coeficiente associado à variável explicativa é zero (ou seja, não há efeito). Um p-valor baixo (geralmente abaixo de 0.05) sugere que a variável é estatisticamente significativa. Segue o Intervalo de Confiança para β₁:
confint(mod)[2,]
2.5 % 97.5 %
0.4367534 0.6459651
log(wage)=β_0+ β_1 educ+u
mod<-lm(lwage~educ,wage1)
mod%>% summary()
Call:
lm(formula = lwage ~ educ, data = wage1)
Residuals:
Min 1Q Median 3Q Max
-2.21158 -0.36393 -0.07263 0.29712 1.52339
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.583773 0.097336 5.998 3.74e-09 ***
educ 0.082744 0.007567 10.935 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4801 on 524 degrees of freedom
Multiple R-squared: 0.1858, Adjusted R-squared: 0.1843
F-statistic: 119.6 on 1 and 524 DF, p-value: < 2.2e-16
Qual a interpretação do coeficiente β_1 neste modelo? Calcule o intervalo de confiança para o mesmo coeficiente e faça um teste de hipótese sobre o coeficiente.
No modelo logarítmico, o coeficiente β₁ representa a variação percentual esperada no salário (wage) para um aumento de uma unidade na variável independente “educ” (anos de educação), mantendo todas as outras variáveis constantes. Neste caso, o coeficiente de 0.0827 sugere que, em média, um aumento de um ano na educação está associado a um aumento de aproximadamente 8.27% no salário, assumindo que outros fatores permaneçam constantes.
confint(mod)[2,]
2.5 % 97.5 %
0.06787958 0.09760915
p_value <- summary(mod)$coefficients[2, 4]
cat(p_value)
3.270644e-25
Calcule o R2 Estime novamente o modelo com uma restrição para a amostra até a observação 50. Qual a mudança nos resultados?
r_squared <- summary(mod)$r.squared
mod_50<- lm(log(wage) ~ educ, data = wage1[1:50, ])
r_squared50 <- summary(mod_50)$r.squared
cat("R2 1º Modelo:",r_squared,"\n",
"R2 2º Modelo:",r_squared50)
R2 1º Modelo: 0.1858065
R2 2º Modelo: 0.2057024
Isso indica que o modelo restrito até a observação 50 explica uma maior proporção da variabilidade na variável dependente em comparação com o modelo completo. Em outras palavras, o modelo restrito tem um melhor ajuste aos dados até a observação 50 do que o modelo completo. Isso não necessariamente significa que esse modelo é melhor que o primeiro. Isso ocorre porque o �2R2 é uma medida de quão bem o modelo se ajusta aos dados observados em relação à média da variável dependente. No entanto, o segundo modelo, por ser restrito até a observação 50, está sendo avaliado em um conjunto de dados menor, representando um universo menor.
log(wage)=β_0+ β_1 educ+ β_2 tenure+β_3 exper+u Estime os coeficientes desta equação e qual a interpretação deles? Qual a diferença em relação ao itemanterior?
mod<-lm(lwage~educ+tenure+exper,wage1)
mod%>% summary()
Call:
lm(formula = lwage ~ educ + tenure + exper, data = wage1)
Residuals:
Min 1Q Median 3Q Max
-2.05802 -0.29645 -0.03265 0.28788 1.42809
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.284360 0.104190 2.729 0.00656 **
educ 0.092029 0.007330 12.555 < 2e-16 ***
tenure 0.022067 0.003094 7.133 3.29e-12 ***
exper 0.004121 0.001723 2.391 0.01714 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4409 on 522 degrees of freedom
Multiple R-squared: 0.316, Adjusted R-squared: 0.3121
F-statistic: 80.39 on 3 and 522 DF, p-value: < 2.2e-16
options(scipen=20)
summary(mod)$coefficients[,4]
(Intercept) educ tenure exper
6.562466e-03 8.824197e-32 3.294407e-12 1.713562e-02
coef(mod)
(Intercept) educ tenure exper
0.284359541 0.092028988 0.022067218 0.004121109
confint(mod)
2.5 % 97.5 %
(Intercept) 0.0796755675 0.48904351
educ 0.0776292151 0.10642876
tenure 0.0159896854 0.02814475
exper 0.0007356984 0.00750652
df<-data.frame(educ=mean(wage1$educ),
tenure=mean(wage1$tenure),
exper=mean(wage1$exper))
df
df$pred_lwage<-predict(mod,newdata = df)
df$pred_lwage
[1] 1.623268
wage1$exper2<-wage1$exper^2
mod<-lm(lwage~educ+tenure+exper+exper2,wage1)
mod %>% summary
Call:
lm(formula = lwage ~ educ + tenure + exper + exper2, data = wage1)
Residuals:
Min 1Q Median 3Q Max
-1.97087 -0.26809 -0.03463 0.27663 1.28678
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1983445 0.1019556 1.945 0.0523 .
educ 0.0853489 0.0071885 11.873 < 0.0000000000000002 ***
tenure 0.0208413 0.0030037 6.938 0.0000000000118 ***
exper 0.0328542 0.0051135 6.425 0.0000000002979 ***
exper2 -0.0006606 0.0001111 -5.945 0.0000000050775 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.427 on 521 degrees of freedom
Multiple R-squared: 0.3595, Adjusted R-squared: 0.3545
F-statistic: 73.09 on 4 and 521 DF, p-value: < 0.00000000000000022
Qual o valor esperado de β_4 ?
coef(mod)[5]
exper2
-0.0006606217
Compare com o valor estimado na equação. Faça um teste de hipótese de que β_4 é estatisticamente diferente de zero ao nível de significância de 5%. Teste agora a hipótese conjunta de que β_3 e β_4 são conjuntamente iguais zero, ao nível de significância de 5%.
confint(mod)
2.5 % 97.5 %
(Intercept) -0.0019501294 0.3986391885
educ 0.0712269695 0.0994709042
tenure 0.0149403804 0.0267422450
exper 0.0228084888 0.0428999042
exper2 -0.0008789367 -0.0004423066
Qual sua conclusão sobre a inclusão da variável exper? incluido a variavel o modelo obteve melhor R², e gerou um beta 4 negativo significativo e estatisticamente diferente de 0.o que indica retornos decrescentes para a influencia da experiencia.
por:
y= β_0+β_1 x+u
ŷ= ( β_0 ) ̂+(β_1* ) ̂*x
Quais são as hipóteses necessárias para que o estimador de mínimos quadrados seja não viesado?
O estimador de mínimos quadrados é uma técnica utilizada para estimar os coeficientes de um modelo de regressão. No caso do modelo linear simples os estimadores de mínimos quadrados são encontrados minimizando a soma dos quadrados dos resíduos (diferenças entre os valores observados e os valores previstos pela reta de regressão). Para que o estimador de mínimos quadrados seja não viesado, é necessário que os erros (u) tenham média zero condicionalmente aos valores de x, ou seja, E(u∣x)=0. Isso implica que não deve haver correlação sistemática entre os erros e as variáveis explicativas.
A reta de regressão representa a relação linear entre a variável independente (x) e a variável dependente (y). O coeficiente β1 indica a mudança esperada em y para uma mudança unitária em x, mantendo todas as outras variáveis constantes. O coeficiente β0 representa o valor esperado de y quando x é zero.
O R2 é uma medida de quão bem o modelo de regressão se ajusta aos dados. Ele varia de 0 a 1 e indica a proporção da variabilidade na variável dependente que é explicada pelo modelo. É calculado como a proporção da soma dos quadrados explicada pela regressão dividida pela soma total dos quadrados.
Se houver uma variável relevante omitida que é positivamente correlacionada com x, e supondo que o coeficiente associado a x’ também seja positivo, isso pode causar um problema de endogeneidade no modelo. Especificamente, pode ocorrer viés de simultaneidade se estiver correlacionado com o erro Isso pode afetar as estimativas de MQO, tornando os coeficientes enviesados e inconsistentes. O viés resultante dependerá da natureza exata da correlação entre x e u.
se: E(u)≠0, e E(u) = α0 então: y= β_0+β_1 x+ α0 -> y= (β_0+ α0) +β_1 x Nesta nova forma, (β_0+ α0) representa o novo intercepto β0’ e β1 permanece como a inclinação original. Assim, o modelo de regressão pode ser reescrito com a mesma inclinação, mas com um novo intercepto e um novo erro. onde o novo erro tem E(ϵ)=0.
log(q)= β_0+β_1 log(preço)+u
O sinal esperado para β_0 é positivo, pois representa o valor da quantidade demandada quando o preço é zero. Isso sugere que mesmo quando o preço é zero, ainda existe uma quantidade mínima de combustíveis demandada pelas famílias. Já para b_1 o sinal esperado é negativo. Pois, indica que um aumento no preço dos combustíveis esperaria-se em uma redução na quantidade demandada. Esse é um padrão comum em modelos de demanda de bens onde a elasticidade-preço da demanda é negativa.
A partir de dados coletados, um pesquisador estima a demanda para combustíveis e obtém o seguinte resultado:
(log(q) ) ̂= 10,5 -0,51 log(preço29) N=150 R2=0,56 (4,2) (0,19)
N=150 R2=0,56 Entre parênteses o erro-padrão dos coeficientes.
beta1 <- -0.51
SE_beta1 <- 0.19
N<-150
R2<-0.56
uppCI<-beta1+SE_beta1*1.96
lowCI<-beta1-SE_beta1*1.96
cat(uppCI,beta1,lowCI)
-0.1376 -0.51 -0.8824
Isso significa que estamos 95% confiantes de que o verdadeiro valor do coeficiente está dentro desse intervalo. Como o intervalo não inclui zero, podemos concluir que o preço tem um efeito significativo na demanda por combustíveis.
Erro: unexpected symbol em "Isso significa"
Isso significa que estamos 95% confiantes de que o verdadeiro valor do coeficiente está dentro desse intervalo. Como o intervalo não inclui zero, podemos concluir que o preço tem um efeito significativo na demanda por combustíveis.
H0 <- -1
t_stat <- (beta1 - H0) / SE_beta1
df <- N - 2
t_critico <- qt(0.01, df, lower.tail = FALSE)
t_stat < t_critico
[1] FALSE
cat(t_stat,t_critico)
2.578947 2.351808
Como a estatística t é maior que o valor crítico, não rejeitamos a hipótese nula. Isso sugere que não temos evidências suficientes para afirmar que o coeficiente estimado é significativamente menor que -1 ao nível de significância de 1%.
log(q)= β_0+β_1 log(preço)+β_2 log(preço do bem substituto)+u
Com a introdução dessa nova variável, há alteração na interpretação de (β_1 ),? Qual o sinal esperado de (β_2 ) ̂, ? Com a introdução da nova variável a interpretação de β_1 permanece a mesma. Ele ainda representa a elasticidade-preço da demanda por combustíveis.No entanto, a introdução do preço do bem substituto na equação significa que agora estamos tentando capturar o efeito do preço do bem substituto na demanda por combustíveis.O sinal esperado de β_2 dependerá da relação entre o preço do bem substituto e a demanda por combustíveis. Se o bem substituto for um substituto próximo aos combustíveis, espera-se que um aumento no preço do bem substituto resulte em um aumento na demanda por combustíveis, o que implicaria um sinal positivo para β_2 .
bem substituo na estimativa de (β_1 ) ̂,? Se o preço do bem e do bem substituto forem positivamente correlacionados e o preço do bem substituto for omitido do modelo, isso pode levar a um viés na estimativa do coeficiente associado ao preço do combustível.
seguintes situações:
Heterocedasticidade ocorre quando a variabilidade dos erros não é constante em todos os níveis da variável independente. Isso pode levar a estimativas de mínimos quadrados ineficientes e imprecisas para os coeficientes do modelo. Os erros tendem a ser mais dispersos em alguns níveis da variável independente do que em outros, levando a estimativas de erro padrão imprecisas e estimativas de coeficientes enviesadas.
Se os erros do modelo não têm média zero condicionalmente aos valores da variável independente, isso viola uma das hipóteses fundamentais do estimador de mínimos quadrados ordinários (MQO), levando a estimativas enviesadas dos coeficientes. Isso ocorre quando há algum tipo de viés de seleção na amostra, e os erros sistemáticos estão correlacionados com os valores da variável independente.
Quando há uma alta correlação entre duas variáveis independentes incluídas no modelo, pode ocorrer multicolinearidade, o que pode dificultar a interpretação dos coeficientes e tornar as estimativas menos precisas. Isso ocorre porque as variáveis independentes se tornam altamente correlacionadas, tornando difícil para o modelo distinguir entre os efeitos específicos de cada variável independente sobre a variável dependente.
Aumentar o número de observações na amostra geralmente resulta em estimativas de MQO mais precisas e confiáveis dos coeficientes do modelo. Isso porque um maior número de observações reduz a variabilidade das estimativas e aumenta a precisão das estimativas dos coeficientes e seus erros padrão.
independentes ficam mais dispersos.
Se a variabilidade da variável independente x aumenta, os pontos de dados estarão mais dispersos em torno da reta de regressão. Isso pode resultar em uma redução da precisão das estimativas dos coeficientes do modelo, especialmente se a variabilidade de x estiver relacionada à variabilidade da variável dependente y. Isso pode levar a estimativas menos confiáveis dos coeficientes e maiores erros padrão.
A base return.wf1 lista o retorno de 142 ações entre 1990 e 1994, com uma série de variáveis sobre o desempenho da empresa. Vamos estimar um primeiro modelo:
return=β_0+ β_1 dkr+ β_2 eps+β_3 netinc+β_4 salary+u Dkc: divida/capital; dividendos por ação em 1990; netinc: receita líquida em 1990; salary: remuneração do CEO Interprete os coeficientes da regressão. Os sinais da regressão são os esperados? Faça um teste de hipótese, a um nível de 5%, que cada coeficiente é estaticamente significante. A hipótese a ser testada é a de que conjuntamente todos os coeficientes de inclinação β_1, β_2, β_3, β_4 são estatisticamente iguais zero. Explique como realizar este teste. Faça o teste diretamente no software e compare calcule com os valores comparando os modelos restritos e irrestritos. Mostre como é definida a regra de decisão sobre a rejeição ou não da hipótese e explique o que é o p-valor. Vamos agora incluir alterar a especificação: return=β_0+ β_1 dkr+ β_2 eps+β_3 log(netinc)+β_4 salary+u Como esse modificação alteração a interpretação do β_3.
# Interpretar os coeficientes da regressão
summary(mod)
Call:
lm(formula = return ~ dkr + eps + netinc + salary, data = return)
Residuals:
Min 1Q Median 3Q Max
-88.629 -25.421 -4.215 18.326 124.627
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -14.370216 6.893616 -2.085 0.039 *
dkr 0.320544 0.200911 1.595 0.113
eps 0.042699 0.078138 0.546 0.586
netinc -0.005109 0.004675 -1.093 0.276
salary 0.003499 0.002194 1.595 0.113
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 39.19 on 137 degrees of freedom
Multiple R-squared: 0.03948, Adjusted R-squared: 0.01143
F-statistic: 1.408 on 4 and 137 DF, p-value: 0.2347
Os coeficientes da regressão indicam como o retorno está relacionado com as variáveis independentes. O intercepto representa o retorno esperado quando todas as outras variáveis são zero. No entanto, seu valor pode não ter uma interpretação prática direta neste contexto.
Para as variáveis independentes (dkr, eps, netinc e salary), seus coeficientes representam a mudança esperada no retorno para uma unidade de mudança em cada variável, mantendo todas as outras constantes. Um valor positivo indica que um aumento na variável está associado a um aumento no retorno, enquanto um valor negativo indica uma relação inversa.
No entanto, ao olhar para os resultados, notamos que apenas o intercepto é estatisticamente significativo. Isso significa que, ao nível de significância de 5%, não temos evidências suficientes para afirmar que os coeficientes das outras variáveis são diferentes de zero. Isso sugere que essas variáveis podem não ser boas preditoras do retorno neste modelo.
anova_irrestrito
Analysis of Variance Table
Model 1: return ~ 1
Model 2: return ~ dkr + eps + netinc + salary
Res.Df RSS Df Sum of Sq F Pr(>F)
1 141 219096
2 137 210447 4 8649.3 1.4077 0.2347
# Extrair o valor-p associado ao teste F
p_value <- anova_irrestrito$`Pr(>F)`[1]
# Comparar os modelos restrito e irrestrito
cat("Valor-p associado ao teste F:", p_value, "\n")
Valor-p associado ao teste F: NA
Não rejeitamos a hipótese nula. Não há evidências suficientes para concluir que pelo menos um dos coeficientes é diferente de zero.
# Interpretar o coeficiente beta_3 na nova especificação
summary(mod_modificado)
Call:
lm(formula = return ~ dkr + eps + log(netinc) + salary, data = return)
Residuals:
Min 1Q Median 3Q Max
-87.678 -27.165 -3.532 18.052 128.110
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.885509 17.234365 0.283 0.7772
dkr 0.337494 0.201711 1.673 0.0966 .
eps 0.060670 0.080107 0.757 0.4501
log(netinc) -4.017062 3.068515 -1.309 0.1927
salary 0.003660 0.002201 1.663 0.0986 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 39.12 on 137 degrees of freedom
Multiple R-squared: 0.04307, Adjusted R-squared: 0.01514
F-statistic: 1.542 on 4 and 137 DF, p-value: 0.1936
. Agora, o coeficiente β3 indica o efeito esperado no retorno para uma mudança unitária no logaritmo natural da receita líquida (netinc), mantendo todas as outras variáveis constantes. Sendo negativo sugeriria que um aumento na receita líquida está associado a uma redução no retorno, porém o resultado não parece estatisticamente significativo.
São dois modelos: Modelo 1: y_1=β_0 + β_1 x_1+β_2 x_2+ u
onde β_0=2; β_1=0,5; β_2=0,3, x_2=2*x_1+v com v ~N(0,9)
Modelo2: y_(1_)=β_0+ β_1 x_1+ 〖β´〗_2 x_3+u onde β_0=2; β_1=0,5; β_2 = 0,3 x_1 e x_3 são indepdentes
#dados_simulados %>% head
mod1<- lm(y1~x1+x2,data =dados_simulados)
colnames(dados_simulados)<-c( "x1",
"x2",
"x3",
"y1",
"y2")
mod2<- lm(y2~x1+x3,data =dados_simulados)
mod1 %>% summary()
Call:
lm(formula = y1 ~ x1 + x2, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-3.0547 -0.7720 0.0733 0.7595 1.9703
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.98397 0.31626 6.273 0.000000104 ***
x1 0.50300 0.10525 4.779 0.000017690 ***
x2 0.29349 0.05094 5.761 0.000000617 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.064 on 47 degrees of freedom
Multiple R-squared: 0.9959, Adjusted R-squared: 0.9957
F-statistic: 5651 on 2 and 47 DF, p-value: < 0.00000000000000022
mod2 %>% summary()
Call:
lm(formula = y2 ~ x1 + x3, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-3.0547 -0.7720 0.0733 0.7595 1.9703
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.98397 0.31626 6.273 0.000000104 ***
x1 0.48998 0.01081 45.340 < 0.0000000000000002 ***
x3 0.29349 0.05094 5.761 0.000000617 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.064 on 47 degrees of freedom
Multiple R-squared: 0.9807, Adjusted R-squared: 0.9799
F-statistic: 1197 on 2 and 47 DF, p-value: < 0.00000000000000022
mod1 %>% confint()
2.5 % 97.5 %
(Intercept) 1.3477332 2.6202009
x1 0.2912567 0.7147434
x2 0.1910111 0.3959707
mod2 %>% confint()
2.5 % 97.5 %
(Intercept) 1.3477332 2.6202009
x1 0.4682410 0.5117226
x3 0.1910111 0.3959707
Os coeficientes tem seu paramentro verdadeiro dentro do intervalo de confiança, porém o X1 do modelo 1 está bem menos preciso.Isso acontece porque o modelo 2 inclui uma variável x3 que é uma função linear de x1, o que faz com que haja multicolinearidade entre eles. Isso pode levar a estimativas enviesadas e menos precisas para os coeficientes do modelo. O aumento da colinearidade pode inflar os coeficientes e suas estimativas padrão, tornando-os menos precisos. Portanto, mesmo que o ajuste do modelo (R-squared) permaneça inalterado, a interpretação dos coeficientes pode ser afetada pela multicolinearidade.
# Modelo 1 apenas com x1 como variável independente
mod1_x1 <- lm(y1 ~ x1, data = dados_simulados)
# Modelo 2 apenas com x1 como variável independente
mod2_x1 <- lm(y2 ~ x1, data = dados_simulados)
# Comparar os resultados com os modelos anteriores
summary(mod1_x1)
Call:
lm(formula = y1 ~ x1, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-5.2007 -0.7743 0.0901 0.7851 2.6654
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.51052 0.39474 3.827 0.000375 ***
x1 1.10643 0.01347 82.125 < 0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.375 on 48 degrees of freedom
Multiple R-squared: 0.9929, Adjusted R-squared: 0.9928
F-statistic: 6745 on 1 and 48 DF, p-value: < 0.00000000000000022
summary(mod2_x1)
Call:
lm(formula = y2 ~ x1, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-5.2007 -0.7743 0.0901 0.7851 2.6654
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.51052 0.39474 3.827 0.000375 ***
x1 0.50643 0.01347 37.590 < 0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.375 on 48 degrees of freedom
Multiple R-squared: 0.9671, Adjusted R-squared: 0.9665
F-statistic: 1413 on 1 and 48 DF, p-value: < 0.00000000000000022
confint(mod1_x1)
2.5 % 97.5 %
(Intercept) 0.716837 2.304210
x1 1.079341 1.133517
confint(mod2_x1)
2.5 % 97.5 %
(Intercept) 0.7168370 2.3042099
x1 0.4793409 0.5335171
dessa regressão, vamos denomina-lo v_hat (na aba de estimação, vá em proc/make residual serie, esse comando irá gerar uma série de resíduos estimados na base). Faça agora uma estimativa do modelo 1 com a seguinte especificação: y_1=β_0+ β_1 x_1+ β_2 v_hat+ u Qual o valor do coeficiente β_2? Qual o valor do erro-padrão? Compare com o modelo calculado no item a.
regressao_x2_x1 <- lm(x2 ~ x1 - 1, data = dados_simulados)
v_hat <- resid(regressao_x2_x1)
dados_simulados$v_hat <- v_hat
mod1_v_hat <- lm(y1 ~ x1 + v_hat, data = dados_simulados)
summary(regressao_x2_x1)
Call:
lm(formula = x2 ~ x1 - 1, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-8.8772 -2.2163 -0.2649 1.4566 7.8007
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x1 2.00812 0.01491 134.7 <0.0000000000000002 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 3.089 on 49 degrees of freedom
Multiple R-squared: 0.9973, Adjusted R-squared: 0.9973
F-statistic: 1.814e+04 on 1 and 49 DF, p-value: < 0.00000000000000022
summary(mod1_v_hat)
Call:
lm(formula = y1 ~ x1 + v_hat, data = dados_simulados)
Residuals:
Min 1Q Median 3Q Max
-3.0547 -0.7720 0.0733 0.7595 1.9703
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.98397 0.31626 6.273 0.000000104 ***
x1 1.09237 0.01071 102.042 < 0.0000000000000002 ***
v_hat 0.29349 0.05094 5.761 0.000000617 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.064 on 47 degrees of freedom
Multiple R-squared: 0.9959, Adjusted R-squared: 0.9957
F-statistic: 5651 on 2 and 47 DF, p-value: < 0.00000000000000022
β_2 é igual a 0.29349 e o erro padrão é 0.05094. O valor do coeficiente β2 e do erro padrão é o mesmo em ambos os modelos.
bwght=β_0+ β_1 cigs+ β_2 faminc+ u
summary(mod)
Call:
lm(formula = bwght ~ cigs + faminc, data = bwght)
Residuals:
Min 1Q Median 3Q Max
-96.061 -11.543 0.638 13.126 150.083
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 116.97413 1.04898 111.512 < 0.0000000000000002 ***
cigs -0.46341 0.09158 -5.060 0.000000475 ***
faminc 0.09276 0.02919 3.178 0.00151 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.06 on 1385 degrees of freedom
Multiple R-squared: 0.0298, Adjusted R-squared: 0.0284
F-statistic: 21.27 on 2 and 1385 DF, p-value: 0.0000000007942
No modelo de regressão estimado, o coeficiente para a variável cigarros oi estimado em -0.46341, sugerindo que um aumento de uma unidade na quantidade de cigarros fumados durante a gravidez está associado a uma redução média de 0.46341 unidades no peso do bebê ao nascer, mantendo todas as outras variáveis constantes. Além disso, o coeficiente estimado para a variável renda de 0.09276, indicando que um aumento de uma unidade na renda familiar está associado a um aumento médio de 0.09276 unidades no peso do bebê ao nascer, mantendo todas as outras variáveis constantes.
# Intervalo de confiança a 99% para o coeficiente de cigs
confint(mod, level = 0.99)["cigs", ]
0.5 % 99.5 %
-0.6996193 -0.2271958
# Intervalo de confiança a 99% para o coeficiente de faminc
confint(mod, level = 0.99)["faminc", ]
0.5 % 99.5 %
0.01747802 0.16805145
bwght$bwghtkg <- 453.6 * bwght$bwghtlbs
summary(bwght$bwghtkg)
Min. 1st Qu. Median Mean 3rd Qu. Max.
652 3033 3402 3365 3742 7683
model_bwt <- lm(bwghtkg ~ cigs + faminc, data = bwght)
summary(model_bwt)
Call:
lm(formula = bwghtkg ~ cigs + faminc, data = bwght)
Residuals:
Min 1Q Median 3Q Max
-2723.3 -327.3 18.1 372.1 4254.9
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3316.2166 29.7387 111.512 < 0.0000000000000002 ***
cigs -13.1376 2.5962 -5.060 0.000000475 ***
faminc 2.6299 0.8275 3.178 0.00151 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 568.8 on 1385 degrees of freedom
Multiple R-squared: 0.0298, Adjusted R-squared: 0.0284
F-statistic: 21.27 on 2 and 1385 DF, p-value: 0.0000000007942
No modelo anterior, onde o peso dos bebês estava em libras, os coeficientes foram estimados em termos de libras. No novo modelo, onde o peso dos bebês está em quilogramas, os coeficientes foram estimados em termos de quilogramas. não havendo outra alteração no resultado
summary(mod)
Call:
lm(formula = bwght ~ packs + faminc, data = bwght)
Residuals:
Min 1Q Median 3Q Max
-96.061 -11.543 0.638 13.126 150.083
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 116.97413 1.04898 111.512 < 0.0000000000000002 ***
packs -9.26815 1.83154 -5.060 0.000000475 ***
faminc 0.09276 0.02919 3.178 0.00151 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 20.06 on 1385 degrees of freedom
Multiple R-squared: 0.0298, Adjusted R-squared: 0.0284
F-statistic: 21.27 on 2 and 1385 DF, p-value: 0.0000000007942
9.2681/0.46341
[1] 19.99978
considerando que um pack tem 20 cigarros houve, aproximadamente apenas uma mudança de escala.