O diretor de admissões de uma pequena faculdade selecionou aleatoriamente 120 alunos da nova turma de iniciantes de um estudo para determinar se a média de notas no final do primeiro ano \((Y)\) pode ser prevista a partir da pontuação do teste ACT \((X)\). Suponha que o modelo de regressão simples é apropriado.
Obtenha as estimativas de mínimos quadrados de \(\beta_0\) e \(\beta_1\) e indique a função de regressão estimada.
Plote a função de regressão estimada e os dados. A função de regressão estimada parece se ajustar bem aos dados?
Obtenha uma estimativa pontual da média de notas do primeiro para alunos com pontuação no teste ACT \(X=30\).
Qual é a estimativa pontual da mudança na resposta média quando a pontuação do teste de entrada aumenta em um ponto?
## # A tibble: 120 x 2
## Y X
## <dbl> <dbl>
## 1 3.9 21
## 2 3.89 14
## 3 3.78 28
## 4 2.54 22
## 5 3.03 21
## 6 3.87 31
## 7 2.96 32
## 8 3.96 27
## 9 0.5 29
## 10 3.18 26
## # ... with 110 more rows
O estimador de mínimos quadrados para \(\beta_1\) e \(\beta_0\) são, respectivamente, \[b_1=\dfrac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\] e \[b_0=\bar{Y}-b_1\bar{X}.\]
Portanto as estimativas dos coeficientes são:
b1 <- sum((base.1$X-mean(base.1$X))*(base.1$Y-mean(base.1$Y)))/sum((base.1$X-mean(base.1$X))^2)
b0 <- mean(base.1$Y)-(b1*mean(base.1$X))## [1] 0.03880427
## [1] 2.115148
A função lm especifica a equação a ser estimada (lm() traduz Y ~ X em \(Y=\beta_0+\beta_1X\)) e estima os parâmetros do modelo por mínimos quadrados. Caso queira assumir \(\beta_0=0\), ou seja, considerar que o modelo não tem intercepto, basta escrever Y ~ X - 1. Assim, temos:
## (Intercept) X
## 2.11514778 0.03880427
Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 2.1151 + 0.0388X\\ \end{align}\]
Para visualizar a relação entre as variáveis e analisar a reta ajustada veja o scatterplot abaixo. Note que a associação entre as variáveis não é muito forte devido à presença de pontos que não seguem o padrão de comportamento.
ggplot(base.1,aes(x=X,y=Y)) +
geom_point(size=2) +
labs(title="Média de notas no final do primeiro ano \n segundo pontuação do teste ACT",
x="Pontuação do teste ACT",y="Média de notas")+
theme(plot.title=element_text(hjust=0.5))+
geom_smooth(method=lm,se=FALSE,col="4")Uma estimativa pontual de nota média para um aluno que tirou 30 pontos no teste ACT é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 2.1151 + 0.0388 (30)\\ & = 3.2791 \end{align}\]
A inclinação \(\beta_1=0.0388\) indica que a cada um ponto alcançado no teste ACT leva a um aumento na média da distribuição de probabilidade de \(Y\) em \(0.0388\) ponto.
Os dados deste exemplo fornecem o número de membros e o número médio de torcedores em jogos do time de futebol Brisbane Lions (Austrália) de 1987 (primeiro ano que competiram) a 2003.Os dirigentes acreditam que há relação entre o número de sócios torcedores (membros) e a arrecadação em dias de jogos. Fonte: The Sunday Mail newspaper (Brisbane), 15 de junho de 2003, página 119.
Obtenha as estimativas de mínimos quadrados de \(\beta_0\) e \(\beta_1\) e indique a função de regressão estimada.
Qual é a interpretação de \(\hat{\beta_0}\) e \(\hat{\beta_1}\) neste exemplo?
## # A tibble: 17 x 3
## Ano Membros Arrecadacao
## <dbl> <dbl> <dbl>
## 1 1987 3449 8965
## 2 1988 7607 12425
## 3 1989 7176 10944
## 4 1990 5630 8887
## 5 1991 5696 8012
## 6 1992 5401 6499
## 7 1993 5750 11097
## 8 1994 6158 12437
## 9 1995 6893 10318
## 10 1996 10267 18672
## 11 1997 16769 19550
## 12 1998 16108 16669
## 13 1999 16931 22416
## 14 2000 20295 27283
## 15 2001 18330 28369
## 16 2002 22288 27565
## 17 2003 25303 31400
# Scatterplot da quantidade de membros vs. arrecadação nos jogos
ggplot(base.2,aes(x=Membros,y=Arrecadacao)) +
geom_point(size=2) +
labs(title="Arrecadação nos jogos \n segundo quantidade de membros",
x="Quantidade de membros",y="Arrecadação (em $)")+
theme(plot.title=element_text(hjust=0.5))## (Intercept) Membros
## 3503.538867 1.109456
Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 3503.5389 + 1.1095 X\\ \end{align}\]
# Scatterplot da quantidade de membros vs. arrecadação nos jogos + reta ajustada
ggplot(base.2,aes(x=Membros,y=Arrecadacao)) +
geom_point(size=2) +
labs(title="Arrecadação nos jogos \n segundo quantidade de membros",
x="Quantidade de membros",y="Arrecadação (em $)")+
theme(plot.title=element_text(hjust=0.5))+
geom_smooth(method=lm,se=FALSE,col="3")O intercepto \(\beta_0=3503.5389\) indica que se não houver algum membro sócio, espera-se, em média, que haja arrecadação de \(\$ 3503.54\).
A inclinação \(\beta_1=1.1095\) indica que a cada aumento de um membro sócio espera-se um aumento médio na arreacadação de \(\$ 1.11\).
Em março de 1984 o jornal Wall Street publicou uma pesquisa na qual 4000 adultos foram entrevistados. Esses adultos eram consumidores do produto A e foram perguntados se tinham visto um comercial do produto A na semana anterior. A variável resposta é o número de lembranças por semana e a covariável é o valor gasto (em milhões de dólares) com propaganda para aquele produto.
Faça o scatterplot dos dados.
Ajuste o modelo de regressão linear simples para as variáveis.
Reajuste o modelo sem considerar as empresas Pepsi e Coca-cola e comente os resultados.
Vimos que para prever novas observações, por exemplo, para um novo valor \(x_0\), podemos usar a estimativa pontual \(\hat{y}_0 = \hat{\beta_0}+\hat{\beta_1}x_0\). A Polaroid gastou com propaganda 26.9 milhões, encontre uma estimativa pontual para o número de lembranças por semana para essa empresa baseado no ajuste em (c).
## # A tibble: 14 x 3
## Empresa valor N_lembrancas
## <chr> <dbl> <dbl>
## 1 Miller Lite 50.1 32.1
## 2 Pepsi 74.1 99.6
## 3 Strohs 19.3 11.7
## 4 Federal Express 22.9 21.9
## 5 Burger King 82.4 60.8
## 6 CocaCola 40.1 78.6
## 7 McDonalds 186. 92.4
## 8 MCI 26.9 50.7
## 9 Diet Cola 20.4 21.4
## 10 Ford 166. 40.1
## 11 Levis 27 40.8
## 12 Bud Lite 45.6 10.4
## 13 ATT Bell 155. 88.9
## 14 Calvin Klein 5 12
# Scatterplot do valor gasto com propaganda vs. número de lembraças
ggplot(base.3,aes(x=valor,y=N_lembrancas)) +
geom_point(size=2) +
labs(title="Número de lembranças \n segundo valor gasto em propaganda",
x="Valor gasto (em $)",y="Número de lembranças")+
theme(plot.title=element_text(hjust=0.5))## (Intercept) valor
## 25.6026014 0.3290221
Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 25.6026 + 0.3290 X\\ \end{align}\]
# Scatterplot do valor gasto com propaganda vs. número de lembraças + reta ajustada
ggplot(base.3,aes(x=valor,y=N_lembrancas)) +
geom_point(size=2) +
labs(title="Número de lembranças \n segundo valor gasto em propaganda",
x="Valor gasto (em $)",y="Número de lembranças")+
theme(plot.title=element_text(hjust=0.5))+
geom_smooth(method=lm,se=FALSE,col="2")# Selecionando a base:
base.3a <- base.3 %>%
filter(Empresa != 'Pepsi') %>%
filter(Empresa != 'CocaCola')
base.3a## # A tibble: 12 x 3
## Empresa valor N_lembrancas
## <chr> <dbl> <dbl>
## 1 Miller Lite 50.1 32.1
## 2 Strohs 19.3 11.7
## 3 Federal Express 22.9 21.9
## 4 Burger King 82.4 60.8
## 5 McDonalds 186. 92.4
## 6 MCI 26.9 50.7
## 7 Diet Cola 20.4 21.4
## 8 Ford 166. 40.1
## 9 Levis 27 40.8
## 10 Bud Lite 45.6 10.4
## 11 ATT Bell 155. 88.9
## 12 Calvin Klein 5 12
## (Intercept) valor
## 17.075775 0.345017
A equação da reta estimada para o novo modelo é: \[\begin{align} \hat{Y} & = 17.0758 + 0.3450 X\\ \end{align}\]
ggplot(base.3a,aes(x=valor,y=N_lembrancas)) +
geom_point(size=2) +
labs(title="Número de lembranças \n segundo valor gasto em propaganda \n (sem Coca e Pepsi)",
x="Valor gasto (em $)",y="Número de lembranças")+
theme(plot.title=element_text(hjust=0.5))+
geom_smooth(method=lm,se=FALSE,col="2")O primeiro modelo considera os dados das empresas Coca-Cola e Pepsi e o valor estimado para o intercepto é maior do que no modelo que não considera essas observações. Essas empresas gastam pouco e apresentam alta quantidade de lembranças de suas propagandas, fazendo com que o nível da reta aumente. Neste mesmo modelo, a cada \(\$100\) milhões gastos em propaganda, espera-se um aumento médio de 32.9 lembranças. No modelo que não considera essas empresas, espera-se um aumento médio de 34.5 lembranças a cada \(\$100\) milhões gastos em propaganda.
Uma estimativa pontual da quantidade de lembranças para a empresa Polaroide que gastou \(26.9\) milhões de dólares em propaganda é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 17.0758 + 0.3450 (26.9)\\ & = 26.36 \end{align}\]
Espera-se que a massa muscular de uma pessoa diminua com a idade. Para explorar essa relação em mulheres, um nutricionista selecionou aleatoriamente 15 mulheres em cada faixa etária de 10 anos, começando com 40 anos e terminando com 79 anos. Avariável resposta \(Y\) é a medida de massa muscular e covariável \(X\) é a idade da mulher. Suponha que o modelo de regressão simples seja adequado para representar a associação entre estas variáveis.
Obtenha a função de regressão estimada. Plote a função de regressão estimada e os dados. Uma função de regressão linear parece dar um bom ajuste? Seu gráfico apoia a afirmação de que a massa muscular diminui com a idade?.
Obtenha o seguinte: (1) uma estimativa pontual da diferença na massa muscular média para mulheres com diferença de um ano de idade; (2) uma estimativa pontual da massa muscular média para mulheres com 60 anos; (3) a valor do resíduo para o oitavo caso; (4) a estimativa pontual de \(\sigma^2\).
## # A tibble: 60 x 2
## Y X
## <dbl> <dbl>
## 1 106 43
## 2 106 41
## 3 97 47
## 4 113 46
## 5 96 45
## 6 119 41
## 7 92 47
## 8 112 41
## 9 92 48
## 10 102 48
## # ... with 50 more rows
## (Intercept) X
## 156.346564 -1.189996
Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 156.35 - 1.19 X\\ \end{align}\]
# Scatterplot da massa musculas vs. idade + reta ajustada
ggplot(base.4,aes(x=X,y=Y)) +
geom_point(size=2) +
labs(title="Massa muscular de mulheres \n segundo a idade",
x="Idade (em anos)",y="Medida de massa muscular ")+
theme(plot.title=element_text(hjust=0.5))+
geom_smooth(method=lm,se=FALSE,col="2")Pelo scatterplot acima parece que quanto maior é a idade da mulher, menor é sua massa muscular. A estimativa pontual da diferença na massa muscular média para mulheres com diferença de um ano de idade é dada pelo \(\beta_1\), ou seja, espera-se que o aumento de um ano de idade diminua a medida de massa muscular em 1.19.
A estimativa pontual da massa muscular média para mulheres com 60 anos é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 156.35 - 1.19 (60)\\ & = 84.95 \end{align}\]
Os resíduos \(e_i=Y_i-\hat{Y}_i\), \(i=1,\ldots,60\), podem ser obtidos da seguinte forma:
## 1 2 3 4 5 6
## 0.8232429 -1.5567482 -3.4167751 11.3932294 -6.7967661 11.4432518
## 7 8 9 10 11 12
## -8.4167751 4.4432518 -7.2267796 2.7732204 0.6332473 6.5832249
## 13 14 15 16 17 18
## -3.1767571 11.0132384 -5.3667527 -3.8968110 2.4831800 7.2931845
## 19 20 21 22 23 24
## -4.1368289 -10.5168200 2.9131935 4.7231980 -0.4667975 2.7231980
## 25 26 27 28 29 30
## 7.9131935 -0.9468334 -16.1368289 8.3432070 -10.1368289 4.4831800
## 31 32 33 34 35 36
## -2.4268693 -8.3768469 -8.9468334 -1.3768469 2.6231531 -9.1868514
## 37 38 39 40 41 42
## -13.8068603 9.0031442 -5.9468334 9.0031442 -5.9968558 -0.2368738
## 43 44 45 46 47 48
## -7.7568379 13.9531217 -5.4268693 5.4730858 -9.5269142 -1.5269142
## 49 50 51 52 53 54
## 7.3331128 -8.0468783 -5.4768917 8.0930948 23.4730858 -0.5269142
## 55 56 57 58 59 60
## 10.1431172 12.9030993 -12.7169097 -9.9069052 -0.6668872 8.0930948
Observe que \(\sum_{i=1}^{60} e_i=0\)
## [1] 0
O estimador para \(\sigma^2\) é dados por \[ s^2=\textrm{MQE} = \dfrac{\textrm{SQE}}{n-2}=\dfrac{\sum_{i=1}^n e_i^2}{n-2} \] Portanto, a estimativa para o parâmetro de variância é
## [1] 66.80082