# Pacotes utilizados
library(tidyverse)


EXEMPLO 1 (Exercício 1.19 do Neter)

O diretor de admissões de uma pequena faculdade selecionou aleatoriamente 120 alunos da nova turma de iniciantes de um estudo para determinar se a média de notas no final do primeiro ano \((Y)\) pode ser prevista a partir da pontuação do teste ACT \((X)\). Suponha que o modelo de regressão simples é apropriado.

  1. Obtenha as estimativas de mínimos quadrados de \(\beta_0\) e \(\beta_1\) e indique a função de regressão estimada.

  2. Plote a função de regressão estimada e os dados. A função de regressão estimada parece se ajustar bem aos dados?

  3. Obtenha uma estimativa pontual da média de notas do primeiro para alunos com pontuação no teste ACT \(X=30\).

  4. Qual é a estimativa pontual da mudança na resposta média quando a pontuação do teste de entrada aumenta em um ponto?

## # A tibble: 120 x 2
##        Y     X
##    <dbl> <dbl>
##  1  3.9     21
##  2  3.89    14
##  3  3.78    28
##  4  2.54    22
##  5  3.03    21
##  6  3.87    31
##  7  2.96    32
##  8  3.96    27
##  9  0.5     29
## 10  3.18    26
## # ... with 110 more rows

O estimador de mínimos quadrados para \(\beta_1\) e \(\beta_0\) são, respectivamente, \[b_1=\dfrac{\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})}{\sum_{i=1}^n (X_i-\bar{X})^2}\] e \[b_0=\bar{Y}-b_1\bar{X}.\]

Portanto as estimativas dos coeficientes são:

## [1] 0.03880427
## [1] 2.115148

A função lm especifica a equação a ser estimada (lm() traduz Y ~ X em \(Y=\beta_0+\beta_1X\)) e estima os parâmetros do modelo por mínimos quadrados. Caso queira assumir \(\beta_0=0\), ou seja, considerar que o modelo não tem intercepto, basta escrever Y ~ X - 1. Assim, temos:

## (Intercept)           X 
##  2.11514778  0.03880427

Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 2.1151 + 0.0388X\\ \end{align}\]

Para visualizar a relação entre as variáveis e analisar a reta ajustada veja o scatterplot abaixo. Note que a associação entre as variáveis não é muito forte devido à presença de pontos que não seguem o padrão de comportamento.

Uma estimativa pontual de nota média para um aluno que tirou 30 pontos no teste ACT é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 2.1151 + 0.0388 (30)\\ & = 3.2791 \end{align}\]

A inclinação \(\beta_1=0.0388\) indica que a cada um ponto alcançado no teste ACT leva a um aumento na média da distribuição de probabilidade de \(Y\) em \(0.0388\) ponto.


EXEMPLO 2

Os dados deste exemplo fornecem o número de membros e o número médio de torcedores em jogos do time de futebol Brisbane Lions (Austrália) de 1987 (primeiro ano que competiram) a 2003.Os dirigentes acreditam que há relação entre o número de sócios torcedores (membros) e a arrecadação em dias de jogos. Fonte: The Sunday Mail newspaper (Brisbane), 15 de junho de 2003, página 119.

  1. Obtenha as estimativas de mínimos quadrados de \(\beta_0\) e \(\beta_1\) e indique a função de regressão estimada.

  2. Qual é a interpretação de \(\hat{\beta_0}\) e \(\hat{\beta_1}\) neste exemplo?

## # A tibble: 17 x 3
##      Ano Membros Arrecadacao
##    <dbl>   <dbl>       <dbl>
##  1  1987    3449        8965
##  2  1988    7607       12425
##  3  1989    7176       10944
##  4  1990    5630        8887
##  5  1991    5696        8012
##  6  1992    5401        6499
##  7  1993    5750       11097
##  8  1994    6158       12437
##  9  1995    6893       10318
## 10  1996   10267       18672
## 11  1997   16769       19550
## 12  1998   16108       16669
## 13  1999   16931       22416
## 14  2000   20295       27283
## 15  2001   18330       28369
## 16  2002   22288       27565
## 17  2003   25303       31400

## (Intercept)     Membros 
## 3503.538867    1.109456

Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 3503.5389 + 1.1095 X\\ \end{align}\]

O intercepto \(\beta_0=3503.5389\) indica que se não houver algum membro sócio, espera-se, em média, que haja arrecadação de \(\$ 3503.54\).

A inclinação \(\beta_1=1.1095\) indica que a cada aumento de um membro sócio espera-se um aumento médio na arreacadação de \(\$ 1.11\).


EXEMPLO 3

Em março de 1984 o jornal Wall Street publicou uma pesquisa na qual 4000 adultos foram entrevistados. Esses adultos eram consumidores do produto A e foram perguntados se tinham visto um comercial do produto A na semana anterior. A variável resposta é o número de lembranças por semana e a covariável é o valor gasto (em milhões de dólares) com propaganda para aquele produto.

  1. Faça o scatterplot dos dados.

  2. Ajuste o modelo de regressão linear simples para as variáveis.

  3. Reajuste o modelo sem considerar as empresas Pepsi e Coca-cola e comente os resultados.

  4. Vimos que para prever novas observações, por exemplo, para um novo valor \(x_0\), podemos usar a estimativa pontual \(\hat{y}_0 = \hat{\beta_0}+\hat{\beta_1}x_0\). A Polaroid gastou com propaganda 26.9 milhões, encontre uma estimativa pontual para o número de lembranças por semana para essa empresa baseado no ajuste em (c).

## # A tibble: 14 x 3
##    Empresa         valor N_lembrancas
##    <chr>           <dbl>        <dbl>
##  1 Miller Lite      50.1         32.1
##  2 Pepsi            74.1         99.6
##  3 Strohs           19.3         11.7
##  4 Federal Express  22.9         21.9
##  5 Burger King      82.4         60.8
##  6 CocaCola         40.1         78.6
##  7 McDonalds       186.          92.4
##  8 MCI              26.9         50.7
##  9 Diet Cola        20.4         21.4
## 10 Ford            166.          40.1
## 11 Levis            27           40.8
## 12 Bud Lite         45.6         10.4
## 13 ATT Bell        155.          88.9
## 14 Calvin Klein      5           12

## (Intercept)       valor 
##  25.6026014   0.3290221

Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 25.6026 + 0.3290 X\\ \end{align}\]

## # A tibble: 12 x 3
##    Empresa         valor N_lembrancas
##    <chr>           <dbl>        <dbl>
##  1 Miller Lite      50.1         32.1
##  2 Strohs           19.3         11.7
##  3 Federal Express  22.9         21.9
##  4 Burger King      82.4         60.8
##  5 McDonalds       186.          92.4
##  6 MCI              26.9         50.7
##  7 Diet Cola        20.4         21.4
##  8 Ford            166.          40.1
##  9 Levis            27           40.8
## 10 Bud Lite         45.6         10.4
## 11 ATT Bell        155.          88.9
## 12 Calvin Klein      5           12
## (Intercept)       valor 
##   17.075775    0.345017

A equação da reta estimada para o novo modelo é: \[\begin{align} \hat{Y} & = 17.0758 + 0.3450 X\\ \end{align}\]

O primeiro modelo considera os dados das empresas Coca-Cola e Pepsi e o valor estimado para o intercepto é maior do que no modelo que não considera essas observações. Essas empresas gastam pouco e apresentam alta quantidade de lembranças de suas propagandas, fazendo com que o nível da reta aumente. Neste mesmo modelo, a cada \(\$100\) milhões gastos em propaganda, espera-se um aumento médio de 32.9 lembranças. No modelo que não considera essas empresas, espera-se um aumento médio de 34.5 lembranças a cada \(\$100\) milhões gastos em propaganda.

Uma estimativa pontual da quantidade de lembranças para a empresa Polaroide que gastou \(26.9\) milhões de dólares em propaganda é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 17.0758 + 0.3450 (26.9)\\ & = 26.36 \end{align}\]

EXEMPLO 4 (Exercício 1.27 do Neter)

Espera-se que a massa muscular de uma pessoa diminua com a idade. Para explorar essa relação em mulheres, um nutricionista selecionou aleatoriamente 15 mulheres em cada faixa etária de 10 anos, começando com 40 anos e terminando com 79 anos. Avariável resposta \(Y\) é a medida de massa muscular e covariável \(X\) é a idade da mulher. Suponha que o modelo de regressão simples seja adequado para representar a associação entre estas variáveis.

  1. Obtenha a função de regressão estimada. Plote a função de regressão estimada e os dados. Uma função de regressão linear parece dar um bom ajuste? Seu gráfico apoia a afirmação de que a massa muscular diminui com a idade?.

  2. Obtenha o seguinte: (1) uma estimativa pontual da diferença na massa muscular média para mulheres com diferença de um ano de idade; (2) uma estimativa pontual da massa muscular média para mulheres com 60 anos; (3) a valor do resíduo para o oitavo caso; (4) a estimativa pontual de \(\sigma^2\).

## # A tibble: 60 x 2
##        Y     X
##    <dbl> <dbl>
##  1   106    43
##  2   106    41
##  3    97    47
##  4   113    46
##  5    96    45
##  6   119    41
##  7    92    47
##  8   112    41
##  9    92    48
## 10   102    48
## # ... with 50 more rows
## (Intercept)           X 
##  156.346564   -1.189996

Portanto, a equação da reta estimada é: \[\begin{align} \hat{Y} & = 156.35 - 1.19 X\\ \end{align}\]

Pelo scatterplot acima parece que quanto maior é a idade da mulher, menor é sua massa muscular. A estimativa pontual da diferença na massa muscular média para mulheres com diferença de um ano de idade é dada pelo \(\beta_1\), ou seja, espera-se que o aumento de um ano de idade diminua a medida de massa muscular em 1.19.

A estimativa pontual da massa muscular média para mulheres com 60 anos é: \[\begin{align} \hat{Y} & = \hat{\beta_0}+\hat{\beta_1}X\\ & = 156.35 - 1.19 (60)\\ & = 84.95 \end{align}\]

Os resíduos \(e_i=Y_i-\hat{Y}_i\), \(i=1,\ldots,60\), podem ser obtidos da seguinte forma:

##           1           2           3           4           5           6 
##   0.8232429  -1.5567482  -3.4167751  11.3932294  -6.7967661  11.4432518 
##           7           8           9          10          11          12 
##  -8.4167751   4.4432518  -7.2267796   2.7732204   0.6332473   6.5832249 
##          13          14          15          16          17          18 
##  -3.1767571  11.0132384  -5.3667527  -3.8968110   2.4831800   7.2931845 
##          19          20          21          22          23          24 
##  -4.1368289 -10.5168200   2.9131935   4.7231980  -0.4667975   2.7231980 
##          25          26          27          28          29          30 
##   7.9131935  -0.9468334 -16.1368289   8.3432070 -10.1368289   4.4831800 
##          31          32          33          34          35          36 
##  -2.4268693  -8.3768469  -8.9468334  -1.3768469   2.6231531  -9.1868514 
##          37          38          39          40          41          42 
## -13.8068603   9.0031442  -5.9468334   9.0031442  -5.9968558  -0.2368738 
##          43          44          45          46          47          48 
##  -7.7568379  13.9531217  -5.4268693   5.4730858  -9.5269142  -1.5269142 
##          49          50          51          52          53          54 
##   7.3331128  -8.0468783  -5.4768917   8.0930948  23.4730858  -0.5269142 
##          55          56          57          58          59          60 
##  10.1431172  12.9030993 -12.7169097  -9.9069052  -0.6668872   8.0930948

Observe que \(\sum_{i=1}^{60} e_i=0\)

## [1] 0

O estimador para \(\sigma^2\) é dados por \[ s^2=\textrm{MQE} = \dfrac{\textrm{SQE}}{n-2}=\dfrac{\sum_{i=1}^n e_i^2}{n-2} \] Portanto, a estimativa para o parâmetro de variância é

## [1] 66.80082