Capítulo 2. Regressão Linear de Pearson
Disponível em: http://rpubs.com/roberval/416421
Regressão É o processo de traduzir o comportamento de duas variáveis na forma de uma “lei” matemática, denominada “equação de regressão”, que é dada por:
\(y = \beta_0 + \beta_1.x + \epsilon\)
O valor estimado de “y” será dado por: \(ŷ = b_0 + b_1 + \epsilon\)
Onde: \(ŷ\) = valor estimado de y \(b_0\) = Coeficiente linear \(b_1\) = Coeficiente angular
O coeficiente linear (intercepto) corresponde ao valor no ponto em que a reta corta o eixo das ordenadas;
O coeficiente angular corresponde ao valor que dá a inclinação da reta.
Fórmulas
\(b_1 = \frac{SQxy}{SQxx}\)
\(b_0 = \frac{\sum y -(b_1.\sum x)}{n}\) ou
\(b_0 = \bar{y} - b_1.\bar{x}\)
Quando se ajusta uma equação de regressão, podemos calcular o erro: \(e_i = y_i - ŷ_i\)
Lembrando que: \(SQxy = [\sum xy - \frac{(\sum x).(\sum y)}{n}]\) \(SQxx = [\sum x^2 - \frac{(\sum x^2)}{n}]\)
diagrama de dispersão
Sempre antes de cada análise faça os estudos exploratórias. Uma boa ferramenta é fazer o gráfico da dispersão de y vs x.
Exemplo 1
Determine a equação de regressão linear para o conjunto de dados indicados a seguir.
\(x\) | \(y\) |
---|---|
2 | 2,5 |
4 | 3,8 |
7 | 8,1 |
10 | 9,6 |
13 | 14,3 |
Solução no R
x<- c(2, 4, 7, 10, 13)
y<- c(2.5, 3.8, 8.1, 9.6, 14.3)
length (x) # tamanho n da amostra x
## [1] 5
reg<-lm(y ~ x)
summary(reg)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## 1 2 3 4 5
## 0.3198 -0.4878 0.6508 -1.0107 0.5279
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.07259 0.76823 0.094 0.93068
## x 1.05381 0.09344 11.278 0.00149 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.8294 on 3 degrees of freedom
## Multiple R-squared: 0.977, Adjusted R-squared: 0.9693
## F-statistic: 127.2 on 1 and 3 DF, p-value: 0.001495
# Diagrama de dispersão
plot (x,y, main="Diagrama de dispersão x vs y", xlab = "x", ylab = "y", col="blue", bty="l")
abline(reg, col=2)
# Cálculos para correlação
n<-length(x)
somaxy<-sum(x*y)
somax<-sum(x)
somay<-sum(y)
somax2<-sum(x^2)
# SQxy
sqxy<-somaxy - (somax*somay)/n
# SQx
sqxx <-somax2 - (somax)^2/n
# b1
b1 <- sqxy/sqxx
b1
## [1] 1.053807
#b0
b0 <-(somay - b1*somax)/n
b0
## [1] 0.07258883
Exercícios- Faça primeiro usando as fórmulas e depois no Programa R
Usando os dados do exemplo 2.7 (Capítulo 1), encontre a reta de regressão \(ŷ = b_0 + b_1.x\), onde y mede a resistência mecânica e x mede a resistência mecânica. Faça o diagrama de dispersão com a reta ajustada.
Sejam x = nota na prova do vestibular de matemática e y = nota final na disciplina de cálculo, Essas variáveis foram observadas em 18 alunos, ao final do primeiro período letivo do curso de engenharia. Os dados são apresentados a seguir:
x | y | x | y |
---|---|---|---|
39 | 65 | 28 | 73 |
57 | 92 | 35 | 50 |
34 | 56 | 80 | 90 |
40 | 70 | 64 | 82 |
43 | 78 | 75 | 98 |
47 | 89 | 30 | 50 |
52 | 75 | 32 | 58 |
70 | 50 | 65 | 88 |
21 | 52 | 47 | 71 |
i | Tempo de Reação | Sexo | Idade | Acuidade Visual |
---|---|---|---|---|
1 | 96 | H | 20 | 90 |
2 | 92 | M | 20 | 100 |
3 | 106 | H | 20 | 80 |
4 | 100 | M | 20 | 90 |
5 | 98 | M | 25 | 100 |
6 | 104 | H | 25 | 90 |
7 | 110 | H | 25 | 80 |
8 | 101 | M | 25 | 90 |
9 | 116 | M | 30 | 70 |
10 | 106 | H | 30 | 90 |
11 | 109 | H | 30 | 90 |
12 | 100 | M | 30 | 80 |
13 | 112 | M | 35 | 90 |
14 | 105 | M | 35 | 80 |
15 | 118 | H | 35 | 70 |
16 | 108 | H | 35 | 90 |
17 | 113 | M | 40 | 90 |
18 | 112 | M | 40 | 90 |
19 | 127 | H | 40 | 60 |
20 | 117 | H | 40 | 80 |
b)Faça o diagrama de dispersão com a reta ajustada
c)Interprete o resultado