Regressão Linear Simples

PROBLEMA DE NEGOCIO: Previsao no peso do bebe de acordo com sua idade em meses

Modelo: Regressao linear simples

LIBRARYS:

library(tidyverse)

## ── Attaching packages ───────────────────────────────────────────────────────────── tidyverse 1.3.0 ──

## ✓ ggplot2 3.3.2     ✓ purrr   0.3.4
## ✓ tibble  3.0.1     ✓ dplyr   1.0.0
## ✓ tidyr   1.1.0     ✓ stringr 1.4.0
## ✓ readr   1.3.1     ✓ forcats 0.5.0

## ── Conflicts ──────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(knitr)

DIRETORIO DE TRABALHO:

setwd('/mnt/c4b35573-c8d2-4564-aa96-97bede91e199/BACKUP/Documents/projetos/pesos_do_bebe')
getwd()

## [1] "/mnt/c4b35573-c8d2-4564-aa96-97bede91e199/BACKUP/Documents/projetos/pesos_do_bebe"

CARREGANDO O DATASET:

df <- read.csv('pesos.csv')
kable(df)

Idade	Peso
0	3.44
1	4.39
2	4.49
3	4.78
4	5.23
5	6.00
6	6.18
7	7.03
8	7.18
9	7.50
10	8.59
11	8.99
12	9.54

ANALISE DE CORRELACAO:

p <- ggplot(df,aes(x=Idade,y=Peso))+
  ggtitle("Análise de correlaçao")+
  geom_point();p

cor(df)

##           Idade      Peso
## Idade 1.0000000 0.9929771
## Peso  0.9929771 1.0000000

O coeficiente de Pearson é de 0.9929 entre ás variáveis. É possível afirmar que há um forte relacionamento entre o a Idade e o Peso do bebê, ou seja, a medida que o bebê envelhece, seu peso aumenta.

RETA DE REGRESSAO:

p+geom_smooth(method="lm",se=FALSE)

## `geom_smooth()` using formula 'y ~ x'

CONSTRUCAO DO MODELO DE REGRESSAO SIMPLES:

modelo <- lm(Idade~Peso,df);summary(modelo)

## 
## Call:
## lm(formula = Idade ~ Peso, data = df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.9296 -0.2473 -0.1310  0.3784  0.8060 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -6.91312    0.48270  -14.32 1.85e-08 ***
## Peso         2.01429    0.07236   27.84 1.50e-11 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4812 on 11 degrees of freedom
## Multiple R-squared:  0.986,  Adjusted R-squared:  0.9847 
## F-statistic: 774.9 on 1 and 11 DF,  p-value: 1.503e-11

AVALIACAO DO MODELO:

Residuals: diferenca entre os valores observados e os valores previstos. Devem se parecer como uma distribuição normal.

shapiro.test(modelo$residuals)

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo$residuals
## W = 0.96018, p-value = 0.7565

Aplicando o teste de shapiro, nao rejeitamos a hipotese nula e podemos assumir a normalidade dos residuals pois p-value = 0.7565 isso indica que a média da diferenca entre os valores previstos e os valores observadors é próximo de 0.

Std error: o ideal é que este valor seja menor que o valor do coeficiente, mas nem sempre isso irá ocorrer.

Asteriscos: representam os níveis de significancia de acordo com p-value. Quanto mais asteriscos, maior a significancia,

T-value: define se o coeficiente da variável é significativo ou não para o modelo. Ele é usado para calcular o p-value e os níveis de significância.

P-value: representa a probabilidade que a variável nao seja relevante. Deve ser o menor valor possível. Se este valor for realmente pequeno, será exibido em notação cientifica.

R-squared: ajuda a avaliar o nivel de precisao do nosso modelo, quanto maior melhor.

AVALIACAO RESIDUAL

par(mfrow = c(2,2))
plot(modelo)

Gráfico 1: Temos os resíduos em função dos valores estimados. Aqui observamos a independência e a homocedasticidade, se os resíduos se distribuem de maneira razoavelmente aleatória e com mesma amplitude em torno do zero.

Gráfico 2: Podemos avaliar a normalidade dos resíduos. A linha diagonal pontilhada representa a distribuição normal teórica, e os pontos a distribuição dos resíduos observada. Espera-se que não exista grande fuga dos pontos em relação à reta.

Gráfico 3: Pode ser avaliado da mesma maneira que o primeiro, observando a aleatoriedade e amplitude, desta vez dos resíduos padronizados.

Gráfico 4: E o último gráfico permite visualizar as Distâncias de Cook das observações, uma medida de influência que pode indicar a presença de outliers quando possui valor maior do que 1.

Referências: