library(tidyverse)
## ── Attaching packages ───────────────────────────────────────────────────────────── tidyverse 1.3.0 ──
## ✓ ggplot2 3.3.2 ✓ purrr 0.3.4
## ✓ tibble 3.0.1 ✓ dplyr 1.0.0
## ✓ tidyr 1.1.0 ✓ stringr 1.4.0
## ✓ readr 1.3.1 ✓ forcats 0.5.0
## ── Conflicts ──────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(knitr)
setwd('/mnt/c4b35573-c8d2-4564-aa96-97bede91e199/BACKUP/Documents/projetos/pesos_do_bebe')
getwd()
## [1] "/mnt/c4b35573-c8d2-4564-aa96-97bede91e199/BACKUP/Documents/projetos/pesos_do_bebe"
df <- read.csv('pesos.csv')
kable(df)
| Idade | Peso |
|---|---|
| 0 | 3.44 |
| 1 | 4.39 |
| 2 | 4.49 |
| 3 | 4.78 |
| 4 | 5.23 |
| 5 | 6.00 |
| 6 | 6.18 |
| 7 | 7.03 |
| 8 | 7.18 |
| 9 | 7.50 |
| 10 | 8.59 |
| 11 | 8.99 |
| 12 | 9.54 |
p <- ggplot(df,aes(x=Idade,y=Peso))+
ggtitle("Análise de correlaçao")+
geom_point();p
cor(df)
## Idade Peso
## Idade 1.0000000 0.9929771
## Peso 0.9929771 1.0000000
O coeficiente de Pearson é de 0.9929 entre ás variáveis. É possível afirmar que há um forte relacionamento entre o a Idade e o Peso do bebê, ou seja, a medida que o bebê envelhece, seu peso aumenta.
p+geom_smooth(method="lm",se=FALSE)
## `geom_smooth()` using formula 'y ~ x'
modelo <- lm(Idade~Peso,df);summary(modelo)
##
## Call:
## lm(formula = Idade ~ Peso, data = df)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.9296 -0.2473 -0.1310 0.3784 0.8060
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -6.91312 0.48270 -14.32 1.85e-08 ***
## Peso 2.01429 0.07236 27.84 1.50e-11 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.4812 on 11 degrees of freedom
## Multiple R-squared: 0.986, Adjusted R-squared: 0.9847
## F-statistic: 774.9 on 1 and 11 DF, p-value: 1.503e-11
Residuals: diferenca entre os valores observados e os valores previstos. Devem se parecer como uma distribuição normal.
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.96018, p-value = 0.7565
Aplicando o teste de shapiro, nao rejeitamos a hipotese nula e podemos assumir a normalidade dos residuals pois p-value = 0.7565 isso indica que a média da diferenca entre os valores previstos e os valores observadors é próximo de 0.
Std error: o ideal é que este valor seja menor que o valor do coeficiente, mas nem sempre isso irá ocorrer.
Asteriscos: representam os níveis de significancia de acordo com p-value. Quanto mais asteriscos, maior a significancia,
T-value: define se o coeficiente da variável é significativo ou não para o modelo. Ele é usado para calcular o p-value e os níveis de significância.
P-value: representa a probabilidade que a variável nao seja relevante. Deve ser o menor valor possível. Se este valor for realmente pequeno, será exibido em notação cientifica.
R-squared: ajuda a avaliar o nivel de precisao do nosso modelo, quanto maior melhor.
par(mfrow = c(2,2))
plot(modelo)
Gráfico 1: Temos os resíduos em função dos valores estimados. Aqui observamos a independência e a homocedasticidade, se os resíduos se distribuem de maneira razoavelmente aleatória e com mesma amplitude em torno do zero.
Gráfico 2: Podemos avaliar a normalidade dos resíduos. A linha diagonal pontilhada representa a distribuição normal teórica, e os pontos a distribuição dos resíduos observada. Espera-se que não exista grande fuga dos pontos em relação à reta.
Gráfico 3: Pode ser avaliado da mesma maneira que o primeiro, observando a aleatoriedade e amplitude, desta vez dos resíduos padronizados.
Gráfico 4: E o último gráfico permite visualizar as Distâncias de Cook das observações, uma medida de influência que pode indicar a presença de outliers quando possui valor maior do que 1.
Referências:
www.medium.com.br
www.datascienceacademy.com.br