Regressao
Correlação entre as idades e tempo de vida
Muitas pessoas acreditam que a duração da vida de uma pessoa está linearmente associada a tempo de sua vida.
Diagrama de dispersão com linha de tendência
A distribuição dos pontos indicam a relação entre as variáveis
A linha tracejada em vermelho indica a relação negativa existente entre as variáveis X e Y
Coeficiente de Correlação de Pearson
Pearson's product-moment correlation
data: dados$X and dados$Y
t = -0.98439, df = 48, p-value = 0.3299
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.4032311 0.1432860
sample estimates:
cor
-0.1406722
Valor negativo fraco (próximo de zero) - r = -0.14
Isso quer dizer que, em média, quando X aumenta, Y tende a diminuir um pouco Indicando que essa relação é muito fraca
p-value = 0.3299, ou seja maior que 0.05indicando que não há evidência estatística suficiente para afirmar que existe correlação entre X e Y
Isso mostra que a correlação observada pode ser resultado do acaso.
O intervalo inclui zero, reforçando que a correlação pode ser nula e mostrando que mesmo que haja correlação, esta seria fraca e incerta
Portanto não há correlação estatisticamente significativa entre as variáveis X e Y, pois a mesma é considerada fraca (r=-0.14), não confiável diante do valor de p ser alto (0.33) e o intervalo de confiança incluir o zero
Regressão Linear e Equação da Reta
(Intercept) X
10.04457060 -0.01328489
ANOVA do Modelo
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq F value Pr(>F)
X 1 1.722 1.7217 0.969 0.3299
Residuals 48 85.282 1.7767
A análise de variância (ANOVA) aplicada ao modelo de regressão linear simples entre as variáveis X (variável preditora) e Y (variável resposta) resultou em uma estatística F de aproximadamente 0,969 com um valor-p de 0,3299
Esse valor-p é consideravelmente superior ao nível de significância usual de 0,05, o que nos leva a não rejeitar a hipótese nula de que o coeficiente angular β1 é igual a zero indicando que não há evidência estatística suficiente para afirmar que a variável X possui um efeito linear significativo sobre a variável Y
A variação observada em Y não pode ser explicada de forma confiável por uma relação linear com X neste conjunto de dados, portanto o modelo de regressão ajustado não é estatisticamente significativo.
Quadrado médio:
MQR: 1.7217 - MQE: 1.7767
A variabilidade média explicada pelo modelo de regressão (ou seja, pela variável X), onde X consegue explicar apenas 1.722 unidades de variação média em Y e esse valor é comparado com o quadrado médio dos resíduos para verificar se o modelo é significativamente melhor do que um modelo sem X
Ja a variabilidade media dos resíduos representa a variabilidade média dos erros, ou seja, em média, o modelo erra cerca de 1.777 unidades ao tentar prever Y com base em X
Esse valor indica o ruído ou variabilidade não explicada pelo modelo
Portanto a variável X contribui muito pouco para explicar a variação observada em Y, pois a maior parte da variação nos dados ainda está presente nos resíduos (erros), indicando que o modelo não melhora significativamente a previsão em relação à média geral de Y
Coeficiente de Determinação (R²)
Coeficiente de Determinação (R²): 0.0198
O valor calculado de R² = 0,0198 (ou 1,98%) ou seja, apenas 1,98% da variação total na variável dependente Y é explicada pela variação da variável independente X por meio do modelo de regressão linear
O valor de R² é muito baixo e evidencia que o modelo possui pouco ou nenhum poder explicativo
Portanto conclui-se que esse resultado está alinhada com os resultados obtidos na ANOVA, que também apontaram para a não significância estatística do modelo
QQ-Plot e teste de normalidade
Shapiro-Wilk normality test
Conclusão:
O coeficiente de correlação de Pearson (r ≈ -0,14) é fraco e negativo
A ANOVA mostra que o modelo não é estatisticamente significativo (p > 0.05)
O R² = 0,0198 indica que o modelo explica apenas 1,98% da variabilidade de Y
O QQ-Plot e o teste de Shapiro-Wilk sugerem que os resíduos não seguem distribuição normal
O gráfico de resíduos padronizados indica que o modelo linear não se ajusta bem
O modelo linear simples não é adequado.