Regressao

Correlação entre as idades e tempo de vida

Muitas pessoas acreditam que a duração da vida de uma pessoa está linearmente associada a tempo de sua vida.

Diagrama de dispersão com linha de tendência

A distribuição dos pontos indicam a relação entre as variáveis 
A linha tracejada em vermelho indica a relação negativa existente entre as variáveis X e Y

Coeficiente de Correlação de Pearson


    Pearson's product-moment correlation

data:  dados$X and dados$Y
t = -0.98439, df = 48, p-value = 0.3299
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.4032311  0.1432860
sample estimates:
       cor 
-0.1406722

Valor negativo fraco (próximo de zero) - r = -0.14
Isso quer dizer que, em média, quando X aumenta, Y tende a diminuir um pouco Indicando que essa relação é muito fraca
p-value = 0.3299, ou seja maior que 0.05indicando que não há evidência estatística suficiente para afirmar que existe correlação entre X e Y 
Isso mostra que a correlação observada pode ser resultado do acaso. 
O intervalo inclui zero, reforçando que a correlação pode ser nula e mostrando que mesmo que haja correlação, esta seria fraca e incerta 
Portanto não há correlação estatisticamente significativa entre as variáveis X e Y, pois a mesma é considerada fraca (r=-0.14), não confiável diante do valor de p ser alto (0.33) e o intervalo de confiança incluir o zero

Regressão Linear e Equação da Reta

(Intercept)           X 
10.04457060 -0.01328489

ANOVA do Modelo

Analysis of Variance Table

Response: Y
          Df Sum Sq Mean Sq F value Pr(>F)
X          1  1.722  1.7217   0.969 0.3299
Residuals 48 85.282  1.7767

A análise de variância (ANOVA) aplicada ao modelo de regressão linear simples entre as variáveis X (variável preditora) e Y (variável resposta) resultou em uma estatística F de aproximadamente 0,969 com um valor-p de 0,3299 
Esse valor-p é consideravelmente superior ao nível de significância usual de 0,05, o que nos leva a não rejeitar a hipótese nula de que o coeficiente angular β1 é igual a zero indicando que não há evidência estatística suficiente para afirmar que a variável X possui um efeito linear significativo sobre a variável Y 
A variação observada em Y não pode ser explicada de forma confiável por uma relação linear com X neste conjunto de dados, portanto o modelo de regressão ajustado não é estatisticamente significativo.

Quadrado médio:

MQR: 1.7217  - MQE: 1.7767

A variabilidade média explicada pelo modelo de regressão (ou seja, pela variável X), onde X consegue explicar apenas 1.722 unidades de variação média em Y e esse valor é comparado com o quadrado médio dos resíduos para verificar se o modelo é significativamente melhor do que um modelo sem X 
Ja a variabilidade media dos resíduos representa a variabilidade média dos erros, ou seja, em média, o modelo erra cerca de 1.777 unidades ao tentar prever Y com base em X 
Esse valor indica o ruído ou variabilidade não explicada pelo modelo 
Portanto a variável X contribui muito pouco para explicar a variação observada em Y, pois a maior parte da variação nos dados ainda está presente nos resíduos (erros), indicando que o modelo não melhora significativamente a previsão em relação à média geral de Y

Coeficiente de Determinação (R²)

Coeficiente de Determinação (R²): 0.0198

O valor calculado de R² = 0,0198 (ou 1,98%) ou seja, apenas 1,98% da variação total na variável dependente Y é explicada pela variação da variável independente X por meio do modelo de regressão linear 
O valor de R² é muito baixo e evidencia que o modelo possui pouco ou nenhum poder explicativo 
Portanto conclui-se que esse resultado está alinhada com os resultados obtidos na ANOVA, que também apontaram para a não significância estatística do modelo

QQ-Plot e teste de normalidade

Shapiro-Wilk normality test

Conclusão:

O coeficiente de correlação de Pearson (r ≈ -0,14) é fraco e negativo
A ANOVA mostra que o modelo não é estatisticamente significativo (p > 0.05)
O R² = 0,0198 indica que o modelo explica apenas 1,98% da variabilidade de Y
O QQ-Plot e o teste de Shapiro-Wilk sugerem que os resíduos não seguem distribuição normal
O gráfico de resíduos padronizados indica que o modelo linear não se ajusta bem
O modelo linear simples não é adequado.