#Análise de Regressão Linear
library(readxl)
library(ggplot2)
### Leitura dos dados
dados <- read_excel("C:/Users/Nara/Documents/Atividade 3/Ativ_3.xlsx", sheet = "Planilha1")
###Diagrama de dispersão com linha de tendência
ggplot(data = dados, aes(x = X, y = Y)) +
geom_point(color = "darkblue", size = 3) +
geom_smooth(method = "lm", se = TRUE, color = "red", linetype = "dashed") +
labs(
title = "Diagrama de Dispersão entre X e Y",
subtitle = paste0("Correlação de Pearson: r = ", round(cor(dados$X, dados$Y), 2)),
x = "X", y = "Y", caption = "Fonte: Ativ_3.xlsx"
) +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

#A distribuição dos pontos indicam a relação entre as variáveis
#A linha tracejada em vermelho indica a relação negativa existente entre as variáveis X e Y
###Coeficiente de Correlação de Pearson
cor.test(dados$X, dados$Y, method = "pearson")
##
## Pearson's product-moment correlation
##
## data: dados$X and dados$Y
## t = -0.98439, df = 48, p-value = 0.3299
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.4032311 0.1432860
## sample estimates:
## cor
## -0.1406722
#Valor negativo fraco (próximo de zero) - r = -0.14
#Isso quer dizer que, em média, quando X aumenta, Y tende a diminuir um pouco
#Indicando que essa relação é muito fraca
# p-value = 0.3299, ou seja maior que 0.05indicando que não há evidência estatística suficiente para afirmar que existe correlação entre X e Y
#Isso mostra que a correlação observada pode ser resultado do acaso.
#O intervalo inclui zero, reforçando que a correlação pode ser nula e mostrando que mesmo que haja correlação, esta seria fraca e incerta
#Portanto não há correlação estatisticamente significativa entre as variáveis X e Y, pois a mesma é considerada fraca (r=-0.14), não confiável diante do valor de p ser alto (0.33) e o intervalo de confiança incluir o zero
###Regressão Linear e Equação da Reta
modelo <- lm(Y ~ X, data = dados)
coef(modelo)
## (Intercept) X
## 10.04457060 -0.01328489
###ANOVA do Modelo
anova(modelo)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X 1 1.722 1.7217 0.969 0.3299
## Residuals 48 85.282 1.7767
#A análise de variância (ANOVA) aplicada ao modelo de regressão linear simples entre as variáveis X (variável preditora) e Y (variável resposta) resultou em uma estatística F de aproximadamente 0,969 com um valor-p de 0,3299
#Esse valor-p é consideravelmente superior ao nível de significância usual de 0,05, o que nos leva a não rejeitar a hipótese nula de que o coeficiente angular β1é igual a zero indicando que não há evidência estatística suficiente para afirmar que a variável X possui um efeito linear significativo sobre a variável Y
#A variação observada em Y não pode ser explicada de forma confiável por uma relação linear com X neste conjunto de dados, portanto o modelo de regressão ajustado não é estatisticamente significativo.
###Quadrados Médios
anova_resultado <- anova(modelo)
mqr <- anova_resultado$`Mean Sq`[1]
mqe <- anova_resultado$`Mean Sq`[2]
cat("MQR:", round(mqr, 4), " - MQE:", round(mqe, 4))
## MQR: 1.7217 - MQE: 1.7767
#A variabilidade média explicada pelo modelo de regressão (ou seja, pela variável X), onde X consegue explicar apenas 1.722 unidades de variação média em Y e esse valor é comparado com o quadrado médio dos resíduos para verificar se o modelo é significativamente melhor do que um modelo sem X
#Ja a variabilidade media dos resíduos representa a variabilidade média dos erros, ou seja, em média, o modelo erra cerca de 1.777 unidades ao tentar prever Y com base em X
#Esse valor indica o ruído ou variabilidade não explicada pelo modelo
#Portanto a variável X contribui muito pouco para explicar a variação observada em Y, pois a maior parte da variação nos dados ainda está presente nos resíduos (erros), indicando que o modelo não melhora significativamente a previsão em relação à média geral de Y
###Coeficiente de Determinação (R²)
r2 <- summary(modelo)$r.squared
cat("Coeficiente de Determinação (R²):", round(r2, 4))
## Coeficiente de Determinação (R²): 0.0198
#O valor calculado de R² = 0,0198 (ou 1,98%)
#Ou seja, apenas 1,98% da variação total na variável dependente Y é explicada pela variação da variável independente X por meio do modelo de regressão linear
#O valor de R² é muito baixo e evidencia que o modelo possui pouco ou nenhum poder explicativo
#Portanto conclui-se que esse resultado está alinhada com os resultados obtidos na ANOVA, que também apontaram para a não significância estatística do modelo
###Gráfico QQ-Plot e teste de normalidade
residuos <- residuals(modelo)
qqnorm(residuos)
qqline(residuos, col = "red", lwd = 2)

shapiro.test(residuos)
##
## Shapiro-Wilk normality test
##
## data: residuos
## W = 0.95884, p-value = 0.07947
#Pontos próximos da linha reta indicam que os resíduos seguem aproximadamente uma distribuição normal
#Os pontos se desviam da linha nas extremidades (caudas), especialmente na parte superior
#Sugerindo um possível desvio da normalidade, principalmente nos extremos
#Se o valor-p > 0.05: Não há evidências para rejeitar a hipótese de normalidade dos resíduos
#Se o valor-p < 0.05: Os resíduos não seguem distribuição normal, o que viola a suposição da regressão linear e pode afetar a validade de inferências
###Gráfico de resíduos padronizados
res_padronizados <- rstandard(modelo)
valores_ajustados <- fitted(modelo)
plot(valores_ajustados, res_padronizados,
xlab = "Valores Ajustados", ylab = "Resíduos Padronizados",
main = "Resíduos Padronizados vs Valores Ajustados")
abline(h = 0, col = "red", lty = 2)

###Conclusão
#O coeficiente de correlação de Pearson (r ≈ -0,14) é fraco e negativo
##A ANOVA mostra que o modelo não é estatisticamente significativo (p > 0.05)
##O R² = 0,0198 indica que o modelo explica apenas 1,98% da variabilidade de Y
##O QQ-Plot e o teste de Shapiro-Wilk sugerem que os resíduos não seguem distribuição normal
##O gráfico de resíduos padronizados indica que o modelo linear não se ajusta bem
##O modelo linear simples não é adequado. Recomenda-se considerar modelos não lineares ou incluir novas variáveis explicativas