library(aprean3)Atividade 4 - RGV
Atividade de Regressão
Carregamento de Dados e Pacotes:
library(ggplot2)- Importar os dados para R, que pode ser via planilha Excel ou inseridos diretamente no R:
- Construir o diagrama de dispersão, com todos detalhes importantes para visualizacão e interpretá-lo:
Para a análise de dispersão, foi utilizado as colunas X7 (variável explicativa) e X8 (delimitada em sala da aula - variável de resposta). Diante da observação, nota-se que a medida que os valores de X7 aumentam, os valores de X8 diminuem. Logo, abservamos uma correlação negativa entre as duas variáveis, indicando que a variável X7 pode estar reduzindo os valores da variável X8.
- Calcular o Coeficiente de Correlação Linear de Pearson e interpretá-lo:
Pearson's product-moment correlation
data: dados$x7 and dados$x8
t = -7.9972, df = 23, p-value = 4.315e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.935672 -0.699528
sample estimates:
cor
-0.8576109
Ao realizar o teste de Coeficiente de Correlação de Person entre as variáveis X7 e X8, observou-se o valor de -0.8576109, o que indica uma correlação linear negativa forte entre essas duas variáveis. Esse resultado sugere o que foi visto no gráfico anterior, que á medida que os valores da variável X7 aumentam, os valores da variável X8 tendem a diminuir.
Essa teste de correlação teve sua significância estatística comfirmada pelo valor de p de 4.315e-08 (4.315 x 10⁻⁸ = 0.00000004315), o permitiu rejeitar a hipótese nula:
Hipótese Nula (H0): Não existe correlação entre X7 e X8 (p=0)
Hipótese alternativa (H1): Existe correlaçao entre X7 e X8 (p diferente de 0)
Ainda é observado que o intervalo de confiança de 95% para correlação populacional foi de -0.935672 a -0.699528.
- Encontrar a equação da reta de regressão (calcular os coeficientes β0 e β1) e inserir a reta de regressão no diagrama de dispersão;
Call:
lm(formula = x8 ~ x7, data = dados)
Residuals:
Min 1Q Median 3Q Max
-19.6102 -6.2510 -0.7094 4.9089 24.6906
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 65.7911 2.4519 26.833 < 2e-16 ***
x7 -1.4401 0.1801 -7.997 4.31e-08 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.071 on 23 degrees of freedom
Multiple R-squared: 0.7355, Adjusted R-squared: 0.724
F-statistic: 63.96 on 1 and 23 DF, p-value: 4.315e-08
Observou-se uma relação negativa entre as variáveis X7 e X8 no cálculo de regressão. O resultado apresentado (-1.4401) indica que para cada aumento na variável X7, a variável X8 terá uma diminuição média de 1.44.
O valor de p (4.315 x 10⁻⁸ = 0.00000004315) associado ao valor encontrado do coeficiente de inclinação (β1) indica evidência estatística de que as variáveis X7 e X8 estão relacionadas linearmente.
No gráfico de dispersão com a linha de regressão, os achados são representados visualmente reforçando a tendencia de diminuição entre X7 e X8.
`geom_smooth()` using formula = 'y ~ x'
- Apresentar a tabela da ANOVA (análise de variância) para testar a hipótese de que β1 = 0. Interpretar o resultado baseando-se no valor-p;
Analysis of Variance Table
Response: x8
Df Sum Sq Mean Sq F value Pr(>F)
x7 1 5262.1 5262.1 63.955 4.315e-08 ***
Residuals 23 1892.4 82.3
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
O teste F presente na tabela ANOVA apresentou um valor de 63,955 com 1 grau de liberdade para o modelo, e 23 graus de liberdade para os resíduos. O valor de p associado foi de 4.315e-08 (4.315 x 10⁻⁸ = 0.00000004315), inferior ao nível de significância de 0,05, nos dando a concusão de que β1 é diferente de 0, ou seja, a variável X7 contribui para explicar a variabilidade de X8.
- Da tabela da ANOVA, extraia os valores do Quadrado Médio da Regressão e do Quadrado Médio dos Resíduos e explicar que eles significam de acordo com o contexto;
Na tabela ANOVa, ainda é possível observar na coluna 2 (Sum sq) os resultados da Soma dos Quadrados da Regressão (5262,1) e a Soma dos Quadrados dos Resíduos (1892,4). Na 3ª coluna, observa-se os valores referentes aos Quadrados Médios, sendo 5262,1 para a regressão e 82,3 para os resíduos, confirmando a influência da variável X7 sobre a variável X8.
- Com a tabela da ANOVA, encontre o coeficiente de determinaçãoo e interprete-o;
[1] 0.7354964
A partir dos resultados presentes na tabela ANOVA, é possível extrair o resultado do coeficiente de determinação a partir dos valores da Soma dos Quadrados de Regressão (5262,1) e da Soma Total dos Quadrados (5262,1 e 1892,4), o que nos da como resultado o valor de 0.7354964, o que indica que 73.55% da variação encontrada na variável X8 pode ser explicada pela variável X7.
[1] 73.54964
- Encontrar os resíduos do modelo e representar no gráfico QQ-plot (para verificar Normalidade). Interpretar este gráfico e em seguida realizar o teste de hipóteses para a Normalidade dos resíduos. Qual a conclusão e o que isso implica de acordo com o contexto?
Ao elaborar o gráfico QQ-plot, os quantis dos resíduos foram comparados com os quantis teóricos. Com isso, observamos que a maioria dos pontos encontra-se próximo da reta vermelha (apesar de alguns pontos nas extremidades estarem afastados), indicando um comportamento normal.
Shapiro-Wilk normality test
data: residuals(modelo)
W = 0.97007, p-value = 0.6468
Para complementar, realizou-se um teste de normalidade Shapiro-Wilk que apresentou como resultado de p 0.6468 (> que 0,05), indicando que não há evidências estatísticas para rejeitar a hipótese nula de que os resíduos seguem uma distribuição normal.
Encontrar os resíduos padronizados do modelo e construir um gráfico com os valores ajustados (fitted values). O que se pode concluir com este gráfico?
Apresente uma conclus ̃ao final resumindo toda a análise feita;
[1] 0.2645036
[1] 26.45036
Dado todos os resultados presentes nesse reltório, observamos que aproximadamente 73,55% da variacão observada na variável X8 é explicada pela variável X7 por meio do modelo de regrassão linear. Já aproximadamente 26,45% da variação va variável X8 são de fatores não explicados, estando respresendados nos resíduos.