Atividade 4 - RGV

Author

Vitor Manoel Vilas Boas de Azevedo

Atividade de Regressão

Carregamento de Dados e Pacotes:

library(aprean3)
library(ggplot2)
  • Importar os dados para R, que pode ser via planilha Excel ou inseridos diretamente no R:
  • Construir o diagrama de dispersão, com todos detalhes importantes para visualizacão e interpretá-lo:

Para a análise de dispersão, foi utilizado as colunas X7 (variável explicativa) e X8 (delimitada em sala da aula - variável de resposta). Diante da observação, nota-se que a medida que os valores de X7 aumentam, os valores de X8 diminuem. Logo, abservamos uma correlação negativa entre as duas variáveis, indicando que a variável X7 pode estar reduzindo os valores da variável X8.

  • Calcular o Coeficiente de Correlação Linear de Pearson e interpretá-lo:

    Pearson's product-moment correlation

data:  dados$x7 and dados$x8
t = -7.9972, df = 23, p-value = 4.315e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.935672 -0.699528
sample estimates:
       cor 
-0.8576109 

Ao realizar o teste de Coeficiente de Correlação de Person entre as variáveis X7 e X8, observou-se o valor de -0.8576109, o que indica uma correlação linear negativa forte entre essas duas variáveis. Esse resultado sugere o que foi visto no gráfico anterior, que á medida que os valores da variável X7 aumentam, os valores da variável X8 tendem a diminuir.

Essa teste de correlação teve sua significância estatística comfirmada pelo valor de p de 4.315e-08 (4.315 x 10⁻⁸ = 0.00000004315), o permitiu rejeitar a hipótese nula:

  1. Hipótese Nula (H0): Não existe correlação entre X7 e X8 (p=0)

  2. Hipótese alternativa (H1): Existe correlaçao entre X7 e X8 (p diferente de 0)

Ainda é observado que o intervalo de confiança de 95% para correlação populacional foi de -0.935672 a -0.699528.

  • Encontrar a equação da reta de regressão (calcular os coeficientes β0 e β1) e inserir a reta de regressão no diagrama de dispersão;

Call:
lm(formula = x8 ~ x7, data = dados)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.6102  -6.2510  -0.7094   4.9089  24.6906 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  65.7911     2.4519  26.833  < 2e-16 ***
x7           -1.4401     0.1801  -7.997 4.31e-08 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.071 on 23 degrees of freedom
Multiple R-squared:  0.7355,    Adjusted R-squared:  0.724 
F-statistic: 63.96 on 1 and 23 DF,  p-value: 4.315e-08

Observou-se uma relação negativa entre as variáveis X7 e X8 no cálculo de regressão. O resultado apresentado (-1.4401) indica que para cada aumento na variável X7, a variável X8 terá uma diminuição média de 1.44.

O valor de p (4.315 x 10⁻⁸ = 0.00000004315) associado ao valor encontrado do coeficiente de inclinação (β1) indica evidência estatística de que as variáveis X7 e X8 estão relacionadas linearmente.

No gráfico de dispersão com a linha de regressão, os achados são representados visualmente reforçando a tendencia de diminuição entre X7 e X8.

`geom_smooth()` using formula = 'y ~ x'

  • Apresentar a tabela da ANOVA (análise de variância) para testar a hipótese de que β1 = 0. Interpretar o resultado baseando-se no valor-p;
Analysis of Variance Table

Response: x8
          Df Sum Sq Mean Sq F value    Pr(>F)    
x7         1 5262.1  5262.1  63.955 4.315e-08 ***
Residuals 23 1892.4    82.3                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

O teste F presente na tabela ANOVA apresentou um valor de 63,955 com 1 grau de liberdade para o modelo, e 23 graus de liberdade para os resíduos. O valor de p associado foi de 4.315e-08 (4.315 x 10⁻⁸ = 0.00000004315), inferior ao nível de significância de 0,05, nos dando a concusão de que β1 é diferente de 0, ou seja, a variável X7 contribui para explicar a variabilidade de X8.

  • Da tabela da ANOVA, extraia os valores do Quadrado Médio da Regressão e do Quadrado Médio dos Resíduos e explicar que eles significam de acordo com o contexto;

Na tabela ANOVa, ainda é possível observar na coluna 2 (Sum sq) os resultados da Soma dos Quadrados da Regressão (5262,1) e a Soma dos Quadrados dos Resíduos (1892,4). Na 3ª coluna, observa-se os valores referentes aos Quadrados Médios, sendo 5262,1 para a regressão e 82,3 para os resíduos, confirmando a influência da variável X7 sobre a variável X8.

  • Com a tabela da ANOVA, encontre o coeficiente de determinaçãoo e interprete-o;
[1] 0.7354964

A partir dos resultados presentes na tabela ANOVA, é possível extrair o resultado do coeficiente de determinação a partir dos valores da Soma dos Quadrados de Regressão (5262,1) e da Soma Total dos Quadrados (5262,1 e 1892,4), o que nos da como resultado o valor de 0.7354964, o que indica que 73.55% da variação encontrada na variável X8 pode ser explicada pela variável X7.

[1] 73.54964
  • Encontrar os resíduos do modelo e representar no gráfico QQ-plot (para verificar Normalidade). Interpretar este gráfico e em seguida realizar o teste de hipóteses para a Normalidade dos resíduos. Qual a conclusão e o que isso implica de acordo com o contexto?

Ao elaborar o gráfico QQ-plot, os quantis dos resíduos foram comparados com os quantis teóricos. Com isso, observamos que a maioria dos pontos encontra-se próximo da reta vermelha (apesar de alguns pontos nas extremidades estarem afastados), indicando um comportamento normal.


    Shapiro-Wilk normality test

data:  residuals(modelo)
W = 0.97007, p-value = 0.6468

Para complementar, realizou-se um teste de normalidade Shapiro-Wilk que apresentou como resultado de p 0.6468 (> que 0,05), indicando que não há evidências estatísticas para rejeitar a hipótese nula de que os resíduos seguem uma distribuição normal.

  • Encontrar os resíduos padronizados do modelo e construir um gráfico com os valores ajustados (fitted values). O que se pode concluir com este gráfico?

  • Apresente uma conclus ̃ao final resumindo toda a análise feita;

[1] 0.2645036
[1] 26.45036

Dado todos os resultados presentes nesse reltório, observamos que aproximadamente 73,55% da variacão observada na variável X8 é explicada pela variável X7 por meio do modelo de regrassão linear. Já aproximadamente 26,45% da variação va variável X8 são de fatores não explicados, estando respresendados nos resíduos.