Atividade de Regressão - RGV 5

Author

Vitor Manoel Vilas Boas de Azevedo

Os dados abaixo (fornecidos por Tom B. Whitaker) mostram 34 pares de valores de:

  • X = Nível médio de aflatoxina em uma subamostra (mini-lot) de 120 libras de amendoim (em ppb – partes por bilhão).

  • Y = Porcentagem de amendoins não contaminados no lote (em escala decimal: 0,971 = 97,1%).

Carregamento de Pacotes:

  1. Importar os dados para R, que pode ser via planilha Excel ou inseridos diretamente no R;
  1. Construir o diagrama de dispersão, com todos detalhes importantes para visualização e interpretá-lo;

  1. Calcular o Coeficiente de Correlação Linear de Pearson e interpretá-lo;

    Pearson's product-moment correlation

data:  dados$X and dados$Y
t = -13.465, df = 32, p-value = 9.942e-15
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.9606174 -0.8482290
sample estimates:
       cor 
-0.9219428 
  1. Encontrar a equação da reta de regressão (calcular os coeficientes β0 e β1) e inserir a reta de regressão no diagrama de dispersão;
 (Intercept)            X 
 1.000113853 -0.002937622 
`geom_smooth()` using formula = 'y ~ x'

  1. Apresentar a tabela da ANOVA (análise de variância) para testar a hipótese de que β1 = 0. Interpretar o resultado baseando-se no valor-p;
  2. Interpretar, de acordo com o contexto, o coeficiente β1 calculado;
  3. Da tabela da ANOVA, extraia os valores do Quadrado Médio da Regressão e do Quadrado Médio dos Resíduos e explicar que eles significam de acordo com o contexto;
Analysis of Variance Table

Response: Y
          Df   Sum Sq Mean Sq F value    Pr(>F)    
X          1 0.244803 0.24480   181.3 9.942e-15 ***
Residuals 32 0.043208 0.00135                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Call:
lm(formula = Y ~ X, data = dados)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.074100 -0.015096 -0.003068  0.021504  0.074296 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.0001139  0.0101727   98.31  < 2e-16 ***
X           -0.0029376  0.0002182  -13.46 9.94e-15 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.03675 on 32 degrees of freedom
Multiple R-squared:   0.85, Adjusted R-squared:  0.8453 
F-statistic: 181.3 on 1 and 32 DF,  p-value: 9.942e-15
  1. Com a tabela da ANOVA, encontre o coeficiente de determinação e interprete-o;
[1] 0.8499786
  1. Encontrar os resíduos do modelo e representar no gráfico QQ-plot (para verificar Normalidade). Interpretar este gráfico e em seguida realizar o teste de hipóteses para a Normalidade dos resíduos. Qual a conclusão e o que isso implica de acordo com o contexto?


    Shapiro-Wilk normality test

data:  dados$residuos
W = 0.96342, p-value = 0.3051
  1. Encontrar os resíduos padronizados do modelo e construir um gráfico com os valores ajustados (fitted values). O que se pode concluir com este gráfico?

  1. Apresente uma conclusão final resumindo toda a análise feita;