Definindo os dados:
x = Nº de Anos de estudos da lingua alemã
y = Nota do teste de proficiência da língua
x <- c(3,4,4,2,5,3,4,5,3,2)
y <- c(57,78,72,58,89,63,73,84,75,48)
plot(x, y, main = "Dispersão entre Anos de Estudo de Alemão e Notas de Proficiência", xlab = "Nº de Anos de Estudo", ylab = "Nota do teste de proficiência", pch = 16, col = "blue")
abline(lm(y~x))
Análisando o gráfico percebe-se que à medida que o Nº de anos de estudos da língua alemã aumenta, as notas nos testes de proficiência tendem a aumentar. Isso sugere uma possível correlação positiva entre essas duas variáveis, logo é esperado que quanto mais tempo uma pessoa passa estudando a língua, maior é a probabilidade de obter uma pontuação alta nos testes de proficiência.
correlação <- cor(x,y)
correlação
## [1] 0.9111135
O coeficiente de correlação próximo de 1 indica que existe uma forte correlação entre as variáveis, logo espera-se que o Nº de anos de estudo da lingua, afete o resultado do exame de proficiência.
cor.test(x,y)
##
## Pearson's product-moment correlation
##
## data: x and y
## t = 6.2525, df = 8, p-value = 0.000245
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.6602427 0.9790799
## sample estimates:
## cor
## 0.9111135
A um nível de 95% de confiança os dados estão correlacionados.
modelo <- lm(y~x)
modelo
##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 31.53 10.90
(Intercept): O coeficiente de interceptação. Neste caso, significa que quando y é zero, o valor estimado de x é aproximadamente 31.53.
y: O coeficiente angular. Indica que, em média, um aumento de uma unidade em y resulta em um aumento de aproximadamente 10.90 em x.
###e) Analisando a ANOVA, verifique se β1 é significativo (Use α = 5%) . Qual a sua conclusão a respeito da importância de X para ajudar a explicar Y ?
# para verificar se o modelo está ajustado podemos usar qualquer uma das fórmulas abaixo
summary(modelo)
##
## Call:
## lm(formula = y ~ x)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7.248 -2.902 -1.652 2.919 10.752
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 31.533 6.360 4.958 0.001110 **
## x 10.905 1.744 6.253 0.000245 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5.651 on 8 degrees of freedom
## Multiple R-squared: 0.8301, Adjusted R-squared: 0.8089
## F-statistic: 39.09 on 1 and 8 DF, p-value: 0.000245
anova(modelo)
## Analysis of Variance Table
##
## Response: y
## Df Sum Sq Mean Sq F value Pr(>F)
## x 1 1248.6 1248.60 39.094 0.000245 ***
## Residuals 8 255.5 31.94
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A estatística F é 39.09.
Os graus de liberdade (DF) são 1 e 8.
O valor-p é 0.000245.
A um nível de 5% de significância o teste sugere que o modelo de regressão é estatísticamente significativo, ou seja, a variável Nota do teste de proficiência tem um efeito significativo na predição da variável x, logo o modelo está bem ajustado.
b0 = 31.533
b1 <- 10.905
# Calculando a média
dois_anos <- b0 + b1 * 2
paste("A nota média para 2 anos será de:",dois_anos)
## [1] "A nota média para 2 anos será de: 53.343"
X <- c(0,2,4,6,8,10,12)
Y <- c(2.2,1.2,1.5,1.4,1.1,1.1,0.9)
plot(X, Y, main="Diagrama de Dispersão - Resíduo de Cloro na Piscina",
xlab="Nº de Horas de Tratamento", ylab="Resíduos de Cloro (ppm)",
pch=16, col="green")
abline(lm(Y~X))
# Coeficiente de Correlação de Pearson
correlation_coefficient <- cor(X, Y)
cat("Coeficiente de Correlação de Pearson:", correlation_coefficient, "\n")
## Coeficiente de Correlação de Pearson: -0.8118988
No coeficiente de correlação e na análise do diagrama de dispersão, parece haver uma relação inversa entre o tempo de tratamento da piscina e os resíduos de cloro presentes na água. Quanto mais tempo a piscina é tratada, menor a quantidade de resíduos de cloro detectada.
# Ajuste do modelo de regressão linear
MODELO <- lm(Y ~ X)
# Sumário do modelo
summary(MODELO)
##
## Call:
## lm(formula = Y ~ X)
##
## Residuals:
## 1 2 3 4 5 6 7
## 0.375000 -0.464286 -0.003571 0.057143 -0.082143 0.078571 0.039286
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.82500 0.18634 9.794 0.000189 ***
## X -0.08036 0.02584 -3.110 0.026559 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2735 on 5 degrees of freedom
## Multiple R-squared: 0.6592, Adjusted R-squared: 0.591
## F-statistic: 9.67 on 1 and 5 DF, p-value: 0.02656
# Coeficientes do modelo
B0 <- 1.82500
B1 <- -0.08036
# Valor de X (horas após tratamento)
X_value_5 <- 5
# Estimativa do resíduo de cloro
est_Y_5 <- B0 + B1 * X_value_5
cat("Estimativa do resíduo de cloro após 5 horas:", est_Y_5, "ppm\n")
## Estimativa do resíduo de cloro após 5 horas: 1.4232 ppm
# Coeficientes do modelo
B0 <- 1.82500
B1 <- -0.08036
# Valor de X (horas após tratamento)
X_value_8 <- 8
# Estimativa do resíduo de cloro
est_Y_8 <- B0 + B1 * X_value_8
cat("Estimativa do resíduo de cloro após 8 horas:", est_Y_8, "ppm\n")
## Estimativa do resíduo de cloro após 8 horas: 1.18212 ppm
O modelo de regressão linear simples não consegue considerar todas as razões pelas quais os dados podem variar. Sempre haverá fatores que o modelo não contempla, resultando em diferenças entre as previsões e a realidade. Isso acontece porque a realidade é mais complexa do que o modelo linear pode representar, levando a imprecisões nas previsões.
anova(MODELO)
## Analysis of Variance Table
##
## Response: Y
## Df Sum Sq Mean Sq F value Pr(>F)
## X 1 0.72321 0.72321 9.6705 0.02656 *
## Residuals 5 0.37393 0.07479
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como o p-valor = 0.02656 é menor que 0.05 indicando que há diferenças significativas entre algumas médias dos grupos. Podemos dizer que para o nível de significância de 95% o modelo está bem ajustado pois X é diferente de 0.
No caso, p-valor= 0.02656 é menor do que alpha = 0.05 o que significa que há evidências estatísticas para concluir que o coeficiente B1 é significativo e que a variável X é importante para ajudar a explicar a variabilidade em Y.
Portanto, o número de horas após o tratamento da piscina (variável X) tem um impacto significativo nos resíduos de cloro (variável Y).
confint(MODELO)
## 2.5 % 97.5 %
## (Intercept) 1.3460023 2.30399769
## X -0.1467822 -0.01393211