1) Considere os seguintes dados amostrais obtidos de um estudo da relação entre o número de anos que os candidatos a certo emprego no exterior estudaram alemão no curso secundário ou na faculdade, e as notas obtidas em um teste de proficiência naquela língua:

Definindo os dados:

x = Nº de Anos de estudos da lingua alemã
y = Nota do teste de proficiência da língua

x <-  c(3,4,4,2,5,3,4,5,3,2)
y <- c(57,78,72,58,89,63,73,84,75,48)

1A) Faça um gráfico de dispersão dos dados e interprete o resultado obtido.

plot(x, y, main = "Dispersão entre Anos de Estudo de Alemão e Notas de Proficiência", xlab = "Nº de Anos de Estudo", ylab = "Nota do teste de proficiência", pch = 16, col = "blue")
abline(lm(y~x))

Análisando o gráfico percebe-se que à medida que o Nº de anos de estudos da língua alemã aumenta, as notas nos testes de proficiência tendem a aumentar. Isso sugere uma possível correlação positiva entre essas duas variáveis, logo é esperado que quanto mais tempo uma pessoa passa estudando a língua, maior é a probabilidade de obter uma pontuação alta nos testes de proficiência.

1B) Calcule o coeficiente de correlação entre as duas variáveis e interprete. Se houver correlação, verifique se é significativa a 5%.

correlação <- cor(x,y)
correlação
## [1] 0.9111135

O coeficiente de correlação próximo de 1 indica que existe uma forte correlação entre as variáveis, logo espera-se que o Nº de anos de estudo da lingua, afete o resultado do exame de proficiência.

cor.test(x,y)
## 
##  Pearson's product-moment correlation
## 
## data:  x and y
## t = 6.2525, df = 8, p-value = 0.000245
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.6602427 0.9790799
## sample estimates:
##       cor 
## 0.9111135

A um nível de 95% de confiança os dados estão correlacionados.

1C) Estime os coeficientes de regressão do modelo e determine a equação da reta de mínimos quadrados que nos permita predizer a nota do teste a partir do número de anos de estudo em alemão. Interprete os coeficientes do modelo.

modelo <- lm(y~x)
modelo
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##       31.53        10.90

(Intercept): O coeficiente de interceptação. Neste caso, significa que quando y é zero, o valor estimado de x é aproximadamente 31.53.

y: O coeficiente angular. Indica que, em média, um aumento de uma unidade em y resulta em um aumento de aproximadamente 10.90 em x.

1D) Faça uma análise de variância (ANOVA) para o modelo; O modelo está bem ajustado? Justifique utilizando um coeficiente adequado

###e) Analisando a ANOVA, verifique se β1 é significativo (Use α = 5%) . Qual a sua conclusão a respeito da importância de X para ajudar a explicar Y ?

# para verificar se o modelo está ajustado podemos usar qualquer uma das fórmulas abaixo
summary(modelo)
## 
## Call:
## lm(formula = y ~ x)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.248 -2.902 -1.652  2.919 10.752 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   31.533      6.360   4.958 0.001110 ** 
## x             10.905      1.744   6.253 0.000245 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5.651 on 8 degrees of freedom
## Multiple R-squared:  0.8301, Adjusted R-squared:  0.8089 
## F-statistic: 39.09 on 1 and 8 DF,  p-value: 0.000245
anova(modelo)
## Analysis of Variance Table
## 
## Response: y
##           Df Sum Sq Mean Sq F value   Pr(>F)    
## x          1 1248.6 1248.60  39.094 0.000245 ***
## Residuals  8  255.5   31.94                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

A estatística F é 39.09.
Os graus de liberdade (DF) são 1 e 8.
O valor-p é 0.000245.

A um nível de 5% de significância o teste sugere que o modelo de regressão é estatísticamente significativo, ou seja, a variável Nota do teste de proficiência tem um efeito significativo na predição da variável x, logo o modelo está bem ajustado.

1F) Suponha que todo o estudo tenha sido feito com o objetivo de testar β1 = 12, 5. Verifique usando um α = 5%.

1G) Construa um I.C de 95% de confiança para β1, o valor do aumento que um estudante espera obter no seu índice de pontuação estudando mais um hora por semana.

1H) Suponha que queiramos estimar a nota média de proficiência dos estudantes que cursaram dois anos de alemão no secundário ou na faculdade. Construa um I.C de 95% de confiança para a média;

b0 = 31.533
b1 <- 10.905
# Calculando a média
dois_anos <- b0 + b1 * 2
paste("A nota média para 2 anos será de:",dois_anos)
## [1] "A nota média para 2 anos será de: 53.343"

1I) Determine os limites de predição de 95% da nota de proficiência de um candidato que tenha estudado alemão pordois anos, no secundário ou em uma faculdade.

2) Os dados abaixo referem-se ao resíduo de cloro em uma piscina em vários momentos, após ter sido tratada com produtos químicos:

X <- c(0,2,4,6,8,10,12)
Y <- c(2.2,1.2,1.5,1.4,1.1,1.1,0.9)

onde X representa o Nº de horas que a piscina foi tratada e Y representa: Resíduos de cloro (partes por milhão). A leitura a zero horas foi feita imediatamente após completado o tratamento químico.

2A) Construa o diagrama de dispersão para verificar se X e Y são correlacionadas. Se sim, quantifique o grau dessa correlação usando um coeficiente estatístico adequado. Interprete os resultados do gráfico e do coeficiente

plot(X, Y, main="Diagrama de Dispersão - Resíduo de Cloro na Piscina",
     xlab="Nº de Horas de Tratamento", ylab="Resíduos de Cloro (ppm)",
     pch=16, col="green")
abline(lm(Y~X))

# Coeficiente de Correlação de Pearson
correlation_coefficient <- cor(X, Y)

cat("Coeficiente de Correlação de Pearson:", correlation_coefficient, "\n")
## Coeficiente de Correlação de Pearson: -0.8118988

No coeficiente de correlação e na análise do diagrama de dispersão, parece haver uma relação inversa entre o tempo de tratamento da piscina e os resíduos de cloro presentes na água. Quanto mais tempo a piscina é tratada, menor a quantidade de resíduos de cloro detectada.

2B)Ajuste um modelo de regressão linear simples que nos permita predizer o resíduo de cloro em termos do número de horas após a piscina ter sido tratada com produtos químicos.

# Ajuste do modelo de regressão linear
MODELO <- lm(Y ~ X)

# Sumário do modelo
summary(MODELO)
## 
## Call:
## lm(formula = Y ~ X)
## 
## Residuals:
##         1         2         3         4         5         6         7 
##  0.375000 -0.464286 -0.003571  0.057143 -0.082143  0.078571  0.039286 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  1.82500    0.18634   9.794 0.000189 ***
## X           -0.08036    0.02584  -3.110 0.026559 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.2735 on 5 degrees of freedom
## Multiple R-squared:  0.6592, Adjusted R-squared:  0.591 
## F-statistic:  9.67 on 1 and 5 DF,  p-value: 0.02656

2c) Com o modelo construído em (b), estime o resíduo de cloro na piscina 5 horas após ter sido tratada

# Coeficientes do modelo
B0 <- 1.82500
B1 <- -0.08036

# Valor de X (horas após tratamento)
X_value_5 <- 5

# Estimativa do resíduo de cloro
est_Y_5 <- B0 + B1 * X_value_5

cat("Estimativa do resíduo de cloro após 5 horas:", est_Y_5, "ppm\n")
## Estimativa do resíduo de cloro após 5 horas: 1.4232 ppm

2D) Com o modelo construído em (b), estime o resíduo de cloro na piscina 8 horas após ter sido tratada. Por que razão sua resposta é um tanto diferente das 1,1 partes por milhão efetivamente observadas ao final de 8 horas?

# Coeficientes do modelo
B0 <- 1.82500
B1 <- -0.08036

# Valor de X (horas após tratamento)
X_value_8 <- 8

# Estimativa do resíduo de cloro
est_Y_8 <- B0 + B1 * X_value_8

cat("Estimativa do resíduo de cloro após 8 horas:", est_Y_8, "ppm\n")
## Estimativa do resíduo de cloro após 8 horas: 1.18212 ppm

O modelo de regressão linear simples não consegue considerar todas as razões pelas quais os dados podem variar. Sempre haverá fatores que o modelo não contempla, resultando em diferenças entre as previsões e a realidade. Isso acontece porque a realidade é mais complexa do que o modelo linear pode representar, levando a imprecisões nas previsões.

2E) Faça uma análise de variância (ANOVA) para o modelo; O modelo está bem ajustado? Justifique utilizando um coeficiente adequado.

anova(MODELO)
## Analysis of Variance Table
## 
## Response: Y
##           Df  Sum Sq Mean Sq F value  Pr(>F)  
## X          1 0.72321 0.72321  9.6705 0.02656 *
## Residuals  5 0.37393 0.07479                  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como o p-valor = 0.02656 é menor que 0.05 indicando que há diferenças significativas entre algumas médias dos grupos. Podemos dizer que para o nível de significância de 95% o modelo está bem ajustado pois X é diferente de 0.

2F) Analisando a ANOVA, verifique se β1 é significativo (Use α = 5%) . Qual a sua conclusão a respeito da importância de X para ajudar a explicar Y ?

No caso, p-valor= 0.02656 é menor do que alpha = 0.05 o que significa que há evidências estatísticas para concluir que o coeficiente B1 é significativo e que a variável X é importante para ajudar a explicar a variabilidade em Y.

Portanto, o número de horas após o tratamento da piscina (variável X) tem um impacto significativo nos resíduos de cloro (variável Y).

2G) Construa I.C’s de 95% de confiança para os coeficientes do modelo

confint(MODELO)
##                  2.5 %      97.5 %
## (Intercept)  1.3460023  2.30399769
## X           -0.1467822 -0.01393211