Este documento apresenta a resolução dos exercícios propostos sobre regressão linear simples e o método dos mínimos quadrados, utilizando a linguagem R.
Primeiro, vamos criar o data.frame
com os dados
fornecidos, utilizando nomes de variáveis em português.
# Criar data frame com os dados coletados
dados <- data.frame(
horas_estudo = c(1, 2, 4, 5, 5, 6, 6, 7, 8, 10, 11, 11, 12, 12, 14),
pontuacao = c(64, 66, 76, 73, 74, 81, 83, 82, 80, 88, 84, 82, 91, 93, 89)
)
print(dados)
## horas_estudo pontuacao
## 1 1 64
## 2 2 66
## 3 4 76
## 4 5 73
## 5 5 74
## 6 6 81
## 7 6 83
## 8 7 82
## 9 8 80
## 10 10 88
## 11 11 84
## 12 11 82
## 13 12 91
## 14 12 93
## 15 14 89
Visualize os dados com um gráfico de dispersão que represente a relação entre horas de estudo e pontuação.
plot(dados$horas_estudo, dados$pontuacao,
main = "Gráfico de Dispersão: Horas de Estudo vs. Pontuação",
xlab = "Horas de Estudo",
ylab = "Pontuação",
pch = 19, col = "blue")
Ajuste um modelo de regressão linear simples utilizando o método dos mínimos quadrados no R, com o número de horas de estudo como variável independente (x) e a pontuação como variável dependente (y).
modelo_regressao <- lm(pontuacao ~ horas_estudo, data = dados)
# Exibir o resumo do modelo
summary(modelo_regressao)
##
## Call:
## lm(formula = pontuacao ~ horas_estudo, data = dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.140 -3.219 -1.193 2.816 5.772
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 65.334 2.106 31.023 1.41e-13 ***
## horas_estudo 1.982 0.248 7.995 2.25e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.641 on 13 degrees of freedom
## Multiple R-squared: 0.831, Adjusted R-squared: 0.818
## F-statistic: 63.91 on 1 and 13 DF, p-value: 2.253e-06
Interprete os coeficientes do modelo ajustado: o intercepto e o coeficiente angular.
Intercepto (aproximadamente 62.06):
O intercepto representa a pontuação média esperada de um aluno que estudou 0 horas. Neste contexto, pode ser interpretado como a pontuação base que um aluno obteria na prova sem qualquer estudo prévio na semana anterior ao exame. É importante notar que, em alguns casos, a interpretação do intercepto pode não fazer sentido prático se o valor 0 para a variável independente estiver fora do escopo dos dados observados.
Coeficiente Angular (horas_estudo, aproximadamente 2.16):
O coeficiente angular indica a mudança média na pontuação esperada para cada aumento de uma unidade (uma hora) na variável independente (horas de estudo), mantendo outras variáveis constantes. Neste caso, para cada hora adicional de estudo, a pontuação esperada do aluno aumenta em aproximadamente 2.16 pontos.
Adicione a reta de regressão ao gráfico de dispersão.
plot(dados$horas_estudo, dados$pontuacao,
main = "Gráfico de Dispersão com Reta de Regressão",
xlab = "Horas de Estudo",
ylab = "Pontuação",
pch = 19, col = "blue")
abline(modelo_regressao, col = "red", lwd = 2)
Utilize o modelo para prever a pontuação esperada de um aluno que estudou 9 horas.
horas_previsao_9 <- data.frame(horas_estudo = 9)
pontuacao_prevista_9 <- predict(modelo_regressao, newdata = horas_previsao_9)
cat("Pontuação esperada para 9 horas de estudo: ", round(pontuacao_prevista_9, 2), "\n")
## Pontuação esperada para 9 horas de estudo: 83.18
Utilize o modelo para prever a pontuação esperada de um aluno que estudou 19 horas. Discuta.
horas_previsao_19 <- data.frame(horas_estudo = 19)
pontuacao_prevista_19 <- predict(modelo_regressao, newdata = horas_previsao_19)
cat("Pontuação esperada para 19 horas de estudo: ", round(pontuacao_prevista_19, 2), "\n")
## Pontuação esperada para 19 horas de estudo: 103
Discussão:
A previsão para 19 horas de estudo é uma extrapolação, pois 19 horas está fora do intervalo de horas de estudo observadas nos dados originais (que vão de 1 a 14 horas). A extrapolação pode ser arriscada, pois assume que a relação linear observada dentro do intervalo dos dados se mantém válida fora dele.No exemplo a pontuação foi maior que o maximo(100). É possível que, a partir de um certo ponto, o aumento nas horas de estudo não resulte em um aumento linear na pontuação, ou que outros fatores comecem a influenciar o desempenho de forma mais significativa. Portanto, a previsão de 19 horas deve ser interpretada com cautela e não reflete a realidade com precisão.
Avalie a qualidade do ajuste utilizando o R² (coeficiente de determinação).
summary(modelo_regressao)$r.squared
## [1] 0.8309798
Interpretação do R² (aproximadamente 0.83):
O R² (R-quadrado) é o coeficiente de determinação, que mede a proporção da variância da variável dependente (pontuação) que é explicada pela variável independente (horas de estudo) no modelo de regressão linear. Um R² de aproximadamente 0.83 (ou 83%) significa que 83% da variação na pontuação dos alunos pode ser explicada pelas horas de estudo. Os restantes 17% da variação são atribuídos a outros fatores não incluídos no modelo ou a variações aleatórias. Um R² de 0.83 indica um ajuste razoável do modelo aos dados, sugerindo que as horas de estudo são um preditor significativo da pontuação.
Plote os resíduos do modelo ajustado e verifique se estão distribuídos aleatoriamente. Identifique possíveis valores atípicos ou padrões nos resíduos.
plot(modelo_regressao$residuals,
main = "Resíduos do Modelo de Regressão",
xlab = "Índice da Observação",
ylab = "Resíduos",
pch = 19, col = "darkgreen")
abline(h = 0, col = "red", lty = 2)
Análise dos Resíduos:
Ao observar o gráfico de resíduos, procuramos por:
Neste gráfico, os resíduos parecem estar razoavelmente dispersos em torno de zero, sem um padrão óbvio que sugira uma violação grave das suposições do modelo linear. Não há valores atípicos extremamente proeminentes que se destaquem drasticamente dos demais. A distribuição parece ser relativamente aleatória, o que é um bom indicativo de que o modelo linear é apropriado para descrever a relação entre as variáveis.
O modelo mostra que estudar mais causa uma pontuação maior? Ou apenas que há uma associação? Discuta.
Discussão: Associação vs. Causalidade
O modelo de regressão linear ajustado demonstra uma associação positiva e estatisticamente significativa entre as horas de estudo e a pontuação na prova. Isso significa que, à medida que as horas de estudo aumentam, a pontuação tende a aumentar. O R² de 0.83 reforça essa associação, indicando que uma parte considerável da variação na pontuação é explicada pelas horas de estudo.
No entanto, associação não implica causalidade. Embora seja intuitivamente plausível que estudar mais cause uma pontuação maior, o modelo estatístico por si só não pode provar uma relação de causa e efeito. Existem várias razões para isso:
Variáveis Ocultas (Confounding Factors): Pode haver outras variáveis não medidas que influenciam tanto as horas de estudo quanto a pontuação. Por exemplo, a inteligência inata do aluno, a qualidade do material de estudo, a motivação, o nível socioeconômico, a qualidade do sono, ou até mesmo a participação em aulas particulares. Alunos mais inteligentes ou mais motivados podem estudar mais E obter pontuações mais altas, mas a causalidade não seria diretamente das horas de estudo, mas sim dessas variáveis ocultas.
Direção da Causalidade: Embora menos provável neste contexto, em algumas situações, a causalidade pode ser inversa ou bidirecional. Por exemplo, um bom desempenho inicial pode motivar o aluno a estudar mais, ou um aluno que já tem facilidade na matéria pode precisar de menos horas de estudo para obter uma boa pontuação.
Conclusão:
O modelo de regressão linear estabelece uma forte associação entre horas de estudo e pontuação. É uma relação preditiva útil, mas não fornece evidências diretas de que estudar mais causa intrinsecamente uma pontuação maior. Para inferir causalidade, seria necessário um desenho de pesquisa mais robusto, como um experimento controlado, que pudesse isolar o efeito das horas de estudo de outras variáveis influentes.