O banco de dados do arquivo Faculdades.xlsx apresenta alguns
indicadores de 50 faculdades localizadas na Região Metropolitana de
Fortaleza, a saber:
- mensalidade (Mensalidade, em Reais);
-
distância da faculdade até o centro de Fortaleza (Distância, em km);
- total de alunos matriculados (Alunos);
- salário médio por
professor em tempo integral (Salário, em reais).
Pede-se:
a) Elabora uma regressão múltipla considerando
a mensalidade como variável dependente.
b)
Analise o poder explicativo da regressão.
c) Analise a significância global e
individual.
d) Elabore o diagnóstico dos
resíduos.
e) Calcule a mensalidade com as
seguintes características:
- distância = 17;
- total de alunos
matriculados = 4700;
- salário médio por professor = 6300.
lm_mensalidade1 <- lm(Mensalidade ~ Distância + Alunos + Salário, data = Faculdades)
summary(lm_mensalidade1)
##
## Call:
## lm(formula = Mensalidade ~ Distância + Alunos + Salário, data = Faculdades)
##
## Residuals:
## Min 1Q Median 3Q Max
## -338.43 -53.88 7.76 52.53 261.00
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 575.386180 82.535270 6.971 0.0000000101 ***
## Distância -8.039432 3.609097 -2.228 0.0308 *
## Alunos 0.002880 0.003972 0.725 0.4720
## Salário 0.041924 0.006341 6.611 0.0000000349 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 96.37 on 46 degrees of freedom
## Multiple R-squared: 0.7912, Adjusted R-squared: 0.7775
## F-statistic: 58.09 on 3 and 46 DF, p-value: 0.000000000000001117
#outra forma para visualizar os dados
stargazer(lm_mensalidade1, type = 'text', title = 'Estimativa de Mensalidades por OLS',
dep.var.labels = 'Mensalidades', covariate.labels = c('Distancia Centro', 'qtd Alunos', 'Salarios Professores'),
omit.stat = 'ser', ci = TRUE, single.row = TRUE)
##
## Estimativa de Mensalidades por OLS
## ==================================================
## Dependent variable:
## -----------------------------
## Mensalidades
## --------------------------------------------------
## Distancia Centro -8.039** (-15.113, -0.966)
## qtd Alunos 0.003 (-0.005, 0.011)
## Salarios Professores 0.042*** (0.029, 0.054)
## Constant 575.386*** (413.620, 737.152)
## --------------------------------------------------
## Observations 50
## R2 0.791
## Adjusted R2 0.778
## F Statistic 58.086*** (df = 3; 46)
## ==================================================
## Note: *p<0.1; **p<0.05; ***p<0.01
Resumo dos Resíduos
Min, 1Q,
Median, 3Q, Max:
Estes são os valores mínimos, primeiro quartil,
mediana, terceiro quartil e máximo dos resíduos. Nesse caso:
O valor
mínimo do resíduo é -338.43 e o máximo é 261.00. A mediana é 7.76,
sugerindo que, em média, os resíduos estão centralizados em torno de
zero, provando assim exogeneidade do modelo. A distribuição dos resíduos
indica que os erros variam, com uma assimetria relativamente leve,
considerando o intervalo.
Coeficientes
Intercepto: O valor estimado do intercepto é
575.39. Isso significa que, se todas as variáveis explicativas
(Distância, Alunos e Salário) forem zero, a mensalidade prevista seria
aproximadamente R$575,39.
Distancia: O coeficiente de -8.04 indica
que, mantendo as outras variáveis constantes, para cada unidade
adicional na distância, a mensalidade diminui em R$8,04. O valor-p
associado é 0.0308, que é menor que 0.05, indicando que o coeficiente é
estatisticamente significativo ao nível de 5%.
Alunos: O coeficiente é 0.0029, mas com um
valor-p de 0.4720. Isso indica que, com um nível de significância usual
de 5%, este coeficiente não é estatisticamente significativo. Ou seja, o
número de alunos parece não ter um impacto significativo na
mensalidade.
Salário: O coeficiente é
0.0419, indicando que, para cada aumento de uma unidade no salário
(provavelmente em uma unidade monetária consistente com a mensalidade),
a mensalidade aumenta em R$0.0419, assumindo que as demais variáveis são
constantes. O valor-p é 3.49e-08, tornando este coeficiente altamente
significativo (***).
Erro Padrão Residual
O erro padrão
residual de 96.37 é uma medida da variação dos resíduos em torno das
previsões do modelo. Isso indica, aproximadamente, o desvio médio dos
valores reais da mensalidade em relação ao valor previsto pelo
modelo.
# plotagem de resíduos simplificada
par(mfrow = c(1, 2))
plot(lm_mensalidade1$fitted.values, lm_mensalidade1$residuals, main = "Modelo 1: Resíduos vs.
Valores Ajustados")
Aparentemente os erros de fato são homocedasticos e na média tendem 0
shapiro.test(lm_mensalidade1$residuals)
##
## Shapiro-Wilk normality test
##
## data: lm_mensalidade1$residuals
## W = 0.94902, p-value = 0.03111
Entretanto, ao fazer o teste, com um valor-p de 0.03111, que é menor que 0.05, rejeitamos a hipótese nula de que os resíduos seguem uma distribuição normal ao nível de significância de 5%. Isso indica que há evidências de que os resíduos do modelo não são normalmente distribuídos. Rejeitando então a hipotese de homocedasticidade?
bptest(lm_mensalidade1)
##
## studentized Breusch-Pagan test
##
## data: lm_mensalidade1
## BP = 4.3824, df = 3, p-value = 0.223
Ao realizar Teste de Breusch-Pagan Com um valor-p de 0.223, que é maior que o nível de significância comum de 0.05, não rejeitamos a hipótese nula de homoscedasticidade. Isso significa que não há evidências estatísticas suficientes para afirmar que existe heterocedasticidade nos resíduos do modelo lm_mensalidade1. Em outras palavras, os resíduos parecem ter variância constante, o que é consistente com a suposição de homoscedasticidade exigida pelas condições de Gauss-Markov.
colunas_para_teste <- c("Mensalidade" ,"Distância" ,"Alunos","Salário")
resultado_normalidade <- data.frame(variable = character(), p.value = numeric(), stringsAsFactors = FALSE)
for (coluna in colunas_para_teste) {
teste_shapiro <- shapiro.test(Faculdades[[coluna]])
resultado_normalidade <- rbind(resultado_normalidade, data.frame(variable = coluna, p.value = teste_shapiro$p.value))
}
resultado_normalidade
## variable p.value
## 1 Mensalidade 0.0371018612
## 2 Distância 0.0588734209
## 3 Alunos 0.0408150325
## 4 Salário 0.0001527283
Como os valores-p para as variáveis Mensalidade, Alunos e Salário são
menores do que 0,05, rejeitamos a hipótese nula de que estas variáveis
seguem uma distribuição normal ao nível de significância de 5%. Isso
indica que, com 95% de confiança, essas variáveis não são normalmente
distribuídas.
Para a variável Distância, o valor-p é um pouco maior que 0,05, o que
sugere que ela não rejeita fortemente a normalidade ao nível de 5%. No
entanto, este valor está próximo ao limite
\(Yi = 575,386 + -8,039DistCentro +
0,003QtdAlunos + 0,042SalarioProfessores\)
\(Yi = 717.423\)