Detalhes do que será apresentado:

O banco de dados do arquivo Faculdades.xlsx apresenta alguns indicadores de 50 faculdades localizadas na Região Metropolitana de Fortaleza, a saber:
- mensalidade (Mensalidade, em Reais);
- distância da faculdade até o centro de Fortaleza (Distância, em km);
- total de alunos matriculados (Alunos);
- salário médio por professor em tempo integral (Salário, em reais).
Pede-se:
a) Elabora uma regressão múltipla considerando a mensalidade como variável dependente.
b) Analise o poder explicativo da regressão.
c) Analise a significância global e individual.
d) Elabore o diagnóstico dos resíduos.
e) Calcule a mensalidade com as seguintes características:
- distância = 17;
- total de alunos matriculados = 4700;
- salário médio por professor = 6300.

regressão múltipla

lm_mensalidade1 <- lm(Mensalidade ~ Distância + Alunos + Salário, data = Faculdades)
summary(lm_mensalidade1)
## 
## Call:
## lm(formula = Mensalidade ~ Distância + Alunos + Salário, data = Faculdades)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -338.43  -53.88    7.76   52.53  261.00 
## 
## Coefficients:
##               Estimate Std. Error t value     Pr(>|t|)    
## (Intercept) 575.386180  82.535270   6.971 0.0000000101 ***
## Distância    -8.039432   3.609097  -2.228       0.0308 *  
## Alunos        0.002880   0.003972   0.725       0.4720    
## Salário       0.041924   0.006341   6.611 0.0000000349 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 96.37 on 46 degrees of freedom
## Multiple R-squared:  0.7912, Adjusted R-squared:  0.7775 
## F-statistic: 58.09 on 3 and 46 DF,  p-value: 0.000000000000001117
#outra forma para visualizar os dados
stargazer(lm_mensalidade1, type = 'text', title = 'Estimativa de Mensalidades por OLS',
 dep.var.labels = 'Mensalidades', covariate.labels = c('Distancia Centro', 'qtd Alunos', 'Salarios Professores'),
 omit.stat = 'ser', ci = TRUE, single.row = TRUE)
## 
## Estimativa de Mensalidades por OLS
## ==================================================
##                           Dependent variable:     
##                      -----------------------------
##                              Mensalidades         
## --------------------------------------------------
## Distancia Centro      -8.039** (-15.113, -0.966)  
## qtd Alunos               0.003 (-0.005, 0.011)    
## Salarios Professores    0.042*** (0.029, 0.054)   
## Constant             575.386*** (413.620, 737.152)
## --------------------------------------------------
## Observations                      50              
## R2                               0.791            
## Adjusted R2                      0.778            
## F Statistic             58.086*** (df = 3; 46)    
## ==================================================
## Note:                  *p<0.1; **p<0.05; ***p<0.01
  1. Resumo dos Resíduos
    Min, 1Q, Median, 3Q, Max:
    Estes são os valores mínimos, primeiro quartil, mediana, terceiro quartil e máximo dos resíduos. Nesse caso:
    O valor mínimo do resíduo é -338.43 e o máximo é 261.00. A mediana é 7.76, sugerindo que, em média, os resíduos estão centralizados em torno de zero, provando assim exogeneidade do modelo. A distribuição dos resíduos indica que os erros variam, com uma assimetria relativamente leve, considerando o intervalo.

  2. Coeficientes
    Intercepto: O valor estimado do intercepto é 575.39. Isso significa que, se todas as variáveis explicativas (Distância, Alunos e Salário) forem zero, a mensalidade prevista seria aproximadamente R$575,39.

Distancia: O coeficiente de -8.04 indica que, mantendo as outras variáveis constantes, para cada unidade adicional na distância, a mensalidade diminui em R$8,04. O valor-p associado é 0.0308, que é menor que 0.05, indicando que o coeficiente é estatisticamente significativo ao nível de 5%.

Alunos: O coeficiente é 0.0029, mas com um valor-p de 0.4720. Isso indica que, com um nível de significância usual de 5%, este coeficiente não é estatisticamente significativo. Ou seja, o número de alunos parece não ter um impacto significativo na mensalidade.
Salário: O coeficiente é 0.0419, indicando que, para cada aumento de uma unidade no salário (provavelmente em uma unidade monetária consistente com a mensalidade), a mensalidade aumenta em R$0.0419, assumindo que as demais variáveis são constantes. O valor-p é 3.49e-08, tornando este coeficiente altamente significativo (***).

Erro Padrão Residual
O erro padrão residual de 96.37 é uma medida da variação dos resíduos em torno das previsões do modelo. Isso indica, aproximadamente, o desvio médio dos valores reais da mensalidade em relação ao valor previsto pelo modelo.

  1. R² e R² Ajustado
    Multiple R-squared: O valor de 0.7912 indica que aproximadamente 79,12% da variação na mensalidade é explicada pelas variáveis independentes (Distância, Alunos e Salário) incluídas no modelo.
    Adjusted R-squared: O R² ajustado de 0.7775 é um pouco menor, mas ainda alto, sugerindo que o modelo explica bem a variação na variável dependente, mesmo após ajustar para o número de variáveis incluídas.

Normalidade e homoecedasticidade dos residuos

# plotagem de resíduos simplificada
par(mfrow = c(1, 2))
plot(lm_mensalidade1$fitted.values, lm_mensalidade1$residuals, main = "Modelo 1: Resíduos vs.
Valores Ajustados")

Aparentemente os erros de fato são homocedasticos e na média tendem 0

shapiro.test(lm_mensalidade1$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  lm_mensalidade1$residuals
## W = 0.94902, p-value = 0.03111

Entretanto, ao fazer o teste, com um valor-p de 0.03111, que é menor que 0.05, rejeitamos a hipótese nula de que os resíduos seguem uma distribuição normal ao nível de significância de 5%. Isso indica que há evidências de que os resíduos do modelo não são normalmente distribuídos. Rejeitando então a hipotese de homocedasticidade?

bptest(lm_mensalidade1)
## 
##  studentized Breusch-Pagan test
## 
## data:  lm_mensalidade1
## BP = 4.3824, df = 3, p-value = 0.223

Ao realizar Teste de Breusch-Pagan Com um valor-p de 0.223, que é maior que o nível de significância comum de 0.05, não rejeitamos a hipótese nula de homoscedasticidade. Isso significa que não há evidências estatísticas suficientes para afirmar que existe heterocedasticidade nos resíduos do modelo lm_mensalidade1. Em outras palavras, os resíduos parecem ter variância constante, o que é consistente com a suposição de homoscedasticidade exigida pelas condições de Gauss-Markov.

Teste de normalidade variaveis Independentes

colunas_para_teste <- c("Mensalidade" ,"Distância" ,"Alunos","Salário")
resultado_normalidade <- data.frame(variable = character(), p.value = numeric(),  stringsAsFactors = FALSE)

for (coluna in colunas_para_teste) {
  teste_shapiro <- shapiro.test(Faculdades[[coluna]])
  resultado_normalidade <- rbind(resultado_normalidade, data.frame(variable = coluna, p.value = teste_shapiro$p.value))
}

resultado_normalidade
##      variable      p.value
## 1 Mensalidade 0.0371018612
## 2   Distância 0.0588734209
## 3      Alunos 0.0408150325
## 4     Salário 0.0001527283

Como os valores-p para as variáveis Mensalidade, Alunos e Salário são menores do que 0,05, rejeitamos a hipótese nula de que estas variáveis seguem uma distribuição normal ao nível de significância de 5%. Isso indica que, com 95% de confiança, essas variáveis não são normalmente distribuídas.

Para a variável Distância, o valor-p é um pouco maior que 0,05, o que sugere que ela não rejeita fortemente a normalidade ao nível de 5%. No entanto, este valor está próximo ao limite

Resposta da questão E

\(Yi = 575,386 + -8,039DistCentro + 0,003QtdAlunos + 0,042SalarioProfessores\)

\(Yi = 717.423\)