Iniciamos criando uma data frame (“Dados”) com os dados de número de alunos e pontuação média

Dados <- data.frame("Numero.de.alunos" = c(23,19,30,22,23,29,35,36,33,25),
           "Pontuacao.media" = c(430,430,333,410,390,377,325,310,328,375))

Questão 1: Um gráfico de dispersão cujo eixo x (horizontal) é o número de alunos na turma e o eixo y (vertical) é a pontuação média.’

Para a primeira questão utilizamos o pacote “ggplot2” e “dplyr” (%>%). A primeira linha do código abaixo determina quais dados estarão no eixo x e quais no eixo y; a segunda linha determina qual será o tipo de gráfico, no caso, criaremos um gráfico de dispersão

Q1 <- Dados %>% ggplot(aes(x = Numero.de.alunos, y = Pontuacao.media)) + 
  geom_point()  

Questão 2: A média, a variância, e o desvio padrão da pontuação média dos alunos.

Definimos a variável Q2 que gera uma data frame com a média, variância e desvio padrão da pontuação média dos alunos.

Q2 <- summarize(Dados, media = mean(Pontuacao.media),
          variancia = var(Pontuacao.media),
          desvio_padrao = sd(Pontuacao.media))
##   media variancia desvio_padrao
## 1 370.8  2002.844      44.75315

Questão 3: A covariância e a correlação entre o número de alunos e a pontuação média.

Definimos a variável Q3 que gera uma data frame com a covariância e a correlação entre o número de alunos e a pontuação média

Q3 <- summarize(Dados, covariancia = cov(Numero.de.alunos, Pontuacao.media),
                correlacao = cor(Numero.de.alunos, Pontuacao.media))
##   covariancia correlacao
## 1   -251.4444 -0.9474424

Questão 4: Os resultados de um modelo linear em que o número de alunos na turma é a variável que explica as notas médias por turma no ENEM.

Utilizamos a função “lm” que produz uma regressão linear entre as duas variáveis escolhidas. No caso, a Pontuação Média é a variável dependente, enquanto o Número de Alunos é a variável independente (explicativa).

Q4 <- lm(Pontuacao.media ~ Numero.de.alunos, data = Dados)
## 
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos, data = Dados)
## 
## Coefficients:
##      (Intercept)  Numero.de.alunos  
##           567.43             -7.15

Questão 5: O gráfico de dispersão feito anteriormente, mas agora com a incorporação da reta da regressão do modelo na cor azul.

Adicionamos, nesse ponto, ao gráfico da questão 1, a função “geom_smooth” com o argumento “method = lm” - reta deve ser uma regressão - e “se = FALSE” - elimina as “bandas” da reta de regressão.

Q5 <- Q1 + geom_smooth(method = "lm", se = FALSE)

Questão 6: O R² do modelo com 2 casas decimas.

R² é a correlação ao quadrado (https://cutt.ly/ohILHfy)

Q6 <-(cor(Dados$Numero.de.alunos, Dados$Pontuacao.media))^2
## [1] 0.8976472

Questão 7: Uma tabela com os coeficientes estimados (intercepto e coeficiente angular), erros padrão, estatísticas t, e p-valores da variável explicativa e do intercepto do modelo.

Utilizamos a função “summary” para dispor os dados requisitados

Q7 <- summary(Q4)
## 
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos, data = Dados)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -19.9248 -10.6002  -0.8506   5.8631  27.0246 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      567.4272    23.9606  23.682 1.08e-08 ***
## Numero.de.alunos  -7.1501     0.8536  -8.376 3.13e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.19 on 8 degrees of freedom
## Multiple R-squared:  0.8976, Adjusted R-squared:  0.8849 
## F-statistic: 70.16 on 1 and 8 DF,  p-value: 3.132e-05

Questão 8: Apresente a matriz de variâncias e covariâncias desses coeficientes.

coef_Q7 <- coef(Q7)
matriz_cov <- cov(coef_Q7)
##            Estimate Std. Error t value Pr(>|t|)
## Estimate   165069.5     6638.4  9209.9        0
## Std. Error   6638.4      267.0   370.4        0
## t value      9209.9      370.4   513.9        0
## Pr(>|t|)        0.0        0.0     0.0        0

Questão 9: Com base no valor estimado do intercepto e do seu erro padrão, mostre a relação dos mesmos com a fórmula da estatística t e efetue um teste de hipóteses (lembre-se da primeira lista de exercícios) investigando se o valor do intercepto é estatisticamente igual a zero ou se ele é diferente de zero. Apresente o p-valor desse teste de hipóteses. É possível rejeitar a hipótese nula a um nível de significância de 5%? Justifique.

##                    Estimate Std. Error   t value     Pr(>|t|)
## (Intercept)      567.427172 23.9606448 23.681632 1.075914e-08
## Numero.de.alunos  -7.150079  0.8536168 -8.376216 3.132287e-05

Utilizamos a função “identical” para testar se a estatística-t é a razão entre a estimativa do coeficiente e o erro-padrão.

identical(coef_Q7[1]/coef_Q7[3], coef_Q7[5])
## [1] TRUE

Dado que a resposta foi “TRUE”, podemos dizer que a estatística-t é a razão entre a estimativa do coeficiente e o erro padrão.

Ademais, não podemos afirmar que o valor do intercepto é estatisticamente igual a 0, já que, o P-Valor (que indica a probabilidade de pertencer a uma distribuição com média 0) é muito baixo.

Para corroborar a afirmação acima, utilizamos os operadores lógicos para descobrir se o P-valor do intercepto é mesmo menor que 0.05 (5%).

coef_Q7[7] < 0.05
## [1] TRUE

Agora, imprimimos o P-Valor do Intercepto.

## [1] 1.075914e-08

E, por fim, afirmamos que podemos rejeitar a hipótese nula (pertence a uma distribuição com média 0?) a um nível de significância de 5%.

Questão 10: . Repita o procedimento da questão acima para a variável explicativa “Número de Alunos na Turma”. Apresente o p-valor do teste de hipóteses. É possível rejeitar a hipótese nula a um nível de significância de 5%?

Utilizamos a função “identical” para testar se a estatística-t é a razão entre a estimativa do coeficiente e o erro-padrão.

identical(coef_Q7[2]/coef_Q7[4], coef_Q7[6])
## [1] TRUE

Dado que a resposta foi “TRUE”, podemos dizer que a estatística-t é a razão entre a estimativa do coeficiente e o erro padrão.

Ademais, não podemos afirmar que o valor da variável explicativa é estatisticamente igual a 0, já que, o P-Valor (que indica a probabilidade de pertencer a uma distribuição com média 0) é muito baixo.

Para corroborar a afirmação acima, utilizamos os operadores lógicos para descobrir se o P-valor do da é mesmo menor que 0.05 (5%).

coef_Q7[8] < 0.05
## [1] TRUE

Agora, imprimimos o P-Valor do Intercepto.

## [1] 3.132287e-05

E, por fim, afirmamos que podemos rejeitar a hipótese nula (pertence a uma distribuição com média 0?) a um nível de significância de 5%.

Questão 11: Parta da mesma base de dados utilizada acima e elabore um modelo sem intercepto e apresente as principais informações do modelo (função summary).

https://stackoverflow.com/questions/14216893/how-to-remove-intercept-in-r

Q11 <- lm(Pontuacao.media ~ Numero.de.alunos - 1, data = Dados)
## 
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos - 1, data = Dados)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -145.57  -78.87   34.32  123.43  189.56 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## Numero.de.alunos    12.65       1.36   9.304  6.5e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 120.7 on 9 degrees of freedom
## Multiple R-squared:  0.9058, Adjusted R-squared:  0.8954 
## F-statistic: 86.57 on 1 and 9 DF,  p-value: 6.501e-06

Questão 12: Insira, na cor vermelha e no mesmo gráfico feito anteriormente, a reta de regressão do modelo sem intercepto.

Q12 <- Q5 + geom_abline(intercept = 0, slope = coef(Q11), color = "red")

Questão 13: Compare os coeficientes angulares dos dois modelos. Qual é a diferença entre os modelos? E qual modelo você utilizaria para fazer inferências sobre a relação entre n. de alunos e nota no ENEM? Justifique sua resposta em termos estatísticos.

A diferença entre os modelos está na equação da regressão: na regressão sem intercepto o alfa (intercepto) é omitido, ou seja, \(Y_i = \beta_2X_i + \mu_i\).

Para realizar inferências o modelo com intercepto é muito mais apropriado, já que no modelo sem intercepto a mediana (média) dos resíduos é bastante diferente de 0 (34,32). Isso é um problema dado que um dos pressupostos do Método de Mínimos Quadrados é que a esperança dos resíduos seja igual a 0 (\(E[\mu_i] = 0\)).

Além dessa justificativa estatítistica temos também uma intuição sobre o problema:

Uma reta que passa pela origem deve, obrigatoriamente, passar pelo 1° e 3° quadrantes ou pelo 2° e 4°quadrantes. Como trabalhamos apenas com valores positivos (número de alunos em cada sala e média de notas positivas) todos nossos dados estarão dispostos apenas no 1° quadrante. Sendo assim, a única reta de regressão que passa pela origem e pertence ao primeiro quadrante possui, necessariamente, inclinação positiva. Dessa forma, independentemente da FGD a regressão possui uma inclinação positiva, o que , obviamente, é indesejável, principalmente quando trabalhamos com variáveis aleatórias que o analista espera que possuam correlação negativa (seria extremamente difícil argumentar que é esperado uma média maior de notas em salas superlotadas em comparação com turmas com poucos alunos).