Iniciamos criando uma data frame (“Dados”) com os dados de número de alunos e pontuação média
Dados <- data.frame("Numero.de.alunos" = c(23,19,30,22,23,29,35,36,33,25),
"Pontuacao.media" = c(430,430,333,410,390,377,325,310,328,375))
Para a primeira questão utilizamos o pacote “ggplot2” e “dplyr” (%>%). A primeira linha do código abaixo determina quais dados estarão no eixo x e quais no eixo y; a segunda linha determina qual será o tipo de gráfico, no caso, criaremos um gráfico de dispersão
Q1 <- Dados %>% ggplot(aes(x = Numero.de.alunos, y = Pontuacao.media)) +
geom_point()
Definimos a variável Q2 que gera uma data frame com a média, variância e desvio padrão da pontuação média dos alunos.
Q2 <- summarize(Dados, media = mean(Pontuacao.media),
variancia = var(Pontuacao.media),
desvio_padrao = sd(Pontuacao.media))
## media variancia desvio_padrao
## 1 370.8 2002.844 44.75315
Definimos a variável Q3 que gera uma data frame com a covariância e a correlação entre o número de alunos e a pontuação média
Q3 <- summarize(Dados, covariancia = cov(Numero.de.alunos, Pontuacao.media),
correlacao = cor(Numero.de.alunos, Pontuacao.media))
## covariancia correlacao
## 1 -251.4444 -0.9474424
Utilizamos a função “lm” que produz uma regressão linear entre as duas variáveis escolhidas. No caso, a Pontuação Média é a variável dependente, enquanto o Número de Alunos é a variável independente (explicativa).
Q4 <- lm(Pontuacao.media ~ Numero.de.alunos, data = Dados)
##
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos, data = Dados)
##
## Coefficients:
## (Intercept) Numero.de.alunos
## 567.43 -7.15
Adicionamos, nesse ponto, ao gráfico da questão 1, a função “geom_smooth” com o argumento “method = lm” - reta deve ser uma regressão - e “se = FALSE” - elimina as “bandas” da reta de regressão.
Q5 <- Q1 + geom_smooth(method = "lm", se = FALSE)
R² é a correlação ao quadrado (https://cutt.ly/ohILHfy)
Q6 <-(cor(Dados$Numero.de.alunos, Dados$Pontuacao.media))^2
## [1] 0.8976472
Utilizamos a função “summary” para dispor os dados requisitados
Q7 <- summary(Q4)
##
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos, data = Dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -19.9248 -10.6002 -0.8506 5.8631 27.0246
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 567.4272 23.9606 23.682 1.08e-08 ***
## Numero.de.alunos -7.1501 0.8536 -8.376 3.13e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 15.19 on 8 degrees of freedom
## Multiple R-squared: 0.8976, Adjusted R-squared: 0.8849
## F-statistic: 70.16 on 1 and 8 DF, p-value: 3.132e-05
coef_Q7 <- coef(Q7)
matriz_cov <- cov(coef_Q7)
## Estimate Std. Error t value Pr(>|t|)
## Estimate 165069.5 6638.4 9209.9 0
## Std. Error 6638.4 267.0 370.4 0
## t value 9209.9 370.4 513.9 0
## Pr(>|t|) 0.0 0.0 0.0 0
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 567.427172 23.9606448 23.681632 1.075914e-08
## Numero.de.alunos -7.150079 0.8536168 -8.376216 3.132287e-05
Utilizamos a função “identical” para testar se a estatística-t é a razão entre a estimativa do coeficiente e o erro-padrão.
identical(coef_Q7[1]/coef_Q7[3], coef_Q7[5])
## [1] TRUE
Dado que a resposta foi “TRUE”, podemos dizer que a estatística-t é a razão entre a estimativa do coeficiente e o erro padrão.
Ademais, não podemos afirmar que o valor do intercepto é estatisticamente igual a 0, já que, o P-Valor (que indica a probabilidade de pertencer a uma distribuição com média 0) é muito baixo.
Para corroborar a afirmação acima, utilizamos os operadores lógicos para descobrir se o P-valor do intercepto é mesmo menor que 0.05 (5%).
coef_Q7[7] < 0.05
## [1] TRUE
Agora, imprimimos o P-Valor do Intercepto.
## [1] 1.075914e-08
E, por fim, afirmamos que podemos rejeitar a hipótese nula (pertence a uma distribuição com média 0?) a um nível de significância de 5%.
Utilizamos a função “identical” para testar se a estatística-t é a razão entre a estimativa do coeficiente e o erro-padrão.
identical(coef_Q7[2]/coef_Q7[4], coef_Q7[6])
## [1] TRUE
Dado que a resposta foi “TRUE”, podemos dizer que a estatística-t é a razão entre a estimativa do coeficiente e o erro padrão.
Ademais, não podemos afirmar que o valor da variável explicativa é estatisticamente igual a 0, já que, o P-Valor (que indica a probabilidade de pertencer a uma distribuição com média 0) é muito baixo.
Para corroborar a afirmação acima, utilizamos os operadores lógicos para descobrir se o P-valor do da é mesmo menor que 0.05 (5%).
coef_Q7[8] < 0.05
## [1] TRUE
Agora, imprimimos o P-Valor do Intercepto.
## [1] 3.132287e-05
E, por fim, afirmamos que podemos rejeitar a hipótese nula (pertence a uma distribuição com média 0?) a um nível de significância de 5%.
https://stackoverflow.com/questions/14216893/how-to-remove-intercept-in-r
Q11 <- lm(Pontuacao.media ~ Numero.de.alunos - 1, data = Dados)
##
## Call:
## lm(formula = Pontuacao.media ~ Numero.de.alunos - 1, data = Dados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -145.57 -78.87 34.32 123.43 189.56
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## Numero.de.alunos 12.65 1.36 9.304 6.5e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 120.7 on 9 degrees of freedom
## Multiple R-squared: 0.9058, Adjusted R-squared: 0.8954
## F-statistic: 86.57 on 1 and 9 DF, p-value: 6.501e-06
Q12 <- Q5 + geom_abline(intercept = 0, slope = coef(Q11), color = "red")
A diferença entre os modelos está na equação da regressão: na regressão sem intercepto o alfa (intercepto) é omitido, ou seja, \(Y_i = \beta_2X_i + \mu_i\).
Para realizar inferências o modelo com intercepto é muito mais apropriado, já que no modelo sem intercepto a mediana (média) dos resíduos é bastante diferente de 0 (34,32). Isso é um problema dado que um dos pressupostos do Método de Mínimos Quadrados é que a esperança dos resíduos seja igual a 0 (\(E[\mu_i] = 0\)).
Além dessa justificativa estatítistica temos também uma intuição sobre o problema:
Uma reta que passa pela origem deve, obrigatoriamente, passar pelo 1° e 3° quadrantes ou pelo 2° e 4°quadrantes. Como trabalhamos apenas com valores positivos (número de alunos em cada sala e média de notas positivas) todos nossos dados estarão dispostos apenas no 1° quadrante. Sendo assim, a única reta de regressão que passa pela origem e pertence ao primeiro quadrante possui, necessariamente, inclinação positiva. Dessa forma, independentemente da FGD a regressão possui uma inclinação positiva, o que , obviamente, é indesejável, principalmente quando trabalhamos com variáveis aleatórias que o analista espera que possuam correlação negativa (seria extremamente difícil argumentar que é esperado uma média maior de notas em salas superlotadas em comparação com turmas com poucos alunos).