Objetivo da análise: O objetivo central da análise é verificar se a variável Horas Estudadas segue uma distribuição normal, tanto por meio de visualizações gráficas (histogramas) quanto por um teste formal (Shapiro-Wilk). Isso é importante, pois muitas análises estatísticas subsequentes assumem que os dados se comportam de maneira normalmente distribuída.

O conjunto de dados contém 1.240 observações e 2 colunas: Horas_Estudadas: Representa o número de horas que cada aluno estudou. Esta coluna contém valores inteiros. Nota_Exam: Representa a nota do aluno no exame. Também contém valores inteiros. Ambas as colunas estão completamente preenchidas, sem valores ausentes. Esse conjunto de dados é usado para verificar a relação entre o tempo de estudo e o desempenho no exame, e a análise de normalidade é aplicada à variável Horas_Estudadas.

library(readxl)
library(ggplot2)

#Bibliotecas utilizadas: readxl para ler dados de excel e ggplot2 para criar gráficos, especificamente histogramas, e sobrepor funções de densidade.

alunos <- read_excel("alunos.xlsx")
media = mean(alunos$Horas_Estudadas)
des.pad = sd(alunos$Horas_Estudadas)

Análise Estatística Inicial: Foram calculados a média e o desvio padrão das horas estudadas pelos alunos. Esses valores servem de base para a construção de uma curva de densidade normal teórica, que será comparada com a distribuição observada.

ggplot(alunos, aes(x=Horas_Estudadas)) + 
  geom_histogram(aes(y = after_stat(density)), fill='blue', col='black') +
  geom_function(fun=dnorm, args= list(mean=media , sd=des.pad), 
                col='red',lwd=2,lty=5)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(alunos, aes(x=Horas_Estudadas)) + 
  geom_histogram(aes(y = after_stat(density)), fill='blue', col='black',bins = 15) +
  geom_function(fun=dnorm, args= list(mean=media , sd=des.pad), 
                col='red',lwd=2,lty=5)

Visualização Gráfica: Dois histogramas são gerados para observar a distribuição das horas estudadas. Em ambos os gráficos, uma curva normal teórica (com base nos dados) é sobreposta para facilitar a comparação visual. A diferença entre os gráficos reside na quantidade de bins (categorias), que no segundo gráfico é ajustada para 15.

#Teste de aderência Shapiro_Wilk
shapiro.test(alunos$Horas_Estudadas)
## 
##  Shapiro-Wilk normality test
## 
## data:  alunos$Horas_Estudadas
## W = 0.99646, p-value = 0.006249

Teste de Normalidade (Shapiro-Wilk): Um teste formal de normalidade é aplicado à variável Horas Estudadas. O teste de Shapiro-Wilk avalia a aderência dos dados a uma distribuição normal, sendo útil para confirmar ou refutar a hipótese de que os dados seguem essa distribuição.