Objetivo da análise: O objetivo central da análise é verificar se a variável Horas Estudadas segue uma distribuição normal, tanto por meio de visualizações gráficas (histogramas) quanto por um teste formal (Shapiro-Wilk). Isso é importante, pois muitas análises estatísticas subsequentes assumem que os dados se comportam de maneira normalmente distribuída.
O conjunto de dados contém 1.240 observações e 2 colunas: Horas_Estudadas: Representa o número de horas que cada aluno estudou. Esta coluna contém valores inteiros. Nota_Exam: Representa a nota do aluno no exame. Também contém valores inteiros. Ambas as colunas estão completamente preenchidas, sem valores ausentes. Esse conjunto de dados é usado para verificar a relação entre o tempo de estudo e o desempenho no exame, e a análise de normalidade é aplicada à variável Horas_Estudadas.
library(readxl)
library(ggplot2)
#Bibliotecas utilizadas: readxl para ler dados de excel e ggplot2 para criar gráficos, especificamente histogramas, e sobrepor funções de densidade.
alunos <- read_excel("alunos.xlsx")
media = mean(alunos$Horas_Estudadas)
des.pad = sd(alunos$Horas_Estudadas)
Análise Estatística Inicial: Foram calculados a média e o desvio padrão das horas estudadas pelos alunos. Esses valores servem de base para a construção de uma curva de densidade normal teórica, que será comparada com a distribuição observada.
ggplot(alunos, aes(x=Horas_Estudadas)) +
geom_histogram(aes(y = after_stat(density)), fill='blue', col='black') +
geom_function(fun=dnorm, args= list(mean=media , sd=des.pad),
col='red',lwd=2,lty=5)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
ggplot(alunos, aes(x=Horas_Estudadas)) +
geom_histogram(aes(y = after_stat(density)), fill='blue', col='black',bins = 15) +
geom_function(fun=dnorm, args= list(mean=media , sd=des.pad),
col='red',lwd=2,lty=5)
Visualização Gráfica: Dois histogramas são gerados para observar a distribuição das horas estudadas. Em ambos os gráficos, uma curva normal teórica (com base nos dados) é sobreposta para facilitar a comparação visual. A diferença entre os gráficos reside na quantidade de bins (categorias), que no segundo gráfico é ajustada para 15.
#Teste de aderência Shapiro_Wilk
shapiro.test(alunos$Horas_Estudadas)
##
## Shapiro-Wilk normality test
##
## data: alunos$Horas_Estudadas
## W = 0.99646, p-value = 0.006249
Teste de Normalidade (Shapiro-Wilk): Um teste formal de normalidade é aplicado à variável Horas Estudadas. O teste de Shapiro-Wilk avalia a aderência dos dados a uma distribuição normal, sendo útil para confirmar ou refutar a hipótese de que os dados seguem essa distribuição.