O presente estudo trata-se de uma atividade proposta na terceira aula da matéria de "Estatística aplicada à Engenharia" ministrada no dia 8 de novembro de 2021 pelo professor Steven Dutt-Ross.
Para esse trabalho, foi disponibilizada a base de dados “Turma_stat500”, que é um arquivo RData. Desse modo, todas os tratamentos e análises dos dados desse estudo foram feitos dentro do softwaer RStudio.
Os dados trabalhados tratam-se de variáveis quantitativas contínuas. Para a visualização de dados dessa natureza, recomenda-se a utilização de gráficos que permitam observar a amplitude dos dados, sua dispersão, simetrias, bem como valores discrepantes. Em razão disso, o histograma foi utilizado para análise gráfica.
Ao carregar a base de dados no software RStudio, é possível fazer algumas observações.
load("~/POSCIVIL/ESTATISTICA/Aulas/Base_de_dados-master/Turma_stat500.RData")
head(stat500)
primeira_avaliacao dever_de_casa segunda_avaliacao
1 40.87208 40.56399 39.90091
2 40.45500 40.48901 39.59812
3 40.66354 40.51400 40.00184
4 40.66354 40.73896 41.61671
5 40.45500 40.26405 40.80927
6 39.09948 40.31404 40.91020
Verifica-se que a base apresenta notas, supostamente de alunos, na primeira avaliação, nos deveres de casa e na segunda avaliação.
Observando em um primeiro momento, os valores apresentados parecem não variar muito.
Aplicando a função “str()”, é possível obter informações quanto à estrutura desses dados.
str(stat500)
'data.frame': 55 obs. of 3 variables:
$ primeira_avaliacao: num 40.9 40.5 40.7 40.7 40.5 ...
$ dever_de_casa : num 40.6 40.5 40.5 40.7 40.3 ...
$ segunda_avaliacao : num 39.9 39.6 40 41.6 40.8 ...
A base está no formato de dataframe e apresenta uma amostra com 55 observações de três variáveis numéricas.
Para facilitar a manipulação, “primeira_avaliação” será referida como Avaliação 1 e “segunda_avaliação”, Avaliação 2.
summary(stat500$primeira_avaliacao)
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.54 39.36 40.04 40.00 40.66 42.02
A menor nota foi 37,54 e a maior 42,02, sendo a média da turma igual a 40.
summary(stat500$dever_de_casa)
Min. 1st Qu. Median Mean 3rd Qu. Max.
35.74 39.90 40.31 40.00 40.56 40.86
A menor nota foi 35,74 e a maior 40,86, sendo a média da turma igual a 40.
summary(stat500$segunda_avaliacao)
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.28 39.30 40.10 40.00 40.76 42.22
A menor nota foi 37,28 e a maior 42,22, sendo a média da turma igual a 40.
Com base nos tópicos anteriores, convém que o eixo x tenha valores entre 35e 43.
#histograma da avaliação 1
hist(stat500$primeira_avaliacao,
main = "Avaliação 1",
col = "#87fabb",
ylab = "Freq",
xlab = "notas",
xlim = c(37,43),
nclass = 6)
hist(stat500$dever_de_casa,
main = "Dever de casa",
col = "#fa878f",
ylab = "Freq",
xlab = "notas",
xlim = c(35,42),
nclass = 7)
hist(stat500$segunda_avaliacao,
main = "Avaliação 2",
col = "#df87fa",
ylab = "Freq",
xlab = "notas",
xlim = c(37,43),
nclass = 7)
#comparativo
par(mfrow = c(3,1))
#histograma da avaliação 1
hist(stat500$primeira_avaliacao,
main = "Avaliação 1",
col = "#87fabb",
ylab = "Freq",
xlab = "notas",
xlim = c(35,43),
ylim = c(0,50),
nclass = 6,
labels = TRUE)
abline(v= mean (stat500$primeira_avaliacao), col = "red", lwd=3)
#histograma dever de casa
hist(stat500$dever_de_casa,
main = "Dever de casa",
col = "#fa878f",
ylab = "Freq",
xlab = "notas",
xlim = c(35,43),
ylim = c(0,50),
nclass = 7,
labels = TRUE)
abline(v= mean (stat500$segunda_avaliacao), col = "red", lwd=3)
#histograma da avaliação 2
hist(stat500$segunda_avaliacao,
main = "Avaliação 2",
col = "#df87fa",
ylab = "Freq",
xlab = "notas",
xlim = c(35,43),
ylim = c(0,50),
nclass = 7,
labels = TRUE)
abline(v= mean (stat500$segunda_avaliacao), col = "red", lwd=3)
A partir da estruturação do dados, foi possível construir os histogramas de frequência das notas obtidas em cada instrumento de avaliação. Ao se comparar os gráficos, observa-se que ainda que a média para cada distibuição seja a mesma, a dispersão dos dados muda em cada variável.
Tanto na Avaliação 1, quanto na Avaliação 2, verifica-se uma distribuição normal, supondo assim que tenham sido avaliações equilibradas, visto que as notas estão próximas à média e não apresentam valores discrepantes.
Já as notas dos Deveres de Casa apresentam uma distruição assimétrica à esquerda, e, pelo desenho do gráfico gerado, possívelmente apresenta valores outliers.
Em todos os casos, os picos de notas se encontram acima da média das variáveis.
Não é possível realizar mais análises, porque não se tem mais informações sobre a base de dados, como método de avaliação.
Considerando a base de dados stat500, seus dados parecem ser muito semelhantes, sem muitas variações nos valores das variáveis.
Após às primeiras análises, observa-se que as médias das variáveis são iguais.
Porém, ao estruturar os dados e visualisá-los na forma de histogram, é possível identificar as diferenças em cada distribuição.
Ainda assim, apenas a visualização dos dados em um histograma não é suficiente para se fazer uma análise completa.