1.INTRODUÇÃO

O presente estudo trata-se de uma atividade proposta na terceira aula da matéria de "Estatística aplicada à Engenharia" ministrada no dia 8 de novembro de 2021 pelo professor Steven Dutt-Ross.

Para esse trabalho, foi disponibilizada a base de dados “Turma_stat500”, que é um arquivo RData. Desse modo, todas os tratamentos e análises dos dados desse estudo foram feitos dentro do softwaer RStudio.

Os dados trabalhados tratam-se de variáveis quantitativas contínuas. Para a visualização de dados dessa natureza, recomenda-se a utilização de gráficos que permitam observar a amplitude dos dados, sua dispersão, simetrias, bem como valores discrepantes. Em razão disso, o histograma foi utilizado para análise gráfica.

1.1 Base de dados

Ao carregar a base de dados no software RStudio, é possível fazer algumas observações.

load("~/POSCIVIL/ESTATISTICA/Aulas/Base_de_dados-master/Turma_stat500.RData")
head(stat500)
  primeira_avaliacao dever_de_casa segunda_avaliacao
1           40.87208      40.56399          39.90091
2           40.45500      40.48901          39.59812
3           40.66354      40.51400          40.00184
4           40.66354      40.73896          41.61671
5           40.45500      40.26405          40.80927
6           39.09948      40.31404          40.91020

Verifica-se que a base apresenta notas, supostamente de alunos, na primeira avaliação, nos deveres de casa e na segunda avaliação.

Observando em um primeiro momento, os valores apresentados parecem não variar muito.

2.TRATAMENTO DOS DADOS

2.1 Estrutura dos dados

Aplicando a função “str()”, é possível obter informações quanto à estrutura desses dados.

str(stat500)
'data.frame':   55 obs. of  3 variables:
 $ primeira_avaliacao: num  40.9 40.5 40.7 40.7 40.5 ...
 $ dever_de_casa     : num  40.6 40.5 40.5 40.7 40.3 ...
 $ segunda_avaliacao : num  39.9 39.6 40 41.6 40.8 ...

A base está no formato de dataframe e apresenta uma amostra com 55 observações de três variáveis numéricas.

Para facilitar a manipulação, “primeira_avaliação” será referida como Avaliação 1 e “segunda_avaliação”, Avaliação 2.

2.2 Estatísticas

  • Avaliação 1
summary(stat500$primeira_avaliacao)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  37.54   39.36   40.04   40.00   40.66   42.02 

A menor nota foi 37,54 e a maior 42,02, sendo a média da turma igual a 40.

  • Deveres de casa
summary(stat500$dever_de_casa)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  35.74   39.90   40.31   40.00   40.56   40.86 

A menor nota foi 35,74 e a maior 40,86, sendo a média da turma igual a 40.

  • Avaliação 2
summary(stat500$segunda_avaliacao)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  37.28   39.30   40.10   40.00   40.76   42.22 

A menor nota foi 37,28 e a maior 42,22, sendo a média da turma igual a 40.

2.3 Visualização gráfica

Com base nos tópicos anteriores, convém que o eixo x tenha valores entre 35e 43.

  • Histograma das notas da Avaliação 1
#histograma da avaliação 1
hist(stat500$primeira_avaliacao,
     main = "Avaliação 1",
     col = "#87fabb",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(37,43),
     nclass = 6)

  • Histograma das notas para Deveres de Casa
hist(stat500$dever_de_casa,
     main = "Dever de casa",
     col = "#fa878f",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(35,42),
     nclass = 7)

  • Histograma das notas da Avaliação 2
hist(stat500$segunda_avaliacao,
     main = "Avaliação 2",
     col = "#df87fa",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(37,43),
     nclass = 7)

3.RESULTADOS E ANÁLISES

3.1 Comparação entre as notas

#comparativo

par(mfrow = c(3,1))
#histograma da avaliação 1
hist(stat500$primeira_avaliacao,
     main = "Avaliação 1",
     col = "#87fabb",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(35,43),
     ylim = c(0,50),
     nclass = 6,
     labels = TRUE)
abline(v= mean (stat500$primeira_avaliacao), col = "red", lwd=3)

#histograma dever de casa
hist(stat500$dever_de_casa,
     main = "Dever de casa",
     col = "#fa878f",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(35,43),
     ylim = c(0,50),
     nclass = 7,
     labels = TRUE)
abline(v= mean (stat500$segunda_avaliacao), col = "red", lwd=3)


#histograma da avaliação 2
hist(stat500$segunda_avaliacao,
     main = "Avaliação 2",
     col = "#df87fa",
     ylab = "Freq",
     xlab = "notas",
     xlim = c(35,43),
     ylim = c(0,50),
     nclass = 7,
     labels = TRUE)
abline(v= mean (stat500$segunda_avaliacao), col = "red", lwd=3)

3.2 Análise

A partir da estruturação do dados, foi possível construir os histogramas de frequência das notas obtidas em cada instrumento de avaliação. Ao se comparar os gráficos, observa-se que ainda que a média para cada distibuição seja a mesma, a dispersão dos dados muda em cada variável.

Tanto na Avaliação 1, quanto na Avaliação 2, verifica-se uma distribuição normal, supondo assim que tenham sido avaliações equilibradas, visto que as notas estão próximas à média e não apresentam valores discrepantes.

Já as notas dos Deveres de Casa apresentam uma distruição assimétrica à esquerda, e, pelo desenho do gráfico gerado, possívelmente apresenta valores outliers.

Em todos os casos, os picos de notas se encontram acima da média das variáveis.

Não é possível realizar mais análises, porque não se tem mais informações sobre a base de dados, como método de avaliação.

4.CONSIDERAÇÕES FINAIS

Considerando a base de dados stat500, seus dados parecem ser muito semelhantes, sem muitas variações nos valores das variáveis.

Após às primeiras análises, observa-se que as médias das variáveis são iguais.

Porém, ao estruturar os dados e visualisá-los na forma de histogram, é possível identificar as diferenças em cada distribuição.

Ainda assim, apenas a visualização dos dados em um histograma não é suficiente para se fazer uma análise completa.