1. Introdução

Essa terceira atividade, que consiste em fazer uma publicação no RPUBS com o estudo da estrutura das variáveis [str(data.frame)], de um histograma e uma análise descritiva [média, mediana, etc] em uma variável quantitativa da base de dados chamada ‘stat500.RData’. Essa atividade foi proposta na terceira aula da matéria de “Estatística aplicada à Engenharia” ministrada no dia 8 de novembro de 2021 pelo professor Steven Dutt-Ross.

2. Desenvolvimento

2.1 Carregando os Dados

# -------------------------------------------------------------
# Primeiro Passo - Carregando a base de Dados - "Turma Stat500"
# -------------------------------------------------------------

load("C:/Users/Cliente/Desktop/Base_de_dados-master/Turma_stat500.RData")
head(stat500)
##   primeira_avaliacao dever_de_casa segunda_avaliacao
## 1           40.87208      40.56399          39.90091
## 2           40.45500      40.48901          39.59812
## 3           40.66354      40.51400          40.00184
## 4           40.66354      40.73896          41.61671
## 5           40.45500      40.26405          40.80927
## 6           39.09948      40.31404          40.91020

2.2 Conhecendo os Dados

A base de dados refere-se as notas de 55 alunos, em três avaliações distintas, que consideramos como 3 variáveis. As três variáveis, aparesentadas pelo banco de dados, são de classificação numerica.

# -------------------------------------------------------------
# Segundo Passo - Analisando a estrutura dos dados
# -------------------------------------------------------------
str(stat500)
## 'data.frame':    55 obs. of  3 variables:
##  $ primeira_avaliacao: num  40.9 40.5 40.7 40.7 40.5 ...
##  $ dever_de_casa     : num  40.6 40.5 40.5 40.7 40.3 ...
##  $ segunda_avaliacao : num  39.9 39.6 40 41.6 40.8 ...

2.3 Analisando os Dados

O banco de dados foi representado da seguinte forma: Primeira Avaliação: a menor nota foi 37,54 e a maior 42,02; Segunda segunda: a menor nota foi 37,28 e a maior 42,22; E Dever de Casa: a menor nota foi 35,74 e a maior 40,86;

# -------------------------------------------------------------
# Terceiro Passo - Analisando as notas dos alunos - Sumary
# -------------------------------------------------------------
summary(stat500)
##  primeira_avaliacao dever_de_casa   segunda_avaliacao
##  Min.   :37.54      Min.   :35.74   Min.   :37.28    
##  1st Qu.:39.36      1st Qu.:39.90   1st Qu.:39.30    
##  Median :40.04      Median :40.31   Median :40.10    
##  Mean   :40.00      Mean   :40.00   Mean   :40.00    
##  3rd Qu.:40.66      3rd Qu.:40.56   3rd Qu.:40.76    
##  Max.   :42.02      Max.   :40.86   Max.   :42.22

2.4 Estatísticas do Dados

2.4.1 As notas dos alunos, nas três formas avaliativas, apresentam valores muito semelhantes, daí as médias se apresentarem com valores iguais, ou seja, média de notas em geral foi de 40.

# -----------------------------------------------------------------
# Quarto Passo - Analisando os dados - Média e mediana
# -----------------------------------------------------------------
# Média (das três variáveis)

mean(stat500$primeira_avaliacao)
## [1] 40
mean(stat500$segunda_avaliacao)
## [1] 40
mean(stat500$dever_de_casa)
## [1] 40

2.4.2 O mesmo ocorreu com a mediana, ou seja, a mesma mediana para as três varáveis, o que nos permite afirmar, que as notas não apresentaram outliers.

# Mediana (das três variáveis):

median(stat500$primeira_avaliacao)
## [1] 40.03792
median(stat500$segunda_avaliacao)
## [1] 40.10276
median(stat500$dever_de_casa)
## [1] 40.31404

2.5 Visualização Grática dos Dados - Histograma

2.5.1 Histograma da variável “Dever de casa”

hist(stat500$dever_de_casa, 
     main = "Histograma das notas do dever de casa", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#404399")

2.5.1 Histograma da variável “Primeira Avaliação”

hist(stat500$primeira_avaliacao, 
     main = "Histograma das notas da 1ª Avaliação", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#601961")

2.5.1 Histograma da variável “Segunda Avaliação”

hist(stat500$segunda_avaliacao, 
     main = "Histograma das notas da 2ª Avaliação", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#d4244d")

## 3. Análises comparativas

Comparando os histogramas das três formar avaliativas, podemos identificar que os dados são dispersivos, e que embora a média e a mediana de cada variável seja a mesma, a dispersão dos dados muda em cada uma delas. Tanto na Avaliação 1, quanto na Avaliação 2, verifica-se uma distribuição normal, supondo assim que tenham sido avaliações equilibradas, visto que as notas estão próximas à média e não apresentam outliers. Já as notas dos Deveres de Casa apresentam uma distruição assimétrica à esquerda.

par(mfrow=c(3,1))

hist(stat500$dever_de_casa, 
     main = "Histograma das notas do dever de casa", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#404399",
     xlim = c(35,43),
     ylim = c(0,55))

hist(stat500$primeira_avaliacao, 
     main = "Histograma das notas da 1ª Avaliação", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#601961",
     xlim = c(35,43),
     ylim = c(0,55))

hist(stat500$segunda_avaliacao, 
     main = "Histograma das notas da 2ª Avaliação", 
     xlab = "Notas do alunos",
     ylab = "Frequência", 
     col = "#d4244d",
     xlim = c(35,43),
     ylim = c(0,55))

Embora as notas tenham se mantido sem muitas variações, nas três formas avaliativas, ao analisarmos a representação gráfica, notamos que o desempenho dos alunos no dever de casa foi discretamente superior às outras, pois tiveram menos notas inferiores a 38 pontos.

4. Conclusões

Como o banco de dados possui variaveis quantitativas, a representação gráfica utilizada para visualização dos dados foi o histograma. Foi contruido um histograma de frequência das notas obtidas em cada forma avaliativa. Não é possível realizar mais análises, porque não se tem mais informações sobre a base de dados, visto ser uma base de dados consideravelmente pequena.