Essa terceira atividade, que consiste em fazer uma publicação no RPUBS com o estudo da estrutura das variáveis [str(data.frame)], de um histograma e uma análise descritiva [média, mediana, etc] em uma variável quantitativa da base de dados chamada ‘stat500.RData’. Essa atividade foi proposta na terceira aula da matéria de “Estatística aplicada à Engenharia” ministrada no dia 8 de novembro de 2021 pelo professor Steven Dutt-Ross.
# -------------------------------------------------------------
# Primeiro Passo - Carregando a base de Dados - "Turma Stat500"
# -------------------------------------------------------------
load("C:/Users/Cliente/Desktop/Base_de_dados-master/Turma_stat500.RData")
head(stat500)
## primeira_avaliacao dever_de_casa segunda_avaliacao
## 1 40.87208 40.56399 39.90091
## 2 40.45500 40.48901 39.59812
## 3 40.66354 40.51400 40.00184
## 4 40.66354 40.73896 41.61671
## 5 40.45500 40.26405 40.80927
## 6 39.09948 40.31404 40.91020
A base de dados refere-se as notas de 55 alunos, em três avaliações distintas, que consideramos como 3 variáveis. As três variáveis, aparesentadas pelo banco de dados, são de classificação numerica.
# -------------------------------------------------------------
# Segundo Passo - Analisando a estrutura dos dados
# -------------------------------------------------------------
str(stat500)
## 'data.frame': 55 obs. of 3 variables:
## $ primeira_avaliacao: num 40.9 40.5 40.7 40.7 40.5 ...
## $ dever_de_casa : num 40.6 40.5 40.5 40.7 40.3 ...
## $ segunda_avaliacao : num 39.9 39.6 40 41.6 40.8 ...
O banco de dados foi representado da seguinte forma: Primeira Avaliação: a menor nota foi 37,54 e a maior 42,02; Segunda segunda: a menor nota foi 37,28 e a maior 42,22; E Dever de Casa: a menor nota foi 35,74 e a maior 40,86;
# -------------------------------------------------------------
# Terceiro Passo - Analisando as notas dos alunos - Sumary
# -------------------------------------------------------------
summary(stat500)
## primeira_avaliacao dever_de_casa segunda_avaliacao
## Min. :37.54 Min. :35.74 Min. :37.28
## 1st Qu.:39.36 1st Qu.:39.90 1st Qu.:39.30
## Median :40.04 Median :40.31 Median :40.10
## Mean :40.00 Mean :40.00 Mean :40.00
## 3rd Qu.:40.66 3rd Qu.:40.56 3rd Qu.:40.76
## Max. :42.02 Max. :40.86 Max. :42.22
2.4.1 As notas dos alunos, nas três formas avaliativas, apresentam valores muito semelhantes, daí as médias se apresentarem com valores iguais, ou seja, média de notas em geral foi de 40.
# -----------------------------------------------------------------
# Quarto Passo - Analisando os dados - Média e mediana
# -----------------------------------------------------------------
# Média (das três variáveis)
mean(stat500$primeira_avaliacao)
## [1] 40
mean(stat500$segunda_avaliacao)
## [1] 40
mean(stat500$dever_de_casa)
## [1] 40
2.4.2 O mesmo ocorreu com a mediana, ou seja, a mesma mediana para as três varáveis, o que nos permite afirmar, que as notas não apresentaram outliers.
# Mediana (das três variáveis):
median(stat500$primeira_avaliacao)
## [1] 40.03792
median(stat500$segunda_avaliacao)
## [1] 40.10276
median(stat500$dever_de_casa)
## [1] 40.31404
2.5.1 Histograma da variável “Dever de casa”
hist(stat500$dever_de_casa,
main = "Histograma das notas do dever de casa",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#404399")
2.5.1 Histograma da variável “Primeira Avaliação”
hist(stat500$primeira_avaliacao,
main = "Histograma das notas da 1ª Avaliação",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#601961")
2.5.1 Histograma da variável “Segunda Avaliação”
hist(stat500$segunda_avaliacao,
main = "Histograma das notas da 2ª Avaliação",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#d4244d")
## 3. Análises comparativas
Comparando os histogramas das três formar avaliativas, podemos identificar que os dados são dispersivos, e que embora a média e a mediana de cada variável seja a mesma, a dispersão dos dados muda em cada uma delas. Tanto na Avaliação 1, quanto na Avaliação 2, verifica-se uma distribuição normal, supondo assim que tenham sido avaliações equilibradas, visto que as notas estão próximas à média e não apresentam outliers. Já as notas dos Deveres de Casa apresentam uma distruição assimétrica à esquerda.
par(mfrow=c(3,1))
hist(stat500$dever_de_casa,
main = "Histograma das notas do dever de casa",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#404399",
xlim = c(35,43),
ylim = c(0,55))
hist(stat500$primeira_avaliacao,
main = "Histograma das notas da 1ª Avaliação",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#601961",
xlim = c(35,43),
ylim = c(0,55))
hist(stat500$segunda_avaliacao,
main = "Histograma das notas da 2ª Avaliação",
xlab = "Notas do alunos",
ylab = "Frequência",
col = "#d4244d",
xlim = c(35,43),
ylim = c(0,55))
Embora as notas tenham se mantido sem muitas variações, nas três formas avaliativas, ao analisarmos a representação gráfica, notamos que o desempenho dos alunos no dever de casa foi discretamente superior às outras, pois tiveram menos notas inferiores a 38 pontos.
Como o banco de dados possui variaveis quantitativas, a representação gráfica utilizada para visualização dos dados foi o histograma. Foi contruido um histograma de frequência das notas obtidas em cada forma avaliativa. Não é possível realizar mais análises, porque não se tem mais informações sobre a base de dados, visto ser uma base de dados consideravelmente pequena.