#CO_GRUPO
curso_filtrado= curso_filtrado %>% mutate(Curso= case_when (CO_GRUPO==21 ~ "Arquitetura"))
#CO_Regiao_Curso
curso_filtrado= curso_filtrado %>% mutate(Regiao= case_when (CO_REGIAO_CURSO==1 ~ "Norte",
CO_REGIAO_CURSO==2 ~ "Nordeste",
CO_REGIAO_CURSO==3 ~ "Sudeste",
CO_REGIAO_CURSO==4 ~ "Sul",
CO_REGIAO_CURSO==5 ~ "Centro-Oeste"))
#QE_I02
curso_filtrado= curso_filtrado %>% mutate(Etnia= case_when (QE_I02=="A" ~ "Branca",
QE_I02=="B" ~ "Preta",
QE_I02=="C" ~ "Amarela",
QE_I02=="D" ~ "Parda",
QE_I02=="E" ~ "Indígena",
QE_I02=="F" ~ "Não quero declarar"))
#CO_TURNO_GRADUACAO
curso_filtrado= curso_filtrado %>% mutate(Turno= case_when (
CO_TURNO_GRADUACAO==1 ~ "Matutino",
CO_TURNO_GRADUACAO==2 ~ "Vespertino",
CO_TURNO_GRADUACAO==3 ~ "Integral",
CO_TURNO_GRADUACAO==4 ~ "Noturno"))
#Removendo NA de todas as variaveis que possuem NA
curso_filtrado_sem_NA = curso_filtrado %>% na.omit()
library(ggplot2)
dados_etnia <- curso_filtrado_sem_NA %>%
filter(Etnia %in% c("Branca", "Amarela"))
media_regiao_turno <- curso_filtrado_sem_NA %>%
group_by(Regiao, Turno) %>%
summarise(Média = mean(NT_GER, na.rm = TRUE), .groups = "drop") %>%
tidyr::complete(Regiao, Turno) %>%
mutate(
Média = ifelse(is.na(Média), NA, Média),
label = ifelse(is.na(Média), "Sem dados", round(Média, 1))
)
Descrição das variáveis:
- NT_OBJ_FG – Nota Bruta (de 0 a 100) – Variável quantitativa
contínua
- NT_GER – Nota Bruta da prova (de 0 a 100) – Variável quantitativa
contínua
- CO_GRUPO – Código da área de enquadramento do curso (Ex. 21 =
Arquitetura e Urbanismo) – Variável qualitativa nominal
- CO_REGIAO_CURSO – Código da região de funcionamento do curso (Ex. 1
= Norte) – Variável qualitativa nominal
- QE_I02 – Cor ou Raça (Ex. A = Branca) – Variável qualitativa
nominal
- CO_TURNO_GRADUACAO – Código do turno de graduação (Ex. 1 = Matutino)
– Variável qualitativa nominal
Column
Boxplot
# Boxplot comparativo
ggplot(dados_etnia, aes(x = Etnia, y = NT_GER, fill = Etnia)) +
geom_boxplot() +
labs(title = "Notas Gerais: Brancos vs. Amarelos", x = "Etnia", y = "Nota (NT_OBJ_FG)") +
theme_minimal()

Column
Grafico Distribuição das Notas por Turno
ggplot(curso_filtrado_sem_NA, aes(x = Turno, y = NT_GER, fill = Turno)) +
geom_boxplot() +
labs(title = "Distribuição das Notas por Turno", x = "", y = "Nota Geral (0-100)") +
theme_minimal()

Resultados
- Há razão para desconfiar que pessoas brancas têm melhores
notas que amarelos?
- Resposta: De acordo com os dados analisados, alunos Brancos
têm uma média maior (511) em relação aos Amarelos (491).
- Diferenças regionais:
- Resposta: O Centro-Oeste no período integral apresenta a
maior média.
- Há razão para desconfiar que pessoas que estudam no turno da
manhã têm notas maiores que os que estudam à noite?
- Resposta: Alunos do Matutino/Integral tendem a ter notas
mais altas que os do Noturno, especialmente no Centro-Oeste e
Nordeste.