#CO_GRUPO

curso_filtrado= curso_filtrado %>% mutate(Curso= case_when (CO_GRUPO==21 ~ "Arquitetura"))


#CO_Regiao_Curso
curso_filtrado= curso_filtrado %>% mutate(Regiao= case_when (CO_REGIAO_CURSO==1 ~ "Norte",
                                          CO_REGIAO_CURSO==2 ~ "Nordeste",
                                          CO_REGIAO_CURSO==3 ~ "Sudeste",
                                          CO_REGIAO_CURSO==4 ~ "Sul",
                                          CO_REGIAO_CURSO==5 ~ "Centro-Oeste"))
#QE_I02

curso_filtrado= curso_filtrado %>% mutate(Etnia= case_when (QE_I02=="A" ~ "Branca",
                                          QE_I02=="B" ~ "Preta",
                                          QE_I02=="C" ~ "Amarela",
                                          QE_I02=="D" ~ "Parda",
                                          QE_I02=="E" ~ "Indígena",
                                          QE_I02=="F" ~ "Não quero declarar"))

#CO_TURNO_GRADUACAO

curso_filtrado= curso_filtrado %>% mutate(Turno= case_when (
                                          CO_TURNO_GRADUACAO==1 ~ "Matutino",
                                          CO_TURNO_GRADUACAO==2 ~ "Vespertino",
                                          CO_TURNO_GRADUACAO==3 ~ "Integral",
                                          CO_TURNO_GRADUACAO==4 ~ "Noturno"))


#Removendo NA de todas as variaveis que possuem NA

curso_filtrado_sem_NA = curso_filtrado  %>% na.omit()


library(ggplot2)

dados_etnia <- curso_filtrado_sem_NA %>%
          filter(Etnia %in% c("Branca", "Amarela"))

  media_regiao_turno <- curso_filtrado_sem_NA %>%
    group_by(Regiao, Turno) %>%
    summarise(Média = mean(NT_GER, na.rm = TRUE), .groups = "drop") %>%
  tidyr::complete(Regiao, Turno) %>%
  mutate(
    Média = ifelse(is.na(Média), NA, Média),
    label = ifelse(is.na(Média), "Sem dados", round(Média, 1))
  )

Descrição das variáveis:

Column

Boxplot

  # Boxplot comparativo
  ggplot(dados_etnia, aes(x = Etnia, y = NT_GER, fill = Etnia)) +
    geom_boxplot() +
    labs(title = "Notas Gerais: Brancos vs. Amarelos", x = "Etnia", y = "Nota (NT_OBJ_FG)") +
    theme_minimal()

Column

Grafico Distribuição das Notas por Turno

  ggplot(curso_filtrado_sem_NA, aes(x = Turno, y = NT_GER, fill = Turno)) +
    geom_boxplot() +
    labs(title = "Distribuição das Notas por Turno", x = "", y = "Nota Geral (0-100)") +
    theme_minimal()

Media por Turno e Regiao

  ggplot(media_regiao_turno, aes(x = Turno, y = Regiao, fill = Média)) +
  geom_tile(color = "grey70") +  # borda das células
  scale_fill_gradient(low = "white", high = "steelblue", na.value = "grey80") +
  geom_text(aes(label = label), color = "black", size = 3) +
  labs(title = "Média de Notas por Turno e Região", x = "Turno", y = "Região") +
  theme_minimal()

Resultados

  1. Há razão para desconfiar que pessoas brancas têm melhores notas que amarelos?
    • Resposta: De acordo com os dados analisados, alunos Brancos têm uma média maior (511) em relação aos Amarelos (491).
  2. Diferenças regionais:
    • Resposta: O Centro-Oeste no período integral apresenta a maior média.
  3. Há razão para desconfiar que pessoas que estudam no turno da manhã têm notas maiores que os que estudam à noite?
    • Resposta: Alunos do Matutino/Integral tendem a ter notas mais altas que os do Noturno, especialmente no Centro-Oeste e Nordeste.