Introdução
Vamos analisar os dados referentes ao Exame Nacional de Desempenho dos Estudantes (ENADE) do ano de 2017, mais precisamente o desempenho dos alunos do curso de Geografia Licenciatura no respectivo ano.
Análise Estatística dos Dados
Podemos perceber que não há valores nulos em nenhuma variável presente nos dados.
Analisaremos agora as notas gerais (NT_GER) dos alunos de Geografia Licenciatura, por meio das medidas descritivas.
Quantidade
|
Media
|
Mediana
|
Moda
|
CV
|
Assimetria
|
Curtose
|
Minimo
|
Maximo
|
8808
|
45.36131
|
45.1
|
0
|
33.16799
|
-0.02408845
|
-0.3360316
|
0
|
95.4
|
Através do histograma acima podemos constatar a disposição dos dados quanto a sua assimetria, que é levemente a esquerda.
Iremos analisar agora como essas notas se comportam quanto ao turno em que eles estão matriculados.
## `summarise()` regrouping output by 'Turno' (override with `.groups` argument)
Turno
|
Quantidade
|
Media
|
Mediana
|
Moda
|
CV
|
Assimetria
|
Curtose
|
Noturno
|
5277
|
45.32109
|
45.10
|
58.4
|
32.61035
|
-0.02489077
|
-0.3505710
|
Matutino
|
1981
|
45.04609
|
44.90
|
0.0
|
35.08271
|
-0.08018973
|
-0.4108592
|
Integral
|
968
|
46.41973
|
46.45
|
35.9
|
33.43169
|
0.05537868
|
-0.2574012
|
Vespertino
|
582
|
45.03849
|
43.40
|
39.3
|
30.88562
|
0.06577753
|
-0.3450730
|
Vespertino
|
582
|
45.03849
|
43.40
|
42.2
|
30.88562
|
0.06577753
|
-0.3450730
|
Vespertino
|
582
|
45.03849
|
43.40
|
53.2
|
30.88562
|
0.06577753
|
-0.3450730
|
Percebemos que o turno com maior quantidade de alunos é o Noturno. O turno da Tarde aparece 3 vezes pois o turno apresenta 3 notas mais frequentemente (Moda).
O turno com melhor desempenho na prova foi o Integral (Média = 46,41) e cerca de 50% dos alunos obtiveram nota superior à Média (Moda = 46,45).
De acordo com os dados podemos ver que existe indícios de que as notas não se diferenciam significativamente entre os turnos.
O teste de normalidade de Shapiro-Wilk rejeitou a hipótese de que a distribuição dos dados seja Normal (Valor-P < 0,01%). Então foi feito o teste não paramétrico Kruskal-Wallis de semelhança de grupos, que não rejeitou a hipótese de que os turnos sejam semelhantes quanto a nota geral dos alunos (Valor-P = 22,02%). Esses testes levaram em consideração um nível de significância (\(\alpha\)) de 5%.
Faremos a seguir uma análise cruzada do Sexo e Turno.

O gráfico acima mostra a frequência relativa dos alunos quanto ao sexo e o turno. Notamos haver indícios de associação entre os grupos, pois os turnos se comportam de forma semelhante em ambos os sexos, mas para comprovar a análise empírica faremos o teste não paramétrico Qui-quadrado de Pearson, indicado para casos em que as variáveis envolvidas sejam categóricas e estejam dispostas em uma tabela de contingência.
##
## Pearson's Chi-squared test
##
## data: t4
## X-squared = 11.414, df = 3, p-value = 0.009684
O resultado do teste comprova o que observamos anteriormente, pois mostra que a 5% de significância os turnos têm associação com o sexo dos alunos (Valor-P = 0,9%).
A seguir uma análise do sexo dos alunos em relação a nota que eles obtiveram no exame.
## `summarise()` ungrouping output (override with `.groups` argument)
## # A tibble: 2 x 8
## Sexo Quantidade Media Mediana Moda CV Assimetria Curtose
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Feminino 4476 43.5 43.1 43.1 33.0 0.0625 -0.293
## 2 Masculino 4332 47.2 47.7 52.1 32.8 -0.147 -0.319
Podemos perceber que a melhor nota foi obtida pelo sexo masculino (Média = 47,2) e que 50% dos homens tiveram notas acima da média (Mediana = 47,7). A nota mais frequentemente vista foi 52,1 (Moda).
A distribuição da população feminina do curso possui assimetria positiva, diferentemente do visto nas notas gerais, indicando que mais mulheres tiveram notas menores que 50.

Com o gráfico percebemos que a curva do lado feminino tem a calda levemente mais pesada para o lado direito, com concentração dos dados no lado esquerdo, mostrando o que o coeficiente de assimetria indicou (assimetria positiva ou a direita). Já a curva do lado masculino é completamente o oposto.
Veremos a seguir se existe diferença no desempenho dos alunos quanto ao sexo.
##
## Kruskal-Wallis rank sum test
##
## data: teste1$NT_GER by teste1$Sexo
## Kruskal-Wallis chi-squared = 139.06, df = 1, p-value < 2.2e-16
Podemos afirmar que a 5% de significância o sexo masculino tenha desempenho diferente do sexo feminino (Valor-P < 0,01%)
Vamos analisar agora o cruzamento entre Turno e Região.

Concluímos que, a 5% de significância as regiões estão associadas aos turnos em que os alunos estão matriculados.
A seguir uma análise das regiões dos alunos em relação a nota que eles obtiveram no exame.
## `summarise()` regrouping output by 'Regiao' (override with `.groups` argument)
## # A tibble: 7 x 8
## # Groups: Regiao [5]
## Regiao Quantidade Media Mediana Moda CV Assimetria Curtose
## <chr> <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 Sudeste 2745 48.4 49.7 0 33.1 -0.246 -0.251
## 2 Nordeste 2698 43.6 43.3 41.7 32.6 -0.0201 -0.191
## 3 Nordeste 2698 43.6 43.3 44.7 32.6 -0.0201 -0.191
## 4 Sul 1600 45.4 44.9 44.4 32.0 0.0819 -0.454
## 5 Norte 979 42.7 42.8 43.1 32.9 0.00548 -0.429
## 6 Norte 979 42.7 42.8 52.1 32.9 0.00548 -0.429
## 7 Centro-Oeste 786 43.9 42.8 59.2 33.5 0.151 -0.581
Vemos com mais precisão que a região Sudeste é de fato a região que mais possui notas altas.
Veremos a seguir se existe diferença no desempenho dos alunos quanto a região.
##
## Kruskal-Wallis rank sum test
##
## data: teste1$NT_GER by teste1$Regiao
## Kruskal-Wallis chi-squared = 191.77, df = 4, p-value < 2.2e-16
Podemos afirmar que a 5% de significância as regiões têm desempenhos diferentes umas das outras.
Conclusão
Portanto, ao fazermos uso das análises estatísticas vistas anteriormente, temos os seguintes insights:
- O turno com melhor desempenho dos alunos, de um modo geral, é o Integral.
- Os homens, de um modo geral, possuem as melhores notas.
- A região com melhor desempenho dos alunos, de um modo geral, é a região Sudeste.
- Os alunos, independetemente do sexo, deram preferência ao turno da noite.
- Os alunos, independente da região que vivem, estudam preferencialmente no turno da noite.
- O sexo do aluno não influencia na escolha do turno em que se deseja estudar, bem como a região que ele habita.
- A nota geral dos alunos depende tanto do sexo do aluno quanto da região em que vive.