1 Introdução

Este relatório apresenta uma análise estatística do parâmetro de dificuldade (Parâmetro B) dos itens classificados do ENEM, considerando os anos de 2020 a 2024 e as quatro áreas do conhecimento: Linguagens, Ciências Humanas, Ciências da Natureza e Matemática. O estudo examina a distribuição da dificuldade por área, disciplina, competência e habilidade, combinando estatísticas descritivas, visualizações gráficas e testes não paramétricos. Diante de evidências de violação da normalidade e de desbalanceamento amostral, foram utilizados o teste de Kruskal–Wallis para comparação global entre grupos e o teste de Dunn com ajuste de Holm para comparações múltiplas. O objetivo é identificar padrões, diferenças estruturais e possíveis assimetrias na distribuição da dificuldade dos itens, contribuindo para uma compreensão mais aprofundada da estrutura avaliativa do exame.

Dados dos itens classificados: https://tecnologiatrieduccom.sharepoint.com/:x:/s/Dadosdeestatstica/IQAvXgUkcQRJR7y63VfkC8iTAZVIBRrOGfKCPK7hH1zUqZU?e=

2 Análise Geral

2.1 Distribuição geral por área

2.2 Dificuldade média por ano

3 Linguagens, códigos e suas tecnologias

3.1 Análise por Disciplina

3.1.1 Distribuição resumida da dificuldade por Disciplina

3.1.2 Box-plot da Dificuldade dos itens por disciplina

3.1.3 Teste de Normalidade Shapiro–Wilk

Disciplina n W p_value
Arte 22 0.8472777 0.003039653
Educação Física 7 0.8187053 0.062399064
Espanhol 25 0.9679171 0.592827693
Inglês 25 0.9027216 0.021038317
Literatura 18 0.9447592 0.348788381
Português 151 0.9737669 0.005485258

A verificação do pressuposto de normalidade por meio do teste de Shapiro–Wilk indicou evidência de desvio da normalidade em parte dos grupos, especificamente em Artes, Inglês e Português. Embora alguns grupos não tenham apresentado rejeição da normalidade, observou-se forte desbalanceamento entre os tamanhos amostrais, o que compromete a robustez de testes paramétricos baseados na suposição de normalidade e homogeneidade de variâncias.

Diante desse cenário, optou-se pela utilização do teste não paramétrico de Kruskal–Wallis para comparação global entre as disciplinas, seguido do teste de Dunn com ajuste de Holm para comparações múltiplas, por se tratarem de procedimentos mais robustos à violação do pressuposto de normalidade e a desequilíbrios amostrais.

3.1.4 Teste de Kruskal–Wallis

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Disciplina
## Kruskal-Wallis chi-squared = 12.736, df = 5, p-value = 0.02599

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,02599). Esse resultado sugere que pelo menos uma das competências apresenta valores de Parâmetro de dificuldade distintos das demais.

3.1.5 Teste de Dunn

##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 12.7356, df = 5, p-value = 0.03
## 
## 
##                            Comparison of x by group                            
##                                     (Holm)                                     
## Col Mean-|
## Row Mean |       Arte   Educação   Espanhol     Inglês   Literatu
## ---------+-------------------------------------------------------
## Educação |   2.948711
##          |    0.0223*
##          |
## Espanhol |   2.424566  -1.334897
##          |     0.0920     0.7276
##          |
##   Inglês |   2.645833  -1.183636   0.228685
##          |     0.0530     0.8279     0.8191
##          |
## Literatu |   1.794773  -1.592090  -0.447551  -0.656796
##          |     0.3998     0.5568     1.0000     1.0000
##          |
## Portuguê |   2.968096  -1.557729  -0.145573  -0.445134   0.428765
##          |    0.0225*     0.5368     0.4421     1.0000     1.0000
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2

A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Arte e as disciplinas Educação Física (p = 0,0223) e Português (p = 0,0225). Para os demais pares de competências, não foram observadas diferenças estatisticamente significativas (p > 0,05), sugerindo que os valores do parâmetro analisado são semelhantes entre esses grupos. Assim, os resultados indicam que as distinções detectadas concentram-se especificamente nas comparações envolvendo Arte, enquanto as demais competências não apresentam diferenças relevantes entre si.

3.2 Análise por Competência

3.2.1 Distribuição resumida da dificuldade por competência

3.2.2 Teste Kruskal-Wallis para Competência

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Competencia
## Kruskal-Wallis chi-squared = 25.612, df = 8, p-value = 0.001223

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as competências (p = 0,0012), evidenciando que pelo menos uma competência apresenta distribuição de dificuldade distinta das demais.

3.2.3 Teste Dunn para Competência

##   Comparacao         z   p_ajustado
## 1      3 - 4 -4.212599 0.0004544084
## 2      3 - 5 -3.747404 0.0031268022

O teste de Dunn com ajuste para múltiplas comparações identificou diferenças significativas entre as competências 3 e 4 (p = 0,0005) e entre 3 e 5 (p = 0,0031), indicando que a competência 3 difere especificamente dessas duas competências quanto à distribuição do parâmetro avaliado.

3.3 Análise por Habilidade

3.3.1 Teste Kruskal-Wallis para Habilidade

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Habilidade
## Kruskal-Wallis chi-squared = 45.664, df = 29, p-value = 0.02533

3.3.2 Teste Dunn para Habilidade

## [1] Comparacao z          p_ajustado
## <0 linhas> (ou row.names de comprimento 0)

O teste de Kruskal–Wallis indicou diferença global estatisticamente significativa entre as habilidades (p = 0,025), sugerindo a presença de heterogeneidade na distribuição da dificuldade. Entretanto, o teste de Dunn com ajuste para múltiplas comparações não identificou diferenças significativas entre pares específicos de habilidades. Esse resultado indica que, embora exista evidência de variação global entre os grupos, não foram observados contrastes pontuais robustos.

4 Ciências Humanas

4.1 Análise por Disciplina

4.1.1 Box-plot da Dificuldade dos itens por disciplina

4.1.2 Teste de Kruskal–Wallis

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Disciplina
## Kruskal-Wallis chi-squared = 7.9482, df = 3, p-value = 0.0471

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,0471). Esse resultado sugere que pelo menos uma das disciplinas apresenta valores do parâmetro de dificuldade distintos das demais.

4.1.3 Teste de Dunn

##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 7.9482, df = 3, p-value = 0.05
## 
## 
##                            Comparison of x by group                            
##                                     (Holm)                                     
## Col Mean-|
## Row Mean |   Filosofi   Geografi   História
## ---------+---------------------------------
## Geografi |   1.951554
##          |     0.1275
##          |
## História |   1.903943   0.059731
##          |     0.1138     0.4762
##          |
## Sociolog |   2.815710   1.236182   1.098565
##          |    0.0146*     0.3246     0.2720
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2

A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Sociologia e Filosofia (p = 0,0146). Para os demais pares de competências, não foram observadas diferenças estatisticamente significativas (p > 0,05).

4.2 Análise por Competência

4.2.1 Distribuição resumida da dificuldade por competência

4.2.2 Teste Kruskal-Wallis para Competência

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Competencia
## Kruskal-Wallis chi-squared = 2.2721, df = 5, p-value = 0.8104

O teste de Kruskal–Wallis não indicou diferença estatisticamente significativa entre as competências (p = 0,81), sugerindo que não há evidência de variação na distribuição da dificuldade entre os grupos avaliados.

4.3 Análise por Habilidade

4.3.1 Teste Kruskal-Wallis para Habilidade

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Habilidade
## Kruskal-Wallis chi-squared = 24.602, df = 29, p-value = 0.6987

O teste de Kruskal–Wallis não indicou diferença estatisticamente significativa entre as habilidades (p = 0,6987), sugerindo que não há evidência de variação na distribuição da dificuldade entre os grupos avaliados.

5 Ciências da Natureza

5.1 Análise por Disciplina

5.1.1 Box-plot da Dificuldade dos itens por disciplina

5.1.2 Teste de Kruskal–Wallis

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Disciplina
## Kruskal-Wallis chi-squared = 6.3153, df = 2, p-value = 0.04253

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,04312). Esse resultado sugere que pelo menos uma das disciplinas apresenta valores do parâmetro de dificuldade distintos das demais.

5.1.3 Teste de Dunn

##   Kruskal-Wallis rank sum test
## 
## data: x and group
## Kruskal-Wallis chi-squared = 6.3153, df = 2, p-value = 0.04
## 
## 
##                            Comparison of x by group                            
##                                     (Holm)                                     
## Col Mean-|
## Row Mean |   Biologia     Física
## ---------+----------------------
##   Física |  -2.501125
##          |    0.0186*
##          |
##  Química |  -1.421847   1.075366
##          |     0.1551     0.1411
## 
## alpha = 0.05
## Reject Ho if p <= alpha/2

A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Biologia e Física (p = 0,0189). Para os demais pares, não foram observadas diferenças estatisticamente significativas (p > 0,05).

5.2 Análise por Competência

5.2.1 Distribuição resumida da dificuldade por competência

5.2.2 Teste Kruskal-Wallis para Competência

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Competencia
## Kruskal-Wallis chi-squared = 22.798, df = 7, p-value = 0.001848

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as competências (p = 0,001848), sugerindo que há evidência de variação na distribuição da dificuldade entre os grupos avaliados.

5.2.3 Teste Dunn para Competência

##   Comparacao         z p_ajustado
## 1      1 - 2 -4.198485 0.00037619
## 2      1 - 6 -2.931002 0.04392321
## 3      1 - 7 -3.260495 0.01501444

O teste de Dunn com ajuste para múltiplas comparações identificou diferenças significativas entre as competências 1 - 2, 1 - 6 e 1 - 7, indicando que a competência 1 difere especificamente dessas três competências.

5.3 Análise por Habilidade

5.3.1 Teste Kruskal-Wallis para Habilidade

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Habilidade
## Kruskal-Wallis chi-squared = 48.389, df = 29, p-value = 0.01339

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as habilidades avaliadas (p = 0,013), sugerindo que ao menos uma habilidade apresenta distribuição de Dificuldade distinta das demais.

5.3.2 Teste Dunn para Habilidade

##   Comparacao         z p_ajustado
## 1    H3 - H5 -3.965133  0.0159547

O teste de Dunn, com ajuste para múltiplas comparações, identificou diferença estatisticamente significativa entre as habilidades H3 e H5 (p = 0,016), indicando que essas duas habilidades apresentam distribuições de dificuldade significativamente distintas.

6 Matemática

6.1 Análise por Competência

6.1.1 Distribuição da dificuldade por competência

6.1.2 Teste Kruskal-Wallis para Competência

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Competencia
## Kruskal-Wallis chi-squared = 26.372, df = 6, p-value = 0.0001898

O teste de Kruskal–Wallis indicou diferença significativa no parâmetro B entre as competências, (p < 0.001), evidenciando que pelo menos uma competência apresenta distribuição distinta.

6.1.3 Teste Dunn para Competência

##   Comparacao         z   p_ajustado
## 1      1 - 3 -2.848504 3.733648e-02
## 2      2 - 6  3.503361 4.364554e-03
## 3      3 - 6  4.760960 2.023084e-05
## 4      4 - 6  3.591727 3.284942e-03
## 5      5 - 6  3.263589 9.900942e-03

O teste de Dunn identificou diferenças significativas entre os pares: 1 - 3, 2 - 6, 3 - 6, 4 - 6 e 5 - 6. Destaca-se que a Competência 6 apresentou diferenças em relação a quatro outras competências, sugerindo comportamento distinto no parâmetro analisado.

6.2 Análise por Habilidade

6.2.1 Teste Kruskal-Wallis para Habilidade

## 
##  Kruskal-Wallis rank sum test
## 
## data:  ParamB by Habilidade
## Kruskal-Wallis chi-squared = 70.624, df = 29, p-value = 2.49e-05

O teste de Kruskal–Wallis indicou diferença estatisticamente significativa no parâmetro B (Dificuldade) entre as habilidades (p < 0.001), evidenciando que pelo menos uma habilidade apresenta distribuição distinta das demais.

6.2.2 Teste Dunn para Habilidade

##   Comparacao        z p_ajustado
## 1  H18 - H26 3.822019 0.02872289
## 2  H21 - H26 3.880473 0.02267516
## 3  H22 - H26 3.734895 0.04065731

O teste de Dunn apontou diferenças significativas entre os pares H18 - H26, H2 - H26 e H22 - H26, indicando que a habilidade H26 se diferencia especificamente dessas três em termos de dificuldade. Esse resultado sugere um padrão particular associado à H26 em comparação às demais habilidades analisadas.

7 Conclusão

A análise dos dados demonstra que a distribuição da dificuldade (Parâmetro \(b\)) é heterogênea dentro de cada domínio, com o teste de Kruskal-Wallis indicando diferenças significativas (p < 0,05) nas quatro áreas analisadas individualmente.

O teste de Dunn revelou contrastes pontuais entre disciplinas específicas: em Linguagens, Arte apresenta dificuldade estatisticamente superior a Educação Física e Português; em Ciências Humanas, Filosofia supera Sociologia; e em Ciências da Natureza, Física manifesta maior exigência em relação à Biologia.

A análise das competências por meio do teste de Kruskal–Wallis revelou que a distribuição da dificuldade é estatisticamente heterogênea em quase todos os domínios, com exceção de Ciências Humanas, onde não houve evidência de variação significativa entre os grupos. Em Matemática, a Competência 6, a menor média, diferiu estatisticamente das competências 2, 3, 4 e 5, enquanto a Competência 3 apresentou o maior patamar de dificuldade. Em Ciências da Natureza, a Competência 1 mostrou-se significativamente mais fácil que as competências 2, 6 e 7. Já em Linguagens, a Competência 3 situou-se em um nível de dificuldade inferior, divergindo estatisticamente das competências 4 e 5, que representam os maiores médias da área.