Este relatório apresenta uma análise estatística do parâmetro de dificuldade (Parâmetro B) dos itens classificados do ENEM, considerando os anos de 2020 a 2024 e as quatro áreas do conhecimento: Linguagens, Ciências Humanas, Ciências da Natureza e Matemática. O estudo examina a distribuição da dificuldade por área, disciplina, competência e habilidade, combinando estatísticas descritivas, visualizações gráficas e testes não paramétricos. Diante de evidências de violação da normalidade e de desbalanceamento amostral, foram utilizados o teste de Kruskal–Wallis para comparação global entre grupos e o teste de Dunn com ajuste de Holm para comparações múltiplas. O objetivo é identificar padrões, diferenças estruturais e possíveis assimetrias na distribuição da dificuldade dos itens, contribuindo para uma compreensão mais aprofundada da estrutura avaliativa do exame.
Dados dos itens classificados: https://tecnologiatrieduccom.sharepoint.com/:x:/s/Dadosdeestatstica/IQAvXgUkcQRJR7y63VfkC8iTAZVIBRrOGfKCPK7hH1zUqZU?e=
| Disciplina | n | W | p_value |
|---|---|---|---|
| Arte | 22 | 0.8472777 | 0.003039653 |
| Educação Física | 7 | 0.8187053 | 0.062399064 |
| Espanhol | 25 | 0.9679171 | 0.592827693 |
| Inglês | 25 | 0.9027216 | 0.021038317 |
| Literatura | 18 | 0.9447592 | 0.348788381 |
| Português | 151 | 0.9737669 | 0.005485258 |
A verificação do pressuposto de normalidade por meio do teste de Shapiro–Wilk indicou evidência de desvio da normalidade em parte dos grupos, especificamente em Artes, Inglês e Português. Embora alguns grupos não tenham apresentado rejeição da normalidade, observou-se forte desbalanceamento entre os tamanhos amostrais, o que compromete a robustez de testes paramétricos baseados na suposição de normalidade e homogeneidade de variâncias.
Diante desse cenário, optou-se pela utilização do teste não paramétrico de Kruskal–Wallis para comparação global entre as disciplinas, seguido do teste de Dunn com ajuste de Holm para comparações múltiplas, por se tratarem de procedimentos mais robustos à violação do pressuposto de normalidade e a desequilíbrios amostrais.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Disciplina
## Kruskal-Wallis chi-squared = 12.736, df = 5, p-value = 0.02599
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,02599). Esse resultado sugere que pelo menos uma das competências apresenta valores de Parâmetro de dificuldade distintos das demais.
## Kruskal-Wallis rank sum test
##
## data: x and group
## Kruskal-Wallis chi-squared = 12.7356, df = 5, p-value = 0.03
##
##
## Comparison of x by group
## (Holm)
## Col Mean-|
## Row Mean | Arte Educação Espanhol Inglês Literatu
## ---------+-------------------------------------------------------
## Educação | 2.948711
## | 0.0223*
## |
## Espanhol | 2.424566 -1.334897
## | 0.0920 0.7276
## |
## Inglês | 2.645833 -1.183636 0.228685
## | 0.0530 0.8279 0.8191
## |
## Literatu | 1.794773 -1.592090 -0.447551 -0.656796
## | 0.3998 0.5568 1.0000 1.0000
## |
## Portuguê | 2.968096 -1.557729 -0.145573 -0.445134 0.428765
## | 0.0225* 0.5368 0.4421 1.0000 1.0000
##
## alpha = 0.05
## Reject Ho if p <= alpha/2
A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Arte e as disciplinas Educação Física (p = 0,0223) e Português (p = 0,0225). Para os demais pares de competências, não foram observadas diferenças estatisticamente significativas (p > 0,05), sugerindo que os valores do parâmetro analisado são semelhantes entre esses grupos. Assim, os resultados indicam que as distinções detectadas concentram-se especificamente nas comparações envolvendo Arte, enquanto as demais competências não apresentam diferenças relevantes entre si.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Competencia
## Kruskal-Wallis chi-squared = 25.612, df = 8, p-value = 0.001223
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as competências (p = 0,0012), evidenciando que pelo menos uma competência apresenta distribuição de dificuldade distinta das demais.
## Comparacao z p_ajustado
## 1 3 - 4 -4.212599 0.0004544084
## 2 3 - 5 -3.747404 0.0031268022
O teste de Dunn com ajuste para múltiplas comparações identificou diferenças significativas entre as competências 3 e 4 (p = 0,0005) e entre 3 e 5 (p = 0,0031), indicando que a competência 3 difere especificamente dessas duas competências quanto à distribuição do parâmetro avaliado.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Habilidade
## Kruskal-Wallis chi-squared = 45.664, df = 29, p-value = 0.02533
## [1] Comparacao z p_ajustado
## <0 linhas> (ou row.names de comprimento 0)
O teste de Kruskal–Wallis indicou diferença global estatisticamente significativa entre as habilidades (p = 0,025), sugerindo a presença de heterogeneidade na distribuição da dificuldade. Entretanto, o teste de Dunn com ajuste para múltiplas comparações não identificou diferenças significativas entre pares específicos de habilidades. Esse resultado indica que, embora exista evidência de variação global entre os grupos, não foram observados contrastes pontuais robustos.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Disciplina
## Kruskal-Wallis chi-squared = 7.9482, df = 3, p-value = 0.0471
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,0471). Esse resultado sugere que pelo menos uma das disciplinas apresenta valores do parâmetro de dificuldade distintos das demais.
## Kruskal-Wallis rank sum test
##
## data: x and group
## Kruskal-Wallis chi-squared = 7.9482, df = 3, p-value = 0.05
##
##
## Comparison of x by group
## (Holm)
## Col Mean-|
## Row Mean | Filosofi Geografi História
## ---------+---------------------------------
## Geografi | 1.951554
## | 0.1275
## |
## História | 1.903943 0.059731
## | 0.1138 0.4762
## |
## Sociolog | 2.815710 1.236182 1.098565
## | 0.0146* 0.3246 0.2720
##
## alpha = 0.05
## Reject Ho if p <= alpha/2
A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Sociologia e Filosofia (p = 0,0146). Para os demais pares de competências, não foram observadas diferenças estatisticamente significativas (p > 0,05).
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Competencia
## Kruskal-Wallis chi-squared = 2.2721, df = 5, p-value = 0.8104
O teste de Kruskal–Wallis não indicou diferença estatisticamente significativa entre as competências (p = 0,81), sugerindo que não há evidência de variação na distribuição da dificuldade entre os grupos avaliados.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Habilidade
## Kruskal-Wallis chi-squared = 24.602, df = 29, p-value = 0.6987
O teste de Kruskal–Wallis não indicou diferença estatisticamente significativa entre as habilidades (p = 0,6987), sugerindo que não há evidência de variação na distribuição da dificuldade entre os grupos avaliados.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Disciplina
## Kruskal-Wallis chi-squared = 6.3153, df = 2, p-value = 0.04253
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa na distribuição da dificuldade entre as disciplinas (p = 0,04312). Esse resultado sugere que pelo menos uma das disciplinas apresenta valores do parâmetro de dificuldade distintos das demais.
## Kruskal-Wallis rank sum test
##
## data: x and group
## Kruskal-Wallis chi-squared = 6.3153, df = 2, p-value = 0.04
##
##
## Comparison of x by group
## (Holm)
## Col Mean-|
## Row Mean | Biologia Física
## ---------+----------------------
## Física | -2.501125
## | 0.0186*
## |
## Química | -1.421847 1.075366
## | 0.1551 0.1411
##
## alpha = 0.05
## Reject Ho if p <= alpha/2
A análise complementar baseada no teste de Dunn indicou diferenças estatisticamente significativas apenas entre a disciplina Biologia e Física (p = 0,0189). Para os demais pares, não foram observadas diferenças estatisticamente significativas (p > 0,05).
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Competencia
## Kruskal-Wallis chi-squared = 22.798, df = 7, p-value = 0.001848
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as competências (p = 0,001848), sugerindo que há evidência de variação na distribuição da dificuldade entre os grupos avaliados.
## Comparacao z p_ajustado
## 1 1 - 2 -4.198485 0.00037619
## 2 1 - 6 -2.931002 0.04392321
## 3 1 - 7 -3.260495 0.01501444
O teste de Dunn com ajuste para múltiplas comparações identificou diferenças significativas entre as competências 1 - 2, 1 - 6 e 1 - 7, indicando que a competência 1 difere especificamente dessas três competências.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Habilidade
## Kruskal-Wallis chi-squared = 48.389, df = 29, p-value = 0.01339
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa entre as habilidades avaliadas (p = 0,013), sugerindo que ao menos uma habilidade apresenta distribuição de Dificuldade distinta das demais.
## Comparacao z p_ajustado
## 1 H3 - H5 -3.965133 0.0159547
O teste de Dunn, com ajuste para múltiplas comparações, identificou diferença estatisticamente significativa entre as habilidades H3 e H5 (p = 0,016), indicando que essas duas habilidades apresentam distribuições de dificuldade significativamente distintas.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Competencia
## Kruskal-Wallis chi-squared = 26.372, df = 6, p-value = 0.0001898
O teste de Kruskal–Wallis indicou diferença significativa no parâmetro B entre as competências, (p < 0.001), evidenciando que pelo menos uma competência apresenta distribuição distinta.
## Comparacao z p_ajustado
## 1 1 - 3 -2.848504 3.733648e-02
## 2 2 - 6 3.503361 4.364554e-03
## 3 3 - 6 4.760960 2.023084e-05
## 4 4 - 6 3.591727 3.284942e-03
## 5 5 - 6 3.263589 9.900942e-03
O teste de Dunn identificou diferenças significativas entre os pares: 1 - 3, 2 - 6, 3 - 6, 4 - 6 e 5 - 6. Destaca-se que a Competência 6 apresentou diferenças em relação a quatro outras competências, sugerindo comportamento distinto no parâmetro analisado.
##
## Kruskal-Wallis rank sum test
##
## data: ParamB by Habilidade
## Kruskal-Wallis chi-squared = 70.624, df = 29, p-value = 2.49e-05
O teste de Kruskal–Wallis indicou diferença estatisticamente significativa no parâmetro B (Dificuldade) entre as habilidades (p < 0.001), evidenciando que pelo menos uma habilidade apresenta distribuição distinta das demais.
## Comparacao z p_ajustado
## 1 H18 - H26 3.822019 0.02872289
## 2 H21 - H26 3.880473 0.02267516
## 3 H22 - H26 3.734895 0.04065731
O teste de Dunn apontou diferenças significativas entre os pares H18 - H26, H2 - H26 e H22 - H26, indicando que a habilidade H26 se diferencia especificamente dessas três em termos de dificuldade. Esse resultado sugere um padrão particular associado à H26 em comparação às demais habilidades analisadas.
A análise dos dados demonstra que a distribuição da dificuldade (Parâmetro \(b\)) é heterogênea dentro de cada domínio, com o teste de Kruskal-Wallis indicando diferenças significativas (p < 0,05) nas quatro áreas analisadas individualmente.
O teste de Dunn revelou contrastes pontuais entre disciplinas específicas: em Linguagens, Arte apresenta dificuldade estatisticamente superior a Educação Física e Português; em Ciências Humanas, Filosofia supera Sociologia; e em Ciências da Natureza, Física manifesta maior exigência em relação à Biologia.
A análise das competências por meio do teste de Kruskal–Wallis revelou que a distribuição da dificuldade é estatisticamente heterogênea em quase todos os domínios, com exceção de Ciências Humanas, onde não houve evidência de variação significativa entre os grupos. Em Matemática, a Competência 6, a menor média, diferiu estatisticamente das competências 2, 3, 4 e 5, enquanto a Competência 3 apresentou o maior patamar de dificuldade. Em Ciências da Natureza, a Competência 1 mostrou-se significativamente mais fácil que as competências 2, 6 e 7. Já em Linguagens, a Competência 3 situou-se em um nível de dificuldade inferior, divergindo estatisticamente das competências 4 e 5, que representam os maiores médias da área.