Tema do projeto: análise exploratória e interativa de dados educacionais públicos do PISA 2022.
Autor: José Edson Amorim Sebastião, mestrando no PPGIA/UFRPE e pesquisador no EVANTE.
A desigualdade educacional no Brasil afeta diretamente as oportunidades de aprendizagem, acesso a recursos tecnológicos e desenvolvimento de competências complexas. Ao mesmo tempo, mesmo entre estudantes em situação de vulnerabilidade socioeconômica, alguns conseguem alcançar desempenho elevado em pensamento criativo. O problema deste projeto é entender quais fatores tecnológicos, comportamentais e processuais distinguem esses estudantes vulneráveis que alcançam alto desempenho criativo.
Esse problema é importante porque normalmente as análises educacionais enfatizam apenas a falta, o baixo desempenho ou a desigualdade média. Aqui, o foco é diferente: observar estudantes em condição socioeconômica desfavorável e investigar quais características aparecem associadas a bons resultados em criatividade. Esse tipo de evidência pode ajudar gestores, pesquisadores e equipes pedagógicas a pensar políticas educacionais mais direcionadas, especialmente em contextos de escassez.
Para abordar o problema, utilizei os microdados do PISA 2022
referentes ao Brasil. Primeiro, organizei e limpei a base, removendo
duplicidades, padronizando tipos e documentando valores ausentes.
Depois, delimitei a população vulnerável usando o primeiro quartil do
índice socioeconômico ESCS. Dentro dessa população,
classifiquei como estudantes com resiliência criativa
aqueles que ficaram no quartil superior de desempenho em pensamento
criativo (CRT_SCORE). Em seguida, conduzi análises
exploratórias com tabelas, gráficos interativos, comparação de grupos,
medidas de tamanho de efeito e análises complementares de modelagem,
fairness e explicabilidade.
A técnica adotada foi pensada para evitar uma interpretação enganosa.
Em vez de treinar um modelo para “descobrir pobreza”, a vulnerabilidade
foi usada como critério de entrada da análise. Por isso, variáveis como
ESCS, HOMEPOS, HISCED e
CRT_SCORE não foram usadas como preditores dos modelos.
Essa decisão reduz risco de vazamento de informação e deixa a pergunta
mais coerente: entre estudantes vulneráveis, quais sinais
diferenciam os que alcançam alto desempenho criativo?
Os potenciais clientes desta análise são gestores públicos, pesquisadores em tecnologias educacionais, escolas e equipes pedagógicas. A análise pode ajudá-los a identificar padrões associados à criatividade em contextos de vulnerabilidade, levantar hipóteses sobre acesso tecnológico e comportamento nos itens de avaliação, além de orientar estudos futuros mais completos. Como se trata de um estudo observacional, os resultados não devem ser usados para tomar decisões automáticas sobre estudantes individuais; eles servem principalmente para interpretação agregada e planejamento de políticas ou pesquisas.
Todos os pacotes utilizados no relatório são carregados no início do documento para facilitar a replicação. A tabela abaixo resume o papel de cada pacote usado diretamente na construção deste relatório.
Além desses pacotes usados diretamente no relatório, o pipeline do
projeto utiliza outros pacotes de apoio, como data.table
para leitura eficiente do CSV, tidymodels para separação
treino/teste e validação, randomForest e
xgboost para modelos comparativos, fastshap
para explicabilidade e shiny/shinydashboard
para o dashboard interativo. Esses requisitos estão listados no script
03_scripts/install_packages.R.
Os dados utilizados são derivados dos microdados públicos do Programme for International Student Assessment (PISA) 2022, disponibilizados gratuitamente pela OECD. A página oficial de acesso aos microdados é: OECD PISA 2022 Database.
O PISA é uma avaliação internacional aplicada a estudantes de 15
anos, com o objetivo de avaliar competências em áreas como leitura,
matemática, ciências e, no ciclo de 2022, pensamento criativo. Neste
projeto, foi utilizada uma base brasileira já extraída e reduzida em
formato CSV (pisa_brasil_estudo_limpo.csv), armazenada em
01_raw_data/ para garantir reprodutibilidade local.
A base inicial do projeto contém 3.834 estudantes e 1.275 variáveis. Ela combina variáveis socioeconômicas, características do estudante, peso amostral e um grande conjunto de itens relacionados ao domínio de criatividade. Muitas colunas estão em formato largo, isto é, cada item de criatividade aparece como uma variável separada. Isso exigiu a criação de variáveis-resumo para tornar a análise mais interpretável.
A tabela acima mostra que a base mistura tipos numéricos, inteiros e caracteres. Essa etapa é importante porque variáveis que serão usadas em filtros, cálculos de quartis e modelos precisam estar em formato numérico adequado.
A tabela de valores ausentes mostra que alguns itens específicos do questionário possuem alto percentual de ausência. Isso é esperado em bases de avaliação educacional de larga escala, pois nem todos os estudantes respondem todos os blocos de itens. Por esse motivo, a análise não usa todos os itens individualmente; em vez disso, cria variáveis agregadas de engajamento e tempo médio.
A preparação dos dados seguiu um processo lógico em oito scripts
modulares. A importação lê o CSV com data.table::fread,
salva um objeto RDS e registra metadados. A limpeza remove duplicidades
por identificador do estudante, converte variáveis relevantes para
formato numérico e filtra observações sem ESCS ou
CRT_SCORE, porque essas duas variáveis são necessárias para
definir vulnerabilidade e desempenho criativo.
Depois da limpeza inicial, foram criadas duas variáveis processuais.
A primeira é cr_engagement, que resume a proporção de itens
criativos respondidos pelo estudante. A segunda é
cr_time_mean, que resume o tempo médio nos itens de
criatividade com transformação logarítmica. Em seguida, a análise filtra
estudantes com ESCS <= Q1 e define
Creative_Resilience = 1 para estudantes que, dentro desse
grupo vulnerável, atingem CRT_SCORE >= Q3.
Após a preparação, o conjunto analítico final contém 959 estudantes vulneráveis e as variáveis principais usadas na análise. Para não imprimir uma base grande, a tabela abaixo mostra apenas uma amostra condensada das primeiras 15 linhas.
As variáveis centrais do conjunto final são: ESCS, usado
apenas para definir vulnerabilidade; CRT_SCORE, usado
apenas para definir o alto desempenho criativo; ICTRES, que
representa recursos tecnológicos; ST004D01T, usado como
variável de sexo e fairness; cr_engagement, que resume
cobertura dos itens criativos; e cr_time_mean, que resume
tempo médio nos itens.
Essa tabela resume as variáveis de interesse da base limpa. Ela
substitui saídas longas como summary() ou
str() por uma visão compacta e interpretável, como
solicitado na descrição do projeto.
O gráfico mostra que cerca de um quarto dos estudantes vulneráveis
foi classificado como resiliente. Isso acontece porque o alvo foi
definido pelo quartil superior de CRT_SCORE dentro da
própria população vulnerável. Essa distribuição é importante porque
indica que a análise compara um grupo minoritário, mas ainda grande o
suficiente para exploração estatística.
Este gráfico compara a distribuição de ICTRES entre
resilientes e não resilientes. A diferença visual não é enorme, mas
existe um deslocamento pequeno em favor dos estudantes resilientes. Isso
sugere que recursos tecnológicos podem estar associados ao desempenho
criativo, embora a relação não seja forte o suficiente para ser
interpretada isoladamente.
O gráfico mostra a relação entre cobertura dos itens criativos e
desempenho em criatividade. A linha tracejada marca o ponto a partir do
qual o estudante é classificado como resiliente. Um ponto importante é
que cr_engagement não deve ser lido de forma simplista como
“quanto mais respostas, melhor”. Na base analisada, ele aparece como um
sinal processual importante, mas com direção que exige cautela: pode
refletir estratégia de resposta, dificuldade dos itens, tempo disponível
ou padrão de interação com a prova.
A tabela e o gráfico complementam a comparação visual com uma medida
de magnitude. O principal achado é que cr_engagement tem o
maior tamanho de efeito absoluto, mas aparece menor entre resilientes.
Já cr_time_mean aparece maior entre resilientes, sugerindo
que tempo médio nos itens pode representar persistência ou maior
elaboração das respostas. ICTRES tem efeito pequeno, mas
ainda relevante como fator contextual.
O PCA resume os preditores permitidos em dois componentes principais. O objetivo desse gráfico não é classificar perfeitamente os estudantes, mas verificar se há separação visual entre perfis. A sobreposição entre grupos mostra que a resiliência criativa não é explicada por uma única variável; ela parece depender de uma combinação de sinais tecnológicos e processuais.
A matriz de correlação ajuda a verificar redundância entre preditores. Correlações muito altas poderiam indicar que duas variáveis estão medindo praticamente a mesma coisa. Neste projeto, a correlação entre os preditores permitidos não elimina a necessidade de observar cada variável separadamente.
Embora o foco do projeto seja análise exploratória, utilizei modelos preditivos como ferramenta complementar para verificar se os sinais encontrados têm capacidade de distinguir estudantes resilientes e não resilientes. Os modelos não são usados como solução automática, mas como apoio à interpretação.
Essa tabela compara GLM, Random Forest e XGBoost. As AUCs ficam em torno de 0,70, indicando desempenho moderado. Isso significa que há sinal nos dados, mas não o suficiente para decisões individuais. O GLM é especialmente útil porque permite interpretação mais transparente por odds ratios, enquanto os modelos de árvore servem como comparação.
A curva ROC mostra o equilíbrio entre sensibilidade e falsos positivos em diferentes thresholds. Como as curvas ficam acima da diagonal, os modelos aprendem algum padrão útil. Porém, como não se aproximam do canto superior esquerdo, o resultado deve ser interpretado como evidência moderada.
A matriz de confusão mostra os acertos e erros de classificação. Ela é útil porque a AUC sozinha não mostra quantos estudantes seriam classificados em cada grupo. Como o objetivo do projeto não é criar uma ferramenta de triagem, a matriz é interpretada apenas como diagnóstico do comportamento dos modelos.
O gráfico de lift mostra se os maiores scores do modelo concentram mais estudantes resilientes do que a média. Ele é útil para pesquisa porque indica priorização de hipóteses: se o primeiro decil concentra mais resilientes, os sinais capturados pelo modelo podem orientar novas investigações. Ainda assim, isso não deve ser confundido com autorização para ranquear estudantes individualmente.
A tabela de fairness compara métricas por sexo. A diferença de recall entre grupos mostra que o modelo pode identificar estudantes resilientes de forma desigual. Esse resultado reforça que qualquer uso prático exigiria validação externa, mitigação de viés e revisão ética.
O SHAP global mostra quais variáveis mais contribuíram para as
previsões do GLM. A variável cr_engagement aparece como a
mais importante, seguida de cr_time_mean,
ICTRES e sexo. Isso confirma que os sinais processuais dos
itens são relevantes, mas precisam ser interpretados com cuidado, porque
estão próximos do contexto de aplicação da prova.
Este projeto investigou quais fatores distinguem estudantes
brasileiros vulneráveis que alcançam alto desempenho em pensamento
criativo no PISA 2022. A pergunta foi abordada com uma estratégia em
duas etapas: primeiro, a população vulnerável foi definida pelo primeiro
quartil de ESCS; depois, dentro desse grupo, a resiliência
criativa foi definida pelo quartil superior de
CRT_SCORE.
A preparação dos dados envolveu importação, limpeza, conversão de
tipos, tratamento de duplicidades, criação de variáveis processuais e
filtragem da população de interesse. Essa organização foi essencial para
evitar uma análise enviesada. Em particular, o projeto não usa
ESCS, HOMEPOS, HISCED ou
CRT_SCORE como preditores, pois essas variáveis poderiam
recriar a regra de seleção ou contaminar o alvo.
Os principais insights foram três. Primeiro, os sinais processuais
dos itens de criatividade são relevantes, especialmente
cr_engagement e cr_time_mean. Segundo,
ICTRES apresenta associação pequena, mas coerente, com a
resiliência criativa, sugerindo que recursos tecnológicos podem compor o
contexto de oportunidade dos estudantes. Terceiro, os modelos preditivos
têm desempenho moderado, com AUC próxima de 0,70, o que indica sinal
analítico real, mas insuficiente para uso decisório individual.
Para os potenciais clientes da análise, como gestores educacionais, pesquisadores e equipes pedagógicas, os resultados sugerem que políticas de criatividade e tecnologia devem considerar não apenas acesso a recursos, mas também padrões de interação dos estudantes com tarefas criativas. O estudo pode apoiar hipóteses para novos projetos, diagnósticos agregados e desenho de intervenções, desde que os resultados sejam validados com bases mais completas.
As limitações também são importantes. A base usada é reduzida e não inclui todas as variáveis contextuais do questionário completo do PISA. Os pesos amostrais ainda não foram incorporados às análises principais. Além disso, variáveis processuais derivadas dos itens de criatividade podem estar próximas do próprio processo de mensuração do desempenho. Trabalhos futuros podem integrar o questionário completo, usar desenho amostral complexo, validar os resultados em outros países e aprofundar a análise de fairness.
Para reproduzir o projeto, execute: