Tema do projeto: análise exploratória e interativa de dados educacionais públicos do PISA 2022.

Autor: José Edson Amorim Sebastião, mestrando no PPGIA/UFRPE e pesquisador no EVANTE.

Base original
3.834 x 1.275
Linhas x variáveis
População analisada
959
ESCS <= -1,697
Resilientes
25,0%
CRT_SCORE >= 0,462
Melhor AUC
0,710
XGBoost

Introdução

A desigualdade educacional no Brasil afeta diretamente as oportunidades de aprendizagem, acesso a recursos tecnológicos e desenvolvimento de competências complexas. Ao mesmo tempo, mesmo entre estudantes em situação de vulnerabilidade socioeconômica, alguns conseguem alcançar desempenho elevado em pensamento criativo. O problema deste projeto é entender quais fatores tecnológicos, comportamentais e processuais distinguem esses estudantes vulneráveis que alcançam alto desempenho criativo.

Esse problema é importante porque normalmente as análises educacionais enfatizam apenas a falta, o baixo desempenho ou a desigualdade média. Aqui, o foco é diferente: observar estudantes em condição socioeconômica desfavorável e investigar quais características aparecem associadas a bons resultados em criatividade. Esse tipo de evidência pode ajudar gestores, pesquisadores e equipes pedagógicas a pensar políticas educacionais mais direcionadas, especialmente em contextos de escassez.

Para abordar o problema, utilizei os microdados do PISA 2022 referentes ao Brasil. Primeiro, organizei e limpei a base, removendo duplicidades, padronizando tipos e documentando valores ausentes. Depois, delimitei a população vulnerável usando o primeiro quartil do índice socioeconômico ESCS. Dentro dessa população, classifiquei como estudantes com resiliência criativa aqueles que ficaram no quartil superior de desempenho em pensamento criativo (CRT_SCORE). Em seguida, conduzi análises exploratórias com tabelas, gráficos interativos, comparação de grupos, medidas de tamanho de efeito e análises complementares de modelagem, fairness e explicabilidade.

A técnica adotada foi pensada para evitar uma interpretação enganosa. Em vez de treinar um modelo para “descobrir pobreza”, a vulnerabilidade foi usada como critério de entrada da análise. Por isso, variáveis como ESCS, HOMEPOS, HISCED e CRT_SCORE não foram usadas como preditores dos modelos. Essa decisão reduz risco de vazamento de informação e deixa a pergunta mais coerente: entre estudantes vulneráveis, quais sinais diferenciam os que alcançam alto desempenho criativo?

Os potenciais clientes desta análise são gestores públicos, pesquisadores em tecnologias educacionais, escolas e equipes pedagógicas. A análise pode ajudá-los a identificar padrões associados à criatividade em contextos de vulnerabilidade, levantar hipóteses sobre acesso tecnológico e comportamento nos itens de avaliação, além de orientar estudos futuros mais completos. Como se trata de um estudo observacional, os resultados não devem ser usados para tomar decisões automáticas sobre estudantes individuais; eles servem principalmente para interpretação agregada e planejamento de políticas ou pesquisas.

Pacotes requeridos

Todos os pacotes utilizados no relatório são carregados no início do documento para facilitar a replicação. A tabela abaixo resume o papel de cada pacote usado diretamente na construção deste relatório.

Além desses pacotes usados diretamente no relatório, o pipeline do projeto utiliza outros pacotes de apoio, como data.table para leitura eficiente do CSV, tidymodels para separação treino/teste e validação, randomForest e xgboost para modelos comparativos, fastshap para explicabilidade e shiny/shinydashboard para o dashboard interativo. Esses requisitos estão listados no script 03_scripts/install_packages.R.

Preparação dos dados

Fonte original dos dados

Os dados utilizados são derivados dos microdados públicos do Programme for International Student Assessment (PISA) 2022, disponibilizados gratuitamente pela OECD. A página oficial de acesso aos microdados é: OECD PISA 2022 Database.

O PISA é uma avaliação internacional aplicada a estudantes de 15 anos, com o objetivo de avaliar competências em áreas como leitura, matemática, ciências e, no ciclo de 2022, pensamento criativo. Neste projeto, foi utilizada uma base brasileira já extraída e reduzida em formato CSV (pisa_brasil_estudo_limpo.csv), armazenada em 01_raw_data/ para garantir reprodutibilidade local.

Como era a base original usada no projeto

A base inicial do projeto contém 3.834 estudantes e 1.275 variáveis. Ela combina variáveis socioeconômicas, características do estudante, peso amostral e um grande conjunto de itens relacionados ao domínio de criatividade. Muitas colunas estão em formato largo, isto é, cada item de criatividade aparece como uma variável separada. Isso exigiu a criação de variáveis-resumo para tornar a análise mais interpretável.

A tabela acima mostra que a base mistura tipos numéricos, inteiros e caracteres. Essa etapa é importante porque variáveis que serão usadas em filtros, cálculos de quartis e modelos precisam estar em formato numérico adequado.

A tabela de valores ausentes mostra que alguns itens específicos do questionário possuem alto percentual de ausência. Isso é esperado em bases de avaliação educacional de larga escala, pois nem todos os estudantes respondem todos os blocos de itens. Por esse motivo, a análise não usa todos os itens individualmente; em vez disso, cria variáveis agregadas de engajamento e tempo médio.

Etapas de importação, limpeza e organização

A preparação dos dados seguiu um processo lógico em oito scripts modulares. A importação lê o CSV com data.table::fread, salva um objeto RDS e registra metadados. A limpeza remove duplicidades por identificador do estudante, converte variáveis relevantes para formato numérico e filtra observações sem ESCS ou CRT_SCORE, porque essas duas variáveis são necessárias para definir vulnerabilidade e desempenho criativo.

Depois da limpeza inicial, foram criadas duas variáveis processuais. A primeira é cr_engagement, que resume a proporção de itens criativos respondidos pelo estudante. A segunda é cr_time_mean, que resume o tempo médio nos itens de criatividade com transformação logarítmica. Em seguida, a análise filtra estudantes com ESCS <= Q1 e define Creative_Resilience = 1 para estudantes que, dentro desse grupo vulnerável, atingem CRT_SCORE >= Q3.

Conjunto de dados final

Após a preparação, o conjunto analítico final contém 959 estudantes vulneráveis e as variáveis principais usadas na análise. Para não imprimir uma base grande, a tabela abaixo mostra apenas uma amostra condensada das primeiras 15 linhas.

As variáveis centrais do conjunto final são: ESCS, usado apenas para definir vulnerabilidade; CRT_SCORE, usado apenas para definir o alto desempenho criativo; ICTRES, que representa recursos tecnológicos; ST004D01T, usado como variável de sexo e fairness; cr_engagement, que resume cobertura dos itens criativos; e cr_time_mean, que resume tempo médio nos itens.

Essa tabela resume as variáveis de interesse da base limpa. Ela substitui saídas longas como summary() ou str() por uma visão compacta e interpretável, como solicitado na descrição do projeto.

Análise exploratória dos dados

Distribuição do alvo

O gráfico mostra que cerca de um quarto dos estudantes vulneráveis foi classificado como resiliente. Isso acontece porque o alvo foi definido pelo quartil superior de CRT_SCORE dentro da própria população vulnerável. Essa distribuição é importante porque indica que a análise compara um grupo minoritário, mas ainda grande o suficiente para exploração estatística.

Recursos tecnológicos e resiliência criativa

Este gráfico compara a distribuição de ICTRES entre resilientes e não resilientes. A diferença visual não é enorme, mas existe um deslocamento pequeno em favor dos estudantes resilientes. Isso sugere que recursos tecnológicos podem estar associados ao desempenho criativo, embora a relação não seja forte o suficiente para ser interpretada isoladamente.

Engajamento, tempo e desempenho criativo

O gráfico mostra a relação entre cobertura dos itens criativos e desempenho em criatividade. A linha tracejada marca o ponto a partir do qual o estudante é classificado como resiliente. Um ponto importante é que cr_engagement não deve ser lido de forma simplista como “quanto mais respostas, melhor”. Na base analisada, ele aparece como um sinal processual importante, mas com direção que exige cautela: pode refletir estratégia de resposta, dificuldade dos itens, tempo disponível ou padrão de interação com a prova.

Tamanho de efeito entre grupos

A tabela e o gráfico complementam a comparação visual com uma medida de magnitude. O principal achado é que cr_engagement tem o maior tamanho de efeito absoluto, mas aparece menor entre resilientes. Já cr_time_mean aparece maior entre resilientes, sugerindo que tempo médio nos itens pode representar persistência ou maior elaboração das respostas. ICTRES tem efeito pequeno, mas ainda relevante como fator contextual.

PCA e correlação

O PCA resume os preditores permitidos em dois componentes principais. O objetivo desse gráfico não é classificar perfeitamente os estudantes, mas verificar se há separação visual entre perfis. A sobreposição entre grupos mostra que a resiliência criativa não é explicada por uma única variável; ela parece depender de uma combinação de sinais tecnológicos e processuais.

A matriz de correlação ajuda a verificar redundância entre preditores. Correlações muito altas poderiam indicar que duas variáveis estão medindo praticamente a mesma coisa. Neste projeto, a correlação entre os preditores permitidos não elimina a necessidade de observar cada variável separadamente.

Análise complementar com modelos

Embora o foco do projeto seja análise exploratória, utilizei modelos preditivos como ferramenta complementar para verificar se os sinais encontrados têm capacidade de distinguir estudantes resilientes e não resilientes. Os modelos não são usados como solução automática, mas como apoio à interpretação.

Essa tabela compara GLM, Random Forest e XGBoost. As AUCs ficam em torno de 0,70, indicando desempenho moderado. Isso significa que há sinal nos dados, mas não o suficiente para decisões individuais. O GLM é especialmente útil porque permite interpretação mais transparente por odds ratios, enquanto os modelos de árvore servem como comparação.

A curva ROC mostra o equilíbrio entre sensibilidade e falsos positivos em diferentes thresholds. Como as curvas ficam acima da diagonal, os modelos aprendem algum padrão útil. Porém, como não se aproximam do canto superior esquerdo, o resultado deve ser interpretado como evidência moderada.

A matriz de confusão mostra os acertos e erros de classificação. Ela é útil porque a AUC sozinha não mostra quantos estudantes seriam classificados em cada grupo. Como o objetivo do projeto não é criar uma ferramenta de triagem, a matriz é interpretada apenas como diagnóstico do comportamento dos modelos.

O gráfico de lift mostra se os maiores scores do modelo concentram mais estudantes resilientes do que a média. Ele é útil para pesquisa porque indica priorização de hipóteses: se o primeiro decil concentra mais resilientes, os sinais capturados pelo modelo podem orientar novas investigações. Ainda assim, isso não deve ser confundido com autorização para ranquear estudantes individualmente.

Fairness e explicabilidade

A tabela de fairness compara métricas por sexo. A diferença de recall entre grupos mostra que o modelo pode identificar estudantes resilientes de forma desigual. Esse resultado reforça que qualquer uso prático exigiria validação externa, mitigação de viés e revisão ética.

O SHAP global mostra quais variáveis mais contribuíram para as previsões do GLM. A variável cr_engagement aparece como a mais importante, seguida de cr_time_mean, ICTRES e sexo. Isso confirma que os sinais processuais dos itens são relevantes, mas precisam ser interpretados com cuidado, porque estão próximos do contexto de aplicação da prova.

Conclusão

Este projeto investigou quais fatores distinguem estudantes brasileiros vulneráveis que alcançam alto desempenho em pensamento criativo no PISA 2022. A pergunta foi abordada com uma estratégia em duas etapas: primeiro, a população vulnerável foi definida pelo primeiro quartil de ESCS; depois, dentro desse grupo, a resiliência criativa foi definida pelo quartil superior de CRT_SCORE.

A preparação dos dados envolveu importação, limpeza, conversão de tipos, tratamento de duplicidades, criação de variáveis processuais e filtragem da população de interesse. Essa organização foi essencial para evitar uma análise enviesada. Em particular, o projeto não usa ESCS, HOMEPOS, HISCED ou CRT_SCORE como preditores, pois essas variáveis poderiam recriar a regra de seleção ou contaminar o alvo.

Os principais insights foram três. Primeiro, os sinais processuais dos itens de criatividade são relevantes, especialmente cr_engagement e cr_time_mean. Segundo, ICTRES apresenta associação pequena, mas coerente, com a resiliência criativa, sugerindo que recursos tecnológicos podem compor o contexto de oportunidade dos estudantes. Terceiro, os modelos preditivos têm desempenho moderado, com AUC próxima de 0,70, o que indica sinal analítico real, mas insuficiente para uso decisório individual.

Para os potenciais clientes da análise, como gestores educacionais, pesquisadores e equipes pedagógicas, os resultados sugerem que políticas de criatividade e tecnologia devem considerar não apenas acesso a recursos, mas também padrões de interação dos estudantes com tarefas criativas. O estudo pode apoiar hipóteses para novos projetos, diagnósticos agregados e desenho de intervenções, desde que os resultados sejam validados com bases mais completas.

As limitações também são importantes. A base usada é reduzida e não inclui todas as variáveis contextuais do questionário completo do PISA. Os pesos amostrais ainda não foram incorporados às análises principais. Além disso, variáveis processuais derivadas dos itens de criatividade podem estar próximas do próprio processo de mensuração do desempenho. Trabalhos futuros podem integrar o questionário completo, usar desenho amostral complexo, validar os resultados em outros países e aprofundar a análise de fairness.

Para reproduzir o projeto, execute:

setwd("Projeto_PISA_Resiliencia")
source("03_scripts/install_packages.R")
source("03_scripts/run_all.R")
rmarkdown::render("07_reports/relatorio_cientifico.Rmd")
shiny::runApp("08_dashboard")