Esta é uma Exploratory Data Analysis, ou Análise Exploratória de Dados do conjunto de dado provenientes do senso educacional de 2025 agregados aos dados do IBGE sobre demografia dos municípios do Brasil. Atualmente, todas essas fontes estão no data_pipeline do projeto EduMaps, criado e codificado pelo mesmo autor.
Os scores médios municipais são calculados a partir dos indicadores individuais de cada escola pertencente ao município, extraídos do Censo Escolar. Portanto, o valor municipal representa a média aritmética simples do desempenho das unidades escolares daquela localidade.
Para a primeira etapa da análise, os municípios foram estratificados em cinco faixas populacionais:
Esta segmentação permite investigar como a escala urbana influencia a distribuição de recursos e indicadores educacionais.
O score de infraestrutura avalia itens críticos como acesso a serviços básicos (água, luz e saneamento), recursos tecnológicos (internet e laboratórios) e equipamentos esportivos (quadras e piscinas).
O gráfico indica que a infraestrutura mantém uma média consistente, em torno de 7.5, em todas as faixas. Nota-se, contudo, que:
Este indicador revela um comportamento linear e diretamente proporcional ao tamanho da população: quanto maior o município, maior a razão aluno/docente. A baixa variabilidade dentro das faixas indica que esta é uma característica estrutural consolidada do modelo de organização escolar conforme o porte da cidade.
O gráfico é interessante, mostra uma relação bem comportada da média de alunos por docente de acordo com a faixa populacional, mostrando que à medida que os municípios crescem (maior população) cresce a razão de alunos/docente. E com pouca variabilidade dentro das faixas.
Aqui continuamos as análises via gráfico das demais variáveis sem nos deter em nenhum comentário.
Agora vamos à mesma análise, porém fazendo o recorte regional.
Podemos agora fazer o recorte usando a Região como base, o que é geralmente o caso pois estamos interessados nas desigualdades regionais que são bem estudadas e conhecidas.
Para isso vamos utilizar os mesmos gráficos anteriores, colocando lado a lado cada um.
Nesta seção, você deve substituir as interpretações genéricas pelos resultados reais que aparecerem no console do seu R.
A aplicação da ANOVA (Análise de Variância) busca identificar se existe uma diferença estatisticamente significativa entre as médias de infraestrutura das regiões.
Pr(>F) for menor que 0.05, confirmamos
que a região onde o município está localizado influencia
significativamente a qualidade da infraestrutura escolar.Diferente da infraestrutura básica, o score de tecnologia costuma ser mais sensível a questões orçamentárias e regionais.
F-value seja alto, concluímos que a desigualdade
tecnológica é um fator regional marcante.Resultados da ANOVA TukeyHSD.
## Df Sum Sq Mean Sq F value Pr(>F)
## no_regiao 4 3983 995.8 296.3 <2e-16 ***
## Residuals 5566 18705 3.4
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = score_infra_medio ~ no_regiao, data = df_analise)
##
## $no_regiao
## diff lwr upr p adj
## Nordeste-Centro-Oeste -1.5682070 -1.827845560 -1.3085684 0.0000000
## Norte-Centro-Oeste -2.3631829 -2.693437767 -2.0329280 0.0000000
## Sudeste-Centro-Oeste -0.4868162 -0.748475877 -0.2251566 0.0000039
## Sul-Centro-Oeste 0.2697770 -0.003121728 0.5426756 0.0544386
## Norte-Nordeste -0.7949759 -1.058700744 -0.5312511 0.0000000
## Sudeste-Nordeste 1.0813907 0.911248819 1.2515327 0.0000000
## Sul-Nordeste 1.8379839 1.651018165 2.0249497 0.0000000
## Sudeste-Norte 1.8763667 1.610651858 2.1420815 0.0000000
## Sul-Norte 2.6329599 2.356170619 2.9097491 0.0000000
## Sul-Sudeste 0.7565932 0.566830768 0.9463556 0.0000000
Resultados da ANOVA e TukeyHSD
## Df Sum Sq Mean Sq F value Pr(>F)
## no_regiao 4 3608 901.9 423.1 <2e-16 ***
## Residuals 5566 11863 2.1
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Tukey multiple comparisons of means
## 95% family-wise confidence level
##
## Fit: aov(formula = score_tecnologia_medio ~ no_regiao, data = df_analise)
##
## $no_regiao
## diff lwr upr p adj
## Nordeste-Centro-Oeste -1.9557265 -2.1624980 -1.7489550 0.0000000
## Norte-Centro-Oeste -2.2506564 -2.5136654 -1.9876474 0.0000000
## Sudeste-Centro-Oeste -1.1284059 -1.3367869 -0.9200249 0.0000000
## Sul-Centro-Oeste -0.1128705 -0.3302021 0.1044612 0.6165884
## Norte-Nordeste -0.2949299 -0.5049556 -0.0849042 0.0012142
## Sudeste-Nordeste 0.8273206 0.6918226 0.9628186 0.0000000
## Sul-Nordeste 1.8428560 1.6939598 1.9917522 0.0000000
## Sudeste-Norte 1.1222505 0.9106400 1.3338610 0.0000000
## Sul-Norte 2.1377860 1.9173560 2.3582159 0.0000000
## Sul-Sudeste 1.0155354 0.8644120 1.1666588 0.0000000
Nessa primeira EDA observamos um dado bastante interessante, pois já é conhecida a defasagem do Norte/Nordeste na infraestrutura, quando em relação ao Sul/Sudeste. Mas o Centro-Oeste que sempre se aproximou mais de Norte/Nordeste, se destaca na liderança nos scores de tecnologia e infraestrutura, empatando com o Sul estatisticamente. Já quando modelamos por faixas populacionais, sem se importar com região, os indicadores seguem uma tendência mais homogênea.