1 Coleta de dados

O Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP) conduz o Sistema de Avaliação da Educação Básica (SAEB) desde 1990, cuja finalidade é fornecer insumos para elaboração e monitoramente de políticas públicas de educação. Atualmente, sua população-alvo compreende estudantes da educação infantil, do ensino fundamental e do ensino médio no Brasil. Para realizar o diagnóstico da educação básica brasileira, o Instituto aplica testes e questionários bienalmente na rede pública, contando também com uma amostragem da rede privada - juntos compõem a população acessível que, neste estudo, está limitado ao quinto ano.

As avaliações preenchidas para os ensinos fundamental e médio compreendem as disciplinas de língua portuguesa, matemática, ciências da natureza e ciências humanas, cuja referência são as matrizes do SAEB, que refletem a Base Nacional Comum Curricular (BNCC). Diferentemente, o ensino infantil é avaliado por suas condições de oferta, infraestrutura e gestão.


2 Diagnóstico do banco de dados e metodologia de cálculo

2.1 Dados faltantes

Primeiramente, realiza-se diagnóstico do banco de dados com o objetivo de identificar possíveis ajustes de cálculo. A tabela 1 a seguir quantifica observações faltantes para cada uma das variáveis selecionadas para análise.

Tabela 1: observações ausentes
Sexo Raça Afazeres domésticos Região Posse de computador Nota LP Nota MT
0 69 37 0 21 0 0
Fonte: INEP - SAEB


Visto que foram identificadas lacunas nas observações e estas representam uma pequena fração da amostra - de tamanho 2000 - essas foram omitidas para todos os cálculos a seguir.

2.2 Metodologia e dados complementares

Para o cálculo da curtose realizado na última seção, foi utilizada a função, pertencente ao pacote e1071 para a linguagem R, para curtose com método coeficiente excesso. Seu cálculo é dado pela expressão a seguir:

\[b_2 = \frac{m_4}{s^4} - 3 = \frac {\frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x})^4} {\left[\frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x})^2 \right]^{2}}-3\]

Além disso, foi utilizada a função para assimetria de amostras do mesmo pacote, não viesada sob a hipótese de normalidade, cujo cálculo é dado pela expressão a seguir:

\[b_1 = \frac{m_3}{s^3} = \frac {\frac{1}{n} \sum_{i=1}^{n}(x_i-\bar{x})^3} {\left[\frac{1}{n-1} \sum_{i=1}^{n}(x_i-\bar{x})^2 \right]^{\frac{3}{2}}}\]

Por fim, os dados utilizados do Instituto Brasileiro de Geografia e Estatística (IBGE) para comparação com os dados da amostra foram obtidos por acesso ao Sistema IBGE de Recuperação Automática (SIDRA) no dia 9 de março de 2021.


3 Identificação de variáveis

A amostra disponibilizada conta com 2000 observações de 19 variáveis, cujos nomes, descrições e tipos são expostos na tabela 2 a seguir:

Tabela 2: Descrição de variáveis disponibilizadas
Variável Descrição Tipo
ANO Ano de realização do SAEB Ordinal
REGIAO Região de localização da escola do estudante Nominal
UF Unidade da Federação de localização da escola do estudante Nominal
MUNICIPIO Município de localização da escola do estudante Nominal
AREA Área de localização da escola do estudante (capital ou interior) Nominal
DEPENDENCIA_ADM Localização da escola do estudante(urbana ou rural) Nominal
LOCALIZACAO Categoria administrativa da escola do estudante (Federal, Estadual, Municipal) Nominal
NOTA_LP Proficiência em Língua Portuguesa transformada na escala única do SAEB Contínua
NOTA_MT Proficiência do aluno em Matemática transformada na escala única do SAEB Contínua
SEXO Sexo do estudante Nominal
RACA_COR Raça/cor do estudante Nominal
IDADE Idade do estudante Ordinal
COMPUTADOR Tem computador em casa? Ordinal
MORA_MÃE Você mora com sua mãe? Nominal
MORA_PAI Você mora com seu pai? Nominal
REUNIÕES_ESCOLARES Frequência dos pais, ou responsáveis à reunião de pais? Ordinal
USO_TEMPO_TELAS Tempo gasto assistindo à TV, navegando na internet ou jogando jogos eletrônicos em dias de aula Ordinal
AFAZERES_DOM Tempo gasto fazendo trabalhos domésticos (ex.: lavando louça, limpando o quintal etc.) em dias de aula Ordinal
BIBLIOTECA Você utiliza a biblioteca ou sala de leitura da sua escola? Ordinal
Fonte: SAEB - INEP


4 Variáveis categóricas

A seguir são apresentadas as seguintes variáveis categóricas: sexo, região, raça, posse de computador e afazeres domésticos. Suas distribuições são expostas em forma tabular e gráfica, acompanhadas de comentários.

4.1 Sexo

A tabela 3 a seguir expõe as proporções dos sexos dos indivíduos da amostra. É possível observar que se está muito próximo de 50% para cada sexo.

Tabela 3: Distribuição indivíduos por sexo
Sexo Proporção
Masculino 0.501
Feminino 0.499
Fonte: INEP - SAEB


Essa distribuição é exposta na figura 1 a seguir, em que se pode notar barras praticamente iguais.

Figura 1: Distribuição de indivíduos por sexo

Figura 1: Distribuição de indivíduos por sexo


4.2 Região

A tabela 4 a seguir expõe a distribuição dos indivíduos da amostra por região. A título de comparação, foi inserida a distribuição de brasileiros por região de acordo com os dados do censo realizado em 2010 (IBGE, 2012).

Tabela 4: Distribuição de indivíduos por região
Região Proporção SAEB Proporção censo IBGE
Norte 0.10 0.08
Nordeste 0.27 0.28
Sudeste 0.39 0.42
Sul 0.16 0.14
Centro-Oeste 0.08 0.07
Fonte: INEP - SAEB e IBGE - Censo Demográfico


A maior concentração de estudantes ocorre nas regiões do nordeste e sudeste brasileiro, enquanto há as menores concentrações no norte e no centro-oeste. A princípio, a distribuição é muito próxima àquela identificada pelo IBGE.

A figura 2 a seguir ilustra a distribuição dos estudantes por região brasileira, evidenciando a ocorrência de mais de 60% da amostra nas regiões sudeste e nordeste.


Figura 2: distribuição de indivíduos por região

Figura 2: distribuição de indivíduos por região


4.3 Raça

A distribuição de estudantes de acordo com a sua raça declarada é exposta na tabela 5 a seguir. Dados do censo de 2010 (IBGE, 2012) foram inseridos para comparação.

Tabela 5: Distribuição de indivíduos por raça declarada
Raça Proporção SAEB Proporção IBGE
Branca 0.29 0.48
Preta 0.10 0.08
Parda 0.43 0.43
Amarela 0.03 0.01
Indígena 0.03 0*
Não quero declarar 0.11 0*
Fonte: INEP - SAEB e IBGE - Censo Demográfico


É notável a aparente discrepância de proporções entre os dados do SAEB e do censo, específicamente na raça declarada Branca e nos que não gostariam de declarar sua raça. Cabe ressaltar que no censo de 2010 houve uma frequência muito baixa de declaração de raça indígena e daqueles que não gostaria de declarar sua raça, de modo que, arredondado para duas casas decimais, são inexpressivos.

A figura 3 a seguir ilustra a distribuição de indivíduos por raça de acordo com os dados do SAEB. É possível observar uma predominância de indivíduos pardos, seguidos de brancos, compondo juntos a maioria dos participantes da amostra.


Figura 3: distribuição de indivíduos por raça

Figura 3: distribuição de indivíduos por raça


4.4 Posse de computador

O SAEB também coleta informações sobre a posse de computadores nas residências dos estudantes. Respostas variam entre nenhum computador em casa até quatro ou mais aparelhos. A distribuição das respostas é exposta na tabela 6 a seguir. As proporções têm seus valores arredondados para 2 dígitos.

Tabela 6: Distribuição de computadores por residência
Computador Proporção
Nenhum 0.47
Um 0.39
Dois 0.10
Três 0.02
Quatro ou mais 0.01
Fonte: INEP - SAEB


Nota-se pela tabela 5 que praticamente metade das residências não possuem sequer um computador, enquanto uma parcela pequena, aproximadamente 13%, possui dois ou mais computadores.

A figura 4 a seguir ilustra a predominância de lares com até um computador, acompanhados por uma minoria possuidora de dois ou mais computadores.


Figura 4: distribuição de computadores por residência

Figura 4: distribuição de computadores por residência


4.5 Afazeres domésticos

Por fim, explora-se a coleta de informações pelo SAEB relativo à quantidade de horas gastas pelos respondentes realizando afazeres domésticos. Escolhe-se essa variável para exploração por apontar potenciais situações sociais críticas, a despeito de apresentar classificação pouco clara - por exemplo, a diferenciação entre “mais de 2 horas” e “até 3 horas”. A tabela 7 a seguir expões a distribuição das respostas à avaliação.

Tabela 7: Distribuição de horas de afazeres dométicos
Afazeres(h) Proporção
Menos de 1 0.43
Entre 1 e 2 0.17
Mais de 2 0.11
Até 3 0.12
Mais de 3 0.17
Fonte: INEP - SAEB


É possível observar que enquanto 43% dos respondentes ocupa-se com menos de uma hora de afazeres domésticos, os demais estão dispersos entre uma e mais de três horas de afazeres. Considerando que a amostra avaliada é composta de alunos do quinto ano, uma concentração de 17% realizando três ou mais horas de afazeres domésticos levanta um provável ponto de investigação.

A figura 6 a seguir ilustra essa distribuição, evidenciando que 40% da amostra, composta de estudantes do quinto ano, realiza duas ou mais horas de afazeres dométicos todos os dias de aula.


Figura 6: distribuição de horas de afazeres domésticos

Figura 6: distribuição de horas de afazeres domésticos


5 Variáveis quantitativas

As variáveis quantitativas contínuas disponibilizadas para análise são as notas dos alunos em Língua Portuguesa e em Matemática. O INEP (2020) disponibiliza suas “Escalas de proficiência SAEB”, documento que divulga os intervalos de classe para as notas e descrição dos níveis em termos de competências, cumulativas na medida em que se obtém uma maior nota, que pode variar entre zero e um número superior a 350.

A tabela 8 a seguir expõe a distribuição dos níveis de proficiência em Língua Portuguesa, agrupadas do nível 0 até o nível 9, com suas respectivas frequência absoluta (n) e proporção (f).

Tabela 8: Distribuição de níveis de proficiência em Língua Portuguesa
Nível de proficiência Intervalo de classe n f
Nível 0 [0,125) 41 0.0205
Nível 1 [125,150) 140 0.0700
Nível 2 [150,175) 287 0.1435
Nível 3 [175,200) 345 0.1725
Nível 4 [200,225) 389 0.1945
Nível 5 [225,250) 346 0.1730
Nível 6 [250,275) 240 0.1200
Nível 7 [275,300) 134 0.0670
Nível 8 [300,325) 65 0.0325
Nível 9 [325,350) 13 0.0065
Fonte: INEP - SAEB


É possível observar que há um pico de observações no nível de proficiência 4, com progressiva redução tanto em direção ao nível 0 quanto em direção ao nível 9. Este nível de maior frequência comporta habilidades como: Identificar assunto principal e personagem em contos e letras de música; reconhecer sentido de expressão, elementos da narrativa e opinião em reportagens, contos e poemas; e inferir sentido decorrente da utilização de sinais de pontuação e sentido de expressões em poemas, fábulas e contos.

Uma visualização da distribuição das classes de proficiência pode ser observada na figura 7 a seguir.


Figura 7: histograma de proficiência em Língua Portuguesa

Figura 7: histograma de proficiência em Língua Portuguesa


O histograma exibe um formato de distribuição que explicita a concentração de notas em torno de uma medida central e levanta suspeita de que se trata de uma variável com distribuição normal.

A tabela 9 a seguir expõe a distribuição dos níveis de proficiência em Matemática, agrupadas do nível 0 até o nível 10, com suas respectivas frequência absoluta (n) e proporção (f).

Tabela 9: Distribuição de níveis de proficiência em Matemática
Nível de proficiência Intervalo de classe n f
Nível 0 [0,125) 15 0.0075
Nível 1 [125,150) 77 0.0385
Nível 2 [150,175) 222 0.1110
Nível 3 [175,200) 348 0.1740
Nível 4 [200,225) 392 0.1960
Nível 5 [225,250) 408 0.2040
Nível 6 [250,275) 276 0.1380
Nível 7 [275,300) 175 0.0875
Nível 8 [300,325) 61 0.0305
Nível 9 [325,350) 19 0.0095
Nível 10 [350,375) 7 0.0035
Fonte: INEP - SAEB


Assim como a proficiência em Língua Portuguesa, é possível observar um pico de observações em uma classe aproximadamente central, reduzindo sua quantidade em direção às classes extremas.

Uma visualização da distribuição das classes de proficiência pode ser observada na figura 8 a seguir.


Figura 8: histograma de proficiência em Matemática

Figura 8: histograma de proficiência em Matemática


Assim como para a proficiência em Língua Portuguesa histograma exibe um formato de distribuição que explicita a concentração de notas em torno de uma medida central e levanta suspeita de que se trata de uma variável com distribuição normal.

A tabela 10 a seguir expõe as medidas de posição para as notas nas duas disciplinas.

Tabela 10: Medidas de posição das notas em Língua Portuguesa e Matemática
Disciplina Média Mín Q25 Med Q75 Máx
Língua Portuguesa 213.27 96.18 178.56 211.18 245.81 332.32
Matemática 222.14 114.31 189.11 221.45 252.50 355.09
Fonte: INEP - SAEB


Para ambas as disciplinas, é possível observar médias muito próximas das respectivas medianas, o que reforça a hipótese de normalidade das notas. Além disso, suas demais medidas de posição, a menos do máximo, aparentam ser similares.

Na tabela 11 a seguir são expostas medidas de variabilidade, assimetria e curtose para as notas dessas disciplinas.

Tabela 11: Medidas de variabilidade, assimetria e curtose das notas em Língua Portuguesa e Matemática
Disciplina Desvio-padrão Coef. Variação Assimetria Curtose
Língua Portuguesa 47.67 0.22 0.16 -0.46
Matemática 45.01 0.20 0.15 -0.31
Fonte: INEP - SAEB


É possível observar que as notas das disciplinas apresentam desvios-padrão próximos, representando coeficientes de variação também próximos. As medidas de assimetria são próximas para ambas as disciplinas, positivas e de pequena magnitude, o que indica leve assimetria à direita. Por fim, as curtoses das notas de ambas as disciplinas são negativas e de magnitude inferior a 0.5, indicando alguma tendência à distribuição platicúrtica.

Por fim, analisa-se graficamente as distribuições das notas de Língua Portuguesa e de Matemática utilizando a figura 9 a seguir. Os losângos brancos representam as médias das notas.


Figura 9: boxplot para notas de Língua Portuguesa e Matemática

Figura 9: boxplot para notas de Língua Portuguesa e Matemática


As medidas anteriormente analisadas configuram visualmente distribuições aparentemente simétricas, com poucos outliers e pouca distância entre suas médias e medianas, implicando em pouca assimetria. A análise visual das distribuições reforça a hipótese de normalidade da distribuição das notas.


O documento seguinte das atividades para a disciplina Métodos Estatísticos 2 da Universidade de Brasília, cursada em 2021, pode ser verificado aqui: https://rpubs.com/caspgalvao/me2_saeb2


6 Referências

BRASIL. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP). Escalas de proficiência do SAEB. Brasília, DF: INEP, 2020.

IBGE – INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA . Censo Brasileiro de 2010. Rio de Janeiro: IBGE, 2012.