Em 2005, o Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep), criou o Ideb, sigla para Índice de Desenvolvimento da Educação Básica, este tem como objetivo medir a qualidade do aprendizado do ensino básico brasileiro (fundamental 1 ao ensino médio). Através dessa coleta de dados e de sua interpretação, é concedido ao governo uma melhor visualização do cenário da educação nacional, permitindo que a atuação das políticas públicas sejam mais efetivas na área, á medida que, a pesquisa mostra e representa os pontos fortes e os fracos, que devem ganhar mais foco das ações governamentais.É importante ressaltar, que o Ideb usa dados gerais, tanto de rede privada, quanto da rede pública, a fim de enriquecer seus resultados. Além disso, uma de suas métricas, a projeção, é feita também, com base no nível educacional dos países desenvolvidos que obtém os melhores índices de qualidade escolar.
O Ideb é calculado com a ajuda da aplicação de provas no Sistema de Avaliações da Educação Básica (Saeb), as notas de matemática e português, como vamos ver na tabela, são expressa em pontos, isso quer dizer que não é respeitado o valor de 0 a 10, costumam, portanto, variar entre 0 e 400 pontos ou até mais dependendo da escala usada no ano. Com essas notas obtemos N que é a média da competência em Língua Portuguesa e Matemática, essa média N é multiplicada por P que corresponde ao rendimento escolar (ponderação entre taxa de aprovação e reprovação da instituição) gerando assim, o Ideb. Com essa breve explicação de como é calculado o Ideb, podemos entender um pouco mais dos métodos utilizados durante nosso estudo. Ao decorrer do trabalho vamos entrar em contato com outros indicadores que serão mais bem desenvolvidos na explicação dos métodos, e que são muito importantes para definir a meta do próximo ano que cada rede de ensino deve atingir e como o desempenho de cada um se desenvolve.
Esse estudo estatístico tem como objetivo, avaliar se as pesquisas do Ideb geraram resultados positivos para a educação básica brasileira. Tendo como foco, visualizar através de gráficos e tabelas, se houve uma evolução em todas as variáveis significativas que indicam o nível de qualidade do ensino. Contudo, não se esquecendo de dar ênfase nos conhecimentos adquiridos durante o período acadêmico, concedendo um direcionamento significativo aos métodos que melhor servem para auxiliar na análise dos dados educacionais, de maneira a proporcionar resultados claros e diretos, de fácil compreensão para todos. Sendo assim, a proposta inicial é expor a influência que cada indicativo exerce nas médias finais e também na meta a ser alcançada no ano seguinte, além de, indicar uma proporção entre as redes de ensino que foram escolhidas, sendo elas escolhidas igualmente para chegar mais próximo do objetivo da pesquisa e por fim mostrar a melhoria do ensino básico, não somente na média final do Ideb, mas no resultado individual de indicativos muito expressivos como a taxa de aprovação, aumento no indicador de rendimento, ademais o crescimento de pontos nas provas de Língua Portuguesa e Matemática, mesmo que haja variação em atingir a meta proposta pelo Inep seja pelo ensino fundamental ou pelo ensino médio, mas que no geral mostre crescimento.
Para atender os objetivos dessa pesquisa de forma a transmitir com clareza as informações, a análise dos dados foram divididas em três parte. Na primeira, temos o cruzamento de variável qualitativa por quantitativa, nessa etapa foi escolhida como indicador qualitativo principal, os anos de cada pesquisa do Ideb que é realizada a cada dois anos desde 2005, vale ressaltar que os resultados de 2021 não foram computados nessa pesquisa devido a pandemia, além disso, foi inserida a variável qualitativa “ensino”, para ter a dimensão das taxas de aprovação dentro do ensino fundamental e médio. Para realizar o cruzamento, foram selecionados os seguintes indicadores quantitativos: ideb (índice de desenvolvimento da educação básica), taxa de aprovação que é obtida pelo Censo escolar e representa a porcentagem de aprovados entre os reprovados ou que abandonaram o ensino e por fim o indicador de rendimento obtido através dos valores das taxas de aprovação e com as médias das notas do Saeb.
Com esses dados vamos obter a média e o desvio padrão entre eles, fazendo assim, a análise de hipótese, se os indicadores cresceram durante os anos ou não. Ao final o uso da ferramenta box-plot para a visualização dos resultados. Já na segunda parte da pesquisa, faremos a análise das variáveis qualitativas “rede” e “ensino”, para concluir a hipótese de que as escolhas desses indicadores são proporcionais para que o resultado seja mais preciso, logo se cria a tabela que fará a junção entre essas duas qualidades com o objetivo também de apresentar a proporção entre elas, por fim a visualização em gráfico de barras. Na conclusão do nosso estudo estatístico, utilizamos o cruzamento entre as variáveis quantitativas, mostrando o nível de correlação entre as notas de matemática e português, índice de desenvolvimento e as projeções (metas do governo para o crescimento da qualidade de ensino), obtemos isso com o auxílio da visualização do diagrama de dispersão e a matriz de correlação.
A seguir serão apresentados os resultados de cada análise e sua interpretação, com a enumeração dos gráficos em ordem para facilitar a compreensão.
# Importando arquivo excel
library(readxl)
IDEB <- read_excel("C:/Users/isabe/Desktop/IDEB.xlsx")
View(IDEB)
summary(IDEB)
## ano rede ensino anos_escolares
## Min. :2005 Length:112 Length:112 Length:112
## 1st Qu.:2008 Class :character Class :character Class :character
## Median :2012 Mode :character Mode :character Mode :character
## Mean :2012
## 3rd Qu.:2016
## Max. :2019
## taxa_aprovacao indicador_rendimento nota_saeb_matematica
## Min. :0.7050 Min. :0.7406 Min. :174.9
## 1st Qu.:0.8007 1st Qu.:0.8161 1st Qu.:224.0
## Median :0.8595 Median :0.8645 Median :249.1
## Mean :0.8641 Mean :0.8717 Mean :248.6
## 3rd Qu.:0.9380 3rd Qu.:0.9398 3rd Qu.:265.4
## Max. :0.9880 Max. :0.9884 Max. :334.7
## nota_saeb_lingua_portuguesa nota_saeb_media_padronizada ideb
## Min. :165.1 Min. :4.065 Min. :3.000
## 1st Qu.:211.1 1st Qu.:4.532 1st Qu.:3.700
## Median :241.2 Median :5.036 Median :4.350
## Mean :239.0 Mean :5.214 Mean :4.603
## 3rd Qu.:261.4 3rd Qu.:5.959 3rd Qu.:5.600
## Max. :322.1 Max. :7.184 Max. :7.100
## projecao
## Min. :0.000
## 1st Qu.:3.500
## Median :4.400
## Mean :4.152
## 3rd Qu.:5.225
## Max. :7.400
str(IDEB)
## tibble [112 x 11] (S3: tbl_df/tbl/data.frame)
## $ ano : num [1:112] 2005 2005 2005 2005 2005 ...
## $ rede : chr [1:112] "estadual" "estadual" "estadual" "municipal" ...
## $ ensino : chr [1:112] "fundamental" "fundamental" "medio" "fundamental" ...
## $ anos_escolares : chr [1:112] "finais (6-9)" "iniciais (1-5)" "todos (1-4)" "finais (6-9)" ...
## $ taxa_aprovacao : num [1:112] 0.763 0.855 0.705 0.732 0.781 0.945 0.971 0.927 0.75 0.8 ...
## $ indicador_rendimento : num [1:112] 0.764 0.864 0.748 0.741 0.796 ...
## $ nota_saeb_matematica : num [1:112] 233 181 260 228 175 ...
## $ nota_saeb_lingua_portuguesa: num [1:112] 227 172 249 223 165 ...
## $ nota_saeb_media_padronizada: num [1:112] 4.32 4.55 4.06 4.18 4.3 ...
## $ ideb : num [1:112] 3.3 3.9 3 3.1 3.4 5.8 5.9 5.6 3.2 3.6 ...
## $ projecao : num [1:112] 0 0 0 0 0 0 0 0 0 0 ...
names(IDEB)
## [1] "ano" "rede"
## [3] "ensino" "anos_escolares"
## [5] "taxa_aprovacao" "indicador_rendimento"
## [7] "nota_saeb_matematica" "nota_saeb_lingua_portuguesa"
## [9] "nota_saeb_media_padronizada" "ideb"
## [11] "projecao"
# Cruzamento de variável qualitativa por quantitativa
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
library(reactable)
Podemos visualizar na tabela abaixo, que a hipótese de que a média do ideb vem aumentando desde 2005, quando se iniciou as pesquisas, o que significa que a qualidade do ensino melhorou significantemente. Ainda sim, é importante reconhecer a limitação desses resultados, já que nos mostra o aumento da média em todos os anos e não os dados indivíduais, que nos fornece mais precisão em nossa teoria. Sendo mais especificos, como o aumento do ideb por ensino (fundamental e médio), por rede (pública, privada, estadual, municipal). Como nosso número de dados é par, sua mediana foi calculada pela média aritmética dos dois números centrais, e também, temos um desvio padrão baixo, o que significa que os dados usados para calcular nossa a média não varia muito, são harmônicos, concluindo uma média real.
# ano da pesquisa (qualitativa) relacionada ao indice de desenvolvimento (quantitativa)
IDEB$ano<- as.character(IDEB$ano)
IDEB %>% select(ideb,ano) %>%
group_by(ano) %>%
summarise(Média=round(mean(ideb),2),
Desvio_Padrao=round(sd(ideb),2),
Mediana=median(ideb)) %>% flextable()%>% theme_vader()
ano | Média | Desvio_Padrao | Mediana |
2005 | 3.90 | 1.05 | 3.45 |
2007 | 4.15 | 0.96 | 3.90 |
2009 | 4.41 | 0.97 | 4.20 |
2011 | 4.56 | 0.99 | 4.40 |
2013 | 4.64 | 1.00 | 4.55 |
2015 | 4.84 | 1.03 | 4.90 |
2017 | 5.06 | 1.12 | 5.10 |
2019 | 5.26 | 1.00 | 5.30 |
Nessa tabela podemos perceber que a média da taxa de aprovação é uma crescente a cada ano de pesquisa. E mais uma vez se repete a interpretação dos valores da tabela anterior, em que o desvio padrão é considerado baixo, o que significa que os valores das taxas no banco de dados são considerados próximos dos valores apresentados na média, enquanto a mediana nos mostra a tendência dos valores.
# Ano de pesquisa relacionado a taxa de aprovação
IDEB$ano<- as.character(IDEB$ano)
IDEB %>% select(taxa_aprovacao,ano) %>%
group_by(ano) %>%
summarise(Média=round(mean(taxa_aprovacao),2),
Desvio_Padrao=round(sd(taxa_aprovacao),2),
Mediana=median(taxa_aprovacao)) %>% flextable()%>% theme_vader()
ano | Média | Desvio_Padrao | Mediana |
2005 | 0.80 | 0.09 | 0.7755 |
2007 | 0.83 | 0.08 | 0.8165 |
2009 | 0.84 | 0.08 | 0.8375 |
2011 | 0.86 | 0.08 | 0.8640 |
2013 | 0.88 | 0.07 | 0.8810 |
2015 | 0.88 | 0.06 | 0.8865 |
2017 | 0.90 | 0.06 | 0.8980 |
2019 | 0.92 | 0.05 | 0.9195 |
É importante ressaltar, que os valores de aprovação são porcentagens dos alunos que não repetem de ano ou abandonam os estudos e estão sendo apresentados em números decimais. Logo, o ensino fundamental obteve, durante todos os anos de pesquisa, até 2019, uma média de aprovação de alunos superior ao ensino médio, sendo o fundamental com 88% de aprovados e ensino médio 82%, desvio padrão baixo indicando que os valores das médias são precisas, valores harmônicos.
# Ensino e taxa de aprovação
IDEB %>% select(taxa_aprovacao,ensino) %>%
group_by(ensino) %>%
summarise(Média=round(mean(taxa_aprovacao),2),
Desvio_Padrao=round(sd(taxa_aprovacao),2),
Mediana=median(taxa_aprovacao)) %>% flextable()%>% theme_vader()
ensino | Média | Desvio_Padrao | Mediana |
fundamental | 0.88 | 0.07 | 0.8855 |
medio | 0.82 | 0.08 | 0.7995 |
Enquanto ao indicador de rendimento, ele também se mostra crescente, concluindo o objetivo da pesquisa, analisando os dados de forma que os indicadores importantes cresçam durante os anos, significando o aumento da qualidade do ensino. O indicador de rendimento é sempre um número entre 0 e 1 e a média utilizada no cálculo do rendimento não é ponderada. Ou seja, não considera no cálculo do indicador que cada uma das taxas utilizadas referentes a distintos anos escolares é baseada em diferentes números de alunos.
# Ano de pesquisa relacionado a indicador de rendimento
IDEB$ano<- as.character(IDEB$ano)
IDEB %>% select(indicador_rendimento,ano) %>%
group_by(ano) %>%
summarise(Média=round(mean(indicador_rendimento),2),
Desvio_Padrao=round(sd(indicador_rendimento),2),
Mediana=median(indicador_rendimento)) %>% flextable()%>% theme_vader()
ano | Média | Desvio_Padrao | Mediana |
2005 | 0.82 | 0.08 | 0.7839780 |
2007 | 0.84 | 0.07 | 0.8208836 |
2009 | 0.85 | 0.07 | 0.8401223 |
2011 | 0.87 | 0.07 | 0.8650053 |
2013 | 0.88 | 0.06 | 0.8817926 |
2015 | 0.89 | 0.06 | 0.8874384 |
2017 | 0.90 | 0.06 | 0.8992470 |
2019 | 0.92 | 0.05 | 0.9200630 |
No nosso caso, a ferramenta box plot não nos mostra descrepância visual, as faixas da mediana estão quase em todos os gráficos representadas no meio da caixa, por trabalarmos com números com pouca variabilidade, quando comparamos as caixas não há um diferenciação grande de aplitudde.
Seguem as pequenas diferenças representadas em cada gráfico.
Gráfico 1: Alguns ouliers fugindo dos valores padrões, nos primeiros anos a dispersão dos dados são menores, as medianas do gráfico 1 em sua maioria está centrada nas caixas, indicando uma simetria dos valores
Gráfico 2: Neste gráfico temos uma amplitude maior do primeiro ao terceiro quartil, indicando disperão dos dados, mediana do ano 2005 e 2007 localizada mais próximo ao primeiro quartil, dados assimétricos positivos
Gráfico 3: fundamental com menos dispersão dos dados, em relação ao ensino médio, linha da mediana no centro indicando simetria noss valores, ensino médio com meno simetria dos dados.
Gráfico 4: Parecida com o gráfico 1, as diferenças são poucas no que diz aplitude, mediana, em que a diferença é não apresentar outliers
# Visualização das tabelas (box plot)
boxplot(ideb~ano, data=IDEB,
col=c("red","royalblue"),
horizontal =F,
main="Gráfico 1 - Índice de desenvolvimento de cada ano")
boxplot(taxa_aprovacao~ano, data=IDEB,
col=c("red","royalblue"),
horizontal =F,
main="Gráfico 2 - Taxa de aprovação de cada ano")
boxplot(taxa_aprovacao~ensino, data=IDEB,
col=c("red","royalblue"),
horizontal =F,
main="Gráfico 3 - Taxa de aprovação total no fundamental e Ensino médio ")
boxplot(indicador_rendimento~ano, data=IDEB,
col=c("red","royalblue"),
horizontal =F,
main="Gráfico 4 - Indicador de rendimento de cada ano")
Com a ajuda das tabelas, podemos notar como foi feita a divisão entre as redes e os anos de ensino para obter dados. Em números absolutos, nossa tabela indica as escolas da rede estadual, municipal, pública e privada contabilizando 16 cada só no ensino fundamental, 2 por anos, já que esses dados são referentes a 8 anos de pesquisa. Enquanto que a rede estadual, pública e privada correspondem cada uma a 8 no ensino médio, sendo as redes municipasi as únicas que não contam com o ensino médio.
Com a tabela de proporção temos a visualização de quanto aquele número representa no total dos dados, a primeira com o valor “1” soma as linhas em 100%, a prop.table com valor “2” soma as colunas resultando em 100%. Destaca-se o municipio que tem seus dados 100% do ensino fundamental.
tabela_rede_ensino<- table(IDEB$rede, IDEB$ensino)
tabela_rede_ensino
##
## fundamental medio
## estadual 16 8
## municipal 16 0
## privada 16 8
## publica 16 8
## total 16 8
prop.table(tabela_rede_ensino,1)*100
##
## fundamental medio
## estadual 66.66667 33.33333
## municipal 100.00000 0.00000
## privada 66.66667 33.33333
## publica 66.66667 33.33333
## total 66.66667 33.33333
prop.table(tabela_rede_ensino,2)*100
##
## fundamental medio
## estadual 20 25
## municipal 20 0
## privada 20 25
## publica 20 25
## total 20 25
Com a representação em gráfico, deduzimos que a coleta de dados no ensino médio é menor, isso se dá porque o ideb divide a pesquisa em ensino fundamental 1(primário) e fundamentla 2(segundo colegial), somando uma maior porcentagem de coleta, enquanto que no ensino médio os dados correspondem aos 3 anos finais do ensino básico. Novamente, a rede municipal tem sua maioria do ensino funamental e não apresenta o ensino médio.
#Tabela em proporção
tabela_rede_ensino_prop<-IDEB %>% select(rede,ensino)%>% table()%>%
prop.table(1) %>% round(2)
tabela_rede_ensino_prop
## ensino
## rede fundamental medio
## estadual 0.67 0.33
## municipal 1.00 0.00
## privada 0.67 0.33
## publica 0.67 0.33
## total 0.67 0.33
# Gráfico de barras por grupo
library(RColorBrewer)
# Gráfico da tabela em proporção
COR3 <- brewer.pal(5,"Set2")
tabela_rede_ensino_prop %>% barplot(beside=T,
col=COR3,
main= "Representação de rede e ensino em proporção", legend = rownames(tabela_rede_ensino_prop), ylim=c(0,2),
args.legend = list(x = "topright"))
Nesse diagrama, temos uma correlação positiva forte entre as notas de português e matemática, quer dizer que as duas variáveis se movem juntas, quando as notas de português foram ficando mais altas as de matemática acompanharam essa crescente
# Gráfico Matemática e Português
plot(IDEB$nota_saeb_matematica, IDEB$nota_saeb_lingua_portuguesa, pch=16, col="blue",
main = "Gráfico 1- Diagrama de dispersão entre as notas de português e matemática",
ylab = "Português", xlab = "Matemática" )
# linha
abline(lsfit(IDEB$nota_saeb_matematica, IDEB$nota_saeb_lingua_portuguesa),col="darkred")
Em nosso segundo diagrama ainda fica a dúvida se a correlação entre o ideb e a projeção é uma positiv forte ou moderada, abaixo iremos confirmar uma dessas hipóteses ao realizar a matriz de correlação. O que podemos afirmar por ora é que há correlação entre essas duas variáveis
plot(IDEB$ideb, IDEB$projecao, pch=16, col="darkred",
main = "Gráfico 2 - Diagrama de dispersão entre o ideb e a projeção",
ylab = "Projeção", xlab = "Ideb" )
abline(lsfit(IDEB$ideb,IDEB$projecao),col="darkred")
par(bg="lightyellow")
par(cex=1.4)
Ao executar a matriz, temos informações mais completas e claras de visualizar, mas vamos focar nas correlações que fizemos no diagrama de dispersão. Nota português e matemática, valor de correlçaõ 0.9833179, agora podemos comprovar uma correlação positiva forte já que esse valor é maior que 0.7. Projeção e Ideb, resultado 0.6799716, agora tirando a dúvida anterior, é um valor menor que 0.7, ou seja, uma correlação positiva moderada entre essas duas variáveis quantitativas.
#Correlação
cor(IDEB$nota_saeb_matematica, IDEB$nota_saeb_lingua_portuguesa)
## [1] 0.9833179
cor(IDEB$ideb, IDEB$projecao)
## [1] 0.6799717
# cor nota 0.9833179 positiva forte
# cor projeção 0.6799717 positiva moderada
# Matriz de correlação
names(IDEB)
## [1] "ano" "rede"
## [3] "ensino" "anos_escolares"
## [5] "taxa_aprovacao" "indicador_rendimento"
## [7] "nota_saeb_matematica" "nota_saeb_lingua_portuguesa"
## [9] "nota_saeb_media_padronizada" "ideb"
## [11] "projecao"
selecao <- c("nota_saeb_matematica","nota_saeb_lingua_portuguesa","projecao", "ideb")
cor_pesquisa_ideb<- cor (IDEB[,selecao])
cor_pesquisa_ideb
## nota_saeb_matematica nota_saeb_lingua_portuguesa
## nota_saeb_matematica 1.0000000 0.98331794
## nota_saeb_lingua_portuguesa 0.9833179 1.00000000
## projecao 0.2926246 0.26957759
## ideb 0.1837215 0.08786714
## projecao ideb
## nota_saeb_matematica 0.2926246 0.18372150
## nota_saeb_lingua_portuguesa 0.2695776 0.08786714
## projecao 1.0000000 0.67997167
## ideb 0.6799717 1.00000000
library(corrplot)
## corrplot 0.92 loaded
par(cex=0.7)
corrplot(cor_pesquisa_ideb, method="number")
Com base nessa pesquisa, pode-se afirmar, a importância de coletar esses dados para gerar resultados que ajudem a medir o nível de qualidade da educação básica brasileira, de forma que esses dados foram testados e seguiram a proposta inicial deste trabalho de concordância nos valores apresentados, até o momento, pelo Ideb. Com as ferramentas de estatística, foi possivel comprovar que os indicadores estão interligados entre si, que todas as coletas são importantes e influenciam diretamente no resultado final, sendo a média do ideb e a projeção, que depende de todos esses valores para gerar metas, essas metas por fim, fazem a máquina pública direcionar seus esforços para pontos da educação que merecem mais atenção, gerando políticas públicas mais eficientes. Portanto, foi de grande importância realizar essa pesquisa estatítica em cima desses dados tão significativos para a gestão pública, sendo então, de grande aprendizado realizar o estudo a esse tema, concluindo a junção da disciplina de estatística com o papel do gestor público.
Dados do Ideb: https://basedosdados.org/dataset/br-inep-ideb
Correlação e regressão: https://dataunirio.github.io/AulaCorrelacao/#12
Edição de Rmarkdown: https://www.datadreaming.org/post/r-markdown-theme-gallery/
Box plot: https://operdata.com.br/blog/como-interpretar-um-boxplot/