Analise exploratória de
dados sobre Abandono e Evasão Escolar
Introdução
A busca ativa, o abandono e a evasão escolar são questões de grande
relevância e impacto social, não apenas no contexto nacional, mas também
globalmente. A compreensão desses fenômenos é crucial para o
desenvolvimento de estratégias eficazes de intervenção e políticas
públicas direcionadas à promoção da educação e redução das
desigualdades.
A busca ativa refere-se aos esforços das instituições educacionais e
de outras entidades para identificar e acompanhar alunos em situação de
risco de abandono ou evasão escolar. Essa prática tem como objetivo
fundamental garantir que todos os estudantes tenham acesso à educação de
qualidade e permaneçam engajados no processo educacional.
Por outro lado, o abandono escolar ocorre quando um aluno deixa de
frequentar a escola sem concluir seus estudos, muitas vezes devido a uma
variedade de fatores socioeconômicos, familiares ou individuais. Essa
situação não apenas afeta negativamente o próprio aluno, privando-o das
oportunidades de desenvolvimento pessoal e profissional, mas também tem
implicações significativas para a sociedade como um todo, incluindo o
aumento do desemprego e da criminalidade.
A evasão escolar, por sua vez, refere-se à saída prematura de alunos
matriculados no sistema educacional, antes de concluírem sua formação
básica ou secundária. Esse fenômeno está frequentemente associado a
problemas estruturais dentro do sistema educacional, bem como a fatores
externos, como pobreza, violência e falta de apoio familiar.
Neste contexto, a análise exploratória de dados desempenha um papel
fundamental na compreensão desses problemas complexos, fornecendo
insights valiosos sobre os padrões, tendências e correlações presentes
nos dados relacionados à busca ativa, abandono e evasão escolar. Ao
explorar e visualizar os dados disponíveis, podemos identificar padrões
emergentes, áreas de preocupação e oportunidades para intervenção,
informando assim o desenvolvimento de estratégias mais eficazes e
direcionadas.
Neste notebook, realizaremos uma análise exploratória de dados de
diversas fontes sobre abandono e evasão escolar, utilizando técnicas de
estatística descritiva e inferencial para examinar os padrões e
tendências presentes nos dados. Através dessa análise, buscamos obter
uma compreensão mais profunda das evidencias relacionads a esses
fenômenos e contribuir para o aprimoramento de políticas, projetos,
ações e processos que promovam a inclusão e a equidade na educação.
# pacotes utilizados nessa analise:
# tidyverse: O tidyverse é um conjunto de pacotes do R que compartilham uma filosofia comum de manipulação e visualização de dados. Inclui pacotes como ggplot2 para visualização de dados, dplyr para manipulação de dados e tidyr para reformulação de dados.
library(tidyverse)
── Attaching core tidyverse packages ───────────────────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
✔ dplyr 1.1.4 ✔ readr 2.1.4
✔ forcats 1.0.0 ✔ stringr 1.5.1
✔ ggplot2 3.4.4 ✔ tibble 3.2.1
✔ lubridate 1.9.3 ✔ tidyr 1.3.0
✔ purrr 1.0.2 ── Conflicts ─────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
# caret: O pacote caret (Classificação e Regressão Treinadas) fornece uma interface unificada para a construção de modelos de aprendizado de máquina supervisionados e não supervisionados. Ele simplifica o processo de ajuste, avaliação e sintonia de modelos, oferecendo várias funções e métodos.
library(caret)
Warning: package ‘caret’ was built under R version 4.3.3Carregando pacotes exigidos: lattice
Attaching package: ‘caret’
The following object is masked from ‘package:purrr’:
lift
# sidrar: O pacote sidrar oferece uma interface para acessar dados do SIDRA (Sistema IBGE de Recuperação Automática), que é uma plataforma do Instituto Brasileiro de Geografia e Estatística (IBGE) para acesso a dados estatísticos.
library(sidrar)
Warning: package ‘sidrar’ was built under R version 4.3.3
# randomForest: O pacote randomForest implementa o algoritmo de florestas aleatórias para aprendizado de máquina. É uma técnica de conjunto que combina múltiplas árvores de decisão para realizar classificação e regressão.
library(randomForest)
Warning: package ‘randomForest’ was built under R version 4.3.3randomForest 4.7-1.1
Type rfNews() to see new features/changes/bug fixes.
Attaching package: ‘randomForest’
The following object is masked from ‘package:dplyr’:
combine
The following object is masked from ‘package:ggplot2’:
margin
# rpart: O pacote rpart é usado para ajustar árvores de decisão recursivas. Ele é comumente usado em análise de dados para classificação e regressão.
library(rpart)
# rpart.plot: O pacote rpart.plot fornece funções para visualizar árvores de decisão criadas com o pacote rpart. Ele permite criar gráficos visualmente atraentes das árvores de decisão, facilitando a interpretação dos resultados.
library(rpart.plot)
Warning: package ‘rpart.plot’ was built under R version 4.3.3
IBGE -
MICRODADOS
Introdução
Os microdados da Pesquisa Nacional por Amostra de Domicílios Contínua
(PNADC), disponibilizados pelo Instituto Brasileiro de Geografia e
Estatística (IBGE), são uma fonte valiosa de informações sobre a
situação socioeconômica da população brasileira. A PNADC é uma pesquisa
realizada em todo o país, que investiga uma ampla gama de temas,
incluindo mercado de trabalho, rendimento, educação, saúde e outras
questões relevantes para a compreensão da realidade brasileira.
Referencias: https://doi.org/10.5281/zenodo.8111841 - MOTIVOS DE
ABANDONO ESCOLAR NO BRASIL: ANÁLISE DE DADOS DA PNAD CONTÍNUA DE 2019
Tabela 7217

Tabela 7219

- 7138 - Taxa de escolarização, por sexo e grupo de idade

```r
ary(sidrar)
sc<-get_sidra(7139, geo = c("State"),format = 2,period = "all")
```
```
Considering all categories once 'classific' was set to 'all' (default)
```
```r
sc$`Grupo de idade`<-as.factor(tx_esc$`Grupo de idade`)
sc$`Grupo de idade` <- ordered(tx_esc$`Grupo de idade`, levels = c("0 a 3 anos",
"0 a 5 anos",
"4 a 5 anos",
"6 a 14 anos",
"15 a 17 anos",
"18 a 24 anos",
"25 anos ou mais",
"Total" ))
```
tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa de escolarização")%>% select(-`Nível Territorial`) %>%
ggplot(aes(as.numeric(Ano),col=`Cor ou raça`,Valor))+geom_line()+
facet_wrap(~`Grupo de idade`,scales="free")+
geom_text(aes(label=Valor))+
labs(title = "Taxa de Escolarização por Faixa de idade e Raça",caption = "Fonte: IBGE/PNADC/A")+
theme_minimal()

- 7142 Taxa ajustada de frequência escolar líquida, por cor ou raça e
faixa etária ideal por curso frequentado

IPDF -
MICRODADOS
Avaliação da Amostra:
PDAD_2021_Moradores <- read_delim("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/PCF/PDAD_2021-Moradores.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
Warning: One or more parsing issues, call `problems()` on your data frame for details, e.g.:
dat <- vroom(...)
problems(dat)Rows: 83481 Columns: 151── Column specification ────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ";"
chr (2): PESO_MOR, infla_ipcadf
dbl (147): A01nficha, A01ra, A01setor, morador_id, idade, E02_1, E02_2, E02_3, E03, E04, E04_1, E04_1_1, E04_2, E04_2_1, E05, E05_1,...
num (2): renda_ind, renda_ind_r
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Criar o dataframe com dicionario de RA's
dic_RA <- data.frame(A01ra = 1:33, RA = c("Plano Piloto", "Gama", "Taguatinga", "Brazlândia", "Sobradinho", "Planaltina", "Paranoá",
"Núcleo Bandeirante", "Ceilândia", "Guará", "Cruzeiro", "Samambaia", "Santa Maria", "São Sebastião",
"Recanto Das Emas", "Lago Sul", "Riacho Fundo", "Lago Norte", "Candangolândia", "Águas Claras",
"Riacho Fundo II", "Sudoeste e Octogonal", "Varjão", "Park Way", "SCIA", "Sobradinho II",
"Jardim Botânico", "Itapoã", "SIA", "Vicente Pires", "Fercal", "Sol Nascente / Pôr do Sol",
"Arniqueira"))
PDAD_2021_Mor_RA<-left_join(PDAD_2021_Moradores,dic_RA,by="A01ra")
#nº de residencias e moradores identificados:
PDAD_2021_Mor_RA %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))
#nº de residencias e moradores identificados por RA
PDAD_2021_Mor_RA %>% group_by(RA) %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))
NA
NA
H02 Frequenta creche, escola ou faculdade/universidade 1 Sim, pública
2 Sim, particular 3 Não, mas já frequentou 4 Não, nunca frequentou
PDAD_2021_Moradores %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>% mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>%
ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+
xlim(3.2,17.9)+ ylim(-0,0.5)+
geom_text(aes(label=paste(round(percentual*100,2),"%")),nudge_y = .05)+
#scale_x_continuous(breaks=seq(4,17))+
coord_flip()+
labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")
`summarise()` has grouped output by 'idade'. You can override using the `.groups` argument.

Analise por RA
PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao,RA) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>%
mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>%
mutate(percentual=ifelse(is.na(percentual),0,percentual)) %>%
ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+xlim(3.9,17.9)+
geom_text(aes(y=0.25,label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")+facet_wrap(~RA,scales = "free")
`summarise()` has grouped output by 'idade', 'Escolarizacao'. You can override using the `.groups` argument.

Caracteristicas dos que nunca_frequentou_escola
PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
group_by(idade,Escolarizacao,E04) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>%
mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
percentual=ifelse(is.na(percentual),0,percentual),
sexo=ifelse(E04==1,"Masculino","Feminino")) %>%
mutate(percentual2=ifelse(E04==1,percentual,-percentual)) %>%
ggplot(aes(idade,percentual2,fill=sexo))+geom_col(alpha=0.5)+xlim(3.9,17.9)+ylim(-0.1,0.15)+
geom_text(aes(y=percentual2,hjust =ifelse(percentual2>0,-1,1),label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade e Sexo",subtitle = "Percentual de Residente do DF que nunca frequentou Escola por Sexo",caption = "Fonte:Microdados PEDAD_2021_Moradores")#+facet_wrap(~RA,scales = "free")
`summarise()` has grouped output by 'idade', 'Escolarizacao'. You can override using the `.groups` argument.


Nasceu no DF 1 Sim 2 Não 88888 Não sabe

H01 Sabe ler e escrever 1 Sim 2 Não 88888 Não sabe 99999 Não se
aplica

modelo de arvore de decisão

rpart.plot(model$finalModel,fallen.leaves = T)
# View the importance
print(importance)
rpart variable importance
INEP
Abandono
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")
New names:Rows: 1526209 Columns: 13── Column specification ─────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): NO_ETAPA_AGREGADA, NO_ETAPA_INDICADOR, NO_SITUACAO
dbl (10): ...1, NU_ANO_CENSO, CO_ENTIDADE, TP_ETAPA_ENSINO, TP_SEXO, TP_LOCALIZACAO, NU_IDADE_REFERENCIA, TP_DEPENDENCIA, TP_SITU...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")
New names:Rows: 1526209 Columns: 13── Column specification ─────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): NO_ETAPA_AGREGADA, NO_ETAPA_INDICADOR, NO_SITUACAO
dbl (10): ...1, NU_ANO_CENSO, CO_ENTIDADE, TP_ETAPA_ENSINO, TP_SEXO, TP_LOCALIZACAO, NU_IDADE_REFERENCIA, TP_DEPENDENCIA, TP_SITU...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique()
[1] "Educação Infantil" "Ensino Fundamental - Anos Iniciais" "EJA - Ensino Fundamental"
[4] "Educação Profissional - Conc/Sub" "Ensino Médio - Propedêutico" "EJA - Ensino Médio"
[7] "Ensino Fundamental - Anos Finais" "Ensino Médio - Integrado" "Ensino Médio - Normal/Magistério"
a<-Matriculas_por_situação_2007a2022 %>% group_by(NO_SITUACAO,TP_SEXO,NO_ETAPA_AGREGADA) %>%
summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
Abandono_per=Abandono/total)
`summarise()` has grouped output by 'NO_SITUACAO', 'TP_SEXO'. You can override using the `.groups` argument.
a %>% mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>%
ggplot(aes(NO_ETAPA_AGREGADA,Abandono_per2,fill=as.factor(TP_SEXO)))+geom_col(alpha=0.3)+
geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%"),col=as.factor(TP_SEXO)))+
coord_flip()+
labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas de 2007 a 2022")

Qual tipo de rede estão as matriculas com abandono? “1 - Federal 2 -
Estadual 3 - Municipal 4 - Privada”



Serie Histórica
Matriculas_por_situação_2007a2022$NO_SITUACAO %>% unique()
a<-Matriculas_por_situação_2007a2022 %>% group_by(NU_ANO_CENSO,NO_SITUACAO,NO_ETAPA_AGREGADA) %>%filter(TP_DEPENDENCIA==2) %>%
summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
Abandono_per=Abandono/total)
a %>%# mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>%
ggplot(aes(NU_ANO_CENSO,Abandono_per,col=NO_ETAPA_AGREGADA))+geom_line(alpha=0.5)+geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%")))+ labs(title = "Abandono por Modalidade e Sexo")+
facet_grid(NO_ETAPA_AGREGADA~1,scales = "free")+
theme_minimal()
