Analise exploratória de
dados sobre Abandono e Evasão Escolar
Introdução
A busca ativa, o abandono e a evasão escolar são questões de grande
relevância e impacto social, não apenas no contexto nacional, mas também
globalmente. A compreensão desses fenômenos é crucial para o
desenvolvimento de estratégias eficazes de intervenção e políticas
públicas direcionadas à promoção da educação e redução das
desigualdades.
A busca ativa refere-se aos esforços das instituições educacionais e
de outras entidades para identificar e acompanhar alunos em situação de
risco de abandono ou evasão escolar. Essa prática tem como objetivo
fundamental garantir que todos os estudantes tenham acesso à educação de
qualidade e permaneçam engajados no processo educacional.
Por outro lado, o abandono escolar ocorre quando um aluno deixa de
frequentar a escola sem concluir seus estudos, muitas vezes devido a uma
variedade de fatores socioeconômicos, familiares ou individuais. Essa
situação não apenas afeta negativamente o próprio aluno, privando-o das
oportunidades de desenvolvimento pessoal e profissional, mas também tem
implicações significativas para a sociedade como um todo, incluindo o
aumento do desemprego e da criminalidade.
A evasão escolar, por sua vez, refere-se à saída prematura de alunos
matriculados no sistema educacional, antes de concluírem sua formação
básica ou secundária. Esse fenômeno está frequentemente associado a
problemas estruturais dentro do sistema educacional, bem como a fatores
externos, como pobreza, violência e falta de apoio familiar.
Neste contexto, a análise exploratória de dados desempenha um papel
fundamental na compreensão desses problemas complexos, fornecendo
insights valiosos sobre os padrões, tendências e correlações presentes
nos dados relacionados à busca ativa, abandono e evasão escolar. Ao
explorar e visualizar os dados disponíveis, podemos identificar padrões
emergentes, áreas de preocupação e oportunidades para intervenção,
informando assim o desenvolvimento de estratégias mais eficazes e
direcionadas.
Neste notebook, realizaremos uma análise exploratória de dados de
diversas fontes sobre abandono e evasão escolar, utilizando técnicas de
estatística descritiva e inferencial para examinar os padrões e
tendências presentes nos dados. Através dessa análise, buscamos obter
uma compreensão mais profunda das evidencias relacionads a esses
fenômenos e contribuir para o aprimoramento de políticas, projetos,
ações e processos que promovam a inclusão e a equidade na educação.
# pacotes utilizados nessa analise:
# tidyverse: O tidyverse é um conjunto de pacotes do R que compartilham uma filosofia comum de manipulação e visualização de dados. Inclui pacotes como ggplot2 para visualização de dados, dplyr para manipulação de dados e tidyr para reformulação de dados.
library(tidyverse)
── Attaching core tidyverse packages ───────────────────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
✔ dplyr 1.1.4 ✔ readr 2.1.4
✔ forcats 1.0.0 ✔ stringr 1.5.1
✔ ggplot2 3.4.4 ✔ tibble 3.2.1
✔ lubridate 1.9.3 ✔ tidyr 1.3.0
✔ purrr 1.0.2 ── Conflicts ─────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag() masks stats::lag()
ℹ Use the ]8;;http://conflicted.r-lib.org/conflicted package]8;; to force all conflicts to become errors
# caret: O pacote caret (Classificação e Regressão Treinadas) fornece uma interface unificada para a construção de modelos de aprendizado de máquina supervisionados e não supervisionados. Ele simplifica o processo de ajuste, avaliação e sintonia de modelos, oferecendo várias funções e métodos.
library(caret)
Warning: package ‘caret’ was built under R version 4.3.3Carregando pacotes exigidos: lattice
Attaching package: ‘caret’
The following object is masked from ‘package:purrr’:
lift
# sidrar: O pacote sidrar oferece uma interface para acessar dados do SIDRA (Sistema IBGE de Recuperação Automática), que é uma plataforma do Instituto Brasileiro de Geografia e Estatística (IBGE) para acesso a dados estatísticos.
library(sidrar)
Warning: package ‘sidrar’ was built under R version 4.3.3
# randomForest: O pacote randomForest implementa o algoritmo de florestas aleatórias para aprendizado de máquina. É uma técnica de conjunto que combina múltiplas árvores de decisão para realizar classificação e regressão.
library(randomForest)
Warning: package ‘randomForest’ was built under R version 4.3.3randomForest 4.7-1.1
Type rfNews() to see new features/changes/bug fixes.
Attaching package: ‘randomForest’
The following object is masked from ‘package:dplyr’:
combine
The following object is masked from ‘package:ggplot2’:
margin
# rpart: O pacote rpart é usado para ajustar árvores de decisão recursivas. Ele é comumente usado em análise de dados para classificação e regressão.
library(rpart)
# rpart.plot: O pacote rpart.plot fornece funções para visualizar árvores de decisão criadas com o pacote rpart. Ele permite criar gráficos visualmente atraentes das árvores de decisão, facilitando a interpretação dos resultados.
library(rpart.plot)
Warning: package ‘rpart.plot’ was built under R version 4.3.3
IBGE -
MICRODADOS
Introdução
Os microdados da Pesquisa Nacional por Amostra de Domicílios Contínua
(PNADC), disponibilizados pelo Instituto Brasileiro de Geografia e
Estatística (IBGE), são uma fonte valiosa de informações sobre a
situação socioeconômica da população brasileira. A PNADC é uma pesquisa
realizada em todo o país, que investiga uma ampla gama de temas,
incluindo mercado de trabalho, rendimento, educação, saúde e outras
questões relevantes para a compreensão da realidade brasileira.
Referencias: https://doi.org/10.5281/zenodo.8111841 - MOTIVOS DE
ABANDONO ESCOLAR NO BRASIL: ANÁLISE DE DADOS DA PNAD CONTÍNUA DE 2019
Tabela 7217

Tabela 7219

- 7138 - Taxa de escolarização, por sexo e grupo de idade

```r
ary(sidrar)
sc<-get_sidra(7139, geo = c("State"),format = 2,period = "all")
```
```
Considering all categories once 'classific' was set to 'all' (default)
```
```r
sc$`Grupo de idade`<-as.factor(tx_esc$`Grupo de idade`)
sc$`Grupo de idade` <- ordered(tx_esc$`Grupo de idade`, levels = c("0 a 3 anos",
"0 a 5 anos",
"4 a 5 anos",
"6 a 14 anos",
"15 a 17 anos",
"18 a 24 anos",
"25 anos ou mais",
"Total" ))
```
tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa de escolarização")%>% select(-`Nível Territorial`) %>%
ggplot(aes(as.numeric(Ano),col=`Cor ou raça`,Valor))+geom_line()+
facet_wrap(~`Grupo de idade`,scales="free")+
geom_text(aes(label=Valor))+
labs(title = "Taxa de Escolarização por Faixa de idade e Raça",caption = "Fonte: IBGE/PNADC/A")+
theme_minimal()

- 7142 Taxa ajustada de frequência escolar líquida, por cor ou raça e
faixa etária ideal por curso frequentado

IPDF -
MICRODADOS
Avaliação da Amostra:
PDAD_2021_Moradores <- read_delim("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/PCF/PDAD_2021-Moradores.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
Warning: One or more parsing issues, call `problems()` on your data frame for details, e.g.:
dat <- vroom(...)
problems(dat)Rows: 83481 Columns: 151── Column specification ────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ";"
chr (2): PESO_MOR, infla_ipcadf
dbl (147): A01nficha, A01ra, A01setor, morador_id, idade, E02_1, E02_2, E02_3, E03, E04, E04_1, E04_1_1, E04_2, E04_2_1, E05, E05_1,...
num (2): renda_ind, renda_ind_r
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
# Criar o dataframe com dicionario de RA's
dic_RA <- data.frame(A01ra = 1:33, RA = c("Plano Piloto", "Gama", "Taguatinga", "Brazlândia", "Sobradinho", "Planaltina", "Paranoá",
"Núcleo Bandeirante", "Ceilândia", "Guará", "Cruzeiro", "Samambaia", "Santa Maria", "São Sebastião",
"Recanto Das Emas", "Lago Sul", "Riacho Fundo", "Lago Norte", "Candangolândia", "Águas Claras",
"Riacho Fundo II", "Sudoeste e Octogonal", "Varjão", "Park Way", "SCIA", "Sobradinho II",
"Jardim Botânico", "Itapoã", "SIA", "Vicente Pires", "Fercal", "Sol Nascente / Pôr do Sol",
"Arniqueira"))
PDAD_2021_Mor_RA<-left_join(PDAD_2021_Moradores,dic_RA,by="A01ra")
#nº de residencias e moradores identificados:
PDAD_2021_Mor_RA %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))
#nº de residencias e moradores identificados por RA
PDAD_2021_Mor_RA %>% group_by(RA) %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))
NA
NA
H02 Frequenta creche, escola ou faculdade/universidade 1 Sim, pública
2 Sim, particular 3 Não, mas já frequentou 4 Não, nunca frequentou
PDAD_2021_Moradores %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>% mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>%
ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+
xlim(3.2,17.9)+ ylim(-0,0.5)+
geom_text(aes(label=paste(round(percentual*100,2),"%")),nudge_y = .05)+
#scale_x_continuous(breaks=seq(4,17))+
coord_flip()+
labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")
`summarise()` has grouped output by 'idade'. You can override using the `.groups` argument.

Analise por RA
PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao,RA) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>%
mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>%
mutate(percentual=ifelse(is.na(percentual),0,percentual)) %>%
ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+xlim(3.9,17.9)+
geom_text(aes(y=0.25,label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")+facet_wrap(~RA,scales = "free")
`summarise()` has grouped output by 'idade', 'Escolarizacao'. You can override using the `.groups` argument.

Caracteristicas dos que nunca_frequentou_escola
PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
group_by(idade,Escolarizacao,E04) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>%
mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
percentual=ifelse(is.na(percentual),0,percentual),
sexo=ifelse(E04==1,"Masculino","Feminino")) %>%
mutate(percentual2=ifelse(E04==1,percentual,-percentual)) %>%
ggplot(aes(idade,percentual2,fill=sexo))+geom_col(alpha=0.5)+xlim(3.9,17.9)+ylim(-0.1,0.15)+
geom_text(aes(y=percentual2,hjust =ifelse(percentual2>0,-1,1),label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade e Sexo",subtitle = "Percentual de Residente do DF que nunca frequentou Escola por Sexo",caption = "Fonte:Microdados PEDAD_2021_Moradores")#+facet_wrap(~RA,scales = "free")
`summarise()` has grouped output by 'idade', 'Escolarizacao'. You can override using the `.groups` argument.


Nasceu no DF 1 Sim 2 Não 88888 Não sabe

H01 Sabe ler e escrever 1 Sim 2 Não 88888 Não sabe 99999 Não se
aplica

modelo de arvore de decisão

rpart.plot(model$finalModel,fallen.leaves = T)
# View the importance
print(importance)
rpart variable importance
INEP
Abandono
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")
New names:Rows: 1526209 Columns: 13── Column specification ─────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): NO_ETAPA_AGREGADA, NO_ETAPA_INDICADOR, NO_SITUACAO
dbl (10): ...1, NU_ANO_CENSO, CO_ENTIDADE, TP_ETAPA_ENSINO, TP_SEXO, TP_LOCALIZACAO, NU_IDADE_REFERENCIA, TP_DEPENDENCIA, TP_SITU...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")
New names:Rows: 1526209 Columns: 13── Column specification ─────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (3): NO_ETAPA_AGREGADA, NO_ETAPA_INDICADOR, NO_SITUACAO
dbl (10): ...1, NU_ANO_CENSO, CO_ENTIDADE, TP_ETAPA_ENSINO, TP_SEXO, TP_LOCALIZACAO, NU_IDADE_REFERENCIA, TP_DEPENDENCIA, TP_SITU...
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique()
[1] "Educação Infantil" "Ensino Fundamental - Anos Iniciais" "EJA - Ensino Fundamental"
[4] "Educação Profissional - Conc/Sub" "Ensino Médio - Propedêutico" "EJA - Ensino Médio"
[7] "Ensino Fundamental - Anos Finais" "Ensino Médio - Integrado" "Ensino Médio - Normal/Magistério"
a<-Matriculas_por_situação_2007a2022 %>% group_by(NO_SITUACAO,TP_SEXO,NO_ETAPA_AGREGADA) %>%
summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
Abandono_per=Abandono/total)
`summarise()` has grouped output by 'NO_SITUACAO', 'TP_SEXO'. You can override using the `.groups` argument.
a %>% mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>%
ggplot(aes(NO_ETAPA_AGREGADA,Abandono_per2,fill=as.factor(TP_SEXO)))+geom_col(alpha=0.3)+
geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%"),col=as.factor(TP_SEXO)))+
coord_flip()+
labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas de 2007 a 2022")

Qual tipo de rede estão as matriculas com abandono? “1 - Federal 2 -
Estadual 3 - Municipal 4 - Privada”



Serie Histórica
Matriculas_por_situação_2007a2022$NO_SITUACAO %>% unique()
a<-Matriculas_por_situação_2007a2022 %>% group_by(NU_ANO_CENSO,NO_SITUACAO,NO_ETAPA_AGREGADA) %>%filter(TP_DEPENDENCIA==2) %>%
summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
Abandono_per=Abandono/total)
a %>%# mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>%
ggplot(aes(NU_ANO_CENSO,Abandono_per,col=NO_ETAPA_AGREGADA))+geom_line(alpha=0.5)+geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%")))+ labs(title = "Abandono por Modalidade e Sexo")+
facet_grid(NO_ETAPA_AGREGADA~1,scales = "free")+
theme_minimal()
---
output:
  html_notebook: 
    theme: yeti
    toc: true
    toc_float: true
    number_sections: true
    fig_caption: true
    code_folding: hide
  html_document: default
  pdf_document: default
---

![](Logo_SEEDF_Horizontal-2023.png){width="400"}

GDF - SECRETARIA DE ESTADO DE EDUCAÇÃO DO DISTRITO FEDERAL

SUBSECRETARIA DE PLANEJAMENTO, ACOMPANHAMENTO E AVALIAÇÃO

Unidade de Informação e Supervisão

UNIDADE DE INFORMAÇÃO E SUPERVISÃO

DIRETORIA DE INFORMAÇÕES EDUCACIONAIS

GERENCIA DE ESTUDOS E TRATAMENTO DAS INFORMAÇÕES E ESTATÍSTICAS EDUCACIONAIS

--------------------------------------------------------------------------------

# Analise exploratória de dados sobre Abandono e Evasão Escolar

## Introdução
A busca ativa, o abandono e a evasão escolar são questões de grande relevância e impacto social, não apenas no contexto nacional, mas também globalmente. A compreensão desses fenômenos é crucial para o desenvolvimento de estratégias eficazes de intervenção e políticas públicas direcionadas à promoção da educação e redução das desigualdades.

A busca ativa refere-se aos esforços das instituições educacionais e de outras entidades para identificar e acompanhar alunos em situação de risco de abandono ou evasão escolar. Essa prática tem como objetivo fundamental garantir que todos os estudantes tenham acesso à educação de qualidade e permaneçam engajados no processo educacional.

Por outro lado, o abandono escolar ocorre quando um aluno deixa de frequentar a escola sem concluir seus estudos, muitas vezes devido a uma variedade de fatores socioeconômicos, familiares ou individuais. Essa situação não apenas afeta negativamente o próprio aluno, privando-o das oportunidades de desenvolvimento pessoal e profissional, mas também tem implicações significativas para a sociedade como um todo, incluindo o aumento do desemprego e da criminalidade.

A evasão escolar, por sua vez, refere-se à saída prematura de alunos matriculados no sistema educacional, antes de concluírem sua formação básica ou secundária. Esse fenômeno está frequentemente associado a problemas estruturais dentro do sistema educacional, bem como a fatores externos, como pobreza, violência e falta de apoio familiar.

Neste contexto, a análise exploratória de dados desempenha um papel fundamental na compreensão desses problemas complexos, fornecendo insights valiosos sobre os padrões, tendências e correlações presentes nos dados relacionados à busca ativa, abandono e evasão escolar. Ao explorar e visualizar os dados disponíveis, podemos identificar padrões emergentes, áreas de preocupação e oportunidades para intervenção, informando assim o desenvolvimento de estratégias mais eficazes e direcionadas.

Neste notebook, realizaremos uma análise exploratória de dados de diversas fontes sobre abandono e evasão escolar, utilizando técnicas de estatística descritiva e inferencial para examinar os padrões e tendências presentes nos dados. Através dessa análise, buscamos obter uma compreensão mais profunda das evidencias relacionads a esses fenômenos e contribuir para o aprimoramento de políticas, projetos, ações e processos que promovam a inclusão e a equidade na educação.

```{r}
# pacotes utilizados nessa analise:
# tidyverse: O tidyverse é um conjunto de pacotes do R que compartilham uma filosofia comum de manipulação e visualização de dados. Inclui pacotes como ggplot2 para visualização de dados, dplyr para manipulação de dados e tidyr para reformulação de dados.
library(tidyverse)
# caret: O pacote caret (Classificação e Regressão Treinadas) fornece uma interface unificada para a construção de modelos de aprendizado de máquina supervisionados e não supervisionados. Ele simplifica o processo de ajuste, avaliação e sintonia de modelos, oferecendo várias funções e métodos.
library(caret)
# sidrar: O pacote sidrar oferece uma interface para acessar dados do SIDRA (Sistema IBGE de Recuperação Automática), que é uma plataforma do Instituto Brasileiro de Geografia e Estatística (IBGE) para acesso a dados estatísticos.
library(sidrar)
# randomForest: O pacote randomForest implementa o algoritmo de florestas aleatórias para aprendizado de máquina. É uma técnica de conjunto que combina múltiplas árvores de decisão para realizar classificação e regressão.
library(randomForest)
# rpart: O pacote rpart é usado para ajustar árvores de decisão recursivas. Ele é comumente usado em análise de dados para classificação e regressão.
library(rpart)
# rpart.plot: O pacote rpart.plot fornece funções para visualizar árvores de decisão criadas com o pacote rpart. Ele permite criar gráficos visualmente atraentes das árvores de decisão, facilitando a interpretação dos resultados.
library(rpart.plot)


```

## IBGE - MICRODADOS
## Introdução
Os microdados da Pesquisa Nacional por Amostra de Domicílios Contínua (PNADC), disponibilizados pelo Instituto Brasileiro de Geografia e Estatística (IBGE), são uma fonte valiosa de informações sobre a situação socioeconômica da população brasileira. A PNADC é uma pesquisa realizada em todo o país, que investiga uma ampla gama de temas, incluindo mercado de trabalho, rendimento, educação, saúde e outras questões relevantes para a compreensão da realidade brasileira.

Referencias: https://doi.org/10.5281/zenodo.8111841 - MOTIVOS DE ABANDONO ESCOLAR NO BRASIL: ANÁLISE DE DADOS DA PNAD CONTÍNUA DE 2019
Tabela 7217

```{r}
tx_esc<-get_sidra(7217,geo = "Region")
tx_esc$Variável %>% unique()
tx_esc %>% 
  filter(Variável== "Distribuição percentual das pessoas de 14 a 29 anos que nunca frequentaram escola ou que já frequentaram e não concluíram o ensino médio ou curso equivalente") %>% 
  filter(!`Principal motivo de ter deixado ou nunca ter frequentado escola`=="Total",
         !Sexo=="Total") %>% #select(Variável) %>% unique
  ggplot(aes(`Principal motivo de ter deixado ou nunca ter frequentado escola`, Valor,fill=`Principal motivo de ter deixado ou nunca ter frequentado escola`))+geom_col()+
  labs(y="% de pessoas de 14 a 29 anos que nunca frequentaram escola ou que já frequentaram e não concluíram o ensino médio",
       title = "")+
  facet_grid(`Grande Região`~Sexo)+
  geom_text(aes(label=paste(Valor,"%")))
```
Tabela 7219

```{r}
tx_esc<-get_sidra(7219,geo = "Region")
tx_esc$`Principal motivo de atualmente não frequentar escola ou outro curso` %>% unique()
tx_esc %>% 
  filter(Variável==  "Distribuição percentual das pessoas de 15 a 29 anos de idade com nível de instrução inferior ao médio completo e que não frequentam escola, curso técnico, normal (magistério), pré-vestibular ou curso de qualificação profissional" ) %>% 
  filter(!`Principal motivo de atualmente não frequentar escola ou outro curso`=="Total",
         !Sexo=="Total") %>% #select(Variável) %>% unique
  ggplot(aes(`Principal motivo de atualmente não frequentar escola ou outro curso`, Valor,fill=`Principal motivo de atualmente não frequentar escola ou outro curso`))+geom_col()+
  labs(y="% de pessoas de 14 a 29 anos que nunca frequentaram escola ou que já frequentaram e não concluíram o ensino médio",
       title = "")+
  facet_grid(`Grande Região`~Sexo)+
  geom_text(aes(label=paste(Valor,"%")))
```


    -   7138 - Taxa de escolarização, por sexo e grupo de idade

```{r }
library(sidrar)
tx_esc<-get_sidra(7138, geo = c("State"),format = 2,period = "all")
tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa de escolarização")%>% select(-`Nível Territorial`) %>% 
  ggplot(aes(Sexo,fill=Sexo,Valor))+geom_col()+facet_grid(`Grupo de idade`~as.numeric(Ano))+geom_text(aes(label=Valor))+labs(title = "Taxa de Escolarização por Faixa de idade e Sexo",caption = "Fonte: IBGE/PNADC/A")
tx_esc$`Grupo de idade`<-as.factor(tx_esc$`Grupo de idade`)
levels(tx_esc$`Grupo de idade`)
tx_esc$`Grupo de idade` <- ordered(tx_esc$`Grupo de idade`, levels = c("0 a 3 anos",
                                                                       "0 a 5 anos",
                                                                       "4 a 5 anos",
                                                                       "6 a 14 anos",
                                                                       "15 a 17 anos",
                                                                       "18 a 24 anos",
                                                                       "25 anos ou mais",
                                                                       "Total" ))

tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa de escolarização")%>% select(-`Nível Territorial`) %>% 
  ggplot(aes(as.numeric(Ano),col=Sexo,Valor))+geom_line()+facet_wrap(~`Grupo de idade`,scales="free")+geom_text(aes(label=Valor))+labs(title = "Taxa de Escolarização por Faixa de idade e Sexo",caption = "Fonte: IBGE/PNADC/A")+theme_minimal()


```

-   Não Frequenta a escola

    -   7139 - [Taxa de escolarização, por cor ou raça e grupo de
        idade](https://sidra.ibge.gov.br/tabela/7139 "Abrir Tabela")

    ```{r}
library(sidrar)
tx_esc<-get_sidra(7139, geo = c("State"),format = 2,period = "all")

tx_esc$`Grupo de idade`<-as.factor(tx_esc$`Grupo de idade`)
tx_esc$`Grupo de idade` <- ordered(tx_esc$`Grupo de idade`, levels = c("0 a 3 anos",
                                                                           "0 a 5 anos",
                                                                           "4 a 5 anos",
                                                                           "6 a 14 anos",
                                                                           "15 a 17 anos",
                                                                           "18 a 24 anos",
                                                                           "25 anos ou mais",
                                                                           "Total" ))

```

```{r}

tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa de escolarização")%>% select(-`Nível Territorial`) %>%
  ggplot(aes(as.numeric(Ano),col=`Cor ou raça`,Valor))+geom_line()+
  facet_wrap(~`Grupo de idade`,scales="free")+
  geom_text(aes(label=Valor))+
  labs(title = "Taxa de Escolarização por Faixa de idade e Raça",caption = "Fonte: IBGE/PNADC/A")+
  theme_minimal()
```

-   7142 Taxa ajustada de frequência escolar líquida, por cor ou raça e faixa
    etária ideal por curso frequentado

```{r fig.height=8, fig.width=12}
library(sidrar)
tx_esc<-get_sidra(7142, geo = c("State"),format = 2,period = "all")
#tx_esc$`Grupo de idade`<-as.factor(tx_esc$`Grupo de idade`)
#tx_esc$`Grupo de idade` <- ordered(tx_esc$`Grupo de idade`, levels = c("0 a 3 anos",
#                                                                       "0 a 5 anos",
#                                                                       "4 a 5 anos",
#                                                                       "6 a 14 anos",
#                                                                       "15 a 17 anos",
#                                                                       "18 a 24 anos",
#                                                                       "25 anos ou mais",
#                                                                       "Total" ))
#tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa ajustada de frequência escolar líquida")%>% select(-`Nível #Territorial`) %>% 
#  ggplot(aes(`Cor ou raça`,fill=`Cor ou raça`,Valor))+geom_col()+facet_grid(`Faixa etária ideal por curso #frequentado`~as.numeric(Ano))+geom_text(aes(label=Valor))+labs(title = "Taxa ajustada de frequência escolar líquida por Faixa de idade",caption #= "Fonte: IBGE/PNADC/A")+theme_void()
#
tx_esc %>% filter(`Unidade da Federação`=="Distrito Federal",Variável=="Taxa ajustada de frequência escolar líquida")%>% select(-`Nível Territorial`) %>% 
  ggplot(aes(as.numeric(Ano),col=`Cor ou raça`,Valor))+geom_line()+facet_wrap(~`Faixa etária ideal por curso frequentado`,scales="free")+geom_text(aes(label=Valor))+labs(title = "Taxa de Escolarização por Faixa de idade e Raça",caption = "Fonte: IBGE/PNADC/A")+theme_minimal()
```

## IPDF - MICRODADOS

Avaliação da Amostra:

```{r}
PDAD_2021_Moradores <- read_delim("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/PCF/PDAD_2021-Moradores.csv", 
    delim = ";", escape_double = FALSE, trim_ws = TRUE)
# Criar o dataframe com dicionario de RA's
dic_RA <- data.frame(A01ra = 1:33, RA = c("Plano Piloto", "Gama", "Taguatinga", "Brazlândia", "Sobradinho", "Planaltina", "Paranoá", 
                "Núcleo Bandeirante", "Ceilândia", "Guará", "Cruzeiro", "Samambaia", "Santa Maria", "São Sebastião", 
                "Recanto Das Emas", "Lago Sul", "Riacho Fundo", "Lago Norte", "Candangolândia", "Águas Claras", 
                "Riacho Fundo II", "Sudoeste e Octogonal", "Varjão", "Park Way", "SCIA", "Sobradinho II", 
                "Jardim Botânico", "Itapoã", "SIA", "Vicente Pires", "Fercal", "Sol Nascente / Pôr do Sol", 
                "Arniqueira"))
PDAD_2021_Mor_RA<-left_join(PDAD_2021_Moradores,dic_RA,by="A01ra")

#nº de residencias e moradores identificados:
PDAD_2021_Mor_RA %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))

#nº de residencias e moradores identificados por RA
PDAD_2021_Mor_RA %>% group_by(RA) %>% summarise("nºde moradores"=n(),"nº de Residencia"=n_distinct(A01nficha))


```

H02 Frequenta creche, escola ou faculdade/universidade 1 Sim, pública 2 Sim,
particular 3 Não, mas já frequentou 4 Não, nunca frequentou

```{r}
library(tidyverse)

PDAD_2021_Moradores$H03 %>% unique()
PDAD_2021_Moradores %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>% mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>% 
  ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+
  xlim(3.2,17.9)+  ylim(-0,0.5)+

  geom_text(aes(label=paste(round(percentual*100,2),"%")),nudge_y = .05)+
  #scale_x_continuous(breaks=seq(4,17))+
  coord_flip()+
  labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")


```

Analise por RA

```{r fig2, fig.height = 15, fig.width = 12, fig.align = "center"}


PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>% group_by(idade,Escolarizacao,RA) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>%
  mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola)) %>%
  mutate(percentual=ifelse(is.na(percentual),0,percentual)) %>% 
  ggplot(aes(idade,percentual))+geom_col(alpha=0.5)+xlim(3.9,17.9)+
  geom_text(aes(y=0.25,label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")+facet_wrap(~RA,scales = "free")

```

Caracteristicas dos que nunca_frequentou_escola

```{r}
PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
  group_by(idade,Escolarizacao,E04) %>% summarise(n=n()) %>% spread(Escolarizacao,n) %>% 
  mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
         percentual=ifelse(is.na(percentual),0,percentual),
         sexo=ifelse(E04==1,"Masculino","Feminino")) %>% 
  mutate(percentual2=ifelse(E04==1,percentual,-percentual)) %>% 
  ggplot(aes(idade,percentual2,fill=sexo))+geom_col(alpha=0.5)+xlim(3.9,17.9)+ylim(-0.1,0.15)+
  geom_text(aes(y=percentual2,hjust =ifelse(percentual2>0,-1,1),label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade e Sexo",subtitle = "Percentual de Residente do DF que nunca frequentou Escola por Sexo",caption = "Fonte:Microdados PEDAD_2021_Moradores")#+facet_wrap(~RA,scales = "free")  

```

```{r}
a<-PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
  group_by(idade,Escolarizacao,E06) %>% summarise(n=n()) %>% spread(Escolarizacao,n,fill = 0) %>% 
  mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
         percentual=ifelse(is.na(percentual),0,percentual),
         Cor__raça=case_when(E06==1~"Branca",
                             E06==2~"Preta",
                             E06==3~"Amarela",
                             E06==4~"Parda",
                             E06==5~"Indígena")) 
a%>% 
  #mutate(percentual2=ifelse(E04==1,percentual,-percentual)) %>% 
  ggplot(aes(idade,percentual,fill=Cor__raça))+geom_col(alpha=0.5)+xlim(3.5,18.9)+
  geom_text(aes(y=percentual+0.3,label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade e Raça",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores por cor/raça")+facet_wrap(~Cor__raça,scales = "free")  
```

Nasceu no DF 1 Sim 2 Não 88888 Não sabe

```{r}
a<-PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
  group_by(idade,Escolarizacao,E14) %>% summarise(n=n()) %>% spread(Escolarizacao,n,fill = 0) %>% 
  mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
         percentual=ifelse(is.na(percentual),0,percentual),
         Nasceu_DF=case_when(E14==1~"Sim",
                             E14==2~"Não",
                             .default ="Não sabe")) 
a%>% 
  mutate(percentual2=ifelse(E14==1,percentual,-percentual)) %>% 
  ggplot(aes(idade,percentual2,fill=Nasceu_DF))+geom_col(alpha=0.5)+xlim(3.5,18.9)+#ylim(-1000,1000)+
  geom_text(aes(y=ifelse(percentual2>0,0.2,-0.2),label=paste(round(percentual*100,2),"%")))+
  coord_flip()+
  labs(title = "Evasão Escolar por Idade e Sexo",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")#+
  facet_wrap(~Nasceu_DF,scales = "free") 
```

H01 Sabe ler e escrever 1 Sim 2 Não 88888 Não sabe 99999 Não se aplica

```{r}
a<-PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
  group_by(idade,Escolarizacao,H01) %>% summarise(n=n()) %>% spread(Escolarizacao,n,fill = 0) %>% 
  mutate(percentual=nunca_frequentou_escola/(frequentou_escola+nunca_frequentou_escola),
         percentual=ifelse(is.na(percentual),0,percentual))
a%>% 
  #mutate(percentual2=ifelse(E04==1,percentual,-percentual)) %>% 
  ggplot(aes(idade,percentual,fill=as.factor(H01)))+geom_col(alpha=0.5)+xlim(3.5,18.9)+
  geom_text(aes(y=percentual+0.1,label=paste(round(percentual*100,2),"%")))+coord_flip()+labs(title = "Evasão Escolar por Idade e Sexo",subtitle = "Percentual de Residente do DF que nunca frequentou Escola",caption = "Fonte:Microdados PEDAD_2021_Moradores")+facet_wrap(~H01,scales = "free") 
```







modelo de arvore de decisão

```{r}
library(caret)
library(randomForest)
library(rpart)
library(rpart.plot)

a<-PDAD_2021_Mor_RA %>% mutate(Escolarizacao=if_else(H02==4,"nunca_frequentou_escola","frequentou_escola")) %>%
  select(idade,H01,E05,Escolarizacao)

a$Escolarizacao <-as.factor(a$Escolarizacao)
ctrl <- trainControl(method = "cv", number = 5)  # Example: 5-fold cross-validation
# Train a Random Forest model
model <- train(Escolarizacao ~ .,  # Replace 'Class' with your target variable
               data = a,
               method = "rpart",
               trControl = ctrl)
importance <- varImp(model)

rpart.plot(model$finalModel,fallen.leaves = T)
 # View the importance
print(importance)


```

## INEP

Abandono
```{r}
#Matricula Por situação
library(readr)
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")

Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique()
a<-Matriculas_por_situação_2007a2022 %>% group_by(NO_SITUACAO,TP_SEXO,NO_ETAPA_AGREGADA) %>%
  summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
                                                                    Abandono_per=Abandono/total)
a %>% mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>% 
  ggplot(aes(NO_ETAPA_AGREGADA,Abandono_per2,fill=as.factor(TP_SEXO)))+geom_col(alpha=0.3)+
  geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%"),col=as.factor(TP_SEXO)))+
  coord_flip()+
  labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas de 2007 a 2022")

```
Qual tipo de rede estão as matriculas com abandono?
"1 - Federal
2 - Estadual
3 - Municipal
4 - Privada"

```{r}
#Matricula Por situação
library(readr)
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")

Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique()
a<-Matriculas_por_situação_2007a2022 %>% group_by(NO_SITUACAO,TP_DEPENDENCIA,NO_ETAPA_AGREGADA) %>%
  summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
                                                                    Abandono_per=Abandono/total)
a %>% mutate(Abandono_per2=if_else(TP_DEPENDENCIA==4,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>% 
  ggplot(aes(as.character(TP_DEPENDENCIA),Abandono_per,fill=as.factor(TP_DEPENDENCIA)))+geom_col(alpha=0.9)+
  geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%")))+
  coord_flip()+facet_wrap(~NO_ETAPA_AGREGADA,scales="free")
  labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas de 2007 a 2022")

```



```{r}
#Matricula Por situação
library(readr)
Matriculas_por_situação_2007a2022 <- read_csv("//10.221.37.241/dinfe/Documentos/2023/Tratamento/THIAGO PROJETO/GETED/Matriculas por situação,2007a2022.csv")
Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique
a<-Matriculas_por_situação_2007a2022 %>% filter(NU_ANO_CENSO==2022) %>% filter(TP_DEPENDENCIA==2) %>% 
  group_by(NO_SITUACAO,TP_SEXO,NO_ETAPA_AGREGADA) %>%
  summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
                                                                    Abandono_per=Abandono/total)
a %>% mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>% 
  ggplot(aes(NO_ETAPA_AGREGADA,Abandono_per2,fill=as.factor(TP_SEXO)))+geom_col(alpha=0.3)+
  geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%"),col=as.factor(TP_SEXO)))+
  coord_flip()+
  labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas só em 2022")

```

```{r}
#Matricula Por situação
library(readr)
Matriculas_por_situação_2007a2022$NO_ETAPA_AGREGADA %>% unique
a<-Matriculas_por_situação_2007a2022 %>% filter(NU_ANO_CENSO==2022) %>% filter(TP_DEPENDENCIA==2) %>% 
  group_by(NO_SITUACAO,NO_ETAPA_AGREGADA,TP_COR_RACA) %>%
  summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
                                                                    Abandono_per=Abandono/total)

a %>% #mutate(Abandono_per2=if_else(TP_COR_RACA==1,Abandono_per,-Abandono_per)) %>% filter(!Abandono==0) %>% 
  ggplot(aes(as.factor(TP_COR_RACA),Abandono_per,fill=as.factor(TP_COR_RACA)))+geom_col(alpha=0.3)+
  geom_text(position = position_dodge(width = 1),
            aes(label=paste(round(Abandono_per*100,2),"%"),
                col=as.factor(TP_COR_RACA)))+
  #coord_flip()+
  facet_wrap(~NO_ETAPA_AGREGADA,scales = "free")
  labs(title = "Abandono por Modalidade e Sexo",subtitle = "Matriculas abandonadas só em 2022")

```



Serie Histórica
```{r}
Matriculas_por_situação_2007a2022$NO_SITUACAO %>% unique()
a<-Matriculas_por_situação_2007a2022 %>% group_by(NU_ANO_CENSO,NO_SITUACAO,NO_ETAPA_AGREGADA) %>%filter(TP_DEPENDENCIA==2) %>% 
  summarise(n=sum(n)) %>% spread(NO_SITUACAO,n,fill = 0) %>% mutate(total=Abandono+Aprovado+Falecido+Reprovado+SIR,
                                                                    Abandono_per=Abandono/total)
a %>%# mutate(Abandono_per2=if_else(TP_SEXO==1,Abandono_per,-Abandono_per)) %>% 
  ggplot(aes(NU_ANO_CENSO,Abandono_per,col=NO_ETAPA_AGREGADA))+geom_line(alpha=0.5)+geom_text(position = position_dodge(width = 1),aes(label=paste(round(Abandono_per*100,2),"%")))+ labs(title = "Abandono por Modalidade e Sexo")+
  facet_grid(NO_ETAPA_AGREGADA~1,scales = "free")+
  theme_minimal()

```

-   Alunos não Encontrados \*pedir para Nevton

-   Abandono \*Ver TS Aluno

-   EVASÃO \*??
