Renda, moradia e atraso educacional no ensino fundamental: uma análise exploratória a partir dos dados do censo demográfico.

1. Apresentação

O presente projeto de final de curso consiste em uma análise exploratória visual a respeito da relação entre a taxa de atraso idade-série de 2 anos ou mais, a dimensão renda do Índice de Desenvolvimento Humano (IDH) e a residência do entrevistado, ou seja, no meio rural ou no meio urbano. A pergunta que orienta esta investigação é a que segue: a taxa de atraso educacional no meio rural é maior que no meio urbano? Para responder a essa pergunta, será necessário cruzar os dados do índice de desenvolvimento humano em suas dimensões de renda e educacional e a taxa de atraso educacional Os resultados estão apresentados a seguir.

2. Pacotes do R utilizados

Nesta seção, são carregadas as bibliotecas necessárias à análise exploratória dos dados.

# Pacotes necessários ao projeto
libs <- c("tidyverse", "readxl", "esquisse")

# Instalação de pacotes faltantes no RStudio
installed_libs <- libs %in% rownames(installed.packages())
if (any(installed_libs == F)) {
    install.packages(libs[!installed_libs])
}

# Carregamento dos pacotres
invisible(lapply(libs, library, character.only = T))

## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.1     ✔ purrr   1.0.1
## ✔ tibble  3.1.8     ✔ dplyr   1.1.0
## ✔ tidyr   1.3.0     ✔ stringr 1.5.0
## ✔ readr   2.1.4     ✔ forcats 1.0.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()

3. Bases de dados utilizadas

Na seção 3, são carregadas as bases de dados do censo demográfico 2010 e os registros administrativos 2013 compilados pelo IPEA,

reg_mun <- read_excel("/Users/MAC/Downloads/Download Registros Administrativos.rar Folder/DOWNLOAD REGISTRO ADMINISTRATIVO TOTAL 2012 A 2017.xlsx", 
                           sheet = "MUNICÍPIO")
censo_mun <- read_excel("/Users/MAC/Downloads/Bases Censo.zip Folder/Atlas 2013_municipal, estadual e Brasil.xlsx", 
                        sheet = "MUN 91-00-10")

4. Manipulação das bases de dados

Nesta seção são realizadas algumas operações matriciais, a fim de tornar as bases de dados mais amigáveis em relação a eventuais cruzamentos de dados originários das duas bases.

# Criação de uma variável com o município por classe de tamanho de população

# classe de tamanho da população Total IBGE
# 
# Até 5.000 
# 5.001 a 20.000 
# 20.001 a 100.000 
# 100.001 a 500.000 
# Mais de 500.000
#
# Classificação ONU para IDH e IDHM
# Muito baixo: 0 a 04,99. 
# Baixo: 0,500 a 0,599. 
# Médio: 0,600 a 0,699. 
# Alto: 0,700 a 0,799. 
# Muito alto: 0,800 a 1.
#
# Criação da variávei Taxa de Urbanização

m1_censo_mun <- censo_mun |>
  select(ANO, UF, Codmun7, Município, IDHM, IDHM_E, IDHM_L, IDHM_R, POP, pesotot, pesourb, pesoRUR, T_ATRASO_2_FUND) %>%
  mutate(classe_pop = case_when(
    (POP < 5001) ~ "1) Até 5.000",
    (POP > 5000 & POP < 20001) ~ "2) 5.001 a 20.000",
    (POP > 20000 & POP < 100000) ~ "3) 20.001 a 100.000",
    (POP > 100000 & POP < 500000) ~ "4) 100.001 a 500.000",
    (POP > 500000) ~ "5) Mais de 500.000",
  )) |>
  mutate(classe_idhm = case_when(
    (IDHM < 0.5) ~ "Muito baixo",
    (IDHM >= 0.5 & IDHM < 0.6) ~ "Baixo",
    (IDHM >= 0.6 & IDHM < 0.7) ~ "Médio",
    (IDHM >= 0.7 & IDHM < 0.8) ~ "Alto",
    (IDHM >= 0.8) ~ "Muito Alto",
  )) |> 
  mutate(taxa_urbanizacao = (pesourb / pesotot) * 100) |>
  mutate(urbano_rural = case_when(
    (taxa_urbanizacao >= 50) ~ "Urbano",
    (taxa_urbanizacao < 50) ~ "Rural")) 

# Selecionar as variáveis em registro_mun
m1_reg_mun <- reg_mun |>
  select(ANO, NOME, IBGE7, IDEB_AI, IDEB_AF)

# filtrar anos em m1_censo_mun e m1_regist_mun
m1_censo_mun |>
  filter(ANO == 2010) -> c2_2010
m1_reg_mun |>
  filter(ANO == 2013) -> r2_2013

# juntar tabelas pela chave do código do município de sete # dígitos do IBGE
c2_2010 |>
  full_join(r2_2013, by = c("Codmun7"="IBGE7")) |>
  na.omit() -> j1_censo_reg   

#

5. Visualização dos dados

Nesta seção são apresentados alguns gráficos para efeito de análise exploratória visual dos dados coletados.

5.1 Relação entre as variáveis Renda, Educação e Taxa de atraso educacão

ggplot(c2_2010) +
  aes(x = IDHM_R, y = IDHM_E, colour = T_ATRASO_2_FUND) +
  geom_point(shape = "circle", size = 1.5) +
  scale_color_distiller(palette = "PuOr", direction = 1) +
  theme_minimal() +
  facet_wrap(vars(urbano_rural))

5.2 Distribuição da variável da dimensão renda do IDHMl

ggplot(c2_2010) +
 aes(x = IDHM_R) +
 geom_histogram(bins = 30L, fill = "#112446") +
 theme_minimal()

5.3 Distribuição da variável da dimensão educação do IDHM

ggplot(c2_2010) +
 aes(x = IDHM_E) +
 geom_histogram(bins = 30L, fill = "#112446") +
 theme_minimal()

Projeto Final do Curso

Luiz Antônio Gouveia de Oliveira

2023-02-20