O presente projeto de final de curso consiste em uma análise exploratória visual a respeito da relação entre a taxa de atraso idade-série de 2 anos ou mais, a dimensão renda do Índice de Desenvolvimento Humano (IDH) e a residência do entrevistado, ou seja, no meio rural ou no meio urbano. A pergunta que orienta esta investigação é a que segue: a taxa de atraso educacional no meio rural é maior que no meio urbano? Para responder a essa pergunta, será necessário cruzar os dados do índice de desenvolvimento humano em suas dimensões de renda e educacional e a taxa de atraso educacional Os resultados estão apresentados a seguir.
Nesta seção, são carregadas as bibliotecas necessárias à análise exploratória dos dados.
# Pacotes necessários ao projeto
libs <- c("tidyverse", "readxl", "esquisse")
# Instalação de pacotes faltantes no RStudio
installed_libs <- libs %in% rownames(installed.packages())
if (any(installed_libs == F)) {
install.packages(libs[!installed_libs])
}
# Carregamento dos pacotres
invisible(lapply(libs, library, character.only = T))
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.1 ✔ purrr 1.0.1
## ✔ tibble 3.1.8 ✔ dplyr 1.1.0
## ✔ tidyr 1.3.0 ✔ stringr 1.5.0
## ✔ readr 2.1.4 ✔ forcats 1.0.0
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
Na seção 3, são carregadas as bases de dados do censo demográfico 2010 e os registros administrativos 2013 compilados pelo IPEA,
reg_mun <- read_excel("/Users/MAC/Downloads/Download Registros Administrativos.rar Folder/DOWNLOAD REGISTRO ADMINISTRATIVO TOTAL 2012 A 2017.xlsx",
sheet = "MUNICÍPIO")
censo_mun <- read_excel("/Users/MAC/Downloads/Bases Censo.zip Folder/Atlas 2013_municipal, estadual e Brasil.xlsx",
sheet = "MUN 91-00-10")
Nesta seção são realizadas algumas operações matriciais, a fim de tornar as bases de dados mais amigáveis em relação a eventuais cruzamentos de dados originários das duas bases.
# Criação de uma variável com o município por classe de tamanho de população
# classe de tamanho da população Total IBGE
#
# Até 5.000
# 5.001 a 20.000
# 20.001 a 100.000
# 100.001 a 500.000
# Mais de 500.000
#
# Classificação ONU para IDH e IDHM
# Muito baixo: 0 a 04,99.
# Baixo: 0,500 a 0,599.
# Médio: 0,600 a 0,699.
# Alto: 0,700 a 0,799.
# Muito alto: 0,800 a 1.
#
# Criação da variávei Taxa de Urbanização
m1_censo_mun <- censo_mun |>
select(ANO, UF, Codmun7, Município, IDHM, IDHM_E, IDHM_L, IDHM_R, POP, pesotot, pesourb, pesoRUR, T_ATRASO_2_FUND) %>%
mutate(classe_pop = case_when(
(POP < 5001) ~ "1) Até 5.000",
(POP > 5000 & POP < 20001) ~ "2) 5.001 a 20.000",
(POP > 20000 & POP < 100000) ~ "3) 20.001 a 100.000",
(POP > 100000 & POP < 500000) ~ "4) 100.001 a 500.000",
(POP > 500000) ~ "5) Mais de 500.000",
)) |>
mutate(classe_idhm = case_when(
(IDHM < 0.5) ~ "Muito baixo",
(IDHM >= 0.5 & IDHM < 0.6) ~ "Baixo",
(IDHM >= 0.6 & IDHM < 0.7) ~ "Médio",
(IDHM >= 0.7 & IDHM < 0.8) ~ "Alto",
(IDHM >= 0.8) ~ "Muito Alto",
)) |>
mutate(taxa_urbanizacao = (pesourb / pesotot) * 100) |>
mutate(urbano_rural = case_when(
(taxa_urbanizacao >= 50) ~ "Urbano",
(taxa_urbanizacao < 50) ~ "Rural"))
# Selecionar as variáveis em registro_mun
m1_reg_mun <- reg_mun |>
select(ANO, NOME, IBGE7, IDEB_AI, IDEB_AF)
# filtrar anos em m1_censo_mun e m1_regist_mun
m1_censo_mun |>
filter(ANO == 2010) -> c2_2010
m1_reg_mun |>
filter(ANO == 2013) -> r2_2013
# juntar tabelas pela chave do código do município de sete # dígitos do IBGE
c2_2010 |>
full_join(r2_2013, by = c("Codmun7"="IBGE7")) |>
na.omit() -> j1_censo_reg
#
Nesta seção são apresentados alguns gráficos para efeito de análise exploratória visual dos dados coletados.
ggplot(c2_2010) +
aes(x = IDHM_R, y = IDHM_E, colour = T_ATRASO_2_FUND) +
geom_point(shape = "circle", size = 1.5) +
scale_color_distiller(palette = "PuOr", direction = 1) +
theme_minimal() +
facet_wrap(vars(urbano_rural))
ggplot(c2_2010) +
aes(x = IDHM_R) +
geom_histogram(bins = 30L, fill = "#112446") +
theme_minimal()
ggplot(c2_2010) +
aes(x = IDHM_E) +
geom_histogram(bins = 30L, fill = "#112446") +
theme_minimal()
De acordo com os gráficos apresentados acima, verifica-se que a distribuição da dimensão renda do IDH-M é bimodal, refletindo a desigualdade de renda da sociedade brasileira. Por outro lado, a dimensão educação do IDH-M segue o padrão da distribuição normal. Por fim, é possível inferir que a taxa de atraso educacional dos residentes no meio rural é maior que aaqueles que residem no meio urbano.