Este é o projeto final do curso “Introdução aos indicadores sociais com R”, ministrado pelo prof. Ronaldo Baltar (UEL) Trata-se de uma atividade gratuita de extensão do Observatório de Políticas Públicas (ObPPP) e do Programa Informática para análise de dados sociais (InfoSoc), ambos projetos vinculados ao Departamento de Ciências Sociais da Universidade Estadual de Londrina (UEL).
Como projeto final, foi proposto um desafio. O objetivo é explorar indicadores do IPEA/PNUD/FJP baseados no Censo e dos Registros administrativos usando as ferramentas R (tidyverse), RStudio e Esquisse.
Fonte de dados: http://www.atlasbrasil.org.br/
## ── Attaching packages ─────────────────────────────────────── tidyverse 1.3.2 ──
## ✔ ggplot2 3.4.0 ✔ purrr 0.3.5
## ✔ tibble 3.1.8 ✔ dplyr 1.0.10
## ✔ tidyr 1.2.1 ✔ stringr 1.4.1
## ✔ readr 2.1.3 ✔ forcats 0.5.2
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
##
## Attaching package: 'summarytools'
##
##
## The following object is masked from 'package:tibble':
##
## view
Primeiro, vamos selecionar as variáveis de interesse e fazer algumas modificações nos dados
# Criando novas variáveis para análise
munic_2 <- munic_tb %>% select(ANO, UF, Codmun7, Município, IDHM,
IDHM_E, IDHM_L, IDHM_R, POP, pesotot,
pesourb, pesoRUR, T_LIXO, T_LUZ, AGUA_ESGOTO) %>%
mutate(classe_pop = case_when(
(POP < 5001) ~ "1) Até 5.000",
(POP > 5000 & POP < 20001) ~ "2) 5.001 a 20.000",
(POP > 20000 & POP < 100001) ~ "3) 20.001 a 100.000",
(POP > 100000 & POP < 500001) ~ "4) 100.001 a 500.000",
(POP > 500000) ~ "5) Mais de 500.000")) %>%
mutate(classe_idhm = case_when(
(IDHM < 0.5) ~ "Muito baixo",
(IDHM >= 0.5 & IDHM < 0.6) ~ "Baixo",
(IDHM >= 0.6 & IDHM < 0.7) ~ "Médio",
(IDHM >= 0.7 & IDHM < 0.8) ~ "Alto",
(IDHM >= 0.8) ~ "Muito Alto")) %>%
mutate(taxa_urbanizacao = (pesourb / pesotot) * 100) %>%
mutate(urbano_rural = case_when(
(taxa_urbanizacao >= 50) ~ "Urbano",
(taxa_urbanizacao < 50) ~ "Rural"))
Agora, vamos filtrar pelo estado de interesse, o Maranhão
# Vamos analisar apenas o estado do Maranhão
munic2_mar <- munic_2 %>% filter(UF==21)
# IDHM médio dos municípios maranhenses ao longo dos anos
munic2_mar %>% group_by(ANO) %>%
summarise(idhm_avg = mean(IDHM))
## # A tibble: 3 × 2
## ANO idhm_avg
## <dbl> <dbl>
## 1 1991 0.269
## 2 2000 0.392
## 3 2010 0.576
# Média das taxas de coleta de lixo por ano
tlixo_mar <- munic2_mar %>% group_by(ANO) %>%
summarise(T_LIXO_avg = mean(T_LIXO))
# Média da % da pop em domicílios com energia elétrica
tluz_mar <- munic2_mar %>% group_by(ANO) %>%
summarise(T_LUZ_avg = mean(T_LUZ))
agesg_mar <- munic2_mar %>% group_by(ANO) %>%
summarise(AGUA_ESGOTO_avg = mean(AGUA_ESGOTO))
# Filtrando apenas observações do ano de 2010
munic2_mar2010 <- munic2_mar |> filter(ANO == 2010)
Vamos focar nossa análise no IDHM dimensão renda apenas.
A partir dessa visualização, entende-se que, quanto maior a taxa de domicílios com abastecimento de água e esgotamento sanitário inadequados, a tendência é de que o IDHM renda também seja menor.
ggplot(munic2_mar2010) +
aes(x = IDHM_R, y = AGUA_ESGOTO, size = POP) +
geom_point(shape = "circle", colour = "midnightblue") +
theme_minimal() +
facet_wrap(vars(urbano_rural)) +
labs(y = "% da pop em domicílios com abastecimento de água e esgotamento sanitário inadequados")
Neste gráfico, percebemos que a maior parte dos municípios têm uma taxa de domicílios com energia elétrica acima de 90%. Nos casos em que esta taxa é menor, não temos indicativo de que o IDHM renda é necessariamente menor.
# Comparando os cenários entre municípios rurais e urbanos
ggplot(munic2_mar2010) +
aes(x = IDHM_R, y = T_LUZ, size = POP) +
geom_point(shape = "circle", colour = "#6BDFC5") +
theme_minimal() +
facet_wrap(vars(urbano_rural)) +
labs(y = "% da pop em domicílios com com luz elétrica")
Mais municípios rurais têm menores taxas de população com acesso a
energia elétrica e mais municípios rurais têm IDHM_R menor que 0.5.
Chama atenção neste gráfico que há municípios em que a taxa de população em domicílios com coleta de lixo é de 0%. Parece haver uma tendência de maior IDHM_R em municípios com maior taxa de pop. com coleta de lixo.
# Comparando os cenários entre municípios rurais e urbanos
ggplot(munic2_mar2010) +
aes(x = IDHM_R, y = T_LIXO, size = POP) +
geom_point(shape = "circle", colour = "#47BA31") +
theme_minimal() +
facet_wrap(vars(urbano_rural)) +
labs(y = "% da pop em domicílios com coleta de lixo")
A partir da leitura dos gráficos, observa-se que:
Observando os dado de 2010:
Em geral, nota-se que o tamanho da população parece ser um fator de maior peso na definição do IDHM_R e para os indicadores sanitários. No entanto, explorações mais aprofundadas seriam necessárias para estabelecermos uma correlação entre esses indicadores.