Proposta de
projeto
O objetivo desse projeto é demonstrar minhas habilidades com R em
manipulação e estruturação de dados, bem como uma análise dos dados
apresentados. Com isso em vista, vou deixar exposto boa parte dos
códigos, mas não todos para que não fique muito repetitivo. Devo
ressaltar que embora presente em algumas tabelas, a etnia “amarela ou
indígena” não será apresentada no relatório final, uma vez que hpá uma
quantidade grande de outliers e que acabam inviesando a análise.
Todos os arquivos utilizados nesse projetos podem ser encontrados no
link abaixo.
link
para os arquivos
Método de
Análises
No decorrer da análise vou fazer várias previsões de população, pois
nem todas as tabelas apresentam dados de 2019. Para previsão da
população, vou me basear no método aritmético presente no livro
de Marcos Von Sperling (Von Sperling
2014).
Método aritmético
Este método pressupõe uma taxa de crescimento constante para os anos
que se seguem, a partir de dados conhecidos, por exemplo, a população do
último censo. Matematicamente, pode ser representado da seguinte
forma:
\[\frac{dP}{dt} = k_a\] nos quais
dP/dt representa a variação da população (P) por unidade de tempo (t), e
ka éuma constante. Considerando que P1 é a população do penúltimo censo
(ano t1) e P2, a população do último censo (ano t2), tem-se:
\[\int_{P_2}^{P_1} =
k_a\int_{t_1}^{t_2}dt\]
Integrando entre os limites definidos, tem-se:
\[P_2-P_1 = k_a(t_2-t_1)\] \[k_a = \frac{P_2-P_1}{t_2-t_1}\]
Utilizando-se a equação, chega-se à expressão geral do método
aritmético:
\[P=P_2 + k_n(t-t_2)\]
onde t representa o ano da projeção.
Este método admite que a população varie linearmente com o tempo e
pode ser utilizado para a previsão populacional para um período pequeno,
de 1 a 5 anos. Para previsão por período muito longo, toma-se acentuada
a discrepância com a realidade histórica, uma vez que o crescimento é
pressuposto ilimitado.
Para aplicar essa fórmula do método aritmético, vou usar essa função
logo a baixo.
formula <- function(P2, t2, P0, t0, t) {
Ka <- (P2 - P0) / (t2 - t0)
Pt <- P2 + Ka * (t - t2)
return(Pt)
}
Preparação do
Ambiente R
Antes de mais nada, vou carregar os pacotes que vou usar para
manipular os dados, fazer análises e gerar esse relatório.
knitr::opts_chunk$set(cache= TRUE, warning=FALSE, message=FALSE)
library(foreign)
library(lmtest)
library(readxl)
library(writexl)
library(stringi)
library(stringr)
library(purrr)
library(tidyverse)
library(knitr)
library(markdown)
library(kableExtra)
library(htmltools)
library(rstatix)
library(emmeans)
O INFOPEN
“O Infopen é um sistema de informações estatísticas do sistema
penitenciário brasileiro. O sistema, atualizado pelos gestores dos
estabelecimentos desde 2004, sintetiza informações sobre os
estabelecimentos penais e a população prisional. Em 2014, o DEPEN
reformulou a metodologia utilizada, com vistas a modernizar o
instrumento de coleta e ampliar o leque de informações coletadas. O
tratamento dos dados permitiu amplo diagnóstico da realidade estudada,
mas que não esgotam, de forma alguma, todas as possibilidades de
análise.”
Carregamentos dos
Dados Iniciais Passo a Passo
Primeiro vou criar um dicionário de estados que vou usar. Fiz isso
afim de padroniazar os nomes dos estados, pois algumas tabelas
apresentam os nomes completos, outras apresentam apenas as siglas dos
estados.
head(uf_dict, 20)
## Acre Alagoas Amapá Amazonas
## "AC" "AL" "AP" "AM"
## Bahia Ceará Distrito Federal Espírito Santo
## "BA" "CE" "DF" "ES"
## Goiás Maranhão Mato Grosso Mato Grosso do Sul
## "GO" "MA" "MT" "MS"
## Minas Gerais Pará Paraíba Paraná
## "MG" "PA" "PB" "PR"
## Pernambuco Piauí Rio de Janeiro Rio Grande do Norte
## "PE" "PI" "RJ" "RN"
Aqui a lista de colunas que vou estrair das tabelas do INFOPEN. Criei
essa lista usando manipulação com Excel.
Fazer um loop nos arquivos das tabelas do INFOPEN e listar os nomes
deles
Combinar o diretorio ao nome do arquivo
arquivos_infopen <- str_c("INFOPEN/tabelas excel/",nome_dos_arquivos_infopen)
Dar nome a cada elemento do vetor
names(arquivos_infopen) <- gsub("\\.xlsx$", "", nome_dos_arquivos_infopen)
Aplicar a função read_excel para cada elemento do vetor importando
assim todos os arquivos de uma só vez
infopen_br<- map_df(.x = arquivos_infopen, .f = read_excel, .id = "data") %>%
select("UF",data, all_of(colunas))
Reconhecendo a
Tabela
As tabelas do INFOPEN apresentam dados em painel, onde cada individo
é representado mais de uma vez.
Cada tabela do INFOPEN contém mais de 1300 colunas e aproximadamente
1500 linhas.
jun_2017 <- read_excel("INFOPEN/tabelas excel/jun 2017.xlsx")
Numero de colunas: 1332
Número de linas: 1514
Após analisar cada tabela, decidi filtrar apenas as colunas mais
interessantes para a minha analise e o resultado foi uma tabela com 8932
linhas e 328 colunas.
Começando manipular o
dataframe
Após agrupar todas as tabelas e escolher apenas as colunas que vou
utiliar, o próximo passo será transformar de formato largo para longo. O
Formato longo facilita algumas manipulações,e o formato largo outras. No
decorrer dessa análise vou utilizar os dois formatos.
infopen_2_formato_longo <-infopen_br%>%
gather(variavel , quantidade, - c(UF,data)) %>%
drop_na()
Vou resumir os valores para que sejam removidas as linhas repetidas e
obtenha-se o total de cada variavel
infopen_3_resumido <- infopen_2_formato_longo %>%
group_by(UF, data, variavel) %>%
mutate(data = gsub("dez", "dec", data))%>% ## precisei usar "dec" para que o programa entendesse que se referia ao mes de dezembro
summarise(presos = sum(quantidade, na.rm = TRUE)) %>%
merge(uf_regiao, by = "UF", all.x = TRUE)
Criar as Variáveis
Que Vou Trabalhar
Após resumir os dados e remover os ‘NAs’, chegou o momento de separar
os dados em colunas que vou utilizar.
infopen_4_final <- infopen_3_resumido %>%
rowwise() %>% ## define o escopo das operacoes seguinte, para serem trabalhadas por linha e nao colunas
filter(!str_detect(variavel, "Não_Informado|Não_informado|Sem informação"))%>% ## remover as variáveis que nao serao necessarias
mutate( ## aqui comeco a definir as colunas que vou usar. Vou extrair as novas colunas da coluna variavel
genero = case_when(
str_detect(variavel, "(Feminino)") ~ "Feminino",
str_detect(variavel, "(Masculino)") ~ "Masculino",
TRUE ~ NA_character_),
variavel = gsub("_Masculino|_Feminino|", "", variavel), ## nesse ponto eu preciso remover a string de genero para evitar conflitos mais a frente no código
etnia = ifelse(grepl("etnia_", variavel),
sub("etnia_", "", variavel), NA),
etnia = if_else(etnia == "Branca", "Branca",
if_else(etnia %in% c("Preta", "Parda"), "Preta ou Parda",
if_else(etnia %in% c("Amarela", "Indigena"), "Amarela ou Indigena"
,NA))),
grau_de_instrucao = ifelse(grepl("grau_de_instrucao_", variavel),
sub("grau_de_instrucao_","", variavel), NA),
remuneracao = ifelse(grepl("remuneracao_",variavel),
sub("remuneracao_","",variavel),NA),
faixa_etaria = ifelse(grepl("faixa_etaria_", variavel),
sub("faixa_etaria_","",variavel),NA))%>%
mutate_at(vars(-presos), as.factor) %>%
ungroup() %>%
select("data","regiao","UF", "genero","etnia",
"grau_de_instrucao", "faixa_etaria", "remuneracao","presos") %>% ## usei select() apenas porque gostaria de vizualiar as colunas nessa ordem
filter(!is.na(genero))
Geração das
Tabelas
Em relação à quantidade de presos, essa é a tabela mais confiável
pois nem todos os presídios têm capacidade de recolher todos os dados.
Logo, com as outras tabelas vou trabalhar apenas a porcentagem de presos
em relacao ao total e extrair daqui o valor correspondente.
Tabela com a
população prisional total
populacao_prisional <-infopen_3_resumido %>%
filter(str_detect(variavel, "População_prisional"))%>%
rowwise() %>%
mutate(
genero = case_when(
str_detect(variavel, "(Feminino)") ~ "Feminino",
str_detect(variavel, "(Masculino)") ~ "Masculino",
TRUE ~ NA_character_)) %>%
select(regiao, UF,data,genero, presos) %>%
drop_na() %>%
ungroup()
populacao_prisional_2_resumido <- populacao_prisional %>%
filter(grepl("^dec", data) | data == "jun 2019") %>% ## após algumas análises decidí usar apenas 1 referência por ano, ao inves de uma média dos valores.
group_by(regiao, UF, data) %>%
mutate(ano = str_replace(data, "\\D*(\\d{4}).*", "\\1")) %>% ## removendo os 4 primerios characteres dos valores na coluna 'ano'
ungroup() %>%
group_by(ano, regiao, UF) %>%
summarise(total_presos = sum(presos)) %>%
ungroup() %>%
select(ano, regiao, UF, total_presos)
Vou deixar apenas mais esse exmplo de código, pois para a criação das
demais tabelas não há muita diferença em relação ao processo dessa. O
que pode mudar são alguns ajustes pontuais, mas nada que mereça
mensão.
infopen_faixa_de_idade <-infopen_4_final %>%
select(regiao,UF,data,genero, faixa_etaria, presos) %>% ## selecionar as colunas
mutate(faixa_etaria = gsub("_", " ", faixa_etaria)) %>% ## remover os "_" para facilitar leitura e exportacao para csv
mutate_at(vars(-presos), as.factor) %>% ## converter todas as colunas para factor - presos
drop_na() ## remover NA
infopen_faixa_de_idade_2_porcentagem <- infopen_faixa_de_idade %>%
filter(grepl("^dec", data) | data == "jun 2019") %>%
group_by(regiao, UF, data) %>%
mutate(ano = str_replace(data, "\\D*(\\d{4}).*", "\\1"),
total_presos_faixa = sum(presos, na.rm = TRUE), # soma total de presos por região, UF, gênero e ano
porcentagem_presos = round(((presos / total_presos_faixa) * 100),2),
UF = as.factor(UF),
ano = as.character(ano)) %>%
ungroup() %>%
select(ano, regiao, UF, genero, faixa_etaria, porcentagem_presos)
infopen_faixa_de_idade_3_final <- infopen_faixa_de_idade_2_porcentagem %>%
left_join(populacao_prisional_2_resumido, by = c("ano", "regiao", "UF")) %>%
mutate(presos = round(((porcentagem_presos / 100) * total_presos), 0)) %>%
select(ano, regiao, UF, genero, faixa_etaria, presos)
infopen_faixa_de_idade_4 <- infopen_faixa_de_idade_3_final %>%
group_by(ano,faixa_etaria) %>%
summarise(presos = sum(presos)) %>%
mutate(ano = as.numeric(ano))
Visualização dos Dados do
INFOPEN
Aqui estão as tabelas do INFOPEN que irei utilizar. Obseve que
combinei várias tabelas, rearanjei as colunas e extraí 5 tabelas
distintas, com dados em painel.
Populacao
prisional
|
regiao
|
UF
|
data
|
genero
|
presos
|
|
Sudeste
|
SP
|
jun 2019
|
Masculino
|
134002
|
|
Sudeste
|
SP
|
dec 2018
|
Masculino
|
129255
|
|
Sudeste
|
SP
|
jun 2018
|
Masculino
|
124912
|
|
Sudeste
|
SP
|
dec 2017
|
Masculino
|
121808
|
|
Sudeste
|
SP
|
jun 2017
|
Masculino
|
120332
|
|
Sudeste
|
SP
|
dec 2016
|
Masculino
|
119372
|
|
Sudeste
|
SP
|
dec 2016
|
Masculino
|
56185
|
|
Sudeste
|
SP
|
jun 2017
|
Masculino
|
54000
|
|
Sudeste
|
SP
|
dec 2017
|
Masculino
|
51915
|
|
Sudeste
|
SP
|
jun 2018
|
Masculino
|
51270
|
Etnia
|
ano
|
regiao
|
UF
|
etnia
|
presos
|
|
2019
|
Sudeste
|
SP
|
preta ou parda
|
136560
|
|
2018
|
Sudeste
|
SP
|
preta ou parda
|
132756
|
|
2016
|
Sudeste
|
SP
|
preta ou parda
|
129392
|
|
2017
|
Sudeste
|
SP
|
preta ou parda
|
128026
|
|
2016
|
Sudeste
|
SP
|
branca
|
100415
|
|
2019
|
Sudeste
|
SP
|
branca
|
96821
|
|
2017
|
Sudeste
|
SP
|
branca
|
95929
|
|
2018
|
Sudeste
|
SP
|
branca
|
94901
|
|
2018
|
Sudeste
|
MG
|
preta ou parda
|
57464
|
|
2019
|
Sudeste
|
MG
|
preta ou parda
|
56521
|
Grau de
instrução
|
ano
|
regiao
|
UF
|
genero
|
grau_de_instrucao
|
presos
|
|
2019
|
Sudeste
|
SP
|
Masculino
|
Ensino Fundamental Incompleto
|
99346
|
|
2017
|
Sudeste
|
SP
|
Masculino
|
Ensino Fundamental Incompleto
|
98797
|
|
2018
|
Sudeste
|
SP
|
Masculino
|
Ensino Fundamental Incompleto
|
97082
|
|
2016
|
Sudeste
|
SP
|
Masculino
|
Ensino Fundamental Incompleto
|
96434
|
|
2019
|
Sudeste
|
SP
|
Masculino
|
Ensino Médio Incompleto
|
47265
|
|
2018
|
Sudeste
|
SP
|
Masculino
|
Ensino Médio Incompleto
|
46693
|
|
2017
|
Sudeste
|
SP
|
Masculino
|
Ensino Médio Incompleto
|
43707
|
|
2016
|
Sudeste
|
SP
|
Masculino
|
Ensino Médio Incompleto
|
42049
|
|
2018
|
Sudeste
|
MG
|
Masculino
|
Ensino Fundamental Incompleto
|
41789
|
|
2019
|
Sudeste
|
MG
|
Masculino
|
Ensino Fundamental Incompleto
|
40967
|
Faixa etária
|
ano
|
faixa_etaria
|
presos
|
|
2016
|
18 a 24 anos
|
214624
|
|
2018
|
18 a 24 anos
|
206467
|
|
2019
|
18 a 24 anos
|
204917
|
|
2017
|
18 a 24 anos
|
202629
|
|
2019
|
25 a 29 anos
|
178737
|
|
2018
|
25 a 29 anos
|
173891
|
|
2016
|
25 a 29 anos
|
169540
|
|
2017
|
25 a 29 anos
|
168851
|
|
2019
|
35 a 45 anos
|
157032
|
|
2018
|
35 a 45 anos
|
145968
|
Faixa de
remuneração
|
ano
|
regiao
|
UF
|
remuneracao
|
presos
|
|
2016
|
Sudeste
|
SP
|
Entre 3/4 e 1 salário mínimo mensal
|
230152
|
|
2019
|
Sudeste
|
SP
|
Menos do que 3/4 do salário mínimo mensal
|
155026
|
|
2018
|
Sudeste
|
SP
|
Menos do que 3/4 do salário mínimo mensal
|
106953
|
|
2018
|
Sudeste
|
SP
|
Não recebe
|
94809
|
|
2017
|
Sudeste
|
RJ
|
Entre 3/4 e 1 salário mínimo mensal
|
51132
|
|
2019
|
Sudeste
|
RJ
|
Não recebe
|
49260
|
|
2019
|
Sudeste
|
SP
|
Entre 3/4 e 1 salário mínimo mensal
|
47639
|
|
2019
|
Sudeste
|
MG
|
Não recebe
|
46006
|
|
2016
|
Sudeste
|
RJ
|
Entre 3/4 e 1 salário mínimo mensal
|
38273
|
|
2016
|
Sudeste
|
MG
|
Não recebe
|
37727
|
Tabela IBGE Grau de
Instrução
A proposta dessa análise é comparar os dados da população carcerária
com os dados do IBGE, e fazer uma correlação entre eles. Os dados que
vou utilizar aqui fazem parte da Pesquina Nacional Por Amostra de
Domicílios Continua (PNADC) e podem ser encontradas na página de
estatísticas do IBGE.
Aqui começo trabalhar a segunda tabela que será usada. Essa tabela
única possui varias folhas que vou extrair e manipular os dados. A
tabela “PNAD_Continua_2018_Educacao.xls”, possui dados referentes à
educação da população. São várias informações, dentre as quais: nível
educacional por região, gereno e etnia. Essa tabela também apresenta
dados em painel.
Amarelos e Indigenas constam no Total
Vou pular a parte de importação da tabela e ir diretamente para o
dataframe.
Visualização da Tabela do PNAD
|
indicador
|
nivel_territorial
|
abertura_territorial
|
variavel_1
|
categoria_1
|
variavel_2
|
categoria_2
|
2016
|
2017
|
2018
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
Total
|
204325.470
|
205999.691
|
207651.621
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
0 a 3 anos
|
10223.229
|
10141.908
|
10171.730
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
4 e 5 anos
|
5262.563
|
5268.945
|
5350.024
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
6 a 9 anos
|
11100.370
|
10962.806
|
10947.352
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
10 a 14 anos
|
15445.672
|
15363.810
|
15023.146
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
15 a 17 anos
|
10617.588
|
10426.076
|
9752.471
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
18 a 24 anos
|
22234.284
|
22727.774
|
22703.814
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
25 a 29 anos
|
15306.030
|
15138.452
|
14890.647
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
30 a 39 anos
|
32134.993
|
32462.937
|
32597.356
|
|
População (mil pessoas)
|
País
|
Brasil
|
Sexo
|
Total
|
Grupos de idade
|
40 a 59 anos
|
52417.780
|
53172.422
|
54100.608
|
Esse dataframe reune dados de todas as abas do arquivo
“PNAD_Continua_2018_Educacao.xls”, ainda há muita manipulação a ser
feita.
Manipulação dos
Dados
Primeiro, vou transpor os dados para que eu possa transformá-los em
formato longo, tal como no modelo anterior, com a tabela do INFOPEN.
pnad_2_formato_longo <- pivot_longer(pnad_br, 8:10,
names_to = "ano",
values_to = "valor",
values_drop_na = TRUE)
Vou multiplicar o valor na coluna ‘valor’ por 1000 se a coluna
‘indicador’ contiver a string ‘(mil pessoas)’ e, em seguida, removê-la.
Depois vou criar uma variável ‘regiao’ para armazenar a região de cada
estado.
pnad_3_com_regioes <- pnad_2_formato_longo %>%
mutate(valor = ifelse(grepl("(mil pessoas)", indicador), valor * 1000, valor),
indicador = gsub("\\s*\\(mil pessoas\\)", "", indicador),
regiao = case_when(abertura_territorial %in% c("Acre", "Amazonas", "Amapá", "Pará", "Rondônia", "Roraima", "Tocantins") ~ "Norte",
abertura_territorial %in% c("Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba", "Pernambuco", "Alagoas", "Sergipe", "Bahia") ~ "Nordeste",
abertura_territorial %in% c("Minas Gerais", "Espírito Santo", "Rio de Janeiro", "São Paulo") ~ "Sudeste",
abertura_territorial %in% c("Paraná", "Santa Catarina", "Rio Grande do Sul") ~ "Sul",
abertura_territorial %in% c("Mato Grosso", "Mato Grosso do Sul", "Goiás", "Distrito Federal") ~ "Centro-Oeste",
TRUE ~ NA_character_))
Usando Método
Aritmético Para Estimar uma População
Vou começar transformando esses dados em formato largo (wide), logo
em seguida aplico a função com a fórmula e por fim volto com a tabela
para formato longo(long).
populacao_18_anos_ou_mais_3 <- pivot_wider(populacao_18_anos_ou_mais_2,
names_from = ano,
values_from = total)
populacao_18_anos_ou_mais_4 <- populacao_18_anos_ou_mais_3 %>%
mutate(
`2019` = round(formula(`2018`,2018,`2016`,2016,2019))
)
populacao_18_anos_ou_mais_5 <- pivot_longer(populacao_18_anos_ou_mais_4, cols = -c(UF,regiao),names_to = "ano",values_to = "populacao") %>%
mutate(across(-populacao, as.factor))
Vou agora combinar essa tabela com a população prisional do
INFOPEN.
|
ano
|
regiao
|
UF
|
presos
|
populacao
|
|
2016
|
Centro-Oeste
|
DF
|
14958
|
2141121
|
|
2016
|
Centro-Oeste
|
GO
|
18626
|
4946837
|
|
2016
|
Centro-Oeste
|
MS
|
18320
|
1915936
|
|
2016
|
Centro-Oeste
|
MT
|
11642
|
2389984
|
|
2016
|
Nordeste
|
AL
|
7111
|
2306187
|
|
2016
|
Nordeste
|
BA
|
13596
|
10517994
|
|
2016
|
Nordeste
|
CE
|
24682
|
6460288
|
|
2016
|
Nordeste
|
MA
|
8187
|
4577042
|
|
2016
|
Nordeste
|
PB
|
12241
|
2838058
|
|
2016
|
Nordeste
|
PE
|
45878
|
6858365
|
Tabela PNAD Dados
Sobre a Educação
Vou repetir basicamente o mesmo processo na tabela com dados sobre a
população. Essa tabela porém, consideda pessoas de 14 anos ou mais de
idade, como pode se notar pelo indicador.
alfabetizacao_populacao <- pnad_3_com_regioes %>%
filter(indicador == "Pessoas de 14 anos ou mais de idade",
nivel_territorial == "Unidade da Federação",
categoria_1 %in% c("Homem", "Mulher","Branca","Preta ou parda","Total¹"),
variavel_2 == "Nível de instrução",
!(categoria_2 %in% c("Total"))) %>%
mutate( ano = as.numeric(ano),
genero = ifelse(categoria_1 == "Homem", "Masculino",
ifelse(categoria_1 == "Mulher", "Feminino", NA)),
UF = uf_dict[as.character(abertura_territorial)]) %>%
select(regiao, UF, genero, grau_de_instrucao = categoria_2, ano, total = valor) %>%
drop_na()
Mesmo Processo para calcular a população no ano de 2019.
alfabetizacao_populacao_2 <- pivot_wider(alfabetizacao_populacao,
names_from = ano,
values_from = total)
alfabetizacao_populacao_3 <- alfabetizacao_populacao_2 %>%
mutate(
`2019` = round(formula(`2018`,2018,`2016`,2016,2019))
)
alfabetizacao_populacao_4 <- pivot_longer(alfabetizacao_populacao_3, cols = -c(regiao:grau_de_instrucao),names_to = "ano",values_to = "populacao") %>%
mutate(across(-populacao, as.factor))
## # A tibble: 6 × 6
## regiao UF genero grau_de_instrucao ano populacao
## <fct> <fct> <fct> <fct> <fct> <dbl>
## 1 Norte RO Masculino Sem instrução 2016 51545
## 2 Norte RO Masculino Sem instrução 2017 45943
## 3 Norte RO Masculino Sem instrução 2018 44963
## 4 Norte RO Masculino Sem instrução 2019 41672
## 5 Norte RO Masculino Fundamental incompleto (ou curso equiv… 2016 265952
## 6 Norte RO Masculino Fundamental incompleto (ou curso equiv… 2017 277958
Como pode se imaginar, as distribuições de grau de instrução não
estão padronizadas, vou usar uma função para criar esse padrão entre a
tabela do PNAD e a do INFOPEN.
padronizar_grau_de_instrucao <- function(grau) {
grau_simplificado <- gsub(" \\(ou curso equivalente\\)", "", grau)
recode(grau_simplificado,
"Sem instrução" = "Analfabeto",
"Fundamental incompleto" = "Ensino Fundamental Incompleto",
"Fundamental completo" = "Ensino Fundamental Completo",
"Médio incompleto" = "Ensino Médio Incompleto",
"Médio completo" = "Ensino Médio Completo",
"Superior incompleto" = "Ensino Superior Incompleto",
"Superior completo" = "Ensino Superior Completo",
"Alfabetizado sem cursos regulares" = "Ensino Fundamental Incompleto")
}
depois de rodar a função nas duas tabelas, eis o resultado:
Tabelas Padronizadas PNADC e
INFOPEN
Alfabetização da
população
|
ano
|
regiao
|
UF
|
genero
|
grau_de_instrucao
|
populacao
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Analfabeto
|
36913
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Completo
|
115600
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Incompleto
|
243841
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Completo
|
361021
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Incompleto
|
79367
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Completo
|
326836
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Incompleto
|
81125
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Analfabeto
|
35713
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Completo
|
112742
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Incompleto
|
222558
|
Alfabetização dos
presos
|
ano
|
regiao
|
UF
|
genero
|
grau_de_instrucao
|
presos
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Analfabeto
|
12
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Completo
|
34
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Incompleto
|
317
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Completo
|
127
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Incompleto
|
118
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Completo
|
10
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Incompleto
|
39
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Analfabeto
|
311
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Completo
|
1496
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Incompleto
|
8489
|
Dados Ausentes na
Tabela INFOPEN
Percebi que após todas as padronizações as tabelas voltaram com
quantidades diferentes de observações. A tabela
infopen_grau_de_instrucao_31_padrao possui 1509 observações, enquanto
alfabetizacao_populacao_5 possui 1512 observações. Resolvi investigar
usando anti_join e descobri que a tabela do infopen não tem as
observações da tabela criada abaixo.
## # A tibble: 3 × 6
## ano regiao UF genero grau_de_instrucao populacao
## <fct> <fct> <fct> <fct> <chr> <dbl>
## 1 2016 Norte RR Feminino Ensino Superior Completo 30467
## 2 2017 Nordeste MA Feminino Ensino Superior Completo 199776
## 3 2016 Nordeste SE Feminino Ensino Superior Completo 101357
Para não deixar esses valores em branco, decidi usar media simples do
número de presos nos outros anos para cada observação ausente, usar essa
média como valor e só então combinar as tabelas do PNADC com
INFOPEN.
Agora a tabela do INFOPEN contém 1512 colunas, tal como a tabela do
PNAD, logo posso combiná-las.
Tabela PNADC -
INFOPEN Grau de Instrução
|
ano
|
regiao
|
UF
|
genero
|
grau_de_instrucao
|
presos
|
populacao
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Analfabeto
|
12
|
36913
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Completo
|
34
|
115600
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Fundamental Incompleto
|
317
|
243841
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Completo
|
127
|
361021
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Médio Incompleto
|
118
|
79367
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Completo
|
10
|
326836
|
|
2016
|
Centro-Oeste
|
DF
|
Feminino
|
Ensino Superior Incompleto
|
39
|
81125
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Analfabeto
|
311
|
35713
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Completo
|
1496
|
112742
|
|
2016
|
Centro-Oeste
|
DF
|
Masculino
|
Ensino Fundamental Incompleto
|
8489
|
222558
|
Tabela IBGE Etnia
Essa Tabela possui a distribuição percentual etnica da população
brasileira por estado. O arquivo a ser trabalhado aqui chama-se “Tabela
1.1 DIST PERCET RACA.xls”, e pode ser encontrado no site do IBGE
Vou pular a parte de leitura dos dados pois não difere em nada das
tabelas anteriores.
|
|
ano
|
UF
|
Total
|
Branca
|
Preta
|
Parda
|
|
1
|
2018
|
RO
|
1747.154
|
29.47056
|
6.710325
|
62.40118
|
|
2
|
2018
|
AC
|
853.023
|
21.02601
|
5.346175
|
72.31678
|
|
3
|
2018
|
AM
|
3921.508
|
16.80872
|
2.989718
|
77.40833
|
|
4
|
2018
|
RR
|
513.466
|
23.69004
|
7.674129
|
60.86162
|
|
5
|
2018
|
PA
|
8472.029
|
17.83819
|
8.171171
|
72.69580
|
|
6
|
2018
|
AP
|
821.545
|
17.42855
|
6.996881
|
74.26081
|
|
7
|
2018
|
TO
|
1542.150
|
21.09303
|
12.447240
|
65.01775
|
|
9
|
2018
|
MA
|
7000.726
|
18.29311
|
11.947581
|
68.54424
|
|
10
|
2018
|
PI
|
3263.754
|
19.79728
|
9.072589
|
70.89077
|
|
11
|
2018
|
CE
|
9072.980
|
28.22352
|
5.288679
|
65.71442
|
Essa tabela possui dados de 2012 a 2018. Vou utilizar a fórmula que
discutimos no começo para estimar a população em 2019.
Vou começar transformando os dados da tabela, pois o numero presente na
coluna total ainda deve ser multiplicado por 1000, e os valores das
etnias estão em porcentagem em relação ao total.
distribuicao_populacao_por_etnia_e_regiao_3 <- distribuicao_populacao_por_etnia_e_regiao_2 %>%
mutate(
Total = round(Total*1000),
Branca = round(Branca*Total/100),
Preta = round(Preta*Total/100),
Parda = round(Parda*Total/100))
Por fim a tabela que iremos utilizar para combinar com a do
INFOPEN
Distribuição Étnica
da População Brasileira
|
ano
|
regiao
|
UF
|
etnia
|
populacao
|
|
2016
|
Norte
|
AC
|
branca
|
149493
|
|
2016
|
Norte
|
AC
|
preta ou parda
|
674372
|
|
2016
|
Nordeste
|
AL
|
branca
|
788828
|
|
2016
|
Nordeste
|
AL
|
preta ou parda
|
2470246
|
|
2016
|
Norte
|
AM
|
branca
|
679764
|
|
2016
|
Norte
|
AM
|
preta ou parda
|
3034052
|
|
2016
|
Norte
|
AP
|
branca
|
162565
|
|
2016
|
Norte
|
AP
|
preta ou parda
|
619211
|
|
2016
|
Nordeste
|
BA
|
branca
|
2608310
|
|
2016
|
Nordeste
|
BA
|
preta ou parda
|
11944048
|
Observações Ausentes
na Tabela do INFOPEN
Após manipulação dos dados dessa tabela do IBGE, vou combiná-la com a
tabela do INFOPEN, para ter como correlacionar o total de presos e a
população para cada variável. Porém, na hora de combinar os dataframes,
descobri que que há observações faltantes na tabela
infopen_etnia_3_final pois ela possui menos linhas que a tabela do PNAD.
Vou usar anti-join para descobrí-los e regressao linear para
calcular-los
São essas as observações ausentes na tabela do INFOPEN
head(diferenca_infopen_populacao_etnia)
## # A tibble: 2 × 4
## # Groups: ano, UF, regiao [1]
## ano regiao UF etnia
## <dbl> <chr> <chr> <chr>
## 1 2019 Nordeste SE branca
## 2 2019 Nordeste SE preta ou parda
Após alguns cálculos, cheguei nesse resultado de previão de presos e
cada observação:
head(previsoes_2019_infopen_etnia)
## # A tibble: 2 × 5
## # Groups: regiao, UF, etnia [2]
## regiao UF etnia presos ano
## <chr> <chr> <chr> <dbl> <dbl>
## 1 Nordeste SE branca 457 2019
## 2 Nordeste SE preta ou parda 5124 2019
Agora basta combinar as tabelas com dados sobre a etnia da população
brasileira total com a população carcerária e então chegaremos nessa
tabela:
Tabela PNADC -
INFOPEN Etnia
|
ano
|
regiao
|
UF
|
etnia
|
presos
|
populacao
|
|
2016
|
Centro-Oeste
|
DF
|
branca
|
2515
|
1113132
|
|
2016
|
Centro-Oeste
|
DF
|
preta ou parda
|
12364
|
1753738
|
|
2016
|
Centro-Oeste
|
GO
|
branca
|
4266
|
2426334
|
|
2016
|
Centro-Oeste
|
GO
|
preta ou parda
|
14288
|
4253442
|
|
2016
|
Centro-Oeste
|
MS
|
branca
|
5560
|
1130769
|
|
2016
|
Centro-Oeste
|
MS
|
preta ou parda
|
12737
|
1452699
|
|
2016
|
Centro-Oeste
|
MT
|
branca
|
2660
|
1076121
|
|
2016
|
Centro-Oeste
|
MT
|
preta ou parda
|
8916
|
2211143
|
|
2016
|
Nordeste
|
AL
|
branca
|
1377
|
788828
|
|
2016
|
Nordeste
|
AL
|
preta ou parda
|
5735
|
2470246
|
Tabela IBGE Faixa
Etária
O arquivo a ser trabalhado aqui chama-se “Tabela 1.2 DIST POP
ETARIA.xls”, e pode ser encontrado no site do IBGE
Essa tabela possui dados sobre a distribuição da faixa etária da
população por etnia. Indígenas, amarelos e pessoas sem declaração de
cor ou raça constam no total.
|
faixa_etaria
|
Total
|
cv_total
|
branca
|
cv_branca
|
Preta_ou_Parda
|
cv_preta_parda
|
proporcao_branca
|
cv_proporcao_branca
|
proporcao_preta_parda
|
cv_proporcao_preta_parda
|
ano
|
|
0 a 4 anos
|
13124.30
|
0.88427169197711608
|
6076.469
|
1.451866
|
6939.813
|
1.155815
|
46.29937
|
1.021138
|
52.87758
|
0.8912887
|
2018
|
|
5 a 9 anos
|
13645.48
|
0.85759498658148692
|
5629.184
|
1.409402
|
7899.687
|
1.121951
|
41.25310
|
1.074214
|
57.89233
|
0.7720677
|
2018
|
|
10 a 14 anos
|
14923.04
|
0.77302798278891072
|
5756.714
|
1.359373
|
9039.822
|
1.043748
|
38.57603
|
1.111292
|
60.57629
|
0.7071651
|
2018
|
|
15 a 19 anos
|
16442.07
|
0.75758111621423652
|
6010.282
|
1.296194
|
10293.966
|
1.031182
|
36.55429
|
1.105113
|
62.60748
|
0.6485969
|
2018
|
|
20 a 24 anos
|
16048.18
|
0.75135656586436339
|
6348.342
|
1.308184
|
9541.958
|
1.019381
|
39.55802
|
1.057401
|
59.45820
|
0.7094211
|
2018
|
|
25 a 29 anos
|
15006.06
|
0.83216738688741987
|
6160.098
|
1.441365
|
8686.275
|
1.068971
|
41.05073
|
1.082387
|
57.88510
|
0.7691143
|
2018
|
|
30 a 34 anos
|
16071.92
|
0.84090771846315848
|
6600.026
|
1.448793
|
9274.408
|
1.043940
|
41.06559
|
1.057334
|
57.70568
|
0.7619637
|
2018
|
|
35 a 39 anos
|
16905.90
|
0.82142719564900768
|
7026.611
|
1.517426
|
9688.656
|
1.026723
|
41.56308
|
1.113020
|
57.30932
|
0.8102016
|
2018
|
|
40 a 44 anos
|
15186.72
|
0.78765297599262696
|
6390.305
|
1.356850
|
8621.957
|
1.049632
|
42.07823
|
1.035301
|
56.77299
|
0.7678529
|
2018
|
|
45 a 49 anos
|
13519.07
|
0.83775955165508598
|
5857.937
|
1.412991
|
7506.854
|
1.127709
|
43.33091
|
1.061985
|
55.52788
|
0.8343097
|
2018
|
Assim como a tabela anterior, essa possui dados apenas de 2012 a
2018, logo vou utilizar a mesma fórmula para prever a população em
2019.
Padronização das
Faixas de Idade
Como é possivel ver logo a baixo, embora agora tenhamos os dados de 2016
a 2019, as faixas etárias não são exatamente iguais às do INFOPEN, mas
são bem proximas.
|
faixa_etaria
|
ano
|
populacao
|
|
25 a 29 anos
|
2018
|
15006064
|
|
25 a 29 anos
|
2017
|
15361348
|
|
25 a 29 anos
|
2016
|
15417271
|
|
25 a 29 anos
|
2019
|
14834679
|
|
30 a 34 anos
|
2018
|
16071915
|
|
30 a 34 anos
|
2017
|
16187827
|
|
30 a 34 anos
|
2016
|
16565123
|
|
30 a 34 anos
|
2019
|
16054589
|
|
35 a 39 anos
|
2018
|
16905898
|
|
35 a 39 anos
|
2017
|
16504662
|
O que vou fazer, é criar uma função que ajusta as faixas etárias para
estarem de acordo com as do INFOPEN
ajusta_faixa_etaria <- function(faixa) {
if (faixa %in% c("25 a 29 anos")) {
return("25 a 29 anos")
} else if (faixa %in% c("30 a 34 anos")) {
return("30 a 34 anos")
} else if (faixa %in% c("35 a 39 anos", "40 a 44 anos")) {
return("35 a 45 anos")
} else if (faixa %in% c("45 a 49 anos", "50 a 54 anos", "55 a 59 anos")) {
return("46 a 60 anos")
} else if (faixa %in% c("60 a 64 anos", "65 a 69 anos")) {
return("61 a 70 anos")
} else if (faixa %in% c("70 a 74 anos", "75 a 79 anos", "80 anos e mais")) {
return("Mais de 70 anos")
} else {
return(NA)
}
}
Aqui dá pra se ter uma visualização da tabela que tenho até então.
|
ano
|
faixa_etaria
|
populacao
|
|
2016
|
25 a 29 anos
|
15417271
|
|
2016
|
30 a 34 anos
|
16565123
|
|
2016
|
35 a 45 anos
|
30697363
|
|
2016
|
46 a 60 anos
|
37633650
|
|
2016
|
61 a 70 anos
|
16444403
|
|
2016
|
Mais de 70 anos
|
12997738
|
|
2017
|
25 a 29 anos
|
15361348
|
|
2017
|
30 a 34 anos
|
16187827
|
|
2017
|
35 a 45 anos
|
31462107
|
|
2017
|
46 a 60 anos
|
37959837
|
Pode-se notar que não tenho a população de 18 a 24 anos. Vou extrair
essa faixa etária de outra tabela do PNAD, que já trabalhamos antes.
populacao_18_a_24_anos <- pnad_4_populacao_idade %>%
filter(grepl("18 a 24 anos", grupo_de_idade),
grepl("Total¹", etnia)) %>%
select(-genero) %>% # vou remover genero para remover duplicados (pois tenho genero e etnia)
rename(faixa_etaria = grupo_de_idade,
populacao = valor)%>%
group_by(ano,faixa_etaria, etnia) %>%
summarise(populacao = sum(populacao)) %>%
select(-etnia) %>% # por fim removo a coluna de etnia que consta apenas 'Total'
drop_na()
Como já demonstrado anteriormente, vou usar aritmérica para prever a
população em 2019.
Distribuição da Faixa
Etária da População Brasileira
Finalmente a tabela com todas as faixas etarias igual a do INFOPEN
|
faixa_etaria
|
ano
|
populacao
|
|
18 a 24 anos
|
2016
|
22234284
|
|
25 a 29 anos
|
2016
|
15417271
|
|
30 a 34 anos
|
2016
|
16565123
|
|
35 a 45 anos
|
2016
|
30697363
|
|
46 a 60 anos
|
2016
|
37633650
|
|
61 a 70 anos
|
2016
|
16444403
|
|
Mais de 70 anos
|
2016
|
12997738
|
|
18 a 24 anos
|
2017
|
22727774
|
|
25 a 29 anos
|
2017
|
15361348
|
|
30 a 34 anos
|
2017
|
16187827
|
Agora resta apenas combinar as tabelas de faixa etária.
populacao_infopen_faixa_etaria <- as.data.frame(left_join(infopen_faixa_de_idade_4,
populacao_faixa_etaria,
by = join_by(ano, faixa_etaria))) %>%
mutate(faixa_etaria = as.factor(faixa_etaria))
Tabela PNADC -
INFOPEN por Faixa etária
|
ano
|
faixa_etaria
|
presos
|
populacao
|
|
2016
|
18 a 24 anos
|
214624
|
22234284
|
|
2016
|
25 a 29 anos
|
169540
|
15417271
|
|
2016
|
30 a 34 anos
|
127187
|
16565123
|
|
2016
|
35 a 45 anos
|
133083
|
30697363
|
|
2016
|
46 a 60 anos
|
49033
|
37633650
|
|
2016
|
61 a 70 anos
|
7527
|
16444403
|
|
2016
|
Mais de 70 anos
|
1376
|
12997738
|
|
2017
|
18 a 24 anos
|
202629
|
22727774
|
|
2017
|
25 a 29 anos
|
168851
|
15361348
|
|
2017
|
30 a 34 anos
|
130889
|
16187827
|
Tabela IBGE
Rendimentos
Explicação dos
Dados
Essa tabela possui a distribuição de rendimentos da população
brasileira. O próprio IBGE divulgou um informativo
sobre a distribuição dos rendimentos da população brasileira entre 2012
e 2019.
Eu vou trabalhar apenas com uma fração dos dados disponíveis nessa
tabela: o rendimento habitualmente recebido, a preços médio e somente
para as pessoas de 14 anos ou mais de idade. De acordo com o IBGE,
rendimento habitual se define da seguinte forma:
” O rendimento habitual consiste no rendimento recebido por
empregados, empregadores e trabalhadores por conta própria, mensalmente,
sem acréscimos extraordinários ou descontos esporádicos. Para o
empregado, o rendimento mensal habitualmente recebido exclui todas as
parcelas que não tenham caráter contínuo (bonificação anual, salário
atrasado, horas extras, participação anual nos lucros, 13o salário, 14o
salário, adiantamento de salário, etc.) e não considera os descontos
ocasionais (faltas, parte do 13o salário antecipado, prejuízo eventual
causado ao empreendimento etc.).
Caso o rendimento recebido de empregado, de trabalhador por conta
própria e de empregador seja variável, considera-se o rendimento
habitual aquele em média recebido pela pessoa no período em que
realizava o trabalho declarado na semana de referência. Quando a
remuneração varia em função do período ou estação do ano, considera-se o
rendimento mensal que a pessoa ganha habitualmente nesse período
sazonal.” fonte: glossário
Exploração de
Dados
Essa tabela é bem simples. Na coluna ‘classe’, temos a classe
percentual de pessoas por rendimento, e nas demais colunas o rendimento
habitual dessa classe de pessoas.
Vou utilizar uma tabela ja presente no relatorio do IBGE para melhor
exemplificar a utilizadade da tabela
Na primeira linha ‘2012’, na coluna ‘Mais de 80% até 90%’, temos o valor
3 351, que representa um rendimento habitual de R$ 3.351,00 mensal. Ou
seja, 90% dos brasileiros recebem até esse valor, apenas 10% recebem
mais que isso.
Manipulando os
Dados
Para que possa ter como padronizar as tabelas de rendimento do PNAD e
do INFOPEN vou precisar de um ajuste de acordo com o salário mínimo.
Para isso vou criar uma tabela com os valores do anos 2016 a 2019.
ano <- c(2019, 2018, 2017, 2016)
salario_minimo <- c(998.00, 954.00, 937.00, 880.00)
salario_minimo_2016_a_2019 <- data.frame(ano, salario_minimo)
Essa tabela considera apenas percentual de pessoas com algum
rendimento. O IBGE considera desempregados pessoas que estão a procura
de trabalho no periodo da amostra. Porém, não considera pessoas sem
rendimentos que não estavam a procura de emprego como desempregadas.
Essa parcela de pessoas sem rendimentos é a que vamos tratar aqui.
Para extrair esses dados, vou utilizar a mesma tabela já usada, que
também possui essas informações. A tabela
‘PNAD_Continua_2019_Rendimento_de_Todas_as_Fontes’, possui como
indicador o “Percentual de pessoas com rendimento”, logo vou extrair
‘100%’ desse valor e obeter o percentual de pessoas sem rendimentos.
percentual_empregados <-rendimentos %>%
filter(`Abertura geográfica` == "Brasil",
Tipo == "Valor",
sub.classe %in% c("Todas as fontes¹" ),
ind == "Percentual de pessoas com rendimento, na população residente") %>%
select(sub.classe, '2016','2017','2018','2019') %>%
unique()
percentual_empregados_2_formato_longo <- pivot_longer(percentual_empregados,
cols = c("2016", "2017", "2018", "2019"),
names_to = "ano",
values_to = "valor")
percentual_sem_rendimentos <- percentual_empregados_2_formato_longo %>%
mutate(sub.classe = (100 - valor),
valor = 0,
remuneracao = "Não recebe",
ano = as.factor(ano))
sem_rendimentos <- left_join(percentual_sem_rendimentos, populacao_total_14_anos_ou_mais, by = join_by(ano)) %>%
mutate(populacao = (sub.classe*populacao)/100,) %>%
group_by(ano, remuneracao) %>%
summarise(populacao = sum(populacao)) %>%
select(ano, remuneracao, populacao)
Antes de combinar as tabelas, preciso ainda padronizar as
variaveis.
# Criando a nova coluna com as categorias
remuneracao_populacao_3 <- remuneracao_populacao_2_salario_minimo %>%
mutate(remuneracao = case_when(
valor >= salario_minimo & valor < 2 * salario_minimo ~ "Entre 1 e 2 salários mínimos mensais",
valor >= 3/4 * salario_minimo & valor < salario_minimo ~ "Entre 3/4 e 1 salário mínimo mensal",
valor >= 2 * salario_minimo ~ "Mais que 2 salários mínimos mensais",
valor > 0 & valor< 3/4 * salario_minimo ~ "Menos do que 3/4 do salário mínimo mensal"
)) %>%
select(classe, ano, porcentagem_populacao, remuneracao)
remuneracao_populacao_4 <-merge(remuneracao_populacao_3,
populacao_total_14_anos_ou_mais, by = "ano") %>%
mutate(populacao_remunerada = (populacao * porcentagem_populacao)/100) %>%
select(ano, remuneracao, populacao_remunerada) %>%
rename(populacao = populacao_remunerada)
remuneracao_populacao_5 <- remuneracao_populacao_4 %>%
group_by(ano, remuneracao) %>%
summarise(populacao = sum(populacao)) %>%
mutate( ano = as.factor(ano))
# Definir a ordem correta de rendimentos
ordem_correta_rendimentos <- c("Não recebe",
"Menos do que 3/4 do salário mínimo mensal",
"Entre 3/4 e 1 salário mínimo mensal",
"Entre 1 e 2 salários mínimos mensais",
"Mais que 2 salários mínimos mensais")
remuneracao_populacao_6 <- rbind(remuneracao_populacao_5, sem_rendimentos)%>%
mutate(remuneracao = as.factor(remuneracao),
remuneracao = factor(remuneracao, levels = ordem_correta_rendimentos))
Por fim uma visão sobre a distribuição de rendimentos no pais:
Tabela PNADC -
INFOPEN Rendimentos
|
ano
|
remuneracao
|
presos
|
populacao
|
|
2016
|
Entre 1 e 2 salários mínimos mensais
|
45996
|
66196247
|
|
2016
|
Entre 3/4 e 1 salário mínimo mensal
|
383948
|
33098124
|
|
2016
|
Mais que 2 salários mínimos mensais
|
16286
|
49647185
|
|
2016
|
Menos do que 3/4 do salário mínimo mensal
|
81645
|
16549062
|
|
2016
|
Não recebe
|
174533
|
64375850
|
|
2017
|
Entre 1 e 2 salários mínimos mensais
|
40861
|
66972793
|
|
2017
|
Entre 3/4 e 1 salário mínimo mensal
|
289068
|
16743198
|
|
2017
|
Mais que 2 salários mínimos mensais
|
2858
|
50229595
|
|
2017
|
Menos do que 3/4 do salário mínimo mensal
|
120993
|
33486397
|
|
2017
|
Não recebe
|
251953
|
65298473
|
Análises e
Correlações.
A Maior parde da proposta do projeto já foi passada. Desse ponto em
diante, foco mais em presentar algumas correlações encontradas nas
tabelas que montamos e apresentamos um pouco acima.
Vou começar criando uma coluna que relaciona a quantidade de presos
ao total da população, e logo após plotar alguns graficos que ilustram a
correlação entre cada variável
dataframe etnia
A variação do percentual de presos pela populacao em relação a etnia,
nos mostra que em praticamente todos os estados há uma incidencia maior
de presos pardos e pretos em relação à população. Isso não indica
causalidade, uma vez que há outros fatores que podem influenciar o
indivíduo a cometer algum crime e acabar atras das grades. Porém é um
fato que precisa ser investigado mais a fundo. Seria ideal se houvesse
uma forma de avaliar mais variáveis como possível racismo por parte do
poder judiciário, ou até mesmo educação e renda, como estamos fazendo
aqui. Nos próximos gráficos, apresento algumas correlações entre essas
variáveis.

dataframe
faixa_etaria
Aqui podemos observar uma diminuicão no índice de presos na faixa
etária de 18 a 24 anos no decorrer do tempo. Isso pode se dar por
diversas razões, dentre elas o envelhecimento da populaçãocarcerária.
Porém, se pegarmos todas as outras faixas-etárias, temos um aumento
considerável no número de presos no que chamamos “idade ativa”, que
compreende a população até 61 anos de idade. É realmente frustrante
perceber que os nossos “Bill Gates”, “Zuckerbergs”, e “Elon Musks” estão
atrás das grades. A população que deveria estar na faculade, está presa,
por inúmeros fatores, dentre os quais a pouca idade, junto com a baixa
escolaridade e a falta de grana. Realmente seria um sonho não ter tantos
jovens presos.

dataframe grau de
instrução
Essa tabela mostra a distribuição de presos por grau de instrução.
Claramente a chave vira no ensino médio incompleto, uma vez que a partir
daí, o percentual de presos sobre a população cai drásticamente. Já não
é mistério algum que uma população com baixa educação normalmente tem
como resposta um grau elevado de violência, pegue países como noruéga,
holanda e japão por exemplo onde há pouquíssimos presos, e compare o
nível de acesso ao Ensino Superior com o do Brasil.

dataframe
rendimentos
Aqui podemos observaer que a maior parte da população carcerária são
pessoas que recebem até 1 salário mínimo mensal. Esse valor entre 3/4 e
1 salário mínimo mensal inclui diversas pessoas que recebem auxílios
governamentais como o “Bolsa Família” ou outros. Elas não podem ser, de
acordo com o IBGE classificadas como sem renda ou desempregadas.
O Departamento Intersindical de Estatpistica e Estudos
Socioeconômicos (Dieese), divulga mensalmente o valor do custo da Cesta
Básica de Alimentos que seria de acordo com o òrgão, “suficiente para o
sustento e bem estar de um trabalhador em idade adulta, contendo
quantidades balanceadas de proteínas, calorias, ferro cálcio e
fósforo.(DIEESE 2019a)”. Em 2019, o valor
médio da cesta-básica nacional era de R$ 422,19, o que representa quase
metade o salário mínimo da época (R$ 998,00).

Salário Mínimo
Necessário
A Constituição do Brasil, de outubro de 1988, estipula que o salário
mínimo deve ser um valor estabelecido em lei e uniforme em todo o país.
Este valor deve ser suficiente para cobrir as necessidades básicas de um
trabalhador e de sua família, incluindo despesas com moradia,
alimentação, educação, saúde, lazer, roupas, higiene, transporte e
previdência social. Além disso, a Constituição prevê que esse salário
mínimo deve ter reajustes periódicos para garantir seu poder de compra
(Art. 7º, IV da Constituição Federal do Brasil).
O DIEESE, ao calcular o Salário Mínimo Necessário, leva em
consideração estas disposições constitucionais. Eles se baseiam no
Decreto Lei nº 399, que determina que os gastos com alimentação de um
trabalhador adulto não devem ser menores que o custo da Cesta Básica de
Alimentos.
Para esses cálculos, o DIEESE considera um modelo de família composto
por 2 adultos e 2 crianças, onde se supõe que o consumo destas crianças
é equivalente ao de um adulto.
O método usado para calcular o gasto alimentar de uma família começa
com o custo da Cesta Básica de Alimentos mais cara entre as 27 capitais
brasileiras. Esse valor é então multiplicado por 3.
O DIEESE(DIEESE 2019b) realizou a
Pesquisa de Orçamento Familiar (POF) em São Paulo no período de 94/95.
Os resultados mostraram que a alimentação correspondia a 35,71% das
despesas das famílias do estrato mais baixo de renda. Ao comparar o
custo da alimentação para uma família (a cesta mais cara multiplicada
por 3) com a proporção do orçamento dessas famílias dedicado à
alimentação (35,71%), é possível deduzir o orçamento total necessário
para cobrir também outras despesas, como moradia, vestuário, transporte
e assim por diante.
Portanto, podemos resumir a fórmula para calcular o Salário Mínimo
Necessário da seguinte forma:
\[C.F.A. = 3(CC)\]
\[\frac{C.F.A.}{X} =
\frac{0,3571}{1,00}\] Usando regra de 3, temos que:
\[C.F.A. = X(0,3571)\] logo:
\[ X = \frac{C.F.A.}{0,3571} \]
Onde: C.F.A. = Custo Familiar de Alimentação e C.C. = Custo da Cesta
Básica de maior valor
O Salário Mínimo Necessário, que é calculado mensalmente como uma
avaliação do que deveria ser o salário mínimo atual, também serve como
uma ferramenta que os sindicatos dos trabalhadores usam para expor a
violação do princípio constitucional que define os parâmetros para a
determinação do menor salário permitido no país.
Temos abaixo o valor do que seria o salário ideal do trabalhador,
previsto em lei, para arcar com todos custos mensais de sua
residência.
|
Mês
|
Salário Minimo
|
Salário Necessário
|
|
Dezembro
|
998
|
4342.57
|
|
Novembro
|
998
|
4021.39
|
|
Outubro
|
998
|
3978.63
|
|
Setembro
|
998
|
3980.82
|
|
Agosto
|
998
|
4044.58
|
|
Julho
|
998
|
4143.55
|
|
Junho
|
998
|
4214.62
|
|
Maio
|
998
|
4259.90
|
|
Abril
|
998
|
4385.75
|
|
Março
|
998
|
4277.04
|
Atravez desses dados, podemos ver a discrepância entre os valores
mínimos e os necessários para a manutenção do lar no Brasil. Não é
recente a queixa por reformas políticas e econômicas no Brasil. Ainda na
década de 1970, o grupo “Legião Urbana” já levantava protesto com a
música “Que país é esse?”. Podemos ver na decada seguinte o cantor
Cazuza protestar em forma de canto a música “Brasil” que claramente já
denunciava a pobreza da nação.
A população carcerária diz muito sobre o país. Jovens, pobres,
pessoas de baixa escolaridade e de pele escura estão nos topos das
estatísticas, isso sinaliza uma omissão por parte do governo. O Código
Penal, em seu artigo 135, descreve o delito de omissão de socorro, que
consiste na atitude de deixar de socorrer pessoas em situação de
vulnerabilidade, como crianças abandonadas ou perdidas, pessoas
inválidas, com ferimentos, ou em situação de risco ou perigo. Por esse
fator, o governo também deveria estar atrás das grades.
