1 Proposta de projeto

O objetivo desse projeto é demonstrar minhas habilidades com R em manipulação e estruturação de dados, bem como uma análise dos dados apresentados. Com isso em vista, vou deixar exposto boa parte dos códigos, mas não todos para que não fique muito repetitivo. Devo ressaltar que embora presente em algumas tabelas, a etnia “amarela ou indígena” não será apresentada no relatório final, uma vez que hpá uma quantidade grande de outliers e que acabam inviesando a análise.

Todos os arquivos utilizados nesse projetos podem ser encontrados no link abaixo.
link para os arquivos

1.1 Método de Análises

No decorrer da análise vou fazer várias previsões de população, pois nem todas as tabelas apresentam dados de 2019. Para previsão da população, vou me basear no método aritmético presente no livro de Marcos Von Sperling (Von Sperling 2014).

Método aritmético

Este método pressupõe uma taxa de crescimento constante para os anos que se seguem, a partir de dados conhecidos, por exemplo, a população do último censo. Matematicamente, pode ser representado da seguinte forma:

\[\frac{dP}{dt} = k_a\] nos quais dP/dt representa a variação da população (P) por unidade de tempo (t), e ka éuma constante. Considerando que P1 é a população do penúltimo censo (ano t1) e P2, a população do último censo (ano t2), tem-se:

\[\int_{P_2}^{P_1} = k_a\int_{t_1}^{t_2}dt\]

Integrando entre os limites definidos, tem-se:

\[P_2-P_1 = k_a(t_2-t_1)\] \[k_a = \frac{P_2-P_1}{t_2-t_1}\]

Utilizando-se a equação, chega-se à expressão geral do método aritmético:

\[P=P_2 + k_n(t-t_2)\]

onde t representa o ano da projeção.

Este método admite que a população varie linearmente com o tempo e pode ser utilizado para a previsão populacional para um período pequeno, de 1 a 5 anos. Para previsão por período muito longo, toma-se acentuada a discrepância com a realidade histórica, uma vez que o crescimento é pressuposto ilimitado.

Para aplicar essa fórmula do método aritmético, vou usar essa função logo a baixo.

formula <- function(P2, t2, P0, t0, t) {
  Ka <- (P2 - P0) / (t2 - t0)
  Pt <- P2 + Ka * (t - t2)
  return(Pt)
}

1.2 Preparação do Ambiente R

Antes de mais nada, vou carregar os pacotes que vou usar para manipular os dados, fazer análises e gerar esse relatório.

knitr::opts_chunk$set(cache= TRUE, warning=FALSE, message=FALSE)
library(foreign)
library(lmtest)
library(readxl)
library(writexl)
library(stringi)
library(stringr)
library(purrr)
library(tidyverse)
library(knitr)
library(markdown)
library(kableExtra)
library(htmltools)
library(rstatix)                                
library(emmeans)

2 O INFOPEN

“O Infopen é um sistema de informações estatísticas do sistema penitenciário brasileiro. O sistema, atualizado pelos gestores dos estabelecimentos desde 2004, sintetiza informações sobre os estabelecimentos penais e a população prisional. Em 2014, o DEPEN reformulou a metodologia utilizada, com vistas a modernizar o instrumento de coleta e ampliar o leque de informações coletadas. O tratamento dos dados permitiu amplo diagnóstico da realidade estudada, mas que não esgotam, de forma alguma, todas as possibilidades de análise.”

2.1 Carregamentos dos Dados Iniciais Passo a Passo

Primeiro vou criar um dicionário de estados que vou usar. Fiz isso afim de padroniazar os nomes dos estados, pois algumas tabelas apresentam os nomes completos, outras apresentam apenas as siglas dos estados.

head(uf_dict, 20)
##                Acre             Alagoas               Amapá            Amazonas 
##                "AC"                "AL"                "AP"                "AM" 
##               Bahia               Ceará    Distrito Federal      Espírito Santo 
##                "BA"                "CE"                "DF"                "ES" 
##               Goiás            Maranhão         Mato Grosso  Mato Grosso do Sul 
##                "GO"                "MA"                "MT"                "MS" 
##        Minas Gerais                Pará             Paraíba              Paraná 
##                "MG"                "PA"                "PB"                "PR" 
##          Pernambuco               Piauí      Rio de Janeiro Rio Grande do Norte 
##                "PE"                "PI"                "RJ"                "RN"

Aqui a lista de colunas que vou estrair das tabelas do INFOPEN. Criei essa lista usando manipulação com Excel.

Fazer um loop nos arquivos das tabelas do INFOPEN e listar os nomes deles

Combinar o diretorio ao nome do arquivo

arquivos_infopen <- str_c("INFOPEN/tabelas excel/",nome_dos_arquivos_infopen)

Dar nome a cada elemento do vetor

names(arquivos_infopen) <- gsub("\\.xlsx$", "", nome_dos_arquivos_infopen)

Aplicar a função read_excel para cada elemento do vetor importando assim todos os arquivos de uma só vez

infopen_br<- map_df(.x = arquivos_infopen, .f = read_excel, .id = "data") %>% 
  select("UF",data, all_of(colunas))

2.2 Reconhecendo a Tabela

As tabelas do INFOPEN apresentam dados em painel, onde cada individo é representado mais de uma vez.

Cada tabela do INFOPEN contém mais de 1300 colunas e aproximadamente 1500 linhas.

jun_2017 <- read_excel("INFOPEN/tabelas excel/jun 2017.xlsx")

Numero de colunas: 1332
Número de linas: 1514

Após analisar cada tabela, decidi filtrar apenas as colunas mais interessantes para a minha analise e o resultado foi uma tabela com 8932 linhas e 328 colunas.

2.3 Começando manipular o dataframe

Após agrupar todas as tabelas e escolher apenas as colunas que vou utiliar, o próximo passo será transformar de formato largo para longo. O Formato longo facilita algumas manipulações,e o formato largo outras. No decorrer dessa análise vou utilizar os dois formatos.

infopen_2_formato_longo <-infopen_br%>% 
  gather(variavel , quantidade, - c(UF,data)) %>% 
  drop_na()

Vou resumir os valores para que sejam removidas as linhas repetidas e obtenha-se o total de cada variavel

infopen_3_resumido <- infopen_2_formato_longo %>%
  group_by(UF, data, variavel) %>%
  mutate(data = gsub("dez", "dec", data))%>% ## precisei usar "dec" para que o programa entendesse que se referia ao mes de dezembro
  summarise(presos = sum(quantidade, na.rm = TRUE)) %>% 
  merge(uf_regiao, by = "UF", all.x = TRUE)

2.4 Criar as Variáveis Que Vou Trabalhar

Após resumir os dados e remover os ‘NAs’, chegou o momento de separar os dados em colunas que vou utilizar.

infopen_4_final <- infopen_3_resumido %>%
  rowwise() %>% ## define o escopo das operacoes seguinte, para serem trabalhadas por linha e nao colunas
  filter(!str_detect(variavel, "Não_Informado|Não_informado|Sem informação"))%>% ## remover as variáveis que nao serao necessarias
  mutate( ## aqui comeco a definir as colunas que vou usar. Vou extrair as novas colunas da coluna variavel
    genero = case_when(
      str_detect(variavel, "(Feminino)") ~ "Feminino",
      str_detect(variavel, "(Masculino)") ~ "Masculino",
      TRUE ~ NA_character_),
    variavel = gsub("_Masculino|_Feminino|", "", variavel), ## nesse ponto eu preciso remover a string de genero para evitar conflitos mais a frente no código
    etnia = ifelse(grepl("etnia_", variavel),
                   sub("etnia_", "", variavel), NA),
    etnia = if_else(etnia == "Branca", "Branca", 
                    if_else(etnia %in% c("Preta", "Parda"), "Preta ou Parda", 
                           if_else(etnia %in% c("Amarela", "Indigena"), "Amarela ou Indigena"
                                   ,NA))),
    grau_de_instrucao = ifelse(grepl("grau_de_instrucao_", variavel),
                               sub("grau_de_instrucao_","", variavel), NA), 
    remuneracao = ifelse(grepl("remuneracao_",variavel),
                         sub("remuneracao_","",variavel),NA),
    faixa_etaria = ifelse(grepl("faixa_etaria_", variavel),
                          sub("faixa_etaria_","",variavel),NA))%>% 
  mutate_at(vars(-presos), as.factor) %>% 
  ungroup() %>% 
  select("data","regiao","UF", "genero","etnia", 
         "grau_de_instrucao", "faixa_etaria", "remuneracao","presos") %>% ## usei select() apenas porque gostaria de vizualiar as colunas nessa ordem
  filter(!is.na(genero))

2.5 Geração das Tabelas

Em relação à quantidade de presos, essa é a tabela mais confiável pois nem todos os presídios têm capacidade de recolher todos os dados. Logo, com as outras tabelas vou trabalhar apenas a porcentagem de presos em relacao ao total e extrair daqui o valor correspondente.

2.5.1 Tabela com a população prisional total

populacao_prisional <-infopen_3_resumido %>%
  filter(str_detect(variavel, "População_prisional"))%>%
  rowwise() %>% 
  mutate(
    genero = case_when(
      str_detect(variavel, "(Feminino)") ~ "Feminino",
      str_detect(variavel, "(Masculino)") ~ "Masculino",
      TRUE ~ NA_character_)) %>% 
  select(regiao, UF,data,genero, presos) %>% 
  drop_na() %>% 
  ungroup()

populacao_prisional_2_resumido <- populacao_prisional %>% 
  filter(grepl("^dec", data) | data == "jun 2019") %>% ## após algumas análises decidí usar apenas 1 referência por ano, ao inves de uma média dos valores. 
  group_by(regiao, UF, data) %>%
  mutate(ano = str_replace(data, "\\D*(\\d{4}).*", "\\1")) %>% ## removendo os 4 primerios characteres dos valores na coluna 'ano'
  ungroup() %>% 
  group_by(ano, regiao, UF) %>% 
  summarise(total_presos = sum(presos)) %>% 
  ungroup() %>% 
  select(ano, regiao, UF, total_presos)

Vou deixar apenas mais esse exmplo de código, pois para a criação das demais tabelas não há muita diferença em relação ao processo dessa. O que pode mudar são alguns ajustes pontuais, mas nada que mereça mensão.

infopen_faixa_de_idade <-infopen_4_final %>% 
  select(regiao,UF,data,genero, faixa_etaria, presos) %>% ## selecionar as colunas
  mutate(faixa_etaria = gsub("_", " ", faixa_etaria)) %>% ## remover os "_" para facilitar leitura e exportacao para csv 
  mutate_at(vars(-presos), as.factor) %>% ## converter todas as colunas para factor - presos
  drop_na() ## remover NA

infopen_faixa_de_idade_2_porcentagem <- infopen_faixa_de_idade %>% 
  filter(grepl("^dec", data) | data == "jun 2019") %>%
  group_by(regiao, UF, data) %>%
  mutate(ano = str_replace(data, "\\D*(\\d{4}).*", "\\1"),
         total_presos_faixa = sum(presos, na.rm = TRUE), # soma total de presos por região, UF, gênero e ano
         porcentagem_presos = round(((presos / total_presos_faixa) * 100),2),
         UF = as.factor(UF),
         ano = as.character(ano)) %>% 
  ungroup() %>% 
  select(ano, regiao, UF, genero, faixa_etaria, porcentagem_presos)

infopen_faixa_de_idade_3_final <- infopen_faixa_de_idade_2_porcentagem %>%
  left_join(populacao_prisional_2_resumido, by = c("ano", "regiao", "UF")) %>%
  mutate(presos = round(((porcentagem_presos / 100) * total_presos), 0)) %>%
  select(ano, regiao, UF, genero, faixa_etaria, presos)

infopen_faixa_de_idade_4 <- infopen_faixa_de_idade_3_final %>% 
  group_by(ano,faixa_etaria) %>% 
  summarise(presos = sum(presos)) %>% 
  mutate(ano = as.numeric(ano))

2.6 Visualização dos Dados do INFOPEN

Aqui estão as tabelas do INFOPEN que irei utilizar. Obseve que combinei várias tabelas, rearanjei as colunas e extraí 5 tabelas distintas, com dados em painel.

2.6.1 Populacao prisional

regiao UF data genero presos
Sudeste SP jun 2019 Masculino 134002
Sudeste SP dec 2018 Masculino 129255
Sudeste SP jun 2018 Masculino 124912
Sudeste SP dec 2017 Masculino 121808
Sudeste SP jun 2017 Masculino 120332
Sudeste SP dec 2016 Masculino 119372
Sudeste SP dec 2016 Masculino 56185
Sudeste SP jun 2017 Masculino 54000
Sudeste SP dec 2017 Masculino 51915
Sudeste SP jun 2018 Masculino 51270

2.6.2 Etnia

ano regiao UF etnia presos
2019 Sudeste SP preta ou parda 136560
2018 Sudeste SP preta ou parda 132756
2016 Sudeste SP preta ou parda 129392
2017 Sudeste SP preta ou parda 128026
2016 Sudeste SP branca 100415
2019 Sudeste SP branca 96821
2017 Sudeste SP branca 95929
2018 Sudeste SP branca 94901
2018 Sudeste MG preta ou parda 57464
2019 Sudeste MG preta ou parda 56521

2.6.3 Grau de instrução

ano regiao UF genero grau_de_instrucao presos
2019 Sudeste SP Masculino Ensino Fundamental Incompleto 99346
2017 Sudeste SP Masculino Ensino Fundamental Incompleto 98797
2018 Sudeste SP Masculino Ensino Fundamental Incompleto 97082
2016 Sudeste SP Masculino Ensino Fundamental Incompleto 96434
2019 Sudeste SP Masculino Ensino Médio Incompleto 47265
2018 Sudeste SP Masculino Ensino Médio Incompleto 46693
2017 Sudeste SP Masculino Ensino Médio Incompleto 43707
2016 Sudeste SP Masculino Ensino Médio Incompleto 42049
2018 Sudeste MG Masculino Ensino Fundamental Incompleto 41789
2019 Sudeste MG Masculino Ensino Fundamental Incompleto 40967

2.6.4 Faixa etária

ano faixa_etaria presos
2016 18 a 24 anos 214624
2018 18 a 24 anos 206467
2019 18 a 24 anos 204917
2017 18 a 24 anos 202629
2019 25 a 29 anos 178737
2018 25 a 29 anos 173891
2016 25 a 29 anos 169540
2017 25 a 29 anos 168851
2019 35 a 45 anos 157032
2018 35 a 45 anos 145968

2.6.5 Faixa de remuneração

ano regiao UF remuneracao presos
2016 Sudeste SP Entre 3/4 e 1 salário mínimo mensal 230152
2019 Sudeste SP Menos do que 3/4 do salário mínimo mensal 155026
2018 Sudeste SP Menos do que 3/4 do salário mínimo mensal 106953
2018 Sudeste SP Não recebe 94809
2017 Sudeste RJ Entre 3/4 e 1 salário mínimo mensal 51132
2019 Sudeste RJ Não recebe 49260
2019 Sudeste SP Entre 3/4 e 1 salário mínimo mensal 47639
2019 Sudeste MG Não recebe 46006
2016 Sudeste RJ Entre 3/4 e 1 salário mínimo mensal 38273
2016 Sudeste MG Não recebe 37727

3 Tabela IBGE Grau de Instrução

A proposta dessa análise é comparar os dados da população carcerária com os dados do IBGE, e fazer uma correlação entre eles. Os dados que vou utilizar aqui fazem parte da Pesquina Nacional Por Amostra de Domicílios Continua (PNADC) e podem ser encontradas na página de estatísticas do IBGE.

Aqui começo trabalhar a segunda tabela que será usada. Essa tabela única possui varias folhas que vou extrair e manipular os dados. A tabela “PNAD_Continua_2018_Educacao.xls”, possui dados referentes à educação da população. São várias informações, dentre as quais: nível educacional por região, gereno e etnia. Essa tabela também apresenta dados em painel.
Amarelos e Indigenas constam no Total

Vou pular a parte de importação da tabela e ir diretamente para o dataframe.

Visualização da Tabela do PNAD
indicador nivel_territorial abertura_territorial variavel_1 categoria_1 variavel_2 categoria_2 2016 2017 2018
População (mil pessoas) País Brasil Sexo Total Grupos de idade Total 204325.470 205999.691 207651.621
População (mil pessoas) País Brasil Sexo Total Grupos de idade 0 a 3 anos 10223.229 10141.908 10171.730
População (mil pessoas) País Brasil Sexo Total Grupos de idade 4 e 5 anos 5262.563 5268.945 5350.024
População (mil pessoas) País Brasil Sexo Total Grupos de idade 6 a 9 anos 11100.370 10962.806 10947.352
População (mil pessoas) País Brasil Sexo Total Grupos de idade 10 a 14 anos 15445.672 15363.810 15023.146
População (mil pessoas) País Brasil Sexo Total Grupos de idade 15 a 17 anos 10617.588 10426.076 9752.471
População (mil pessoas) País Brasil Sexo Total Grupos de idade 18 a 24 anos 22234.284 22727.774 22703.814
População (mil pessoas) País Brasil Sexo Total Grupos de idade 25 a 29 anos 15306.030 15138.452 14890.647
População (mil pessoas) País Brasil Sexo Total Grupos de idade 30 a 39 anos 32134.993 32462.937 32597.356
População (mil pessoas) País Brasil Sexo Total Grupos de idade 40 a 59 anos 52417.780 53172.422 54100.608

Esse dataframe reune dados de todas as abas do arquivo “PNAD_Continua_2018_Educacao.xls”, ainda há muita manipulação a ser feita.

3.1 Manipulação dos Dados

Primeiro, vou transpor os dados para que eu possa transformá-los em formato longo, tal como no modelo anterior, com a tabela do INFOPEN.

pnad_2_formato_longo <- pivot_longer(pnad_br, 8:10, 
                                     names_to = "ano", 
                                     values_to = "valor", 
                                     values_drop_na = TRUE)

Vou multiplicar o valor na coluna ‘valor’ por 1000 se a coluna ‘indicador’ contiver a string ‘(mil pessoas)’ e, em seguida, removê-la. Depois vou criar uma variável ‘regiao’ para armazenar a região de cada estado.

pnad_3_com_regioes <- pnad_2_formato_longo %>%
  mutate(valor = ifelse(grepl("(mil pessoas)", indicador), valor * 1000, valor),
         indicador = gsub("\\s*\\(mil pessoas\\)", "", indicador),
         regiao = case_when(abertura_territorial %in% c("Acre", "Amazonas", "Amapá", "Pará", "Rondônia", "Roraima", "Tocantins") ~ "Norte",
                            abertura_territorial %in% c("Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba", "Pernambuco", "Alagoas", "Sergipe", "Bahia") ~ "Nordeste",
                            abertura_territorial %in% c("Minas Gerais", "Espírito Santo", "Rio de Janeiro", "São Paulo") ~ "Sudeste",
                            abertura_territorial %in% c("Paraná", "Santa Catarina", "Rio Grande do Sul") ~ "Sul",
                            abertura_territorial %in% c("Mato Grosso", "Mato Grosso do Sul", "Goiás", "Distrito Federal") ~ "Centro-Oeste",
                            TRUE ~ NA_character_))

3.1.1 Tabela PNAD População com 18 anos ou mais

Vou combinar essa tabela do IBGE , com a primeira tabela do INFOPEN que diz respeito a população carcerária, podendo assim tambem correlacionar o total de presos com pessoas de 18 anos ou mais, mas de forma resumida.

Aqui podemos ter uma ideia dos dados presentes nessa tabela.

## # A tibble: 6 × 4
## # Groups:   ano, regiao [2]
##   ano   regiao       UF       total
##   <chr> <chr>        <chr>    <dbl>
## 1 2016  Centro-Oeste DF     2141121
## 2 2016  Centro-Oeste GO     4946837
## 3 2016  Centro-Oeste MS     1915936
## 4 2016  Centro-Oeste MT     2389984
## 5 2016  Nordeste     AL     2306187
## 6 2016  Nordeste     BA    10517994

Essa tabela possui dados de 2016 a 2018. O primeiro passo vai ser calcular o total de pessoas para cada variável no ano de 2019, usando o método aritimético descrito no começo dessa análise.

3.2 Usando Método Aritmético Para Estimar uma População

Vou começar transformando esses dados em formato largo (wide), logo em seguida aplico a função com a fórmula e por fim volto com a tabela para formato longo(long).

populacao_18_anos_ou_mais_3 <- pivot_wider(populacao_18_anos_ou_mais_2,
                                            names_from = ano,
                                            values_from = total)

populacao_18_anos_ou_mais_4 <- populacao_18_anos_ou_mais_3 %>% 
 mutate(
    `2019` = round(formula(`2018`,2018,`2016`,2016,2019))
  )
populacao_18_anos_ou_mais_5 <- pivot_longer(populacao_18_anos_ou_mais_4, cols = -c(UF,regiao),names_to = "ano",values_to = "populacao") %>% 
  mutate(across(-populacao, as.factor))

Vou agora combinar essa tabela com a população prisional do INFOPEN.

ano regiao UF presos populacao
2016 Centro-Oeste DF 14958 2141121
2016 Centro-Oeste GO 18626 4946837
2016 Centro-Oeste MS 18320 1915936
2016 Centro-Oeste MT 11642 2389984
2016 Nordeste AL 7111 2306187
2016 Nordeste BA 13596 10517994
2016 Nordeste CE 24682 6460288
2016 Nordeste MA 8187 4577042
2016 Nordeste PB 12241 2838058
2016 Nordeste PE 45878 6858365

3.3 Tabela PNAD Dados Sobre a Educação

Vou repetir basicamente o mesmo processo na tabela com dados sobre a população. Essa tabela porém, consideda pessoas de 14 anos ou mais de idade, como pode se notar pelo indicador.

alfabetizacao_populacao <- pnad_3_com_regioes %>%
  filter(indicador == "Pessoas de 14 anos ou mais de idade",
         nivel_territorial == "Unidade da Federação",
         categoria_1 %in% c("Homem", "Mulher","Branca","Preta ou parda","Total¹"),
         variavel_2 == "Nível de instrução",
         !(categoria_2 %in% c("Total"))) %>%
  mutate( ano = as.numeric(ano),
    genero = ifelse(categoria_1 == "Homem", "Masculino",
                         ifelse(categoria_1 == "Mulher", "Feminino", NA)),
         UF = uf_dict[as.character(abertura_territorial)]) %>%
  select(regiao, UF, genero, grau_de_instrucao = categoria_2, ano, total = valor) %>% 
  drop_na()

Mesmo Processo para calcular a população no ano de 2019.

alfabetizacao_populacao_2 <- pivot_wider(alfabetizacao_populacao,
                                            names_from = ano,
                                            values_from = total)

alfabetizacao_populacao_3 <- alfabetizacao_populacao_2 %>% 
 mutate(
    `2019` = round(formula(`2018`,2018,`2016`,2016,2019))
  )
alfabetizacao_populacao_4 <- pivot_longer(alfabetizacao_populacao_3, cols = -c(regiao:grau_de_instrucao),names_to = "ano",values_to = "populacao") %>% 
  mutate(across(-populacao, as.factor))
## # A tibble: 6 × 6
##   regiao UF    genero    grau_de_instrucao                       ano   populacao
##   <fct>  <fct> <fct>     <fct>                                   <fct>     <dbl>
## 1 Norte  RO    Masculino Sem instrução                           2016      51545
## 2 Norte  RO    Masculino Sem instrução                           2017      45943
## 3 Norte  RO    Masculino Sem instrução                           2018      44963
## 4 Norte  RO    Masculino Sem instrução                           2019      41672
## 5 Norte  RO    Masculino Fundamental incompleto (ou curso equiv… 2016     265952
## 6 Norte  RO    Masculino Fundamental incompleto (ou curso equiv… 2017     277958

Como pode se imaginar, as distribuições de grau de instrução não estão padronizadas, vou usar uma função para criar esse padrão entre a tabela do PNAD e a do INFOPEN.

padronizar_grau_de_instrucao <- function(grau) {
  grau_simplificado <- gsub(" \\(ou curso equivalente\\)", "", grau)
  recode(grau_simplificado,
         "Sem instrução" = "Analfabeto",
         "Fundamental incompleto" = "Ensino Fundamental Incompleto",
         "Fundamental completo" = "Ensino Fundamental Completo",
         "Médio incompleto" = "Ensino Médio Incompleto",
         "Médio completo" = "Ensino Médio Completo",
         "Superior incompleto" = "Ensino Superior Incompleto",
         "Superior completo" = "Ensino Superior Completo",
         "Alfabetizado sem cursos regulares" = "Ensino Fundamental Incompleto")
}

depois de rodar a função nas duas tabelas, eis o resultado:

3.4 Tabelas Padronizadas PNADC e INFOPEN

3.4.1 Alfabetização da população

ano regiao UF genero grau_de_instrucao populacao
2016 Centro-Oeste DF Feminino Analfabeto 36913
2016 Centro-Oeste DF Feminino Ensino Fundamental Completo 115600
2016 Centro-Oeste DF Feminino Ensino Fundamental Incompleto 243841
2016 Centro-Oeste DF Feminino Ensino Médio Completo 361021
2016 Centro-Oeste DF Feminino Ensino Médio Incompleto 79367
2016 Centro-Oeste DF Feminino Ensino Superior Completo 326836
2016 Centro-Oeste DF Feminino Ensino Superior Incompleto 81125
2016 Centro-Oeste DF Masculino Analfabeto 35713
2016 Centro-Oeste DF Masculino Ensino Fundamental Completo 112742
2016 Centro-Oeste DF Masculino Ensino Fundamental Incompleto 222558

3.4.2 Alfabetização dos presos

ano regiao UF genero grau_de_instrucao presos
2016 Centro-Oeste DF Feminino Analfabeto 12
2016 Centro-Oeste DF Feminino Ensino Fundamental Completo 34
2016 Centro-Oeste DF Feminino Ensino Fundamental Incompleto 317
2016 Centro-Oeste DF Feminino Ensino Médio Completo 127
2016 Centro-Oeste DF Feminino Ensino Médio Incompleto 118
2016 Centro-Oeste DF Feminino Ensino Superior Completo 10
2016 Centro-Oeste DF Feminino Ensino Superior Incompleto 39
2016 Centro-Oeste DF Masculino Analfabeto 311
2016 Centro-Oeste DF Masculino Ensino Fundamental Completo 1496
2016 Centro-Oeste DF Masculino Ensino Fundamental Incompleto 8489

3.5 Dados Ausentes na Tabela INFOPEN

Percebi que após todas as padronizações as tabelas voltaram com quantidades diferentes de observações. A tabela infopen_grau_de_instrucao_31_padrao possui 1509 observações, enquanto alfabetizacao_populacao_5 possui 1512 observações. Resolvi investigar usando anti_join e descobri que a tabela do infopen não tem as observações da tabela criada abaixo.

## # A tibble: 3 × 6
##   ano   regiao   UF    genero   grau_de_instrucao        populacao
##   <fct> <fct>    <fct> <fct>    <chr>                        <dbl>
## 1 2016  Norte    RR    Feminino Ensino Superior Completo     30467
## 2 2017  Nordeste MA    Feminino Ensino Superior Completo    199776
## 3 2016  Nordeste SE    Feminino Ensino Superior Completo    101357

Para não deixar esses valores em branco, decidi usar media simples do número de presos nos outros anos para cada observação ausente, usar essa média como valor e só então combinar as tabelas do PNADC com INFOPEN.

Agora a tabela do INFOPEN contém 1512 colunas, tal como a tabela do PNAD, logo posso combiná-las.

3.6 Tabela PNADC - INFOPEN Grau de Instrução

ano regiao UF genero grau_de_instrucao presos populacao
2016 Centro-Oeste DF Feminino Analfabeto 12 36913
2016 Centro-Oeste DF Feminino Ensino Fundamental Completo 34 115600
2016 Centro-Oeste DF Feminino Ensino Fundamental Incompleto 317 243841
2016 Centro-Oeste DF Feminino Ensino Médio Completo 127 361021
2016 Centro-Oeste DF Feminino Ensino Médio Incompleto 118 79367
2016 Centro-Oeste DF Feminino Ensino Superior Completo 10 326836
2016 Centro-Oeste DF Feminino Ensino Superior Incompleto 39 81125
2016 Centro-Oeste DF Masculino Analfabeto 311 35713
2016 Centro-Oeste DF Masculino Ensino Fundamental Completo 1496 112742
2016 Centro-Oeste DF Masculino Ensino Fundamental Incompleto 8489 222558

4 Tabela IBGE Etnia

Essa Tabela possui a distribuição percentual etnica da população brasileira por estado. O arquivo a ser trabalhado aqui chama-se “Tabela 1.1 DIST PERCET RACA.xls”, e pode ser encontrado no site do IBGE

Vou pular a parte de leitura dos dados pois não difere em nada das tabelas anteriores.

ano UF Total Branca Preta Parda
1 2018 RO 1747.154 29.47056 6.710325 62.40118
2 2018 AC 853.023 21.02601 5.346175 72.31678
3 2018 AM 3921.508 16.80872 2.989718 77.40833
4 2018 RR 513.466 23.69004 7.674129 60.86162
5 2018 PA 8472.029 17.83819 8.171171 72.69580
6 2018 AP 821.545 17.42855 6.996881 74.26081
7 2018 TO 1542.150 21.09303 12.447240 65.01775
9 2018 MA 7000.726 18.29311 11.947581 68.54424
10 2018 PI 3263.754 19.79728 9.072589 70.89077
11 2018 CE 9072.980 28.22352 5.288679 65.71442

Essa tabela possui dados de 2012 a 2018. Vou utilizar a fórmula que discutimos no começo para estimar a população em 2019.
Vou começar transformando os dados da tabela, pois o numero presente na coluna total ainda deve ser multiplicado por 1000, e os valores das etnias estão em porcentagem em relação ao total.

distribuicao_populacao_por_etnia_e_regiao_3 <- distribuicao_populacao_por_etnia_e_regiao_2 %>% 
  mutate(
    Total = round(Total*1000),
    Branca = round(Branca*Total/100),
    Preta = round(Preta*Total/100),
    Parda = round(Parda*Total/100))

Por fim a tabela que iremos utilizar para combinar com a do INFOPEN

4.1 Distribuição Étnica da População Brasileira

ano regiao UF etnia populacao
2016 Norte AC branca 149493
2016 Norte AC preta ou parda 674372
2016 Nordeste AL branca 788828
2016 Nordeste AL preta ou parda 2470246
2016 Norte AM branca 679764
2016 Norte AM preta ou parda 3034052
2016 Norte AP branca 162565
2016 Norte AP preta ou parda 619211
2016 Nordeste BA branca 2608310
2016 Nordeste BA preta ou parda 11944048

4.2 Observações Ausentes na Tabela do INFOPEN

Após manipulação dos dados dessa tabela do IBGE, vou combiná-la com a tabela do INFOPEN, para ter como correlacionar o total de presos e a população para cada variável. Porém, na hora de combinar os dataframes, descobri que que há observações faltantes na tabela infopen_etnia_3_final pois ela possui menos linhas que a tabela do PNAD. Vou usar anti-join para descobrí-los e regressao linear para calcular-los

São essas as observações ausentes na tabela do INFOPEN

head(diferenca_infopen_populacao_etnia)
## # A tibble: 2 × 4
## # Groups:   ano, UF, regiao [1]
##     ano regiao   UF    etnia         
##   <dbl> <chr>    <chr> <chr>         
## 1  2019 Nordeste SE    branca        
## 2  2019 Nordeste SE    preta ou parda

Após alguns cálculos, cheguei nesse resultado de previão de presos e cada observação:

head(previsoes_2019_infopen_etnia)
## # A tibble: 2 × 5
## # Groups:   regiao, UF, etnia [2]
##   regiao   UF    etnia          presos   ano
##   <chr>    <chr> <chr>           <dbl> <dbl>
## 1 Nordeste SE    branca            457  2019
## 2 Nordeste SE    preta ou parda   5124  2019

Agora basta combinar as tabelas com dados sobre a etnia da população brasileira total com a população carcerária e então chegaremos nessa tabela:

4.3 Tabela PNADC - INFOPEN Etnia

ano regiao UF etnia presos populacao
2016 Centro-Oeste DF branca 2515 1113132
2016 Centro-Oeste DF preta ou parda 12364 1753738
2016 Centro-Oeste GO branca 4266 2426334
2016 Centro-Oeste GO preta ou parda 14288 4253442
2016 Centro-Oeste MS branca 5560 1130769
2016 Centro-Oeste MS preta ou parda 12737 1452699
2016 Centro-Oeste MT branca 2660 1076121
2016 Centro-Oeste MT preta ou parda 8916 2211143
2016 Nordeste AL branca 1377 788828
2016 Nordeste AL preta ou parda 5735 2470246

5 Tabela IBGE Faixa Etária

O arquivo a ser trabalhado aqui chama-se “Tabela 1.2 DIST POP ETARIA.xls”, e pode ser encontrado no site do IBGE

Essa tabela possui dados sobre a distribuição da faixa etária da população por etnia. Indígenas, amarelos e pessoas sem declaração de cor ou raça constam no total.

faixa_etaria Total cv_total branca cv_branca Preta_ou_Parda cv_preta_parda proporcao_branca cv_proporcao_branca proporcao_preta_parda cv_proporcao_preta_parda ano
0 a 4 anos 13124.30 0.88427169197711608 6076.469 1.451866 6939.813 1.155815 46.29937 1.021138 52.87758 0.8912887 2018
5 a 9 anos 13645.48 0.85759498658148692 5629.184 1.409402 7899.687 1.121951 41.25310 1.074214 57.89233 0.7720677 2018
10 a 14 anos 14923.04 0.77302798278891072 5756.714 1.359373 9039.822 1.043748 38.57603 1.111292 60.57629 0.7071651 2018
15 a 19 anos 16442.07 0.75758111621423652 6010.282 1.296194 10293.966 1.031182 36.55429 1.105113 62.60748 0.6485969 2018
20 a 24 anos 16048.18 0.75135656586436339 6348.342 1.308184 9541.958 1.019381 39.55802 1.057401 59.45820 0.7094211 2018
25 a 29 anos 15006.06 0.83216738688741987 6160.098 1.441365 8686.275 1.068971 41.05073 1.082387 57.88510 0.7691143 2018
30 a 34 anos 16071.92 0.84090771846315848 6600.026 1.448793 9274.408 1.043940 41.06559 1.057334 57.70568 0.7619637 2018
35 a 39 anos 16905.90 0.82142719564900768 7026.611 1.517426 9688.656 1.026723 41.56308 1.113020 57.30932 0.8102016 2018
40 a 44 anos 15186.72 0.78765297599262696 6390.305 1.356850 8621.957 1.049632 42.07823 1.035301 56.77299 0.7678529 2018
45 a 49 anos 13519.07 0.83775955165508598 5857.937 1.412991 7506.854 1.127709 43.33091 1.061985 55.52788 0.8343097 2018

Assim como a tabela anterior, essa possui dados apenas de 2012 a 2018, logo vou utilizar a mesma fórmula para prever a população em 2019.

5.1 Padronização das Faixas de Idade

Como é possivel ver logo a baixo, embora agora tenhamos os dados de 2016 a 2019, as faixas etárias não são exatamente iguais às do INFOPEN, mas são bem proximas.
faixa_etaria ano populacao
25 a 29 anos 2018 15006064
25 a 29 anos 2017 15361348
25 a 29 anos 2016 15417271
25 a 29 anos 2019 14834679
30 a 34 anos 2018 16071915
30 a 34 anos 2017 16187827
30 a 34 anos 2016 16565123
30 a 34 anos 2019 16054589
35 a 39 anos 2018 16905898
35 a 39 anos 2017 16504662

O que vou fazer, é criar uma função que ajusta as faixas etárias para estarem de acordo com as do INFOPEN

ajusta_faixa_etaria <- function(faixa) {
  if (faixa %in% c("25 a 29 anos")) {
    return("25 a 29 anos")
  } else if (faixa %in% c("30 a 34 anos")) {
    return("30 a 34 anos")
  } else if (faixa %in% c("35 a 39 anos", "40 a 44 anos")) {
    return("35 a 45 anos")
  } else if (faixa %in% c("45 a 49 anos", "50 a 54 anos", "55 a 59 anos")) {
    return("46 a 60 anos")
  } else if (faixa %in% c("60 a 64 anos", "65 a 69 anos")) {
    return("61 a 70 anos")
  } else if (faixa %in% c("70 a 74 anos", "75 a 79 anos", "80 anos e mais")) {
    return("Mais de 70 anos")
  } else {
    return(NA)
  }
}
Aqui dá pra se ter uma visualização da tabela que tenho até então.
ano faixa_etaria populacao
2016 25 a 29 anos 15417271
2016 30 a 34 anos 16565123
2016 35 a 45 anos 30697363
2016 46 a 60 anos 37633650
2016 61 a 70 anos 16444403
2016 Mais de 70 anos 12997738
2017 25 a 29 anos 15361348
2017 30 a 34 anos 16187827
2017 35 a 45 anos 31462107
2017 46 a 60 anos 37959837

Pode-se notar que não tenho a população de 18 a 24 anos. Vou extrair essa faixa etária de outra tabela do PNAD, que já trabalhamos antes.

populacao_18_a_24_anos <- pnad_4_populacao_idade %>%
  filter(grepl("18 a 24 anos", grupo_de_idade),
         grepl("Total¹", etnia)) %>% 
  select(-genero) %>% # vou remover genero para remover duplicados (pois tenho genero e etnia)
  rename(faixa_etaria = grupo_de_idade,
         populacao = valor)%>%
  group_by(ano,faixa_etaria, etnia) %>% 
  summarise(populacao = sum(populacao)) %>% 
  select(-etnia) %>% # por fim removo a coluna de etnia que consta apenas 'Total'
  drop_na()

Como já demonstrado anteriormente, vou usar aritmérica para prever a população em 2019.

5.2 Distribuição da Faixa Etária da População Brasileira

Finalmente a tabela com todas as faixas etarias igual a do INFOPEN
faixa_etaria ano populacao
18 a 24 anos 2016 22234284
25 a 29 anos 2016 15417271
30 a 34 anos 2016 16565123
35 a 45 anos 2016 30697363
46 a 60 anos 2016 37633650
61 a 70 anos 2016 16444403
Mais de 70 anos 2016 12997738
18 a 24 anos 2017 22727774
25 a 29 anos 2017 15361348
30 a 34 anos 2017 16187827

Agora resta apenas combinar as tabelas de faixa etária.

populacao_infopen_faixa_etaria <- as.data.frame(left_join(infopen_faixa_de_idade_4,
                                            populacao_faixa_etaria,
                                            by = join_by(ano, faixa_etaria))) %>% 
  mutate(faixa_etaria = as.factor(faixa_etaria))

5.3 Tabela PNADC - INFOPEN por Faixa etária

ano faixa_etaria presos populacao
2016 18 a 24 anos 214624 22234284
2016 25 a 29 anos 169540 15417271
2016 30 a 34 anos 127187 16565123
2016 35 a 45 anos 133083 30697363
2016 46 a 60 anos 49033 37633650
2016 61 a 70 anos 7527 16444403
2016 Mais de 70 anos 1376 12997738
2017 18 a 24 anos 202629 22727774
2017 25 a 29 anos 168851 15361348
2017 30 a 34 anos 130889 16187827

6 Tabela IBGE Rendimentos

6.1 População Total com 14 Anos ou Mais.

Preciso dessa tabela com a populacao geral acima de 14 anos, pois a tabela com rendimentos do IBGE considera apenas essa faixa de idade. A tabela sobre educação, que já usamos considera essa faixa da população.

6.1.1 Tabela Com a População Total com 14 Anos ou Mais.

regiao UF ano populacao
Centro-Oeste DF 2016 2335338
Centro-Oeste DF 2017 2391985
Centro-Oeste DF 2018 2452741
Centro-Oeste DF 2019 2511443
Centro-Oeste GO 2016 5384235
Centro-Oeste GO 2017 5505555
Centro-Oeste GO 2018 5599123
Centro-Oeste GO 2019 5706569
Centro-Oeste MS 2016 2073359
Centro-Oeste MS 2017 2109297

6.2 Explicação dos Dados

Essa tabela possui a distribuição de rendimentos da população brasileira. O próprio IBGE divulgou um informativo sobre a distribuição dos rendimentos da população brasileira entre 2012 e 2019.

Eu vou trabalhar apenas com uma fração dos dados disponíveis nessa tabela: o rendimento habitualmente recebido, a preços médio e somente para as pessoas de 14 anos ou mais de idade. De acordo com o IBGE, rendimento habitual se define da seguinte forma:

” O rendimento habitual consiste no rendimento recebido por empregados, empregadores e trabalhadores por conta própria, mensalmente, sem acréscimos extraordinários ou descontos esporádicos. Para o empregado, o rendimento mensal habitualmente recebido exclui todas as parcelas que não tenham caráter contínuo (bonificação anual, salário atrasado, horas extras, participação anual nos lucros, 13o salário, 14o salário, adiantamento de salário, etc.) e não considera os descontos ocasionais (faltas, parte do 13o salário antecipado, prejuízo eventual causado ao empreendimento etc.).

Caso o rendimento recebido de empregado, de trabalhador por conta própria e de empregador seja variável, considera-se o rendimento habitual aquele em média recebido pela pessoa no período em que realizava o trabalho declarado na semana de referência. Quando a remuneração varia em função do período ou estação do ano, considera-se o rendimento mensal que a pessoa ganha habitualmente nesse período sazonal.” fonte: glossário

6.3 Exploração de Dados

Essa tabela é bem simples. Na coluna ‘classe’, temos a classe percentual de pessoas por rendimento, e nas demais colunas o rendimento habitual dessa classe de pessoas.

Vou utilizar uma tabela ja presente no relatorio do IBGE para melhor exemplificar a utilizadade da tabela

Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Trabalho e Rendimento, Pesquisa Nacional por Amostra de Domicílios Contínua 2012-2019.   Notas:     1. Rendimento habitualmente recebido, a preços médios de 2019.     2. Rendimento captado somente para as pessoas de 14 anos ou mais de idade. Na primeira linha ‘2012’, na coluna ‘Mais de 80% até 90%’, temos o valor 3 351, que representa um rendimento habitual de R$ 3.351,00 mensal. Ou seja, 90% dos brasileiros recebem até esse valor, apenas 10% recebem mais que isso.

6.4 Manipulando os Dados

Para que possa ter como padronizar as tabelas de rendimento do PNAD e do INFOPEN vou precisar de um ajuste de acordo com o salário mínimo. Para isso vou criar uma tabela com os valores do anos 2016 a 2019.

ano <- c(2019, 2018, 2017, 2016)
salario_minimo <- c(998.00, 954.00, 937.00, 880.00)
salario_minimo_2016_a_2019 <- data.frame(ano, salario_minimo)

Essa tabela considera apenas percentual de pessoas com algum rendimento. O IBGE considera desempregados pessoas que estão a procura de trabalho no periodo da amostra. Porém, não considera pessoas sem rendimentos que não estavam a procura de emprego como desempregadas. Essa parcela de pessoas sem rendimentos é a que vamos tratar aqui.

Para extrair esses dados, vou utilizar a mesma tabela já usada, que também possui essas informações. A tabela ‘PNAD_Continua_2019_Rendimento_de_Todas_as_Fontes’, possui como indicador o “Percentual de pessoas com rendimento”, logo vou extrair ‘100%’ desse valor e obeter o percentual de pessoas sem rendimentos.

percentual_empregados <-rendimentos %>% 
  filter(`Abertura geográfica` == "Brasil",
         Tipo == "Valor",
         sub.classe %in% c("Todas as fontes¹"   ),
         ind == "Percentual de pessoas com rendimento, na população residente") %>% 
  select(sub.classe, '2016','2017','2018','2019') %>% 
  unique()

percentual_empregados_2_formato_longo <- pivot_longer(percentual_empregados, 
                                                                   cols = c("2016", "2017", "2018", "2019"), 
                                                                   names_to = "ano", 
                                                                   values_to = "valor")

percentual_sem_rendimentos <- percentual_empregados_2_formato_longo %>% 
  mutate(sub.classe = (100 - valor),
         valor = 0,
         remuneracao = "Não recebe",
         ano = as.factor(ano))

sem_rendimentos <- left_join(percentual_sem_rendimentos, populacao_total_14_anos_ou_mais, by = join_by(ano)) %>% 
  mutate(populacao = (sub.classe*populacao)/100,) %>% 
  group_by(ano, remuneracao) %>% 
  summarise(populacao = sum(populacao)) %>% 
  select(ano, remuneracao, populacao)

Antes de combinar as tabelas, preciso ainda padronizar as variaveis.

# Criando a nova coluna com as categorias
remuneracao_populacao_3 <- remuneracao_populacao_2_salario_minimo %>%
  mutate(remuneracao = case_when(
    valor >= salario_minimo & valor < 2 * salario_minimo ~ "Entre 1 e 2 salários mínimos mensais",
    valor >= 3/4 * salario_minimo & valor < salario_minimo ~ "Entre 3/4 e 1 salário mínimo mensal",
    valor >= 2 * salario_minimo ~ "Mais que 2 salários mínimos mensais",
    valor > 0 & valor< 3/4 * salario_minimo ~ "Menos do que 3/4 do salário mínimo mensal"
  )) %>% 
  select(classe, ano, porcentagem_populacao, remuneracao)


remuneracao_populacao_4 <-merge(remuneracao_populacao_3, 
                                populacao_total_14_anos_ou_mais, by = "ano") %>% 
  mutate(populacao_remunerada = (populacao * porcentagem_populacao)/100) %>% 
  select(ano, remuneracao, populacao_remunerada) %>% 
  rename(populacao = populacao_remunerada)

remuneracao_populacao_5 <- remuneracao_populacao_4 %>% 
  group_by(ano, remuneracao) %>% 
  summarise(populacao = sum(populacao)) %>% 
  mutate( ano = as.factor(ano))
# Definir a ordem correta de rendimentos
ordem_correta_rendimentos <- c("Não recebe",
                               "Menos do que 3/4 do salário mínimo mensal",
                               "Entre 3/4 e 1 salário mínimo mensal", 
                               "Entre 1 e 2 salários mínimos mensais",
                               "Mais que 2 salários mínimos mensais")

remuneracao_populacao_6 <- rbind(remuneracao_populacao_5, sem_rendimentos)%>% 
  mutate(remuneracao = as.factor(remuneracao),
         remuneracao = factor(remuneracao, levels = ordem_correta_rendimentos))

Por fim uma visão sobre a distribuição de rendimentos no pais:

6.5 Distribuição população com e sem rendimentos

ano remuneracao populacao
2016 Não recebe 64375850
2017 Não recebe 65298473
2018 Não recebe 64819488
2019 Não recebe 63997726
2016 Menos do que 3/4 do salário mínimo mensal 16549062
2017 Menos do que 3/4 do salário mínimo mensal 33486397
2018 Menos do que 3/4 do salário mínimo mensal 33848297
2019 Menos do que 3/4 do salário mínimo mensal 34223383
2016 Entre 3/4 e 1 salário mínimo mensal 33098124
2017 Entre 3/4 e 1 salário mínimo mensal 16743198

Antes de combinar os dataframes, observei que a tabela do Infopen não possui dados sobre remuneração dos presos em 2017 para o estado de Sao Paulo. vou usar interpolação linear (Larson 1988) para prever esses dados.

# Subconjunto dos dados para o estado de São Paulo
infopen_sp <- infopen_remuneracao_3_final[infopen_remuneracao_3_final$UF == 'SP', ]

Função para prever os dados ausentes sobre a remuneração de presos em SP em 2017

predict_na <- function(ano, presos) {
  complete_cases <- !is.na(presos)
  approx(x = as.numeric(ano[complete_cases]), 
         y = presos[complete_cases], 
         xout = as.numeric(ano))$y
}

Aplicar a função para cada combinação de gênero e remuneração

infopen_sp <- infopen_sp %>% 
  group_by(remuneracao) %>% 
  mutate(presos = round(predict_na(ano, presos))) %>% 
  ungroup()

Substituir os dados originais para São Paulo com os novos dados preenchidos

infopen_remuneracao_3_final[infopen_remuneracao_3_final$UF == 'SP', ] <- infopen_sp

Finalmente a tabela final a quantidade estimada de presos por remuneração

infopen_remuneracao_4 <- infopen_remuneracao_3_final %>% 
  group_by(ano, remuneracao) %>% 
  mutate(ano = as.factor(ano)) %>% 
  summarise(presos = sum(presos))

Após todas as manipulações, posso finalmente combinar as tabelas.

6.6 Tabela PNADC - INFOPEN Rendimentos

ano remuneracao presos populacao
2016 Entre 1 e 2 salários mínimos mensais 45996 66196247
2016 Entre 3/4 e 1 salário mínimo mensal 383948 33098124
2016 Mais que 2 salários mínimos mensais 16286 49647185
2016 Menos do que 3/4 do salário mínimo mensal 81645 16549062
2016 Não recebe 174533 64375850
2017 Entre 1 e 2 salários mínimos mensais 40861 66972793
2017 Entre 3/4 e 1 salário mínimo mensal 289068 16743198
2017 Mais que 2 salários mínimos mensais 2858 50229595
2017 Menos do que 3/4 do salário mínimo mensal 120993 33486397
2017 Não recebe 251953 65298473

7 Apresentação dos Dados Coletados e Manipulados:

7.1 Tabela PNAD - INFOPEN Total

ano regiao UF presos populacao
2016 Centro-Oeste DF 14958 2141121
2016 Centro-Oeste GO 18626 4946837
2016 Centro-Oeste MS 18320 1915936
2016 Centro-Oeste MT 11642 2389984
2016 Nordeste AL 7111 2306187
2016 Nordeste BA 13596 10517994
2016 Nordeste CE 24682 6460288
2016 Nordeste MA 8187 4577042
2016 Nordeste PB 12241 2838058
2016 Nordeste PE 45878 6858365

7.2 Tabela PNADC - INFOPEN Grau de Instrução

ano regiao UF genero grau_de_instrucao presos populacao
2016 Centro-Oeste DF Feminino Analfabeto 12 36913
2016 Centro-Oeste DF Feminino Ensino Fundamental Completo 34 115600
2016 Centro-Oeste DF Feminino Ensino Fundamental Incompleto 317 243841
2016 Centro-Oeste DF Feminino Ensino Médio Completo 127 361021
2016 Centro-Oeste DF Feminino Ensino Médio Incompleto 118 79367
2016 Centro-Oeste DF Feminino Ensino Superior Completo 10 326836
2016 Centro-Oeste DF Feminino Ensino Superior Incompleto 39 81125
2016 Centro-Oeste DF Masculino Analfabeto 311 35713
2016 Centro-Oeste DF Masculino Ensino Fundamental Completo 1496 112742
2016 Centro-Oeste DF Masculino Ensino Fundamental Incompleto 8489 222558

7.3 Tabela PNADC - INFOPEN Etnia

ano regiao UF etnia presos populacao
2016 Centro-Oeste DF branca 2515 1113132
2016 Centro-Oeste DF preta ou parda 12364 1753738
2016 Centro-Oeste GO branca 4266 2426334
2016 Centro-Oeste GO preta ou parda 14288 4253442
2016 Centro-Oeste MS branca 5560 1130769
2016 Centro-Oeste MS preta ou parda 12737 1452699
2016 Centro-Oeste MT branca 2660 1076121
2016 Centro-Oeste MT preta ou parda 8916 2211143
2016 Nordeste AL branca 1377 788828
2016 Nordeste AL preta ou parda 5735 2470246

7.4 Tabela PNADC - INFOPEN Faixa etária

ano faixa_etaria presos populacao
2016 18 a 24 anos 214624 22234284
2016 25 a 29 anos 169540 15417271
2016 30 a 34 anos 127187 16565123
2016 35 a 45 anos 133083 30697363
2016 46 a 60 anos 49033 37633650
2016 61 a 70 anos 7527 16444403
2016 Mais de 70 anos 1376 12997738
2017 18 a 24 anos 202629 22727774
2017 25 a 29 anos 168851 15361348
2017 30 a 34 anos 130889 16187827

7.5 Tabela PNADC - INFOPEN Rendimentos

ano regiao UF genero grau_de_instrucao presos populacao
2016 Centro-Oeste DF Feminino Analfabeto 12 36913
2016 Centro-Oeste DF Feminino Ensino Fundamental Completo 34 115600
2016 Centro-Oeste DF Feminino Ensino Fundamental Incompleto 317 243841
2016 Centro-Oeste DF Feminino Ensino Médio Completo 127 361021
2016 Centro-Oeste DF Feminino Ensino Médio Incompleto 118 79367
2016 Centro-Oeste DF Feminino Ensino Superior Completo 10 326836
2016 Centro-Oeste DF Feminino Ensino Superior Incompleto 39 81125
2016 Centro-Oeste DF Masculino Analfabeto 311 35713
2016 Centro-Oeste DF Masculino Ensino Fundamental Completo 1496 112742
2016 Centro-Oeste DF Masculino Ensino Fundamental Incompleto 8489 222558

8 Análises e Correlações.

A Maior parde da proposta do projeto já foi passada. Desse ponto em diante, foco mais em presentar algumas correlações encontradas nas tabelas que montamos e apresentamos um pouco acima.

Vou começar criando uma coluna que relaciona a quantidade de presos ao total da população, e logo após plotar alguns graficos que ilustram a correlação entre cada variável

8.1 dataframe etnia

A variação do percentual de presos pela populacao em relação a etnia, nos mostra que em praticamente todos os estados há uma incidencia maior de presos pardos e pretos em relação à população. Isso não indica causalidade, uma vez que há outros fatores que podem influenciar o indivíduo a cometer algum crime e acabar atras das grades. Porém é um fato que precisa ser investigado mais a fundo. Seria ideal se houvesse uma forma de avaliar mais variáveis como possível racismo por parte do poder judiciário, ou até mesmo educação e renda, como estamos fazendo aqui. Nos próximos gráficos, apresento algumas correlações entre essas variáveis.

8.2 dataframe faixa_etaria

Aqui podemos observar uma diminuicão no índice de presos na faixa etária de 18 a 24 anos no decorrer do tempo. Isso pode se dar por diversas razões, dentre elas o envelhecimento da populaçãocarcerária. Porém, se pegarmos todas as outras faixas-etárias, temos um aumento considerável no número de presos no que chamamos “idade ativa”, que compreende a população até 61 anos de idade. É realmente frustrante perceber que os nossos “Bill Gates”, “Zuckerbergs”, e “Elon Musks” estão atrás das grades. A população que deveria estar na faculade, está presa, por inúmeros fatores, dentre os quais a pouca idade, junto com a baixa escolaridade e a falta de grana. Realmente seria um sonho não ter tantos jovens presos.

8.3 dataframe grau de instrução

Essa tabela mostra a distribuição de presos por grau de instrução. Claramente a chave vira no ensino médio incompleto, uma vez que a partir daí, o percentual de presos sobre a população cai drásticamente. Já não é mistério algum que uma população com baixa educação normalmente tem como resposta um grau elevado de violência, pegue países como noruéga, holanda e japão por exemplo onde há pouquíssimos presos, e compare o nível de acesso ao Ensino Superior com o do Brasil.

8.4 dataframe rendimentos

Aqui podemos observaer que a maior parte da população carcerária são pessoas que recebem até 1 salário mínimo mensal. Esse valor entre 3/4 e 1 salário mínimo mensal inclui diversas pessoas que recebem auxílios governamentais como o “Bolsa Família” ou outros. Elas não podem ser, de acordo com o IBGE classificadas como sem renda ou desempregadas.

O Departamento Intersindical de Estatpistica e Estudos Socioeconômicos (Dieese), divulga mensalmente o valor do custo da Cesta Básica de Alimentos que seria de acordo com o òrgão, “suficiente para o sustento e bem estar de um trabalhador em idade adulta, contendo quantidades balanceadas de proteínas, calorias, ferro cálcio e fósforo.(DIEESE 2019a)”. Em 2019, o valor médio da cesta-básica nacional era de R$ 422,19, o que representa quase metade o salário mínimo da época (R$ 998,00).

8.4.1 Salário Mínimo Necessário

A Constituição do Brasil, de outubro de 1988, estipula que o salário mínimo deve ser um valor estabelecido em lei e uniforme em todo o país. Este valor deve ser suficiente para cobrir as necessidades básicas de um trabalhador e de sua família, incluindo despesas com moradia, alimentação, educação, saúde, lazer, roupas, higiene, transporte e previdência social. Além disso, a Constituição prevê que esse salário mínimo deve ter reajustes periódicos para garantir seu poder de compra (Art. 7º, IV da Constituição Federal do Brasil).

O DIEESE, ao calcular o Salário Mínimo Necessário, leva em consideração estas disposições constitucionais. Eles se baseiam no Decreto Lei nº 399, que determina que os gastos com alimentação de um trabalhador adulto não devem ser menores que o custo da Cesta Básica de Alimentos.

Para esses cálculos, o DIEESE considera um modelo de família composto por 2 adultos e 2 crianças, onde se supõe que o consumo destas crianças é equivalente ao de um adulto.

O método usado para calcular o gasto alimentar de uma família começa com o custo da Cesta Básica de Alimentos mais cara entre as 27 capitais brasileiras. Esse valor é então multiplicado por 3.

O DIEESE(DIEESE 2019b) realizou a Pesquisa de Orçamento Familiar (POF) em São Paulo no período de 94/95. Os resultados mostraram que a alimentação correspondia a 35,71% das despesas das famílias do estrato mais baixo de renda. Ao comparar o custo da alimentação para uma família (a cesta mais cara multiplicada por 3) com a proporção do orçamento dessas famílias dedicado à alimentação (35,71%), é possível deduzir o orçamento total necessário para cobrir também outras despesas, como moradia, vestuário, transporte e assim por diante.

Portanto, podemos resumir a fórmula para calcular o Salário Mínimo Necessário da seguinte forma:

\[C.F.A. = 3(CC)\]

\[\frac{C.F.A.}{X} = \frac{0,3571}{1,00}\] Usando regra de 3, temos que:

\[C.F.A. = X(0,3571)\] logo:

\[ X = \frac{C.F.A.}{0,3571} \] Onde: C.F.A. = Custo Familiar de Alimentação e C.C. = Custo da Cesta Básica de maior valor

O Salário Mínimo Necessário, que é calculado mensalmente como uma avaliação do que deveria ser o salário mínimo atual, também serve como uma ferramenta que os sindicatos dos trabalhadores usam para expor a violação do princípio constitucional que define os parâmetros para a determinação do menor salário permitido no país.

Temos abaixo o valor do que seria o salário ideal do trabalhador, previsto em lei, para arcar com todos custos mensais de sua residência.

Mês Salário Minimo Salário Necessário
Dezembro 998 4342.57
Novembro 998 4021.39
Outubro 998 3978.63
Setembro 998 3980.82
Agosto 998 4044.58
Julho 998 4143.55
Junho 998 4214.62
Maio 998 4259.90
Abril 998 4385.75
Março 998 4277.04

Atravez desses dados, podemos ver a discrepância entre os valores mínimos e os necessários para a manutenção do lar no Brasil. Não é recente a queixa por reformas políticas e econômicas no Brasil. Ainda na década de 1970, o grupo “Legião Urbana” já levantava protesto com a música “Que país é esse?”. Podemos ver na decada seguinte o cantor Cazuza protestar em forma de canto a música “Brasil” que claramente já denunciava a pobreza da nação.

A população carcerária diz muito sobre o país. Jovens, pobres, pessoas de baixa escolaridade e de pele escura estão nos topos das estatísticas, isso sinaliza uma omissão por parte do governo. O Código Penal, em seu artigo 135, descreve o delito de omissão de socorro, que consiste na atitude de deixar de socorrer pessoas em situação de vulnerabilidade, como crianças abandonadas ou perdidas, pessoas inválidas, com ferimentos, ou em situação de risco ou perigo. Por esse fator, o governo também deveria estar atrás das grades.

Biografia

DIEESE. 2019a. “Metodologia Da Cesta Básica de Alimentos.” https://www.dieese.org.br/metodologia/metodologiaCestaBasica/?page=1.
———. 2019b. “Pesquisa Nacional Da Cesta Básica de Alimentos.” https://www.dieese.org.br/analisecestabasica/salarioMinimo.html#2019.
Larson, David R. 1988. “Reflexivity, Algebraic Reflexivity and Linear Interpolation.” American Journal of Mathematics 110 (2): 283–99.
Von Sperling, M. 2014. Princípios Do Tratamento Biológico de Águas Residuárias. Vol. 1. Introdução à Qualidade Das Águas e Ao Tratamento de Esgotos. 4th ed. Editora UFMG.
