1 CONHECENDO OS DADOS

1.1 Dataset do projeto


1.1.1 PNADC - 2021

Pesquisa Nacional por Amostra em Domicílio Contínua

Realizada pelo IBGE, a PNAD Contínua É uma pesquisa por amostra probabilística de domicílios, de abrangência nacional, planejada para atender a diversos propósitos. Visa produzir informações básicas para o estudo do desenvolvimento socioeconômico do País e permitir a investigação contínua de indicadores sobre trabalho e rendimento. A PNAD Contínua segue um esquema de rotação de domicílios. Isso significa que cada domicílio selecionado será entrevistado cinco vezes, uma vez a cada trimestre, durante cinco trimestres consecutivos.

Com o objetivo de verificar a situação da pobreza e desigualdade do estado do Ceará e compara-lo com o do estado de São Paulo, faremos um apanhado de calculos de indicadores para melhor entedermos a situação em que eles se encontram e até onde cada estado se diferencia.

Junto a isso, faremos tambem os mesmos calculos para a area metropolitana de Fortaleza, a fim de compara-la com o resto do estado.


1.1.2 Variáveis utilizadas

Rendimento (efetivo) domiciliar: VD5001

(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento (efetivo) domiciliar per capita: VD5002

(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Faixa de rendimento (efetivo) domiciliar per capita: VD5003

(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento (efetivo) domiciliar: VD5004

(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento (efetivo) domiciliar per capita: VD5005

(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Faixa de rendimento (efetivo) domiciliar per capita: VD5006

(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento domiciliar: VD5007

(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento domiciliar per capita: VD5008

(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Faixa de rendimento domiciliar per capita: VD5009

(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento domiciliar: VD5010

(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento domiciliar per capita: VD5011

(habitual de todos os trabalhos e efetivo de outras fontes) (inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Faixa de rendimento domiciliar per capita: VD5012

(habitual de todos os trabalhos e efetivo de outras fontes) (inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

Rendimento (efetivo) domiciliar per capita: VD5005

(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)

1.2 Importando a base de dados

1.2.1 Pacotes a serem utilizados:

Pacote Explicação
sn Funções para distribuições assimétricas e robustas
car Ferramentas para análise de regressão
dplyr Manipulação eficiente de dados
readxl Leitura de arquivos Excel
ggplot2 Criação de gráficos baseados na gramática dos gráficos
janitor Funções para limpeza e formatação de dados
tidyr Transformação de dados em formato tidy
convey Cálculo e visualização de medidas de desigualdade e pobreza
fImport Importação de dados financeiros de várias fontes
tidytext Manipulação de texto estruturado em análise de dados
stringr Manipulação de strings com expressões regulares
PNADcIBGE Download e leitura dos microdados da PNAD Contínua
flextable Criação e formatação de tabelas flexíveis
survey Análise de dados amostrais complexos
ineq Medidas de desigualdade econômica

1.2.2 Obtendo dados

O pacote PNADcIBGE foi desenvolvido pela equipe do IBGE para facilitar o acesso e a análise dos microdados da PNADC no R. Esse pacote permite baixar, ler e manipular os dados da PNADC de forma simples e rápida, usando funções específicas para cada etapa.

Os arquivos com os microdados da PNADC e com o input para o SAS são disponibilizados pelo IBGE no endereço: ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_continua Você pode escolher o ano, o trimestre e as variáveis de interesse para baixar os arquivos. Por exemplo, para baixar os dados do 3º trimestre de 2021, você pode usar o comando:

get_pnadc(year = 2021, quarter = 3)

Esse comando vai baixar os arquivos “PNADC_032021.zip” e “Dicionario_e_input.zip” na sua pasta de trabalho do R. Você pode descompactar esses arquivos manualmente ou usar o argumento unzip = TRUE no comando get_pnadc.

Depois de baixar e descompactar os arquivos, você pode ler os dados da PNADC usando o comando:

read_pnadc(
  microdata = "PNADC_032021.txt",
  input_txt = "Input_PNADC_trimestral.txt"
  )

Esse comando vai criar um objeto do tipo svyrep.design, que é útil para análises de dados amostrais complexos. Você pode especificar as variáveis que quer ler usando o argumento vars. Por exemplo, para ler apenas as variáveis “VD4020” (rendimento mensal) e “V2007” (sexo), você pode usar o comando:

read_pnadc(
  microdata = "PNADC_032021.txt",
  input_txt = "Input_PNADC_trimestral.txt",
  vars = c("VD4020", "V2007")
  )

Com esses comandos, você já consegue pegar a tabela da PNADC em R e fazer as análises que quiser. Você pode consultar a documentação do pacote PNADcIBGE para saber mais sobre as funções e os argumentos disponíveis.

Contudo, para facilitar a coleta, utilizarei apenas os dados apresentados no estoa da disciplina:

# Lendo base de dados 
df <- haven::read_dta("G:/Meu Drive/trabalho_RendaPobreza/tabelas/visita5_chefes.dta")
knitr::kable(head(df)[,c(1,2,3,4,5,6,7,8)])   
Ano Trimestr UF Capital RM_RIDE UPA Estrato V1008
2021 2 11 11 NA 1.1e+08 1110011 2
2021 2 11 11 NA 1.1e+08 1110011 3
2021 2 11 11 NA 1.1e+08 1110011 4
2021 2 11 11 NA 1.1e+08 1110011 5
2021 2 11 11 NA 1.1e+08 1110011 6
2021 2 11 11 NA 1.1e+08 1110011 7

Indicadores de Pobreza

Modos de calcular a linha de probreza:

Existem diferentes maneiras de calcular a linha de pobreza no Brasil, dependendo dos critérios e das fontes utilizadas. Algumas das maneiras mais comuns são:

A linha de pobreza internacional (Banco Mundial)

A linha de pobreza internacional definida pelo Banco Mundial (BM) considera pobres as pessoas que vivem com menos de US$ 1,90 por dia (cerca de R$ 10,81 em 2020) e extremamente pobres as que vivem com menos de US$ 1,25 por dia (cerca de R$ 7,13 em 2020). Essa linha é baseada no índice de pobreza extrema de cada país e na paridade do poder de compra.

Para o Cálculo, a forma disponibilizada pelo Banco Mundial é: \[LPI=\frac{\sum_{i=1}^nw_i\cdot P_i}{\sum_{i=1}^nw_i}\] onde:

  • \(LPI\) é a linha de pobreza internacional, expressa em dólares por dia;

  • \(n\) é o número de países considerados na amostra (atualmente são 15 países de renda baixa);

  • \(w_i\) é o peso de cada país na amostra, baseado na população;

  • \(P_i\) é o limiar de pobreza nacional de cada país, convertido em dólares pela paridade do poder de compra (PPC).

Essa fórmula significa que a linha de pobreza internacional é a média ponderada dos limiares de pobreza nacionais dos países mais pobres do mundo. Esses limiares são os valores mínimos necessários para que uma pessoa possa satisfazer suas necessidades básicas de alimentação, moradia, saúde, educação, etc.

A linha de pobreza internacional atual é de US$ 1,90 por dia, conforme revisada em 2015 pelo Banco Mundial. Essa linha é usada para medir a extrema pobreza no mundo e acompanhar o progresso dos Objetivos de Desenvolvimento Sustentável (ODS) das Nações Unidas.


Linha de pobreza nacional (IBGE)

definida pelo Instituto Brasileiro de Geografia e Estatística (IBGE), que considera pobres as pessoas que vivem com menos de R$ 406 por mês (cerca de R$ 13,53 por dia) e extremamente pobres as que vivem com menos de R$ 100 por mês (cerca de R$ 3,33 por dia) em 2019. Essa linha é baseada na renda domiciliar per capita e nos custos de elementos básicos como moradia, roupas e alimentos.

uma forma comum de calcular a linha de pobreza nacional é baseada na renda necessária para adquirir uma cesta básica de alimentos que atenda às necessidades nutricionais mínimas da população. Essa forma é chamada de método da linha de pobreza absoluta ou método da cesta básica.

A fórmula para esse método é a seguinte:

\[LPN = CBA\cdot K\] onde:

  • \(LPN\) é a linha de pobreza nacional, expressa em reais por mês;
  • \(CBA\) é o custo da cesta básica de alimentos, expresso em reais por mês;
  • \(K\) é um fator de multiplicação que leva em conta as despesas não alimentares das famílias pobres.

O custo da cesta básica de alimentos pode ser estimado usando os dados do IBGE sobre os preços e as quantidades dos produtos alimentícios consumidos pela população. O fator K pode ser obtido usando os dados da Pesquisa de Orçamentos Familiares (POF) sobre a participação das despesas alimentares e não alimentares no total das despesas das famílias pobres.


Índice de Foster, Greer e Thorbecke (FGT)

O índice de Foster, Greer e Thorbecke (FGT) é uma classe de medidas de pobreza que mostra diferentes aspectos do fenômeno, como a proporção, a intensidade e a severidade da pobreza. A fórmula geral do índice é:

\[\phi(\alpha) = \frac{1}{n} \sum_{i=1}^{q} \left(\frac{z - y_i}{z}\right)^\alpha\] Onde:

  • \(n\) é o tamanho da população analisada
  • \(q\) é o número de famílias abaixo da linha de pobreza
  • \(z\) é a linha de pobreza
  • \(y_i\) é a renda familiar per capita da i-ésima família
  • \(α\) é um parâmetro que varia de acordo com o nível de análise desejado

Quando α=0, o índice mede a proporção dos pobres (P0), que é o tamanho do número de pobres em relação à população total.

Quando α=1, o índice mede o hiato da pobreza (P1), que é a intensidade da pobreza como um déficit de renda.

Quando α=2, o índice mede a severidade da pobreza (P2), que mostra o quão desigual é a distribuição de renda entre os mais pobres da população, dando uma maior relevância a esses últimos.


Índice de Sen

índice de Sen é uma medida de pobreza que leva em conta a distribuição de renda entre os pobres e a privação de capacidades básicas. A fórmula geral do índice é:

\[S=H\cdot [1-G+(1-G)\cdot A]\] Onde:

  • \(H\) é a proporção de pobres na população;
  • \(G\) é o índice de Gini da distribuição de renda entre os pobres;
  • \(A\) é a média das privações de capacidades básicas entre os pobres.

Para calcular o índice utilizando os dados da PNADC, no R, devemos utilizar alguns pacotes facilitadores como:

  • survey: um pacote que permite realizar análises estatísticas com dados de pesquisas amostrais complexas, como a PNAD Contínua.

  • convey: um pacote que permite estimar medidas de pobreza e desigualdade com dados de pesquisas amostrais complexas, como o índice de Sen.


Método calórico direto (food energy intake method)

O método calórico direto (food energy intake method), mede a renda total (ou despesas totais, ou consumo total) das famílias que conseguem alcançar o consumo calórico definido como mínimo. Esse método leva em conta as necessidades nutricionais das pessoas e a disponibilidade de alimentos.

Sim, existe uma fórmula para o cálculo da linha de pobreza pelo método calórico direto. Esse método mede a renda total (ou despesas totais, ou consumo total) das famílias que conseguem alcançar o consumo calórico definido como mínimo. Essa é a linha de pobreza.

A fórmula para esse método é a seguinte: \[LPC=C \cdot P\]

Onde:

  • \(LPC\) é a linha de pobreza pelo consumo calórico, expressa em reais por mês;
  • \(C\) é o consumo calórico mínimo, expresso em quilocalorias por dia;
  • \(P\) é o preço médio de uma quilocaloria, expresso em reais por quilocaloria.

O consumo calórico mínimo pode ser definido com base nas recomendações nutricionais para diferentes grupos etários, sexos e níveis de atividade física. O preço médio de uma quilocaloria pode ser estimado usando os dados do IBGE sobre os preços e as quantidades dos produtos alimentícios consumidos pela população.

Cada uma dessas maneiras tem vantagens e desvantagens, e pode refletir diferentes aspectos da pobreza no Brasil. Por isso, é importante analisar os dados com cuidado e considerar outras dimensões da pobreza além da renda, como educação, saúde, saneamento, acesso a serviços públicos, etc.

Indicadores de Desigualdade

Apresentandos os indicadores e seus modos de calculo:

Indicadores de desigualdade são medidas que mostram a diferença entre as condições de vida de diferentes grupos sociais, geralmente relacionadas à renda, à riqueza, à educação, à saúde, ao gênero, à raça, entre outros aspectos. Alguns dos indicadores de desigualdade mais utilizados são:

O coeficiente de Gini

Mede a concentração de renda em uma sociedade. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade. O coeficiente de Gini do Brasil em 2020 foi de 0,5431, um dos mais altos do mundo.

Existe uma fórmula para o cálculo do coeficiente de Gini utilizando os dados da PNADC (Pesquisa Nacional por Amostra de Domicílios Contínua). Essa fórmula é baseada na curva de Lorenz, que representa a relação entre a renda acumulada e a população acumulada em ordem crescente de renda.

A fórmula para o cálculo do coeficiente de Gini é a seguinte:

\[G= \frac{\sum^n_{i=1}(2i-n-1)}{n^2 \bar{x}}\] Onde:

  • \(G\) é o coeficiente de Gini;
  • \(n\) é o número de domicílios da amostra;
  • \(x_i\) é a renda domiciliar per capita do i-ésimo domicílio;
  • \(\bar{x}\) é a renda domiciliar per capita média da amostra.

Essa fórmula significa que o coeficiente de Gini é igual à soma dos produtos entre a posição relativa de cada domicílio na distribuição de renda e sua renda domiciliar per capita, dividida pelo quadrado do número de domicílios e pela renda domiciliar per capita média.

Para aplicar essa fórmula, é preciso ter os dados da PNADC sobre a renda domiciliar per capita de cada domicílio da amostra.


O índice de Theil

Também mede a concentração de renda em uma sociedade. Ele varia de 0 a infinito, sendo que quanto maior o valor, maior é a desigualdade. O índice de Theil do Brasil em 2020 foi de 0,5491.

A fórmula do indicador é baseada na entropia da distribuição de renda, que mede o grau de desordem ou imprevisibilidade econômica.

A fórmula para o cálculo do índice de Theil é a seguinte:

\[T= \frac{\sum^n_{i=1}y_ilog(\frac{y_i}{\hat{y}})}{n}\]

Essa fórmula significa que o índice de Theil é igual à média ponderada do logaritmo da razão entre a renda domiciliar per capita de cada domicílio e a renda domiciliar per capita média da amostra. Essa razão mede o grau de desvio da igualdade perfeita, em que todos os domicílios teriam a mesma renda. O logaritmo transforma essa razão em uma medida de entropia, que varia de 0 a infinito. Quanto maior o valor do índice de Theil, maior é a desigualdade de renda.


O índice de Palma

Mede a relação entre a renda dos 10% mais ricos e dos 40% mais pobres em uma sociedade. Ele varia de 0 a infinito, sendo que quanto maior o valor, maior é a desigualdade. O índice de Palma do Brasil em 2020 foi de 3,51.

A formula:

\[P=\frac{R_{10}}{R_{40}}\] Onde:

\(P\) é o índice de Palma; \(R_{10}\) é a participação dos 10% mais ricos na renda total; \(R_{40}\) é a participação dos 40% mais pobres na renda total.

O índice de Palma também pode ser expresso em uma escala percentual, multiplicando-se o resultado por 100.


O índice de pobreza multidimensional (IPM)

Mede o nível de privação das pessoas em relação a dez indicadores: nutrição, mortalidade infantil, anos de escolaridade, frequência escolar, acesso à eletricidade, saneamento, água potável, combustível para cozinhar, moradia e bens duráveis. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a pobreza multidimensional. O IPM do Brasil em 2019 foi de 0,0173, um dos mais baixos do mundo.

Para calcular o IPM, é preciso definir quais são as dimensões e os indicadores relevantes para cada país ou região, e quais são os critérios de privação para cada indicador. Por exemplo, uma pessoa pode ser considerada privada em saúde se tiver uma expectativa de vida baixa ou se tiver algum problema de saúde crônico. Uma pessoa pode ser considerada privada em educação se não tiver completado um determinado nível de escolaridade ou se não souber ler e escrever. Uma pessoa pode ser considerada privada em padrão de vida se não tiver acesso a serviços básicos como água, saneamento, eletricidade ou moradia adequada.


O índice global da disparidade entre os gêneros (IGDG)

Mede o nível de igualdade entre homens e mulheres em uma sociedade, considerando quatro dimensões: participação econômica e oportunidades; acesso à educação; saúde e sobrevivência; e empoderamento político. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a igualdade entre os gêneros. O IGDG do Brasil em 2021 foi de 0,6944, um dos mais baixos da América Latina.

Não existe uma fórmula para o cálculo do índice global da disparidade entre os gêneros (IGDG) utilizando os dados da PNADC. Esse índice é uma medida de desigualdade de gênero que compara a situação de homens e mulheres em quatro dimensões: participação e oportunidade econômica, educação, capacitação política e saúde e sobrevivência.

O IGDG é calculado pelo Fórum Econômico Mundial (FEM) desde 2006, usando dados de fontes internacionais como a Organização das Nações Unidas (ONU), a Organização Internacional do Trabalho (OIT), a Organização Mundial da Saúde (OMS) e a Organização das Nações Unidas para a Educação, a Ciência e a Cultura (UNESCO). A PNADC não fornece os dados necessários para o cálculo do IGDG, pois não abrange todas as dimensões e indicadores considerados pelo FEM.

A fórmula para o cálculo do IGDG é a seguinte:

\[IGDG= \frac{1}{4} \left( \frac{IGDG_E + IGDG_S}{2} + IGDG_P + IGDG_C \right) \]

Onde:

  • IGDG é o índice global da disparidade entre os gêneros;

  • IGDG_E é o índice de disparidade entre os gêneros na educação, medido pela taxa de alfabetização e pela taxa de matrícula nos níveis primário, secundário e terciário;

  • IGDG_S é o índice de disparidade entre os gêneros na saúde e sobrevivência, medido pela razão entre os sexos ao nascer e pela expectativa de vida ajustada pela mortalidade excessiva;

  • IGDG_P é o índice de disparidade entre os gêneros na participação e oportunidade econômica, medido pela taxa de participação na força de trabalho, pela razão salarial estimada e pela proporção de trabalhadores em cargos gerenciais, profissionais e técnicos;

  • IGDG_C é o índice de disparidade entre os gêneros na capacitação política, medido pela proporção de mulheres no parlamento, em cargos ministeriais e em chefias de estado ou governo.

Essa fórmula significa que o IGDG é a média aritmética dos quatro índices parciais, que variam de 0 a 1. Quanto mais próximo de 1, menor é a disparidade entre os gêneros. O IGDG também pode ser expresso em uma escala percentual, multiplicando-se o resultado por 100.

2 ANÁLISE DE POBREZA

Nesta análise, iremos observar a situação do Estado do Ceará colocando-o em contraste com a perspectiva Nacional, ou seja, compararemos os dados tanto do Estado quanto do Brasil a fim de obter uma perspectiva mais clara da situação de renda da região.

Inicialmente irei filtrar a base de dados para abarcar apenas as informações referentes ao estado do Ceará.

# pegando apenas as linhas que se referem ao estado do Ceara
df_c <- df[df$UF == 13,]

2.1 Refletindo sobre variáveis descritivas

Antes de realizar o calculo dos índices, faz-se necessária uma primeira análise que mostre qual é o contexto em que o Etado está. Para isso, dando o foco na renda, irei realizar o cálculo, tando dos quintils, quanto dos decils da amostra das rendas da região a fim de obter uma primeira visão na distribuição de renda da população.

2.1.2 Calculando os Percentils da variável de renda

Quintils

# Função que calcula uma tabela de percentils de autoria propria

# os argumentos da funcao sao: 
# - base de dados;
# - Variavel a ser calculada;
# - quantidade de percentils;
# - digitos de arredondamento.


# calculando os quintils 
knitr::kable(
  percentils(base = df_c,variavel = "VD5005", numero_de_percentils = 5)
  )
classe quantidade - n° freq. acumulada porcentagens porcentagem acumulada
20% - [0 ; 80000] 2829 2829 97.48% 97.48%
40% - (80000 ; 160000] 51 2880 1.76% 99.24%
60% - (160000 ; 240000] 15 2895 0.52% 99.76%
80% - (240000 ; 320000] 4 2899 0.14% 99.9%
100% - (320000 ; 4e+05] 3 2902 0.10% 100%

Decils

# calculando os decils 
knitr::kable(
  percentils(base = df_c,variavel = "VD5005", numero_de_percentils = 10)
  )
classe quantidade - n° freq. acumulada porcentagens porcentagem acumulada
10% - [0 ; 20000] 2616 2616 90.14% 90.14%
20% - (20000 ; 40000] 213 2829 7.34% 97.48%
30% - (40000 ; 60000] 39 2868 1.34% 98.82%
40% - (60000 ; 80000] 12 2880 0.41% 99.23%
50% - (80000 ; 1e+05] 13 2893 0.45% 99.68%
60% - (1e+05 ; 120000] 2 2895 0.07% 99.75%
70% - (120000 ; 140000] 2 2897 0.07% 99.82%
80% - (140000 ; 160000] 2 2899 0.07% 99.89%
90% - (160000 ; 180000] 2 2901 0.07% 99.96%
100% - (180000 ; 2e+05] 1 2902 0.03% 99.99%

2.1.3 linha de Pobreza

Utilizando o critério de renda, estabelecerei o valor da linha de pobreza como sendo um quarto do salário mínimo do ano de 2021, a partir dai, criarei uma variável que classifica quais indivíduos são pobres e quais não são, segundo esse método.

Salário mínimo de 2021 –> 1100, 1/4 desse valor é $275
# produzindo uma variavel dummy, 1 para pobre e 0 para nao pobre
df_c$pobre <- ifelse (df_c$VD5005 < (0.25*1100), 1, 0) 
df$pobre   <- ifelse (df$VD5005   < (0.25*1100), 1, 0) 

# Proporcao de pobres Ceara
c <- tabyl(df_c$pobre) %>%
  adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>% 
  mutate(regiao = "Ceará") %>% 
  rename(dummy_pobre = `df_c$pobre`,`quantidade - n°` = n)

# proporcao de pobres Brasil
b <- tabyl(df$pobre) %>% 
  adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>% 
  mutate(regiao = "Brasil") %>% 
  rename(dummy_pobre =  `df$pobre`,`quantidade - n°` = n)

# Criando a tabela com as proporções
tabela <- bind_rows(c, b) %>%
  mutate(dummy_pobre = factor(
    dummy_pobre, levels = c(0, 1), labels = c("Não pobre", "Pobre"))
    )
tabela$percent <- as.numeric(tabela$percent)

# Criando o gráfico de barras
ggplot(tabela, aes(x = regiao, fill = dummy_pobre, y = percent)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(percent,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
  labs(title = "Percentual de pobreza por região",
       subtitle = "Considerando renda per capita inferior a 25% do salário mínimo",
       x = "Região",
       y = "Percentual",
       fill = "Situação") +
  theme_minimal()

2.1.4 Contabilizando o total de pobres

Como a pesquisa está com seus dados a nível de domicílio, ou seja, cada linha se refere apenas a uma moradia, para calcular o número de pobres, pegaremos o total de indivíduos que vivem nos domicílios com renda abaixo da linha de pobreza. Para isso, utilizaremos a variável VD2003.

# somando o total de individuos pobres nos domicilios abaixo da linha
total_CE        <- sum (df_c[,"VD2003"]) # CEARA
total_BR        <- sum (df[,"VD2003"]) # BRASIL
total_pobres_CE <- sum (df_c[df_c$pobre==1,"VD2003"]) # CEARA
total_pobres_BR <- sum (df[df$pobre==1,"VD2003"]) # BRASIL

# encontrando a proporcao de pobres
paste0(
  "No Brasil, a proporção de pobres é de: ",
  round((total_pobres_BR/total_BR)*100, 2),
  "%, já a no Ceará é de: ",
  round((total_pobres_CE/total_CE)*100, 2)
  )
## [1] "No Brasil, a proporção de pobres é de: 16.68%, já a no Ceará é de: 31.84"

2.1.4 População Urbana X Rural

Uma das questões a serem levantadas é a questão da pobreza em ambiente rural quando se olha pela ótica da renda. Podemos afirmar que a população rural aprensenta outras formas de obter bens e serviços que não seja pela renda monetária, fazendo com que a estimação de sua renda real seja subestimada dessa forma.

Portanto, a utilização da renda monetária é mais acurada para identificar o poder de consumo de bens e serviços em uma comunidade urbana, logo iremos filtrar a população urbana e calcular sua proporção de pobres.

# Proporcao de pobres Ceara
c <- tabyl(pull(df_c[df_c$V1022==1,],"pobre")) %>%
  adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>% 
  mutate(regiao = "Ceará") %>% 
  rename(dummy_pobre = `pull(df_c[df_c$V1022 == 1, ], "pobre")`,`quantidade - n°` = n)

# proporcao de pobres Brasil
b <- tabyl(pull(df[df$V1022==1,],"pobre")) %>% 
  adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>% 
  mutate(regiao = "Brasil") %>% 
  rename(dummy_pobre =  `pull(df[df$V1022 == 1, ], "pobre")`,`quantidade - n°` = n)

# Criando a tabela com as proporções
tabela <- bind_rows(c, b) %>%
  mutate(dummy_pobre = factor(
    dummy_pobre, levels = c(0, 1), labels = c("Não pobre", "Pobre"))
    )
tabela$percent <- as.numeric(tabela$percent)

# Criando o gráfico de barras
ggplot(tabela, aes(x = regiao, fill = dummy_pobre, y = percent)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(percent,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
  labs(title = "Percentual de pobreza na região urbana",
       subtitle = "Considerando renda per capita inferior a 25% do salário mínimo",
       x = "Região",
       y = "Percentual",
       fill = "Situação") +
  theme_minimal()

2.2 Escolaridade e mercado de trabalho

Vamos calcular para domicílios pobres e não-pobres a porcentagem de domicílios que:

2.2.1 tem escolaridade maior ou igual ao ensino medio completo

VD3004 - Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais de idade) padronizado para o Ensino fundamental com duração de 9 anos.

  • 1 Sem instrução e menos de 1 ano de estudo;
  • 2 Fundamental incompleto ou equivalente;
  • 3 Fundamental completo ou equivalente;
  • 4 Médio incompleto ou equivalente;
  • 5 Médio completo ou equivalente;
  • 6 Superior incompleto ou equivalente;
  • 7 Superior completo;

Gráfico - Ceará

# Proporcao de pobres Ceara
c <- df_c %>% 
  tabyl(pobre,VD3004) %>%
  adorn_percentages("row") %>% 
  adorn_pct_formatting(digits = 1,affix_sign = F) %>%
  mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
  pivot_longer(
    cols = c(`1`, `2`, `3`, `4`, `5`, `6`, `7`),
    names_to = "VD3004",
    values_to = "percentual"
    )

c$percentual <- as.numeric(c$percentual)

# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("lightblue", "darkblue"))(7)

# dá nomes ao vetor de cores com os níveis da variável VD3004
names(cores) <- levels(c$VD3004)

ggplot(c, aes(x = pobre, fill = VD3004, y = percentual)) + # usa percentual diretamente
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
  labs(title = "Distribuição da escolaridade na pop. do Ceará",
       subtitle = "Distribuição da escolaridade, considerando
       os subgrupos de pobres e não pobres",
       x = "",
       y = "Percentual",
       fill = "Situação") +
  theme_minimal() +
  scale_fill_manual(values = cores) # usa o vetor de cores como escala

Gráfico - Brasil

2.2.2 é ativo

VD4001 - Condição em relação à força de trabalho na semana de referência para pessoas de 14 anos ou mais de idade.

  • 1 Pessoas na força de trabalho
  • 2 Pessoas fora da força de trabalho
# Proporcao de pobres Ceará
c <- df_c %>% 
  tabyl(pobre,VD4001) %>%
  adorn_percentages("row") %>% 
  adorn_pct_formatting(digits = 1,affix_sign = F) %>%
  mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
  pivot_longer(
    cols = c(`1`, `2`),
    names_to = "VD4001",
    values_to = "percentual"
    ) %>% 
  mutate(VD4001 = ifelse(VD4001 == 1, "idade de Trabalho", "Fora da idade"))

c$percentual <- as.numeric(c$percentual)

# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("red", "orange"))(2)

# dá nomes ao vetor de cores com os níveis da variável VD4001
names(cores) <- levels(c$VD4001)

ggplot(c, aes(x = pobre, fill = VD4001, y = percentual)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
  labs(title = "porcentagem de domicílios que é ativo - Ceará",
       subtitle = "porcentagem de domicílios que é ativo na força de trablho considerando
       os subgrupos de pobres e não pobres",
       x = "",
       y = "Percentual",
       fill = "Situação") +
  theme_minimal() +
  scale_fill_manual(values = cores) # usa o vetor de cores como escala

Gráfico - Brasil

2.2.3 está ocupado

VD4002 - Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade.

  • 1 Pessoas ocupadas
  • 2 Pessoas desocupadas

Gráfico - Ceará

# Proporcao de pobres Brasil
c <- df_c %>% 
  tabyl(pobre,VD4002) %>%
  adorn_percentages("row") %>% 
  adorn_pct_formatting(digits = 1,affix_sign = F) %>%
  mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
  pivot_longer(
    cols = c(`1`, `2`),
    names_to = "VD4002",
    values_to = "percentual"
    ) %>% 
  mutate(VD4002 = ifelse(VD4002 == 1, "Pessoas ocupadas", "Pessoas desocupadas"))

c$percentual <- as.numeric(c$percentual)

# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("purple", "blue"))(2)

# dá nomes ao vetor de cores com os níveis da variável VD4002
names(cores) <- levels(c$VD4002)

ggplot(c, aes(x = pobre, fill = VD4002, y = percentual)) +
  geom_bar(stat = "identity", position = "dodge") +
  geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
  labs(title = "porcentagem de domicílios que estão ocupados - Ceará",
       subtitle = "porcentagem de domicílios que estão ocupados 
       na força de trablho considerando os subgrupos de pobres e não pobres",
       x = "",
       y = "Percentual",
       fill = "Situação") +
  theme_minimal() +
  scale_fill_manual(values = cores) # usa o vetor de cores como escala

Gráfico - Brasil

2.3 Indicadores de Pobreza

Para melhor compreender a situação da pobreza, iremos realizar os calculos de alguns indices.

2.3.1 Calculando o índice de Sen

Utilizando o pacote ineq para fazer análises com dados amostrais complexos, como estimar totais, médias, proporções e índices.

# calculando com a linha de pobreza no valor de 275 reais
sen_ce <- round(ineq::Sen(df_c$VD5005, k = 275, na.rm = TRUE), 2) # Ceara
sen_br <- round(ineq::Sen(df$VD5005, k = 275, na.rm = TRUE), 2) # Brasil

paste0("O resultado do indice de 'Sen' do Ceará é: ", sen_ce,
       ", enquanto o do Brasil é: ",sen_br )
## [1] "O resultado do indice de 'Sen' do Ceará é: 0.17, enquanto o do Brasil é: 0.1"

o resultado do índice de sen do Ceará é 0.17, enquanto o do Brasil é 0.1. Isso significa que o Ceará tem uma desigualdade econômica maior do que o Brasil, considerando o mesmo ponto de referência para o cálculo da pobreza. Em outras palavras, o Ceará precisaria de uma proporção maior da sua renda média para eliminar a pobreza do que o Brasil, se houvesse uma distribuição perfeitamente igualitária da renda.

2.3.2 Calculando o índice de Foster, Greer e Thorbeck quando \(\alpha =2\)

Como dito anteriorente, o indice em questão é calculado a partir da função: \[FGT = \frac{1}{N} \sum_{i=1}^q \left( \frac{z-y_i}{z} \right)^ \alpha\] Para calcular o índice de FGT quando alpha = 2 no R, iremos utilizar a função FGT() do pacote ineq recebe como argumentos um vetor numérico com os valores da renda dos indivíduos, um valor numérico para a linha de pobreza e um valor numérico para o parâmetro alpha. Ela retorna o valor do índice de FGT para esses argumentos. Por exemplo, se você tiver um vetor chamado renda e quiser calcular o índice de FGT quando alpha = 2 usando a linha de pobreza de R$ 275,00:

ara calcular o índice de FGT quando alpha = 2 no R, iremos utilizar a função svyfgt() do pacote convey, a qual recebe como argumento um objeto da classe survey.design ou svyrep.design, que contém os dados amostrais ponderados, um valor numérico ou uma expressão para a linha de pobreza e um valor numérico para o parâmetro alpha.

Ela retorna um objeto da classe svyfgt, que contém o valor do índice de FGT e seu erro padrão para esses argumentos. utilizando o identificador do domicílio (V1008), a estrata (V1007), o peso (V4729) e a correção de população finita (V4728), usaremos:

# CALCULO DE CEARA -------------------------------------------------------------
# Definir um vetor com os valores da renda dos indivíduos, 
renda <- df_c$VD5005
# Definir um valor para a linha de pobreza, 
z <- 275
# Definir um valor para o parâmetro alpha, 
alpha <- 2
# Calcular o número total de indivíduos na população, 
N <- length(renda)
# Calcular o número de indivíduos pobres, 
q <- sum(renda < z)
# Calcular o índice de FGT usando a fórmula, 
FGT_ce <- (1/N) * sum(((z - renda[renda < z])/z)^alpha)

# CALCULO DO BRASIL -------------------------------------------------------------
# Calcular o índice de FGT usando a fórmula
FGT_br <- (1/length(df$VD5005)) * sum(((275 - df$VD5005[df$VD5005 < 275])/275)^2)

paste0("O resultado do índice de 'Foster, Greer e Thorbeck' do Ceará é: ",
       round(FGT_ce,3), ", enquanto o do Brasil é: ", round(FGT_br,3))
## [1] "O resultado do índice de 'Foster, Greer e Thorbeck' do Ceará é: 0.085, enquanto o do Brasil é: 0.057"

α = 2, isso significa que a severidade da pobreza do Ceará é de 8,5% e a do Brasil é de 5,7%. O índice FGT do Ceará é maior do que o do Brasil, indicando que há mais pobreza no estado do que no país como um todo.

3 ANÁLISE DE DESIGUALDADE

Agora, olhado para a situação da distribuição de renda, iremos realizar o calculo dos índices estudados em aula para poder comparar a situação entre o Estado Cearense e o País.

3.1 Indicadores de Desigualdade

Através dos indicadores de desigualdade podemos dar uma olhada melhor em como e quanto um conjunto de individuos possui sua renda dividida entre diferentes grupos sociais.

3.1.1 Índice de Gini

gini_ce <- ineq::Gini(df_c$VD5005) # Ceara
gini_br <- ineq::Gini(df$VD5005) # Brasil

paste0("O resultado do índice de Gini do Ceará é: ",
       round(gini_ce,3), ", enquanto o do Brasil é: ", round(gini_br,3))
## [1] "O resultado do índice de Gini do Ceará é: 0.546, enquanto o do Brasil é: 0.541"

O índice de Gini mede a concentração de renda em uma escala de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade. Segundo os dados, o índice de Gini do Ceará é levemente superior ao brasileiro, porém não grande significativamente para podermos afirmar que o Ceará é mais desigual do que o resto do País.

Plotando a curva de Lorenz

Ceará
lorenz <- Lc(df_c$VD5005)

# Plotar a curva de Lorenz
ggplot(data.frame(x = lorenz$p, y = lorenz$L), aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1.5, linetype = "dashed") +
  geom_abline(intercept = 0, slope = 1, color = "red", size = 1.5) +
  ggtitle("Curva de Lorenz da renda no Ceará") +
  labs(x = "Percentil da renda", y = "Curva de Lorenz", color = "Linha") +
  theme_classic() +
  scale_fill_gradient2(low = "green", mid = "yellow", high = "red")

Brasil
lorenz <- Lc(df$VD5005)

# Plotar a curva de Lorenz
ggplot(data.frame(x = lorenz$p, y = lorenz$L), aes(x = x, y = y)) +
  geom_line(color = "blue", size = 1.5, linetype = "dashed") +
  geom_abline(intercept = 0, slope = 1, color = "red", size = 1.5) +
  ggtitle("Curva de Lorenz da renda no Brasil") +
  labs(x = "Percentil da renda", y = "Curva de Lorenz", color = "Linha") +
  theme_classic() +
  scale_fill_gradient2(low = "green", mid = "yellow", high = "red")

3.1.2 Índice de Theil-T

O índice de Theil-T é uma medida de desigualdade baseada no conceito de entropia de uma distribuição2. O índice de Theil-T varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade.

Para calcular o índice de Theil-T no R, você pode usar a função theil do pacote ineq. Essa função estima e testa a inclinação e a interceptação de um modelo linear simples, baseado no capítulo 9 do livro Nonparametric Statistical Methods, 3e, de Hollander, Wolfe e Chicken

theil_ce <- ineq::ineq(df_c$VD5005, type = "Theil") # Ceara
theil_br <- ineq::ineq(df$VD5005, type = "Theil") # Brasil

paste0("O resultado do índice de Theil-T do Ceará é: ",
       round(theil_ce,3), ", enquanto o do Brasil é: ", round(theil_br,3))
## [1] "O resultado do índice de Theil-T do Ceará é: 0.545, enquanto o do Brasil é: 0.559"

3.1.3 Índice de Atkinson

\[ A(\epsilon) = 1 - \left( \frac{1}{n} \sum^n_{i=1}x_i^{1-\epsilon} \right)^{\frac{1}{1-\epsilon}}\cdot \ \left( \frac{1}{n} \sum_{i=1}^n x_i \right)^{-1} \]

Definindo uma função para o calculo do índice

# Definir a função do índice de Atkinson
atkinson <- function(x, eps) {

  # x é um vetor de rendas
  # eps é o parâmetro de aversão à desigualdade
  
  n <- length(x) # número de pessoas
  mu <- mean(x) # renda média
  if (eps == 1) {
    # caso especial quando eps = 1
    A <- 1 - exp(mean(log(x)) - log(mu))
  } else {
    # caso geral quando eps != 1
    A <- 1 - (mean(x^(1 - eps)))^(1/(1 - eps))/mu
  }
  return(A)
}

Aplicando a função para as duas bases de dados

A função do índice de Atkinson deve ser aplicada aos dados das rendas, escolhendo um valor para o parâmetro de aversão à desigualdade. Esse valor reflete o seu grau de preocupação com a desigualdade: quanto maior o valor, maior a sensibilidade às diferenças nas partes inferiores da distribuição de renda. Você pode escolher qualquer valor positivo para o parâmetro, mas geralmente se usa valores entre 0 e 2. Por exemplo, se você quiser calcular o índice de Atkinson com ϵ=0.5, você pode fazer no R da seguinte forma:

Atk_ce <- atkinson(df_c$VD5005, eps = 0.5) # Ceara
Atk_br <- atkinson(df$VD5005,   eps = 0.5) # Brasil

paste0("O resultado do índice de Atkinson do Ceará é: ",
       round(theil_ce,3), ", enquanto o do Brasil é: ", round(theil_br,3))
## [1] "O resultado do índice de Atkinson do Ceará é: 0.545, enquanto o do Brasil é: 0.559"