Realizada pelo IBGE, a PNAD Contínua É uma pesquisa por amostra probabilística de domicílios, de abrangência nacional, planejada para atender a diversos propósitos. Visa produzir informações básicas para o estudo do desenvolvimento socioeconômico do País e permitir a investigação contínua de indicadores sobre trabalho e rendimento. A PNAD Contínua segue um esquema de rotação de domicílios. Isso significa que cada domicílio selecionado será entrevistado cinco vezes, uma vez a cada trimestre, durante cinco trimestres consecutivos.
Com o objetivo de verificar a situação da pobreza e desigualdade do estado do Ceará e compara-lo com o do estado de São Paulo, faremos um apanhado de calculos de indicadores para melhor entedermos a situação em que eles se encontram e até onde cada estado se diferencia.
Junto a isso, faremos tambem os mesmos calculos para a area metropolitana de Fortaleza, a fim de compara-la com o resto do estado.
Rendimento (efetivo) domiciliar: VD5001
(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento (efetivo) domiciliar per capita: VD5002
(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Faixa de rendimento (efetivo) domiciliar per capita: VD5003
(exclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento (efetivo) domiciliar: VD5004
(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento (efetivo) domiciliar per capita: VD5005
(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Faixa de rendimento (efetivo) domiciliar per capita: VD5006
(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento domiciliar: VD5007
(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento domiciliar per capita: VD5008
(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Faixa de rendimento domiciliar per capita: VD5009
(habitual de todos os trabalhos e efetivo de outras fontes) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento domiciliar: VD5010
(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento domiciliar per capita: VD5011
(habitual de todos os trabalhos e efetivo de outras fontes) (inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Faixa de rendimento domiciliar per capita: VD5012
(habitual de todos os trabalhos e efetivo de outras fontes) (inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
Rendimento (efetivo) domiciliar per capita: VD5005
(inclusive rendimentos em cartão/tíquete transporte ou alimentação) (exclusive o rendimento das pessoas cuja condição na unidade domiciliar era pensionista, empregado doméstico ou parente do empregado doméstico)
| Pacote | Explicação |
|---|---|
| sn | Funções para distribuições assimétricas e robustas |
| car | Ferramentas para análise de regressão |
| dplyr | Manipulação eficiente de dados |
| readxl | Leitura de arquivos Excel |
| ggplot2 | Criação de gráficos baseados na gramática dos gráficos |
| janitor | Funções para limpeza e formatação de dados |
| tidyr | Transformação de dados em formato tidy |
| convey | Cálculo e visualização de medidas de desigualdade e pobreza |
| fImport | Importação de dados financeiros de várias fontes |
| tidytext | Manipulação de texto estruturado em análise de dados |
| stringr | Manipulação de strings com expressões regulares |
| PNADcIBGE | Download e leitura dos microdados da PNAD Contínua |
| flextable | Criação e formatação de tabelas flexíveis |
| survey | Análise de dados amostrais complexos |
| ineq | Medidas de desigualdade econômica |
O pacote PNADcIBGE foi desenvolvido pela equipe do IBGE para facilitar o acesso e a análise dos microdados da PNADC no R. Esse pacote permite baixar, ler e manipular os dados da PNADC de forma simples e rápida, usando funções específicas para cada etapa.
Os arquivos com os microdados da PNADC e com o input para o SAS são disponibilizados pelo IBGE no endereço: ftp://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_continua Você pode escolher o ano, o trimestre e as variáveis de interesse para baixar os arquivos. Por exemplo, para baixar os dados do 3º trimestre de 2021, você pode usar o comando:
Esse comando vai baixar os arquivos “PNADC_032021.zip” e “Dicionario_e_input.zip” na sua pasta de trabalho do R. Você pode descompactar esses arquivos manualmente ou usar o argumento unzip = TRUE no comando get_pnadc.
Depois de baixar e descompactar os arquivos, você pode ler os dados da PNADC usando o comando:
Esse comando vai criar um objeto do tipo svyrep.design, que é útil para análises de dados amostrais complexos. Você pode especificar as variáveis que quer ler usando o argumento vars. Por exemplo, para ler apenas as variáveis “VD4020” (rendimento mensal) e “V2007” (sexo), você pode usar o comando:
read_pnadc(
microdata = "PNADC_032021.txt",
input_txt = "Input_PNADC_trimestral.txt",
vars = c("VD4020", "V2007")
)Com esses comandos, você já consegue pegar a tabela da PNADC em R e fazer as análises que quiser. Você pode consultar a documentação do pacote PNADcIBGE para saber mais sobre as funções e os argumentos disponíveis.
Contudo, para facilitar a coleta, utilizarei apenas os dados apresentados no estoa da disciplina:
# Lendo base de dados
df <- haven::read_dta("G:/Meu Drive/trabalho_RendaPobreza/tabelas/visita5_chefes.dta")
knitr::kable(head(df)[,c(1,2,3,4,5,6,7,8)]) | Ano | Trimestr | UF | Capital | RM_RIDE | UPA | Estrato | V1008 |
|---|---|---|---|---|---|---|---|
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 2 |
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 3 |
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 4 |
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 5 |
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 6 |
| 2021 | 2 | 11 | 11 | NA | 1.1e+08 | 1110011 | 7 |
Existem diferentes maneiras de calcular a linha de pobreza no Brasil, dependendo dos critérios e das fontes utilizadas. Algumas das maneiras mais comuns são:
A linha de pobreza internacional definida pelo Banco Mundial (BM) considera pobres as pessoas que vivem com menos de US$ 1,90 por dia (cerca de R$ 10,81 em 2020) e extremamente pobres as que vivem com menos de US$ 1,25 por dia (cerca de R$ 7,13 em 2020). Essa linha é baseada no índice de pobreza extrema de cada país e na paridade do poder de compra.
Para o Cálculo, a forma disponibilizada pelo Banco Mundial é: \[LPI=\frac{\sum_{i=1}^nw_i\cdot P_i}{\sum_{i=1}^nw_i}\] onde:
\(LPI\) é a linha de pobreza internacional, expressa em dólares por dia;
\(n\) é o número de países considerados na amostra (atualmente são 15 países de renda baixa);
\(w_i\) é o peso de cada país na amostra, baseado na população;
\(P_i\) é o limiar de pobreza nacional de cada país, convertido em dólares pela paridade do poder de compra (PPC).
Essa fórmula significa que a linha de pobreza internacional é a média ponderada dos limiares de pobreza nacionais dos países mais pobres do mundo. Esses limiares são os valores mínimos necessários para que uma pessoa possa satisfazer suas necessidades básicas de alimentação, moradia, saúde, educação, etc.
A linha de pobreza internacional atual é de US$ 1,90 por dia, conforme revisada em 2015 pelo Banco Mundial. Essa linha é usada para medir a extrema pobreza no mundo e acompanhar o progresso dos Objetivos de Desenvolvimento Sustentável (ODS) das Nações Unidas.
definida pelo Instituto Brasileiro de Geografia e Estatística (IBGE), que considera pobres as pessoas que vivem com menos de R$ 406 por mês (cerca de R$ 13,53 por dia) e extremamente pobres as que vivem com menos de R$ 100 por mês (cerca de R$ 3,33 por dia) em 2019. Essa linha é baseada na renda domiciliar per capita e nos custos de elementos básicos como moradia, roupas e alimentos.
uma forma comum de calcular a linha de pobreza nacional é baseada na renda necessária para adquirir uma cesta básica de alimentos que atenda às necessidades nutricionais mínimas da população. Essa forma é chamada de método da linha de pobreza absoluta ou método da cesta básica.
A fórmula para esse método é a seguinte:
\[LPN = CBA\cdot K\] onde:
O custo da cesta básica de alimentos pode ser estimado usando os dados do IBGE sobre os preços e as quantidades dos produtos alimentícios consumidos pela população. O fator K pode ser obtido usando os dados da Pesquisa de Orçamentos Familiares (POF) sobre a participação das despesas alimentares e não alimentares no total das despesas das famílias pobres.
O índice de Foster, Greer e Thorbecke (FGT) é uma classe de medidas de pobreza que mostra diferentes aspectos do fenômeno, como a proporção, a intensidade e a severidade da pobreza. A fórmula geral do índice é:
\[\phi(\alpha) = \frac{1}{n} \sum_{i=1}^{q} \left(\frac{z - y_i}{z}\right)^\alpha\] Onde:
Quando α=0, o índice mede a proporção dos pobres (P0), que é o tamanho do número de pobres em relação à população total.
Quando α=1, o índice mede o hiato da pobreza (P1), que é a intensidade da pobreza como um déficit de renda.
Quando α=2, o índice mede a severidade da pobreza (P2), que mostra o quão desigual é a distribuição de renda entre os mais pobres da população, dando uma maior relevância a esses últimos.
índice de Sen é uma medida de pobreza que leva em conta a distribuição de renda entre os pobres e a privação de capacidades básicas. A fórmula geral do índice é:
\[S=H\cdot [1-G+(1-G)\cdot A]\] Onde:
Para calcular o índice utilizando os dados da PNADC, no R, devemos utilizar alguns pacotes facilitadores como:
survey: um pacote que permite realizar análises
estatísticas com dados de pesquisas amostrais complexas, como a PNAD
Contínua.
convey: um pacote que permite estimar medidas de
pobreza e desigualdade com dados de pesquisas amostrais complexas, como
o índice de Sen.
O método calórico direto (food energy intake method), mede a renda total (ou despesas totais, ou consumo total) das famílias que conseguem alcançar o consumo calórico definido como mínimo. Esse método leva em conta as necessidades nutricionais das pessoas e a disponibilidade de alimentos.
Sim, existe uma fórmula para o cálculo da linha de pobreza pelo método calórico direto. Esse método mede a renda total (ou despesas totais, ou consumo total) das famílias que conseguem alcançar o consumo calórico definido como mínimo. Essa é a linha de pobreza.
A fórmula para esse método é a seguinte: \[LPC=C \cdot P\]
Onde:
O consumo calórico mínimo pode ser definido com base nas recomendações nutricionais para diferentes grupos etários, sexos e níveis de atividade física. O preço médio de uma quilocaloria pode ser estimado usando os dados do IBGE sobre os preços e as quantidades dos produtos alimentícios consumidos pela população.
Cada uma dessas maneiras tem vantagens e desvantagens, e pode refletir diferentes aspectos da pobreza no Brasil. Por isso, é importante analisar os dados com cuidado e considerar outras dimensões da pobreza além da renda, como educação, saúde, saneamento, acesso a serviços públicos, etc.
Indicadores de desigualdade são medidas que mostram a diferença entre as condições de vida de diferentes grupos sociais, geralmente relacionadas à renda, à riqueza, à educação, à saúde, ao gênero, à raça, entre outros aspectos. Alguns dos indicadores de desigualdade mais utilizados são:
Mede a concentração de renda em uma sociedade. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade. O coeficiente de Gini do Brasil em 2020 foi de 0,5431, um dos mais altos do mundo.
Existe uma fórmula para o cálculo do coeficiente de Gini utilizando os dados da PNADC (Pesquisa Nacional por Amostra de Domicílios Contínua). Essa fórmula é baseada na curva de Lorenz, que representa a relação entre a renda acumulada e a população acumulada em ordem crescente de renda.
A fórmula para o cálculo do coeficiente de Gini é a seguinte:
\[G= \frac{\sum^n_{i=1}(2i-n-1)}{n^2 \bar{x}}\] Onde:
Essa fórmula significa que o coeficiente de Gini é igual à soma dos produtos entre a posição relativa de cada domicílio na distribuição de renda e sua renda domiciliar per capita, dividida pelo quadrado do número de domicílios e pela renda domiciliar per capita média.
Para aplicar essa fórmula, é preciso ter os dados da PNADC sobre a renda domiciliar per capita de cada domicílio da amostra.
Também mede a concentração de renda em uma sociedade. Ele varia de 0 a infinito, sendo que quanto maior o valor, maior é a desigualdade. O índice de Theil do Brasil em 2020 foi de 0,5491.
A fórmula do indicador é baseada na entropia da distribuição de renda, que mede o grau de desordem ou imprevisibilidade econômica.
A fórmula para o cálculo do índice de Theil é a seguinte:
\[T= \frac{\sum^n_{i=1}y_ilog(\frac{y_i}{\hat{y}})}{n}\]
Essa fórmula significa que o índice de Theil é igual à média ponderada do logaritmo da razão entre a renda domiciliar per capita de cada domicílio e a renda domiciliar per capita média da amostra. Essa razão mede o grau de desvio da igualdade perfeita, em que todos os domicílios teriam a mesma renda. O logaritmo transforma essa razão em uma medida de entropia, que varia de 0 a infinito. Quanto maior o valor do índice de Theil, maior é a desigualdade de renda.
Mede a relação entre a renda dos 10% mais ricos e dos 40% mais pobres em uma sociedade. Ele varia de 0 a infinito, sendo que quanto maior o valor, maior é a desigualdade. O índice de Palma do Brasil em 2020 foi de 3,51.
A formula:
\[P=\frac{R_{10}}{R_{40}}\] Onde:
\(P\) é o índice de Palma; \(R_{10}\) é a participação dos 10% mais ricos na renda total; \(R_{40}\) é a participação dos 40% mais pobres na renda total.
O índice de Palma também pode ser expresso em uma escala percentual, multiplicando-se o resultado por 100.
Mede o nível de privação das pessoas em relação a dez indicadores: nutrição, mortalidade infantil, anos de escolaridade, frequência escolar, acesso à eletricidade, saneamento, água potável, combustível para cozinhar, moradia e bens duráveis. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a pobreza multidimensional. O IPM do Brasil em 2019 foi de 0,0173, um dos mais baixos do mundo.
Para calcular o IPM, é preciso definir quais são as dimensões e os indicadores relevantes para cada país ou região, e quais são os critérios de privação para cada indicador. Por exemplo, uma pessoa pode ser considerada privada em saúde se tiver uma expectativa de vida baixa ou se tiver algum problema de saúde crônico. Uma pessoa pode ser considerada privada em educação se não tiver completado um determinado nível de escolaridade ou se não souber ler e escrever. Uma pessoa pode ser considerada privada em padrão de vida se não tiver acesso a serviços básicos como água, saneamento, eletricidade ou moradia adequada.
Mede o nível de igualdade entre homens e mulheres em uma sociedade, considerando quatro dimensões: participação econômica e oportunidades; acesso à educação; saúde e sobrevivência; e empoderamento político. Ele varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a igualdade entre os gêneros. O IGDG do Brasil em 2021 foi de 0,6944, um dos mais baixos da América Latina.
Não existe uma fórmula para o cálculo do índice global da disparidade entre os gêneros (IGDG) utilizando os dados da PNADC. Esse índice é uma medida de desigualdade de gênero que compara a situação de homens e mulheres em quatro dimensões: participação e oportunidade econômica, educação, capacitação política e saúde e sobrevivência.
O IGDG é calculado pelo Fórum Econômico Mundial (FEM) desde 2006, usando dados de fontes internacionais como a Organização das Nações Unidas (ONU), a Organização Internacional do Trabalho (OIT), a Organização Mundial da Saúde (OMS) e a Organização das Nações Unidas para a Educação, a Ciência e a Cultura (UNESCO). A PNADC não fornece os dados necessários para o cálculo do IGDG, pois não abrange todas as dimensões e indicadores considerados pelo FEM.
A fórmula para o cálculo do IGDG é a seguinte:
\[IGDG= \frac{1}{4} \left( \frac{IGDG_E + IGDG_S}{2} + IGDG_P + IGDG_C \right) \]
Onde:
IGDG é o índice global da disparidade entre os gêneros;
IGDG_E é o índice de disparidade entre os gêneros na educação, medido pela taxa de alfabetização e pela taxa de matrícula nos níveis primário, secundário e terciário;
IGDG_S é o índice de disparidade entre os gêneros na saúde e sobrevivência, medido pela razão entre os sexos ao nascer e pela expectativa de vida ajustada pela mortalidade excessiva;
IGDG_P é o índice de disparidade entre os gêneros na participação e oportunidade econômica, medido pela taxa de participação na força de trabalho, pela razão salarial estimada e pela proporção de trabalhadores em cargos gerenciais, profissionais e técnicos;
IGDG_C é o índice de disparidade entre os gêneros na capacitação política, medido pela proporção de mulheres no parlamento, em cargos ministeriais e em chefias de estado ou governo.
Essa fórmula significa que o IGDG é a média aritmética dos quatro índices parciais, que variam de 0 a 1. Quanto mais próximo de 1, menor é a disparidade entre os gêneros. O IGDG também pode ser expresso em uma escala percentual, multiplicando-se o resultado por 100.
Nesta análise, iremos observar a situação do Estado do Ceará colocando-o em contraste com a perspectiva Nacional, ou seja, compararemos os dados tanto do Estado quanto do Brasil a fim de obter uma perspectiva mais clara da situação de renda da região.
Inicialmente irei filtrar a base de dados para abarcar apenas as informações referentes ao estado do Ceará.
Antes de realizar o calculo dos índices, faz-se necessária uma primeira análise que mostre qual é o contexto em que o Etado está. Para isso, dando o foco na renda, irei realizar o cálculo, tando dos quintils, quanto dos decils da amostra das rendas da região a fim de obter uma primeira visão na distribuição de renda da população.
# Função que calcula uma tabela de percentils de autoria propria
# os argumentos da funcao sao:
# - base de dados;
# - Variavel a ser calculada;
# - quantidade de percentils;
# - digitos de arredondamento.
# calculando os quintils
knitr::kable(
percentils(base = df_c,variavel = "VD5005", numero_de_percentils = 5)
)| classe | quantidade - n° | freq. acumulada | porcentagens | porcentagem acumulada |
|---|---|---|---|---|
| 20% - [0 ; 80000] | 2829 | 2829 | 97.48% | 97.48% |
| 40% - (80000 ; 160000] | 51 | 2880 | 1.76% | 99.24% |
| 60% - (160000 ; 240000] | 15 | 2895 | 0.52% | 99.76% |
| 80% - (240000 ; 320000] | 4 | 2899 | 0.14% | 99.9% |
| 100% - (320000 ; 4e+05] | 3 | 2902 | 0.10% | 100% |
# calculando os decils
knitr::kable(
percentils(base = df_c,variavel = "VD5005", numero_de_percentils = 10)
)| classe | quantidade - n° | freq. acumulada | porcentagens | porcentagem acumulada |
|---|---|---|---|---|
| 10% - [0 ; 20000] | 2616 | 2616 | 90.14% | 90.14% |
| 20% - (20000 ; 40000] | 213 | 2829 | 7.34% | 97.48% |
| 30% - (40000 ; 60000] | 39 | 2868 | 1.34% | 98.82% |
| 40% - (60000 ; 80000] | 12 | 2880 | 0.41% | 99.23% |
| 50% - (80000 ; 1e+05] | 13 | 2893 | 0.45% | 99.68% |
| 60% - (1e+05 ; 120000] | 2 | 2895 | 0.07% | 99.75% |
| 70% - (120000 ; 140000] | 2 | 2897 | 0.07% | 99.82% |
| 80% - (140000 ; 160000] | 2 | 2899 | 0.07% | 99.89% |
| 90% - (160000 ; 180000] | 2 | 2901 | 0.07% | 99.96% |
| 100% - (180000 ; 2e+05] | 1 | 2902 | 0.03% | 99.99% |
Utilizando o critério de renda, estabelecerei o valor da linha de pobreza como sendo um quarto do salário mínimo do ano de 2021, a partir dai, criarei uma variável que classifica quais indivíduos são pobres e quais não são, segundo esse método.
# produzindo uma variavel dummy, 1 para pobre e 0 para nao pobre
df_c$pobre <- ifelse (df_c$VD5005 < (0.25*1100), 1, 0)
df$pobre <- ifelse (df$VD5005 < (0.25*1100), 1, 0)
# Proporcao de pobres Ceara
c <- tabyl(df_c$pobre) %>%
adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>%
mutate(regiao = "Ceará") %>%
rename(dummy_pobre = `df_c$pobre`,`quantidade - n°` = n)
# proporcao de pobres Brasil
b <- tabyl(df$pobre) %>%
adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>%
mutate(regiao = "Brasil") %>%
rename(dummy_pobre = `df$pobre`,`quantidade - n°` = n)
# Criando a tabela com as proporções
tabela <- bind_rows(c, b) %>%
mutate(dummy_pobre = factor(
dummy_pobre, levels = c(0, 1), labels = c("Não pobre", "Pobre"))
)
tabela$percent <- as.numeric(tabela$percent)
# Criando o gráfico de barras
ggplot(tabela, aes(x = regiao, fill = dummy_pobre, y = percent)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(percent,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
labs(title = "Percentual de pobreza por região",
subtitle = "Considerando renda per capita inferior a 25% do salário mínimo",
x = "Região",
y = "Percentual",
fill = "Situação") +
theme_minimal()Como a pesquisa está com seus dados a nível de domicílio, ou seja, cada linha se refere apenas a uma moradia, para calcular o número de pobres, pegaremos o total de indivíduos que vivem nos domicílios com renda abaixo da linha de pobreza. Para isso, utilizaremos a variável VD2003.
# somando o total de individuos pobres nos domicilios abaixo da linha
total_CE <- sum (df_c[,"VD2003"]) # CEARA
total_BR <- sum (df[,"VD2003"]) # BRASIL
total_pobres_CE <- sum (df_c[df_c$pobre==1,"VD2003"]) # CEARA
total_pobres_BR <- sum (df[df$pobre==1,"VD2003"]) # BRASIL
# encontrando a proporcao de pobres
paste0(
"No Brasil, a proporção de pobres é de: ",
round((total_pobres_BR/total_BR)*100, 2),
"%, já a no Ceará é de: ",
round((total_pobres_CE/total_CE)*100, 2)
)## [1] "No Brasil, a proporção de pobres é de: 16.68%, já a no Ceará é de: 31.84"
Uma das questões a serem levantadas é a questão da pobreza em ambiente rural quando se olha pela ótica da renda. Podemos afirmar que a população rural aprensenta outras formas de obter bens e serviços que não seja pela renda monetária, fazendo com que a estimação de sua renda real seja subestimada dessa forma.
Portanto, a utilização da renda monetária é mais acurada para identificar o poder de consumo de bens e serviços em uma comunidade urbana, logo iremos filtrar a população urbana e calcular sua proporção de pobres.
# Proporcao de pobres Ceara
c <- tabyl(pull(df_c[df_c$V1022==1,],"pobre")) %>%
adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>%
mutate(regiao = "Ceará") %>%
rename(dummy_pobre = `pull(df_c[df_c$V1022 == 1, ], "pobre")`,`quantidade - n°` = n)
# proporcao de pobres Brasil
b <- tabyl(pull(df[df$V1022==1,],"pobre")) %>%
adorn_pct_formatting(digits = 2, affix_sign = FALSE) %>%
mutate(regiao = "Brasil") %>%
rename(dummy_pobre = `pull(df[df$V1022 == 1, ], "pobre")`,`quantidade - n°` = n)
# Criando a tabela com as proporções
tabela <- bind_rows(c, b) %>%
mutate(dummy_pobre = factor(
dummy_pobre, levels = c(0, 1), labels = c("Não pobre", "Pobre"))
)
tabela$percent <- as.numeric(tabela$percent)
# Criando o gráfico de barras
ggplot(tabela, aes(x = regiao, fill = dummy_pobre, y = percent)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(percent,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
labs(title = "Percentual de pobreza na região urbana",
subtitle = "Considerando renda per capita inferior a 25% do salário mínimo",
x = "Região",
y = "Percentual",
fill = "Situação") +
theme_minimal()VD3004 - Nível de instrução mais elevado alcançado (pessoas de 5 anos ou mais de idade) padronizado para o Ensino fundamental com duração de 9 anos.
# Proporcao de pobres Ceara
c <- df_c %>%
tabyl(pobre,VD3004) %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 1,affix_sign = F) %>%
mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
pivot_longer(
cols = c(`1`, `2`, `3`, `4`, `5`, `6`, `7`),
names_to = "VD3004",
values_to = "percentual"
)
c$percentual <- as.numeric(c$percentual)
# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("lightblue", "darkblue"))(7)
# dá nomes ao vetor de cores com os níveis da variável VD3004
names(cores) <- levels(c$VD3004)
ggplot(c, aes(x = pobre, fill = VD3004, y = percentual)) + # usa percentual diretamente
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
labs(title = "Distribuição da escolaridade na pop. do Ceará",
subtitle = "Distribuição da escolaridade, considerando
os subgrupos de pobres e não pobres",
x = "",
y = "Percentual",
fill = "Situação") +
theme_minimal() +
scale_fill_manual(values = cores) # usa o vetor de cores como escalaVD4001 - Condição em relação à força de trabalho na semana de referência para pessoas de 14 anos ou mais de idade.
# Proporcao de pobres Ceará
c <- df_c %>%
tabyl(pobre,VD4001) %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 1,affix_sign = F) %>%
mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
pivot_longer(
cols = c(`1`, `2`),
names_to = "VD4001",
values_to = "percentual"
) %>%
mutate(VD4001 = ifelse(VD4001 == 1, "idade de Trabalho", "Fora da idade"))
c$percentual <- as.numeric(c$percentual)
# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("red", "orange"))(2)
# dá nomes ao vetor de cores com os níveis da variável VD4001
names(cores) <- levels(c$VD4001)
ggplot(c, aes(x = pobre, fill = VD4001, y = percentual)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
labs(title = "porcentagem de domicílios que é ativo - Ceará",
subtitle = "porcentagem de domicílios que é ativo na força de trablho considerando
os subgrupos de pobres e não pobres",
x = "",
y = "Percentual",
fill = "Situação") +
theme_minimal() +
scale_fill_manual(values = cores) # usa o vetor de cores como escalaVD4002 - Condição de ocupação na semana de referência para pessoas de 14 anos ou mais de idade.
# Proporcao de pobres Brasil
c <- df_c %>%
tabyl(pobre,VD4002) %>%
adorn_percentages("row") %>%
adorn_pct_formatting(digits = 1,affix_sign = F) %>%
mutate(pobre = ifelse(pobre == 1,"Pobre", "Não Pobre")) %>%
pivot_longer(
cols = c(`1`, `2`),
names_to = "VD4002",
values_to = "percentual"
) %>%
mutate(VD4002 = ifelse(VD4002 == 1, "Pessoas ocupadas", "Pessoas desocupadas"))
c$percentual <- as.numeric(c$percentual)
# cria um vetor de cores com 7 tons de azul
cores <- colorRampPalette(c("purple", "blue"))(2)
# dá nomes ao vetor de cores com os níveis da variável VD4002
names(cores) <- levels(c$VD4002)
ggplot(c, aes(x = pobre, fill = VD4002, y = percentual)) +
geom_bar(stat = "identity", position = "dodge") +
geom_text(aes(label = paste0(percentual,"%")), position = position_dodge(width = 0.9), vjust = -0.5) +
labs(title = "porcentagem de domicílios que estão ocupados - Ceará",
subtitle = "porcentagem de domicílios que estão ocupados
na força de trablho considerando os subgrupos de pobres e não pobres",
x = "",
y = "Percentual",
fill = "Situação") +
theme_minimal() +
scale_fill_manual(values = cores) # usa o vetor de cores como escalaPara melhor compreender a situação da pobreza, iremos realizar os calculos de alguns indices.
Utilizando o pacote ineq para fazer análises com dados
amostrais complexos, como estimar totais, médias, proporções e
índices.
# calculando com a linha de pobreza no valor de 275 reais
sen_ce <- round(ineq::Sen(df_c$VD5005, k = 275, na.rm = TRUE), 2) # Ceara
sen_br <- round(ineq::Sen(df$VD5005, k = 275, na.rm = TRUE), 2) # Brasil
paste0("O resultado do indice de 'Sen' do Ceará é: ", sen_ce,
", enquanto o do Brasil é: ",sen_br )## [1] "O resultado do indice de 'Sen' do Ceará é: 0.17, enquanto o do Brasil é: 0.1"
o resultado do índice de sen do Ceará é 0.17, enquanto o do Brasil é 0.1. Isso significa que o Ceará tem uma desigualdade econômica maior do que o Brasil, considerando o mesmo ponto de referência para o cálculo da pobreza. Em outras palavras, o Ceará precisaria de uma proporção maior da sua renda média para eliminar a pobreza do que o Brasil, se houvesse uma distribuição perfeitamente igualitária da renda.
Como dito anteriorente, o indice em questão é calculado a partir da função: \[FGT = \frac{1}{N} \sum_{i=1}^q \left( \frac{z-y_i}{z} \right)^ \alpha\] Para calcular o índice de FGT quando alpha = 2 no R, iremos utilizar a função FGT() do pacote ineq recebe como argumentos um vetor numérico com os valores da renda dos indivíduos, um valor numérico para a linha de pobreza e um valor numérico para o parâmetro alpha. Ela retorna o valor do índice de FGT para esses argumentos. Por exemplo, se você tiver um vetor chamado renda e quiser calcular o índice de FGT quando alpha = 2 usando a linha de pobreza de R$ 275,00:
ara calcular o índice de FGT quando alpha = 2 no R, iremos utilizar a
função svyfgt() do pacote convey, a qual
recebe como argumento um objeto da classe survey.design ou
svyrep.design, que contém os dados amostrais ponderados, um
valor numérico ou uma expressão para a linha de pobreza e um valor
numérico para o parâmetro alpha.
Ela retorna um objeto da classe svyfgt, que contém o valor do índice de FGT e seu erro padrão para esses argumentos. utilizando o identificador do domicílio (V1008), a estrata (V1007), o peso (V4729) e a correção de população finita (V4728), usaremos:
# CALCULO DE CEARA -------------------------------------------------------------
# Definir um vetor com os valores da renda dos indivíduos,
renda <- df_c$VD5005
# Definir um valor para a linha de pobreza,
z <- 275
# Definir um valor para o parâmetro alpha,
alpha <- 2
# Calcular o número total de indivíduos na população,
N <- length(renda)
# Calcular o número de indivíduos pobres,
q <- sum(renda < z)
# Calcular o índice de FGT usando a fórmula,
FGT_ce <- (1/N) * sum(((z - renda[renda < z])/z)^alpha)
# CALCULO DO BRASIL -------------------------------------------------------------
# Calcular o índice de FGT usando a fórmula
FGT_br <- (1/length(df$VD5005)) * sum(((275 - df$VD5005[df$VD5005 < 275])/275)^2)
paste0("O resultado do índice de 'Foster, Greer e Thorbeck' do Ceará é: ",
round(FGT_ce,3), ", enquanto o do Brasil é: ", round(FGT_br,3))## [1] "O resultado do índice de 'Foster, Greer e Thorbeck' do Ceará é: 0.085, enquanto o do Brasil é: 0.057"
α = 2, isso significa que a severidade da pobreza do Ceará é de 8,5% e a do Brasil é de 5,7%. O índice FGT do Ceará é maior do que o do Brasil, indicando que há mais pobreza no estado do que no país como um todo.
Agora, olhado para a situação da distribuição de renda, iremos realizar o calculo dos índices estudados em aula para poder comparar a situação entre o Estado Cearense e o País.
Através dos indicadores de desigualdade podemos dar uma olhada melhor em como e quanto um conjunto de individuos possui sua renda dividida entre diferentes grupos sociais.
gini_ce <- ineq::Gini(df_c$VD5005) # Ceara
gini_br <- ineq::Gini(df$VD5005) # Brasil
paste0("O resultado do índice de Gini do Ceará é: ",
round(gini_ce,3), ", enquanto o do Brasil é: ", round(gini_br,3))## [1] "O resultado do índice de Gini do Ceará é: 0.546, enquanto o do Brasil é: 0.541"
O índice de Gini mede a concentração de renda em uma escala de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade. Segundo os dados, o índice de Gini do Ceará é levemente superior ao brasileiro, porém não grande significativamente para podermos afirmar que o Ceará é mais desigual do que o resto do País.
lorenz <- Lc(df_c$VD5005)
# Plotar a curva de Lorenz
ggplot(data.frame(x = lorenz$p, y = lorenz$L), aes(x = x, y = y)) +
geom_line(color = "blue", size = 1.5, linetype = "dashed") +
geom_abline(intercept = 0, slope = 1, color = "red", size = 1.5) +
ggtitle("Curva de Lorenz da renda no Ceará") +
labs(x = "Percentil da renda", y = "Curva de Lorenz", color = "Linha") +
theme_classic() +
scale_fill_gradient2(low = "green", mid = "yellow", high = "red")lorenz <- Lc(df$VD5005)
# Plotar a curva de Lorenz
ggplot(data.frame(x = lorenz$p, y = lorenz$L), aes(x = x, y = y)) +
geom_line(color = "blue", size = 1.5, linetype = "dashed") +
geom_abline(intercept = 0, slope = 1, color = "red", size = 1.5) +
ggtitle("Curva de Lorenz da renda no Brasil") +
labs(x = "Percentil da renda", y = "Curva de Lorenz", color = "Linha") +
theme_classic() +
scale_fill_gradient2(low = "green", mid = "yellow", high = "red")O índice de Theil-T é uma medida de desigualdade baseada no conceito de entropia de uma distribuição2. O índice de Theil-T varia de 0 a 1, sendo que quanto mais próximo de 1, maior é a desigualdade.
Para calcular o índice de Theil-T no R, você pode usar a função theil
do pacote ineq. Essa função estima e testa a inclinação e a
interceptação de um modelo linear simples, baseado no capítulo 9 do
livro Nonparametric Statistical Methods, 3e, de Hollander, Wolfe e
Chicken
theil_ce <- ineq::ineq(df_c$VD5005, type = "Theil") # Ceara
theil_br <- ineq::ineq(df$VD5005, type = "Theil") # Brasil
paste0("O resultado do índice de Theil-T do Ceará é: ",
round(theil_ce,3), ", enquanto o do Brasil é: ", round(theil_br,3))## [1] "O resultado do índice de Theil-T do Ceará é: 0.545, enquanto o do Brasil é: 0.559"
\[ A(\epsilon) = 1 - \left( \frac{1}{n} \sum^n_{i=1}x_i^{1-\epsilon} \right)^{\frac{1}{1-\epsilon}}\cdot \ \left( \frac{1}{n} \sum_{i=1}^n x_i \right)^{-1} \]
# Definir a função do índice de Atkinson
atkinson <- function(x, eps) {
# x é um vetor de rendas
# eps é o parâmetro de aversão à desigualdade
n <- length(x) # número de pessoas
mu <- mean(x) # renda média
if (eps == 1) {
# caso especial quando eps = 1
A <- 1 - exp(mean(log(x)) - log(mu))
} else {
# caso geral quando eps != 1
A <- 1 - (mean(x^(1 - eps)))^(1/(1 - eps))/mu
}
return(A)
}A função do índice de Atkinson deve ser aplicada aos dados das rendas, escolhendo um valor para o parâmetro de aversão à desigualdade. Esse valor reflete o seu grau de preocupação com a desigualdade: quanto maior o valor, maior a sensibilidade às diferenças nas partes inferiores da distribuição de renda. Você pode escolher qualquer valor positivo para o parâmetro, mas geralmente se usa valores entre 0 e 2. Por exemplo, se você quiser calcular o índice de Atkinson com ϵ=0.5, você pode fazer no R da seguinte forma:
Atk_ce <- atkinson(df_c$VD5005, eps = 0.5) # Ceara
Atk_br <- atkinson(df$VD5005, eps = 0.5) # Brasil
paste0("O resultado do índice de Atkinson do Ceará é: ",
round(theil_ce,3), ", enquanto o do Brasil é: ", round(theil_br,3))## [1] "O resultado do índice de Atkinson do Ceará é: 0.545, enquanto o do Brasil é: 0.559"