Licença

This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

License: CC BY-SA 4.0

Citação

Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Microdados com R: Despesa com alimentação conforme a POF 2017/2018. Campo Grande-MS,Brasil: RStudio/Rpubs, 2021. Disponível em http://rpubs.com/amrofi/microdados_pof.

1 Introdução

Este é um script para estimar as despesas de alimentação para o Brasil, feito conforme o script da <Tabela de Alimentacao.R> disponibilizado pelo IBGE (2020). É preciso executar antes o arquivo “Leitura dos Microdados - R.R” que se encontra no arquivo compactado “Programas_de_Leitura.zip” (IBGE, 2020). Este passo é necessário para gerar os arquivos com a extensao .rds correspondentes aos arquivos dos microdados da POF 2017/2018. Esta rotina está disponibilizada diretamente pelo IBGE em microdados da POF.

2 Dados de despesas com alimentação

# Leitura do REGISTRO - CADERNETA COLETIVA (Questionario POF 3)
caderneta_coletiva <- readRDS("CADERNETA_COLETIVA.rds")

[1] Transformação do código do item (variável V9001) em 5 numeros, para ficar no mesmo padrão dos códigos que constam nos arquivos de tradutores das tabelas. Esses códigos são simplificados em 5 números, pois os 2 últimos números caracterizam sinônimos ou termos regionais do produto. Todos os resultados da pesquisa são trabalhados com os códigos considerando os 5 primeiros números. Por exemplo, tangerina e mexirica têm códigos diferentes quando se consideram 7 números, porém o mesmo código quando se consideram os 5 primeiros números.

[2] Exclusão dos itens do REGISTRO - CADERNETA COLETIVA (POF 3) que não se referem aos alimentos (grupos 86 a 89, ver cadastro de produtos).

[3] Anualização e expansão dos valores utilizados para a obtenção dos resultados (variável V8000_defla).

  1. Para anualizar, utilizamos o quesito "fator_anualizacao". Os valores são anualizados para depois se obter uma média mensal.     
  2. Para expandir, utilizamos o quesito "peso_final".       
  3. Posteriormente, o resultado é dividido por 12 para obter a estimativa mensal.
cad_coletiva <- transform(subset(transform(caderneta_coletiva, codigo = round(V9001/100)  # [1]
), codigo < 86001 | codigo > 89999), valor_mensal = (V8000_DEFLA * FATOR_ANUALIZACAO *
    PESO_FINAL)/12  # [3] 
)
rm(caderneta_coletiva)  # para reduzir o uso da memoria


# Leitura do REGISTRO - DESPESA INDIVIDUAL (Questionario POF 4)

despesa_individual <- readRDS("DESPESA_INDIVIDUAL.rds")

[1] Transformação do código do item (variável V9001) em 5 numeros, para ficar no mesmo padrão dos códigos que constam nos arquivos de tradutores das tabelas. Esses códigos são simplificados em 5 números, pois os 2 últimos números caracterizam sinônimos ou termos regionais do produto. Todos os resultados da pesquisa são trabalhados com os códigos considerando os 5 primeiros números.

[2] Selecao dos itens do REGISTRO - DESPESA INDIVIDUAL (POF 4) que entram na tabela de alimentacao (todos do quadro 24 e codigos 41001,48018,49075,49089).

[3] Anualizacao e expansao dos valores utilizados para a obtenção dos resultados (variável V8000_defla).

  1. Para anualizar, utilizamos o quesito "fator_anualizacao". No caso específico dos quadros 48 e 49,cujas informações se referem a valores mensais, utilizamos também o quesito V9011 (numero de meses). Os valores são anualizados para depois se obter uma média mensal.
  2. Para expandir, utilizamos o quesito "peso_final".     
  3. Posteriormente, o resultado é dividido por 12 para obter a estimativa mensal. 
desp_individual <- subset(transform(despesa_individual, codigo = round(V9001/100)  # [1]
), QUADRO == 24 | codigo == 41001 | codigo == 48018 | codigo == 49075 |
    codigo == 49089)  # [2]

desp_individual <- transform(desp_individual, valor_mensal = ifelse(QUADRO == 24 |
    QUADRO == 41, (V8000_DEFLA * FATOR_ANUALIZACAO * PESO_FINAL)/12, (V8000_DEFLA *
    V9011 * FATOR_ANUALIZACAO * PESO_FINAL)/12)  # [3] 
)
rm(despesa_individual)

[1] Junção dos registros CADERNETA COLETIVA e DESPESA INDIVIDUAL, quem englobam os itens de alimentação.

# As duas tabelas precisam ter o mesmo conjunto de variaveis Identificacao dos
# nomes das variaveis das tabelas a serem juntadas:
nomes_cad <- names(cad_coletiva)
nomes_desp <- names(desp_individual)

# Identificacao das variaveis exclusivas a serem incluidas na outra tabela:
incl_cad <- nomes_desp[!nomes_desp %in% nomes_cad]
incl_desp <- nomes_cad[!nomes_cad %in% nomes_desp]

# Criando uma tabela com NAs das variaveis ausentes em cada tabela
col_ad_cad <- data.frame(matrix(NA, nrow(cad_coletiva), length(incl_cad)))
names(col_ad_cad) <- incl_cad
col_ad_desp <- data.frame(matrix(NA, nrow(desp_individual), length(incl_desp)))
names(col_ad_desp) <- incl_desp

# Acrescentando as colunas ausentes em cada tabela:
cad_coletiva <- cbind(cad_coletiva, col_ad_cad)
desp_individual <- cbind(desp_individual, col_ad_desp)

# Juntando (empilhando) as tabelas com conjuntos de variaveis iguais
junta_ali <- rbind(cad_coletiva, desp_individual)  # [1]

Leitura do REGISTRO - MORADOR, necessário para o cálculo do número de UC’s expandido. Vale ressaltar que este e o único registro dos microdados que engloba todas as UC’s.

Extraindo todas as UC’s do arquivo de morador.

morador_uc <- unique(readRDS("MORADOR.rds")[, c("UF", "ESTRATO_POF", "TIPO_SITUACAO_REG",
    "COD_UPA", "NUM_DOM", "NUM_UC", "PESO_FINAL")  # Apenas variaveis com informacoes das UC's no arquivo 'MORADOR.rds'
])  # Apenas um registro por UC

Calculando o número de UC’s expandido. A cada domicílio é associado um peso_final e este é também associado a cada uma de suas unidades de consumo . Portanto, o total de unidades de consumo (familias) expandido, é o resultado da soma dos pesos_finais a elas associados.

soma_familia <- sum(morador_uc$PESO_FINAL)

[1] Leitura do arquivo de tradutor da tabela de alimentação.

Este tradutor organiza os codigos de produtos pelos diferentes grupos da tabela de alimentação. Os arquivos necessários foram colocados na pasta do projeto.

#
tradutor_alimentacao <- readxl::read_excel("Tradutor_Alimentação.xls")  # [1]

[1] Juntando a base de dados com o tradutor da tabela de alimentação por código.

[2] Deletando as linhas referentes aos códigos que nao tiveram frequência.

merge1 <- merge(junta_ali, tradutor_alimentacao, by.x = "codigo", by.y = "Codigo")  # [1]

merge1 <- merge1[!is.na(merge1$valor_mensal), ]  # [2]

Somando os valores mensais de cada grupo de códigos, segundo cada nivel, conforme consta no tradutor.

soma_final_0 <- aggregate(valor_mensal ~ Nivel_0, data = merge1, sum)
names(soma_final_0) <- c("nivel", "soma")

soma_final_1 <- aggregate(valor_mensal ~ Nivel_1, data = merge1, sum)
names(soma_final_1) <- c("nivel", "soma")

soma_final_2 <- aggregate(valor_mensal ~ Nivel_2, data = merge1, sum)
names(soma_final_2) <- c("nivel", "soma")

soma_final_3 <- aggregate(valor_mensal ~ Nivel_3, data = merge1, sum)
names(soma_final_3) <- c("nivel", "soma")

Empilhando as somas obtidas no passo anterior.

soma_final <- rbind(soma_final_0, soma_final_1, soma_final_2, soma_final_3)  # [1]

Calculando a despesa média mensal de cada grupo de códigos, segundo cada nível, conforme consta no tradutor.

merge2 <- data.frame(soma_final, soma_familia = soma_familia)
merge2 <- transform(merge2, media_mensal = round(soma/soma_familia, 2))

Leitura do arquivo de índice que determina a posição que cada linha deve ficar na tabela final. O arquivo de índice é apenas um arquivo auxiliar, criado para associar os resultados gerados com a ordem de apresentação da tabela de resultados.

indice_alimentacao <- readxl::read_excel("indice_Alimentacao.xls")

# Juntando o arquivo das despesas medias mensais de cada grupo de codigos com o
# arquivo de indice, para organizar os itens da tabela

merge3 <- merge(merge2, indice_alimentacao)
merge3 <- merge3[order(merge3$Indice), c(5, 1, 6, 4)]  # [2]
knitr::kable(merge3)
Indice nivel descricao media_mensal
1 1 0 Alimentacao total 658.23
2 2 1 Alimentação no domicílio 442.27
4 3 101 Cereais, leguminosas e oleaginosas 22.22
28 4 1011 Arroz 12.79
29 5 1012 Feijão 5.92
30 6 1013 Orgânicos 0.03
31 7 1014 Outros 3.48
5 8 102 Farinhas, féculas e massas 15.91
32 9 1021 Macarrão 4.45
33 10 1022 Farinha de trigo 1.29
34 11 1023 Farinha de mandioca 2.41
35 12 1024 Outras 7.75
6 13 103 Tubérculos e raízes 7.17
36 14 1031 Batata inglesa 2.77
37 15 1032 Cenoura 1.17
38 16 1033 Mandioca 0.98
39 17 1034 Outros 2.25
7 18 104 Açúcares e derivados 19.93
40 19 1041 Açúcar refinado 2.11
41 20 1042 Açúcar cristal 2.84
42 21 1043 Light e Diet 0.19
43 22 1044 Outros 14.79
8 23 105 Legumes e verduras 16.05
44 24 1051 Tomate 4.97
45 25 1052 Cebola 2.10
46 26 1053 Alface 1.78
47 27 1054 Outros 7.20
9 28 106 Frutas 23.08
48 29 1061 Banana 5.94
49 30 1062 Laranja 2.37
50 31 1063 Maca 2.35
51 32 1064 Outros 12.42
10 33 107 Carnes, vísceras e pescados 89.42
52 34 1071 Carne de boi de primeira 24.46
53 35 1072 Carne de boi de segunda 16.38
54 36 1073 Carne de suíno 7.61
55 37 1074 Carnes e peixes industrializados 19.35
56 38 1075 Pescados frescos 7.12
57 39 1076 Outros 14.50
11 40 108 Aves e ovos 33.58
58 41 1081 Frango 24.76
59 42 1082 Ovo de galinha 7.18
60 43 1083 Orgânicos 0.11
61 44 1084 Outros 1.53
12 45 109 Leites e derivados 46.93
62 46 1091 Leite de vaca 14.46
63 47 1092 Leite em pó 5.57
64 48 1093 Queijos 12.82
65 49 1094 Light e Diet 0.76
66 50 1095 Orgânicos 0.13
67 51 1096 Outros 13.18
13 52 110 Panificados 45.34
68 53 1101 Pão francês 18.54
69 54 1102 Biscoito 11.89
70 55 1103 Light e diet 0.21
71 56 1104 Outros panificados 14.70
14 57 111 Óleos e gorduras 7.40
72 58 1111 Óleo de soja 4.38
73 59 1112 Azeite de oliva 1.91
74 60 1113 Outros 1.11
15 61 112 Bebidas e infusões 47.02
75 62 1121 Café moído 9.92
76 63 1122 Refrigerantes 12.04
77 64 1123 Bebidas não alcoólicas light e diet 0.37
78 65 1124 Cervejas e chopes 10.04
79 66 1125 Outras bebidas alcoólicas 3.74
80 67 1126 Outras 10.91
16 68 113 Enlatados e conservas 3.89
17 69 114 Sal e condimentos 10.19
81 70 1141 Massa de tomate 0.76
82 71 1142 Maionese 1.02
83 72 1143 Sal refinado 0.50
84 73 1144 Outros 7.91
18 74 115 Alimentos preparados 14.90
19 75 116 Outros 39.24
3 76 2 Alimentação fora do domicílio 215.96
20 77 201 Almoço e jantar 145.97
21 78 202 Café, leite, café/leite e chocolate 2.50
22 79 203 Sanduíches e salgados 18.28
23 80 204 Refrigerantes e outras bebidas não alcoólicas 7.25
24 81 205 Lanches 15.82
25 82 206 Cervejas, chopes e outras bebidas alcoólicas 10.03
26 83 207 Alimentação light e diet 0.12
27 84 208 Outras 16.01
# pronto, o objeto merge 3 tem as despesas de alimentacao por grupos!

O resultado pode ser comparado com a tabela do post de IBGE(2019), reproduzida abaixo, no que diz respeito à Despesa com alimentação total e no domicílio.

Despesa com alimentação, Brasil, POF 2017/2018, de IBGE (2019)

Referências

IBGE, POF 2017-2018: Famílias com até R$ 1,9 mil destinam 61,2% de seus gastos à alimentação e habitação. Rio de Janeiro, 2019. Disponível em: https://agenciadenoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/25598-pof-2017-2018-familias-com-ate-r-1-9-mil-destinam-61-2-de-seus-gastos-a-alimentacao-e-habitacao.

IBGE. Pesquisa de Orçamentos Familiares - POF - Microdados. Rio de Janeiro, 2020. Disponível em: https://www.ibge.gov.br/estatisticas/sociais/habitacao/9050-pesquisa-de-orcamentos-familiares.html?=&t=microdados.

JACOB, Guilherme; PESSOA, Djalma; DAMICO, Anthony. Poverty and Inequality with Complex Survey Data. 2021.

LUMLEY, T. Survey: analysis of complex survey samples. R package version 3.35-1. 2019.

LUMLEY, T. Analysis of complex survey samples. Journal of Statistical Software, 9(1): 1-19. 2004.

PESSOA, Djalma; DAMICO, Anthony; JACOB, Guilherme. convey: Income Concentration Analysis with Complex Survey Samples. R package version 0.2.3. 2021.

end.time <- Sys.time()
time.taken <- end.time - start.time
time.taken
Time difference of 35.99792 secs
