Abstract
This is an undergrad student level instruction for class use.This work is licensed under the Creative Commons Attribution-ShareAlike 4.0 International License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/4.0/ or send a letter to Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.
License: CC BY-SA 4.0
Sugestão de citação: FIGUEIREDO, Adriano Marcos Rodrigues. Tópicos de econometria: tipos de datasets. Campo Grande-MS,Brasil: RStudio/Rpubs, 2019. Disponível em http://rpubs.com/amrofi/TS_dataset_types.
Neste material, pretende-se discutir os conceitos essenciais para entendimento dos métodos mais avançados em três eixos econométricos: séries temporais; dados em painel; microdados de amostra complexa. Neste sentido, partindo da teoria econômica para sua análise aplicada com instrumentos da matemática e estatística, tem-se a econometria com diferentes estruturas de dados econômicos. Os dados serão associados às variáveis detectadas nesta teoria. Ao passar para a linguagem matemática, compõe-se o que chamamos de modelo analítico ou modelo operacional ou ainda modelo econométrico.
As variáveis podem ser quantitativas ou qualitativas. Os dados a ela associados, portanto, poderão ter diferentes características, diferenciando-se entre séries temporais, de seção cruzada, ou combinação entre estes dois tipos.
Podem-se ter dados de uma variável acompanhada no tempo, ou seja, o que se chama de série temporal como no gráfico do índice do PIB nominal de Campo Grande - MS, 2002-2016 (SCN 2010), dados anuais em valores correntes, na Figura 1.
# Produto Interno Bruto Tabela 5938 - Produto interno bruto a preços
# correntes, impostos, líquidos de subsídios, sobre produtos a preços
# correntes e valor adicionado bruto a preços correntes total e por
# atividade econômica, e respectivas participações - Referência 2010
# http://api.sidra.ibge.gov.br/values/t/5938/n6/5002704/v/37/p/all/d/v37%200
# na primeira vez, baixei o arquivo e depois fiz o dput() os dados estão
# colocados abaixo como na estrutura do dput()
library(sidrar)
tabela5938 = get_sidra(api = "/t/5938/n6/5002704/v/37/p/all/d/v37%200")
tabela5938 <- structure(list(`Município (Código)` = c("5002704", "5002704",
"5002704", "5002704", "5002704", "5002704", "5002704", "5002704", "5002704",
"5002704", "5002704", "5002704", "5002704", "5002704", "5002704"), Município = c("Campo Grande - MS",
"Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS",
"Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS",
"Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS", "Campo Grande - MS",
"Campo Grande - MS", "Campo Grande - MS"), `Variável (Código)` = c("37",
"37", "37", "37", "37", "37", "37", "37", "37", "37", "37", "37", "37",
"37", "37"), Variável = c("Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes", "Produto Interno Bruto a preços correntes",
"Produto Interno Bruto a preços correntes"), `Ano (Código)` = c("2002",
"2003", "2004", "2005", "2006", "2007", "2008", "2009", "2010", "2011",
"2012", "2013", "2014", "2015", "2016"), Ano = c("2002", "2003", "2004",
"2005", "2006", "2007", "2008", "2009", "2010", "2011", "2012", "2013",
"2014", "2015", "2016"), `Unidade de Medida (Código)` = c("40", "40", "40",
"40", "40", "40", "40", "40", "40", "40", "40", "40", "40", "40", "40"),
`Unidade de Medida` = c("Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais",
"Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais",
"Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais", "Mil Reais"), Valor = c(4880175,
5941010, 6694780, 7388250, 8532845, 9592347, 11170084, 12743870, 15089120,
17619330, 19158167, 20729779, 23823064, 24200572, 25437928)), row.names = 2:16,
class = "data.frame")
pib_cg <- ts(I(tabela5938$Valor/1e+06), start = c(2002), frequency = 1)
library(dygraphs)
presAnnotation <- function(dygraph, x, text) {
dygraph %>% dyAnnotation(x, text, attachAtBottom = TRUE, width = 60)
}
# dygraph(pib_cg, main = 'Produto Interno Bruto a preços correntes, Campo
# Grande-MS, 2002-2016', xlab = 'Ano', ylab = 'Bilhões de Reais (R$)')
dygraph(pib_cg, main = "Produto Interno Bruto a preços correntes,
Campo Grande-MS, 2002-2016",
xlab = "Ano", ylab = "Bilhões de Reais (R$)") %>% dyAxis("x", drawGrid = TRUE) %>%
dySeries("V1") %>% dyOptions(colors = RColorBrewer::brewer.pal(3, "Set1"),
drawPoints = TRUE, pointSize = 2, pointShape = c("pentagon"), drawGrid = TRUE) %>%
dyShading(from = "2002-01-01", to = "2006-01-01") %>% dyShading(from = "2010-01-01",
to = "2014-01-01") %>% presAnnotation("2006-01-01", text = "2006") %>% presAnnotation("2014-01-01",
text = "2014")
Fonte: Dados do IBGE. Elaboração do autor.
Outro exemplo é o preço de uma ação ou a renda de um indivíduo pode ser acompanhada semanalmente, ou mensalmente ou anualmente, e neste caso procura-se avaliar as alterações desta no tempo, ou a dinâmica da série. Neste caso, não se trata de uma amostra aleatória, embora o pesquisador deva ter argumentos para a escolha do período analisado. As investigações das relações entre séries temporais têm ocupado vasto espaço na literatura econométrica recente, preocupando-se principalmente com a possibilidade de relações espúrias, quando a relação decorre do comportamento temporal (tendência e sazonalidade) e não precisamente do efeito entre as variáveis, dando origem aos modelos autoregressivos, médias móveis e outros a serem desenvolvidos mais a frente. Uma forma geralmente utilizada é a da explicação do comportamento futuro olhando os acontecimentos passados, ou seja, prever valores futuros das séries com base em seus próprios valores já ocorridos. Um exemplo comum em análise de séries temporais é a análise de dados do mercado de ações, como o indicador da Bolsa de Valores oficial do Brasil, a B3, que surge após a fusão da Bolsa de Valores, Mercadorias e Futuros de São Paulo (BM&FBOVESPA) com a Central de Custódia e de Liquidação Financeira de Títulos (CETIP), aprovada pela Comissão de Valores Mobiliários (CVM) e pelo Conselho Administrativo de Defesa Econômica (CADE) em 22 de março de 2017.
Alguns dados podem estar relacionados a um mesmo período de tempo, para diferentes indivíduos, empresas, regiões. Neste caso, dá-se o nome de séries de seção cruzada. Cada observação é um novo indivíduo, firma ou município com informação em um ponto no tempo. A ordem nesse caso não é uma informação obrigatória, diferentemente de dados ordenados no tempo. São típicos os casos de dados municipais, como o PIB dos municípios de Mato Grosso do Sul para um dado ano. Nestes dados, em geral se preocupa com a variabilidade entre as unidades da série, ou seja, entre os municípios. A amostra pode ser aleatória ou não, dependendo das características como os dados foram coletados.
# PIB dos municípios de Mato Grosso do Sul, 2016
library(sidrar)
tabela5938all = get_sidra(api = "/t/5938/n6/5000708,5001102,5003207,5005202,5005608,5006903,5002605,5003306,5006408,5007406,5001003,5002902,5004403,5006309,5000906,5002100,5002209,5002803,5004106,5005004,5005806,5001508,5002704,5003108,5004908,5005400,5007109,5007208,5007307,5007505,5007901,5008008,5000203,5002308,5008305,5000609,5000807,5001904,5002001,5002407,5003702,5003801,5004007,5004304,5004502,5004700,5005103,5005707,5006200,5006606,5002159,5003256,5007695,5007935,5002951,5003488,5007554,5007802,5003504,5004601,5005152,5007703,5007950,5007976,5008404,5003157,5006358,5000856,5001243,5003454,5003751,5005681,5000252,5004809,5005251,5006002,5006259,5003900,5006275/v/37/p/2016/d/v37%200")
# Para simplificar, separamos aqui apenas o valor e a identificação do
# município, em R$ Mil correntes do ano de 2016
# tabela5938all<-cbind.data.frame(tabela5938all$Município,tabela5938all$Valor)
dados_sc <- structure(list(Município = structure(c(4L, 9L, 26L, 48L, 51L, 63L,
19L, 28L, 61L, 67L, 8L, 22L, 39L, 59L, 7L, 14L, 16L, 21L, 37L, 45L, 54L,
11L, 20L, 24L, 44L, 50L, 64L, 65L, 66L, 68L, 73L, 77L, 1L, 17L, 78L, 3L,
5L, 12L, 13L, 18L, 32L, 34L, 36L, 38L, 40L, 42L, 46L, 53L, 56L, 62L, 15L,
27L, 70L, 74L, 23L, 30L, 69L, 71L, 31L, 41L, 47L, 72L, 75L, 76L, 79L, 25L,
60L, 6L, 10L, 29L, 33L, 52L, 2L, 43L, 49L, 55L, 57L, 35L, 58L), .Label = c("Água Clara - MS",
"Alcinópolis - MS", "Amambai - MS", "Anastácio - MS", "Anaurilândia - MS",
"Angélica - MS", "Antônio João - MS", "Aparecida do Taboado - MS", "Aquidauana - MS",
"Aral Moreira - MS", "Bandeirantes - MS", "Bataguassu - MS", "Batayporã - MS",
"Bela Vista - MS", "Bodoquena - MS", "Bonito - MS", "Brasilândia - MS",
"Caarapó - MS", "Camapuã - MS", "Campo Grande - MS", "Caracol - MS", "Cassilândia - MS",
"Chapadão do Sul - MS", "Corguinho - MS", "Coronel Sapucaia - MS", "Corumbá - MS",
"Costa Rica - MS", "Coxim - MS", "Deodápolis - MS", "Dois Irmãos do Buriti - MS",
"Douradina - MS", "Dourados - MS", "Eldorado - MS", "Fátima do Sul - MS",
"Figueirão - MS", "Glória de Dourados - MS", "Guia Lopes da Laguna - MS",
"Iguatemi - MS", "Inocência - MS", "Itaporã - MS", "Itaquiraí - MS", "Ivinhema - MS",
"Japorã - MS", "Jaraguari - MS", "Jardim - MS", "Jateí - MS", "Juti - MS",
"Ladário - MS", "Laguna Carapã - MS", "Maracaju - MS", "Miranda - MS", "Mundo Novo - MS",
"Naviraí - MS", "Nioaque - MS", "Nova Alvorada do Sul - MS", "Nova Andradina - MS",
"Novo Horizonte do Sul - MS", "Paraíso das Águas - MS", "Paranaíba - MS",
"Paranhos - MS", "Pedro Gomes - MS", "Ponta Porã - MS", "Porto Murtinho - MS",
"Ribas do Rio Pardo - MS", "Rio Brilhante - MS", "Rio Negro - MS", "Rio Verde de Mato Grosso - MS",
"Rochedo - MS", "Santa Rita do Pardo - MS", "São Gabriel do Oeste - MS",
"Selvíria - MS", "Sete Quedas - MS", "Sidrolândia - MS", "Sonora - MS",
"Tacuru - MS", "Taquarussu - MS", "Terenos - MS", "Três Lagoas - MS", "Vicentina - MS"),
class = "factor"), Valor = c(412378, 878711, 2629783, 277059, 462898, 311510,
395051, 816656, 204148, 426176, 893501, 521351, 245250, 1170898, 200144,
480969, 634985, 117012, 220609, 532370, 250413, 323594, 25437928, 107721,
265960, 2312861, 915367, 2202890, 93805, 175639, 1505898, 461939, 1117992,
486624, 9234693, 877582, 213340, 746255, 344660, 1249615, 7826585, 403568,
173108, 398873, 651353, 1034381, 255083, 1505526, 1825653, 2586227, 196481,
1493811, 1546040, 620157, 1498470, 193574, 400668, 1980411, 114882, 616539,
272366, 212280, 191659, 108408, 209152, 182821, 164972, 627506, 582036,
245701, 324688, 430165, 157013, 103002, 409422, 1427346, 159891, 95802,
483953)), class = "data.frame", row.names = c(NA, -79L))
plot(I(dados_sc$Valor/1e+06), main = "PIB dos municípios de Mato Grosso do Sul em 2016",
ylab = "Bilhões de Reais", xlab = "Município")
Os dados podem ainda relacionar os dois tipos anteriores, ou seja, dados de diferentes unidades ou indivíduos acompanhados para diferentes períodos de tempo, originando o que se chama de combinação de séries temporais e seção cruzada (STSC), ou dados longitudinais. Como exemplo, pode-se ter uma amostra de consumidores de Mato Grosso do Sul como no caso da Pesquisa Nacional de Amostragem por Domicílio (PNAD) conduzida pelo IBGE, cujos detalhes do consumo são investigados anualmente. Neste caso, a preocupação é tanto na variabilidade entre indivíduos como na dinâmica ou no comportamento temporal de cada indivíduo. No caso de se ter os mesmos indivíduos nos mesmos períodos de tempo, tem-se a especificidade de uma combinação STSC chamada “painel”. Um dos ganhos em trabalhar com dados em painel é a possibilidade da análise cruzada dos dados.
A análise de combinações de seção cruzada e série temporal auxilia no exame da dinâmica e efeito do tempo sobre os dados analisados, proporciona um maior número de observações, bem como mais variabilidade, aumento dos graus de liberdade e eficiência dos parâmetros estimados, redução da colinearidade/multicolinearidade e manutenção da heterogeneidade, o que evita a apuração de resultados enviesados (BALESTRA; NERLOVE, 1966, citados por Gujarati and Porter (2011)). Alia portanto, a vantagem dos dados em seção cruzada, com a vantagem da dinâmica temporal.
O “painel” poderá ser balanceado ou desbalanceado, no sentido de que se pode ter quantidades diferentes de indivíduos a cada período de tempo no caso desbalanceado, ou iguais quantidades em todos os períodos de tempo, no caso do painel balanceado.
Um exemplo típico de painel é o apresentado por Greene (2003), ou Greene (2012): Example 14.1, com dados de Grunfeld Investment Data, disponível em http://people.stern.nyu.edu/wgreene/Text/Edition7/TableF13-1.txt, para 200 observações de 10 firmas nos anos entre 1935 e 1954, disponível também no pacote systemfit
e no plm
. São dados de:
- firm = indicador da firma, 1 a 10;
- year = indicador do ano, 1935 a 1954;
- inv = investimento bruto, da Moody's Industrial Manual e relatórios corporativos anuais;
- value = Valor da firma do "Bank and Quotation Record" e do Moody's Industrial Manual; e,
- capital = Capital e equipamentos da firma, da Survey of Current Business.
Greene, William H. 2012. Econometric Analysis. Prentice Hall/Pearson Education.
Gujarati, Damodar N., and Dawn C. Porter. 2011. Econometria Básica. AMGH/Bookman/McGraw-Hill do Brasil.
Tsay, Ruey S. 2014. An Introduction to Analysis of Financial Data with R. John Wiley & Sons.
Wooldridge, Jeffrey M. 2015. Introductory Econometrics - A Modern Approach. Nelson Education.