O presente post refere-se a um trabalho de análise da complexidade econômica do MS a partir dos dados do emprego. Este trabalho foi desenvolvido na disciplina de Economia Regional e Urbana com a orientação do Prof. Dr. Adriano Figueiredo (e-mail: )

Os dados usados e os resultados obtidos podem ser encontrados e baixados em um repositório no GitHub (caso o link dê algum erro tente clicar nele com o botão direito do mouse para, em seguida, clicar em “Abrir link em nova guia”).

1 Introdução

Diversos teóricos clássicos do desenvolvimento ressaltam o papel importante da estrutura produtiva no processo de desenvolvimento econômico (ROSENSTEIN-RODAN, 1943; LEWIS, 1955; HIRSCHMAN, 1958; PREBISCH, 1962; KUZNETS, 1966; KALDOR, 1966; FURTADO, 1964). Em outras palavras, na academia, há uma literatura madura que descreve como que a mudança das dinâmicas inter e intra setoriais afetam qualitativamente o plano econômico. Nesse sentido, o trabalho dos pesquisadores Hausmann et al. (2013) sintetizaram tal bagagem teórica em um métodolo de cálculo do que eles passaram a chamar de complexidade econômica. Assim, criou-se, a partir do índice de vatagens comparativas reveladas (VCR) desenvolvido por Balassa (1965), métricas de complexidade e de análise do produto-espaço, como por exeplo o índice de complexisdade econômica (ICE) (HIDALGO; HAUSMANN, 2009; HAUSMANN et al., 2013). Em suma, segundo Hausmann et al.(2013) a complexidade econômica provou ser uma métrica importante para compreender a disparidade no nível de renda entre diversas economias e, em alguns casos, até provou ser um forte preditor do futuro crescimento do PIB.

Originalmente, Hausmann et al.(2013) propõem esta metodologia de análise da complexidade em um âmbito global a partir de dados do comércio internacional. Não obstante, o presente trabalho apoia-se na proposta de Silva Junior et al. (2019), a qual adapta os indicadores de complexidade para a análise regional ao usar dados do emprego. Diante dsso, utilizou-se, para a análise da complexidade econômica do MS, dados da RAIS vincúlo distribuídos entre os setores delimitados pelas classes CNAE 2.0 entre o ano de 2006 e 2022.

2 Puxando os pacotes

#PACOTES USADOS 
{
  library(readxl)  # para ler excel xlsx e xls
  library(psych)
  library(knitr)
  library(tidyverse)  # para trabalhar dados com tibble
  library(ggplot2)  # para fazer plots e mapas
  library(writexl) # para gerar xlsx ou xls
  library(EconGeo)  # para a maioria dos indicadores regionais
  library(REAT)  # para alguns indicadores regionais
  library(inspectdf)  # para inspecionar dataframes
  library(geobr)  # para baixar shapes brasileiros, para mapas
  library(ggspatial) # para colocar norte e escala nos mapas
  library(sf)   # para fazer mapas
  library(DT)   #para exposição dos dados
}
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.1.0     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ ggplot2::%+%()   masks psych::%+%()
## ✖ ggplot2::alpha() masks psych::alpha()
## ✖ dplyr::filter()  masks stats::filter()
## ✖ dplyr::lag()     masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
## 
## Please cite EconGeo in publications as: 
## 
## 
##  Balland, P.A. (2017) Economic Geography in R: Introduction to the EconGeo Package, Papers in Evolutionary Economic Geography, 17 (09): 1-75 
## 
## 
## 
## Anexando pacote: 'REAT'
## 
## 
## Os seguintes objetos são mascarados por 'package:EconGeo':
## 
##     gini, rca
## 
## 
## O seguinte objeto é mascarado por 'package:readr':
## 
##     spec
## 
## 
## O seguinte objeto é mascarado por 'package:psych':
## 
##     mssd
## 
## 
## Carregando namespace exigido: sf
## 
## Linking to GEOS 3.13.1, GDAL 3.11.0, PROJ 9.6.0; sf_use_s2() is TRUE

3 Criando funções

Devido ao grande número de datasets usados, visto que para cada ano entre 2006 e 2022 há um dataset diferente, foram construídas 6 funções para otimizar o script. Vale ressaltar que a função 2 corrigir_CNAE() foi criada para resolver um problema atrelado ao painel de dados. Em suma, entre os 79 municípios do MS, o município Paríso das Águas surgiu em 2013 a partir de 3 outros municípios, isto é Água Clara, Chapadão do Sul e Costa Rica. Assim, no dataset original não há o município Paraíso das Águas antes de 2013, mas, para padronizar o painel de dados, este município foi simulado nos períodos ausentes.

###############################Funções Utilizadas###############################

# 1. Função para ler os CNAEs de 2006 a 2022 e armazenar em uma lista
ler_dados_CNAE <- function(arquivo, anos) {
  lista_dados <- list()  # Inicializando uma lista vazia para armazenar cada dataframe
  for (ano in anos) {  # Loop pelos anos especificados
    nome_sheet <- paste0("CNAE_", ano)  # Definindo o nome do sheet com base no ano atual
    lista_dados[[nome_sheet]] <- read_excel(arquivo, sheet = nome_sheet)  # Lendo o sheet e armazenando na lista
  }
  return(lista_dados)  # Retornando a lista com todos os dataframes
}

# 2. Função para corrigir dados de Paraiso das Aguas, Agua Clara, Costa Rica e Chapadao do Sul
corrigir_CNAE <- function(lista_dados, anos) {
  lista_dados_corrigidos <- list()  # Inicializando uma lista vazia para armazenar os dataframes corrigidos com seus nomes
  for (i in 1:length(lista_dados)) {  # Loop pelos dataframes na lista
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    
    if (i <= 7) {  # Verifica se i é menor ou igual a 7
      df_correcao <- df[1:79, 2:677]  # Selecionando as linhas e colunas conforme o código original
      df_novo <- df_correcao
      df_novo[1, ] <- (1 - 0.335) * df_correcao[1, ]  # Modificar a linha 1 com o fator (1 - 0.335)
      df_novo[23, ] <- (1 - 0.186) * df_correcao[23, ]  # Modificar a linha 23 com o fator (1 - 0.186)
      df_novo[27, ] <- (1 - 0.479) * df_correcao[27, ]  # Modificar a linha 27 com o fator (1 - 0.479)
      df_novo[58, ] <- 0.335 * df_correcao[1, ] + 0.186 * df_correcao[23, ] + 0.479 * df_correcao[27, ]  # Calcular a combinação ponderada para a linha 58
    } else {
      df_novo <- df[1:79, 2:677]   # Se i for maior que 7, apenas copia o dataframe original
    }
    
    nome_dataframe <- paste0("CNAE_", anos[i])  # Gerar um nome para o dataframe
    lista_dados_corrigidos[[nome_dataframe]] <- df_novo  # Armazenando o dataframe (corrigido ou original) na lista com o nome gerado
  }
  return(lista_dados_corrigidos)  # Retornando a lista com os dataframes corrigidos ou originais
}

# 3. Função para calcular Diversidade para os estados do MS de 2006 a 2022
calcular_Diversidade <- function(lista_dados, anos, mun) {
  lista_Div <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("Div_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_Div[[nome_df]] <- as.data.frame(diversity(df, rca = TRUE))  # Aplicar a função 'diversity' ao dataframe, calculando o Diversidade
    lista_Div[[nome_df]] <- cbind(mun, lista_Div[[nome_df]])  # Adicionar a variável 'mun' como uma nova coluna ao dataframe resultante
    colnames(lista_Div[[nome_df]])[2] <- "Diversidade" # Renomeando apenas a segunda coluna
  }
  return(lista_Div)  # Retornando a lista com os dataframes corrigidos
}

# 4. Função para calcular Ubiquidade para os estados do MS de 2006 a 2022
calcular_Ubiquidade <- function(lista_dados, anos) {
  lista_Ubi <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("Ubi_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_Ubi[[nome_df]] <- as.data.frame(ubiquity(df, rca = TRUE))  # Aplicar a função 'ubiquity' ao dataframe, calculando o Ubiquidade
    colnames(lista_Ubi[[nome_df]])[1] <- "Ubiquidade" # Renomeando apenas a segunda coluna
  }
  return(lista_Ubi)  # Retornando a lista com os dataframes corrigidos
}

# 5. Função para criar o Indice de Complexidade Economica Para os estados do MS de 2006 a 2022
calcular_ICE <- function(lista_dados, anos, mun) {
  lista_ICE <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("ICE_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_ICE[[nome_df]] <- as.data.frame(morc(df, rca = TRUE))  # Aplicar a função 'morc' ao dataframe, calculando o ICE
    lista_ICE[[nome_df]] <- cbind(mun, lista_ICE[[nome_df]])  # Adicionar a variável 'mun' como uma nova coluna ao dataframe resultante
    colnames(lista_ICE[[nome_df]])[2] <- "ICE" # Renomeando apenas a segunda coluna
  }
  return(lista_ICE)  # Retornando a lista com os dataframes corrigidos
}

# 6. Função para consolidar dados de ICE de diferentes anos em um único DataFrame
consolidar_ICE <- function(lista_ICE, anos) {
  dados_ICE <- list()  # Inicializando uma lista vazia para armazenar os dados de ICE de cada ano
  for (i in seq_along(lista_ICE)) {
    dados_ICE[[i]] <- lista_ICE[[i]][, "ICE"]  # Extrai a coluna "ICE" do DataFrame atual e adiciona à lista de dados_ICE
  }
  df_ICE_consolidado <- do.call(cbind, dados_ICE)  # Combina os dados em um único DataFrame e define os nomes das colunas como os anos
  colnames(df_ICE_consolidado) <- anos  # Define os nomes das colunas como os anos fornecidos
  return(df_ICE_consolidado)
}

4 Extração e organização dos dados

Os dados usados foram extraídos a partir do Programa de Disseminação das Estatísticas do Trabalho (PDET) do Ministério do Trabalho e Emprego e foram agrupados em uma planilha Excel em que cada aba do arquivo .xlsx foi reservado com um dado ano da base de dados.

##########################Complexidade Economia do MS###########################

# Definindo o arquivo e os anos
arquivo <- "DADOS_CNAE.xlsx"
anos <- 2006:2022

# Chamando a função para ler o excel
CNAE <- ler_dados_CNAE(arquivo, anos)

#Visualizacao das tabelas
print(CNAE$CNAE_2006)
## # A tibble: 80 × 678
##    `Município-Mato Grosso do Sul` `Cultivo de cereais` Cultivo de algodão herb…¹
##    <chr>                                         <dbl>                     <dbl>
##  1 MS-AGUA CLARA                                     1                         0
##  2 MS-ALCINOPOLIS                                    0                         0
##  3 MS-AMAMBAI                                        3                         0
##  4 MS-ANASTACIO                                      2                         0
##  5 MS-ANAURILANDIA                                   0                         0
##  6 MS-ANGELICA                                       2                         0
##  7 MS-ANTONIO JOAO                                   0                         0
##  8 MS-APARECIDA DO TABOADO                           0                         0
##  9 MS-AQUIDAUANA                                     0                         0
## 10 MS-ARAL MOREIRA                                   1                         0
## # ℹ 70 more rows
## # ℹ abbreviated name:
## #   ¹​`Cultivo de algodão herbáceo e de outras fibras de lavoura temporária`
## # ℹ 675 more variables: `Cultivo de cana-de-açúcar` <dbl>,
## #   `Cultivo de fumo` <dbl>, `Cultivo de soja` <dbl>,
## #   `Cultivo de oleaginosas de lavoura temporária, exceto soja` <dbl>,
## #   `Cultivo de plantas de lavoura temporária não especificadas anteriormente` <dbl>, …

Após a extração dos dados, faz-se necessária a correção da linha com o municípios Paraíso das Águas, que foi criado oficialmente em 2013.

# Salvando o nome dos Municipios
Mun <- CNAE$CNAE_2006[1:79, 1] %>%
  separate("Município-Mato Grosso do Sul", into = c("Estado", "Municípios do MS"), sep = "-") %>%
  select("Municípios do MS")

# Visualizarcao dos nomes do municipios
print(Mun)
## # A tibble: 79 × 1
##    `Municípios do MS`  
##    <chr>               
##  1 AGUA CLARA          
##  2 ALCINOPOLIS         
##  3 AMAMBAI             
##  4 ANASTACIO           
##  5 ANAURILANDIA        
##  6 ANGELICA            
##  7 ANTONIO JOAO        
##  8 APARECIDA DO TABOADO
##  9 AQUIDAUANA          
## 10 ARAL MOREIRA        
## # ℹ 69 more rows
#Chamando funcao para corrigir as tabelas
CNAE_corrigido <- corrigir_CNAE(CNAE,anos)

#Visualizacao do CNAE_corrigido
DT::datatable(CNAE_corrigido$CNAE_2006, options = list(pageLength = 5))

5 Calculando os indicadores

Neste trabalho serão calculados três indicadores. Serão eles a diversidade, a ubiquidade e o índice de complexidade econômica.

5.1 Diversidade

A diversidade equivale ao número de setores em que o município possui vantagem comparativas reveladas (VCR). Em suma, as economias mais diversificadas tendem a ser mais complexas.

# Chamando a função para calcular o Diversidade
Div <- calcular_Diversidade(CNAE_corrigido, anos, Mun)

Diversidade - 2006

DT::datatable(Div$Div_MS_2006, options = list(pageLength = 5))

Diversidade - 2014

DT::datatable(Div$Div_MS_2014, options = list(pageLength = 5))

Diversidade - 2022

DT::datatable(Div$Div_MS_2022, options = list(pageLength = 5))

A partir destes três anos é possível verificar a evolução da diversidade dos municípios.

5.2 Ubiquidade

A ubiquidade é uma medidade de quantas cidades possuem cada setor. Em outras palavras, a ubiqidade mede o quão comum é cada setor. Em geral, economias que possuem dotação em setores poucos ubiquos são mais complexos.

# Chamando a função para calcular o Ubiquidade
Ubi <- calcular_Ubiquidade(CNAE_corrigido, anos)

Ubiquidade - 2006

DT::datatable(Ubi$Ubi_MS_2006, options = list(pageLength = 5))

Ubiquidade - 2014

DT::datatable(Ubi$Ubi_MS_2014, options = list(pageLength = 5))

Ubiquidade - 2022

DT::datatable(Ubi$Ubi_MS_2022, options = list(pageLength = 5))

A partir deste três anos é possível observar a evonlução da ubiquidade dos setores.

5.3 Índice de Complexidade Econômica

Para calcular a complexidade são usados os dados da diversidade e da ubiquidade, mas o R possui rotinas especializadas para calcular este indicador automaticamente.

# Chamando a função para calcular o ICE 
ICE <- calcular_ICE(CNAE_corrigido, anos, Mun)

# Chamando a função para consolidar os ICEs de todos os anos em apenas um dataframe
ICE_consolidado <- consolidar_ICE(ICE, anos)
ICE_consolidado <- cbind(Mun,ICE_consolidado)

# Baixar o ICE_consolidade em uma planilha
writexl::write_xlsx(as.data.frame(ICE_consolidado),path = "ICE.xlsx")

# Visualizar os ICEs
DT::datatable(ICE_consolidado, options = list(pageLength = 5))

Vale ressaltar que foram calculados Índice de Complexidade Econômica normalizadas, em uma escala em que o valor máximo é 100 e o valor mínimo é 0. Desssa forma, tem-se a complexidade relativa dos municípios para cada ano.

6 Análise da complexidade

6.1 Estatística descritiva

# Estatísticas descritivas
tabela_descr <- describe(ICE_consolidado)

# Mostrando a tabela no R Markdown
kable(tabela_descr, digits = 2, caption = "Estatísticas Descritivas por Ano")
Estatísticas Descritivas por Ano
vars n mean sd median trimmed mad min max range skew kurtosis se
Municípios do MS* 1 79 40.00 22.95 40.00 40.00 29.65 1 79 78 0.00 -1.25 2.58
2006 2 79 13.40 11.96 11.90 12.08 5.75 0 100 100 4.84 32.16 1.35
2007 3 79 12.73 12.01 10.75 11.41 6.45 0 100 100 4.85 32.54 1.35
2008 4 79 12.40 11.84 10.52 10.93 5.56 0 100 100 5.19 35.27 1.33
2009 5 79 19.49 11.83 18.72 18.22 7.13 0 100 100 4.02 24.74 1.33
2010 6 79 13.98 12.15 11.31 12.53 6.30 0 100 100 4.54 29.10 1.37
2011 7 79 15.63 12.49 13.54 14.12 5.55 0 100 100 4.05 24.03 1.41
2012 8 79 22.36 13.93 19.95 20.66 8.53 0 100 100 2.61 11.05 1.57
2013 9 79 31.14 13.87 29.38 29.61 10.20 0 100 100 1.95 6.98 1.56
2014 10 79 21.03 15.66 18.23 19.21 11.82 0 100 100 2.10 7.32 1.76
2015 11 79 20.16 14.00 17.69 18.54 8.65 0 100 100 2.73 12.07 1.58
2016 12 79 20.17 14.34 18.48 18.55 9.99 0 100 100 2.54 10.87 1.61
2017 13 79 20.79 16.04 17.83 19.10 13.01 0 100 100 1.97 6.55 1.80
2018 14 79 18.30 14.42 16.29 16.65 10.40 0 100 100 2.58 11.31 1.62
2019 15 79 20.59 15.83 17.32 18.61 13.19 0 100 100 2.20 7.45 1.78
2020 16 79 19.18 14.51 16.29 17.35 11.41 0 100 100 2.59 10.84 1.63
2021 17 79 20.91 14.16 18.16 19.14 10.95 0 100 100 2.63 11.07 1.59
2022 18 79 21.13 13.32 18.08 19.52 8.73 0 100 100 2.95 13.97 1.50

6.2 Histogramas

Os dados podem ser visualizados graficamente por meio de histogramas, essa forma de visualização é interessante para mostrar a dispersão dos dados. A partir destes gráficos, percebe-se que ao longo do período observado houve uma tendência de convergência da complexidade, visto que a disparidade de complexidade entre a capital Campo Grande, que possui a máxima complexidade relativa, diminuiu em relação ao resto do estado.

Histograma de 2006

##visualização gráfica dos dados
hist(ICE$ICE_MS_2006$ICE,
     main = "Histograma do ICE de 2006",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2006$ICE), max(ICE$ICE_MS_2006$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa

Histograma de 2014

##visualização gráfica dos dados
hist(ICE$ICE_MS_2014$ICE,
     main = "Histograma do ICE de 2014",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2014$ICE), max(ICE$ICE_MS_2014$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa

Histograma de 2022

##visualização gráfica dos dados
hist(ICE$ICE_MS_2022$ICE,
     main = "Histograma do ICE de 2022",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2022$ICE), max(ICE$ICE_MS_2022$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa

6.3 Mapas do MS

Por último, pode-se visualizar a complexidade do MS por meio do uso de mapas.

Primeiro, para tal, é necessário ter um objeto com os municípios e as suas respectivas coordenadas.

all_mun_ms <- read_municipality(code_muni=50, year=2022)
## Using year/date 2022

Em seguida, é necessário juntar as coordenadas dos municípios com os seus respectivos Índices de Complexidade Econômica em um único objeto. Como a ordem dos municípios é coincidentemente a mesma nos dois objetos, pode-se apenas fazer isso apenas usando a rotina cbind()

ICE_mapas <- cbind(all_mun_ms,ICE_consolidado)

Mapa de 2006

ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2006), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2006",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()

Mapa de 2014

ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2014), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2014",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()

Mapa de 2022

ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2022), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2022",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()

7 Conclusão

Com todos os indicadores e dados à disposição percebe-se uma grande discrepância entre a capital Campo Grande, que permanece como o município mais complexo, e o resto do estado. Todavia, percebe-se que ao longo dos anos analisados, isto é entre 2006 e 2022, houve uma tendência de convergência da estrutura produtiva do MS que está atrelado a um aumneto da média do Índice de Complexidade Econômica, indo de 13,40 em 2006 para 21,13 em 2022. Outrossim, a importância destes dados está no seu poder de evidenciar quais são os municípios que estão relativamente mais atrasados estruturalmente. Informações como esta, são importantes istrumentos para a análise e para o desenho do desenvolvimento da economia regional.

8 Referências

SILVA JUNIOR, Ernani de Almeida; FAGUNDES, Mayra Batista Bitencourt; FIGUEIREDO, Adriano Marcos Rodrigues; MACHADO, João Victor. Complexidade econômica regional: uma abordagem a partir de dados de emprego regional. In: CONGRESSO DA SOBER, 57., 2019, Ilhéus. Anais […]. Ilhéus: SOBER, 2019.

ROSENSTEIN‑RODAN, P. N. Problemas de industrialização da Europa oriental e sud-oriental. In: AGARWALA, A. N.; SINGH, S. P. (Orgs.). A economia do subdesenvolvimento. [S.l.]: [s.n.], 1943.

LEWIS, W. A. The Theory of Economic Growth. London: Allen & Unwin Ltd., 1955.

HIRSCHMAN, A. O. The Strategy of Economic Development. New Haven (CT): Yale University Press, 1958.

PREBISCH, R. The Economic Development of Latin America and Its Principal Problems. Economic Bulletin for Latin America, n. 7, p. 1–22, 1962.

KUZNETS, S. Modern Economic Growth: Rate, Structure, and Spread. New Haven and London: Yale University Press, 1966.

KALDOR, N. Causes of the Slow Rate of Economic Growth of the United Kingdom. Cambridge: Cambridge University Press, 1966.

FURTADO, C. Dialética do desenvolvimento. Rio de Janeiro: Fundo de Cultura, 1964.

HAUSMANN, Ricardo et al. The Atlas of Economic Complexity: Mapping Paths to Prosperity. Cambridge: The MIT Press, 2013. Disponível em: http://www.jstor.org/stable/j.ctt9qf8jp. Acesso em: 24 jul. 2025.

HIDALGO, César A.; HAUSMANN, Ricardo. The Building Blocks of Economic Complexity. Proceedings of the National Academy of Sciences of the United States of America, v. 106, n. 26, p. 10570–10575, 30 jun. 2009. DOI: 10.1073/pnas.0900943106.

BALASSA, B. Trade liberalisation and “revealed” comparative advantage. The Manchester School, v. 33, n. 2, p. 99–123, 1965.

FIGUEIREDO, Adriano Marcos Rodrigues. Mapas em R com geobr. Campo Grande-MS,Brasil: RStudio/Rpubs, 2020. Disponível em https://adrianofigueiredo.netlify.com/post/mapas-em-r-com-geobr/.

---
title: "Cálculo da complexidade econômica do MS em R"
author: "Victor Y. Yahiro e Luiz Guilherme G. R. Pereira"
date: "2025-07-23"
output:
  html_document:
    code_download: yes
    toc: true        # ativa o sumário
    toc_depth: 2     # profundidade
    toc_float: true  # faz o sumário flutuar na lateral
---

O presente post refere-se a um trabalho de análise da complexidade econômica do MS a partir dos dados do emprego. Este trabalho foi desenvolvido na disciplina de Economia Regional e Urbana com a orientação do Prof. Dr. Adriano Figueiredo (*e-mail: adriano.figueiredo@ufms.br*)

**Os dados usados e os resultados obtidos podem ser encontrados e baixados em um repositório no [GitHub](https://github.com/VictorYahiro/dados_complexidade) (caso o link dê algum erro tente clicar nele com o botão direito do mouse para, em seguida, clicar em "Abrir link em nova guia").**

# 1 Introdução

Diversos teóricos clássicos do desenvolvimento ressaltam o papel importante da estrutura produtiva no processo de desenvolvimento econômico (ROSENSTEIN-RODAN, 1943; LEWIS, 1955; HIRSCHMAN, 1958; PREBISCH, 1962; KUZNETS, 1966; KALDOR, 1966; FURTADO, 1964). Em outras palavras, na academia, há uma literatura madura que descreve como que a mudança das dinâmicas inter e intra setoriais afetam qualitativamente o plano econômico. Nesse sentido, o trabalho dos pesquisadores Hausmann *et al.* (2013) sintetizaram tal bagagem teórica em um métodolo de cálculo do que eles passaram a chamar de complexidade econômica. Assim, criou-se, a partir do índice de vatagens comparativas reveladas (VCR) desenvolvido por Balassa (1965), métricas de complexidade e de análise do produto-espaço, como por exeplo o índice de complexisdade econômica (ICE) (HIDALGO; HAUSMANN, 2009; HAUSMANN *et al.*, 2013). Em suma, segundo Hausmann *et al.*(2013) a complexidade econômica provou ser uma métrica importante para compreender a disparidade no nível de renda entre diversas economias e, em alguns casos, até provou ser um forte preditor do futuro crescimento do PIB.

Originalmente, Hausmann *et al.*(2013) propõem esta metodologia de análise da complexidade em um âmbito global a partir de dados do comércio internacional. Não obstante, o presente trabalho apoia-se na proposta de Silva Junior *et al.* (2019), a qual adapta os indicadores de complexidade para a análise regional ao usar dados do emprego. Diante dsso, utilizou-se, para a análise da complexidade econômica do MS, dados da RAIS vincúlo distribuídos entre os setores delimitados pelas classes CNAE 2.0 entre o ano de 2006 e 2022.

# 2 Puxando os pacotes

```{R}
#PACOTES USADOS 
{
  library(readxl)  # para ler excel xlsx e xls
  library(psych)
  library(knitr)
  library(tidyverse)  # para trabalhar dados com tibble
  library(ggplot2)  # para fazer plots e mapas
  library(writexl) # para gerar xlsx ou xls
  library(EconGeo)  # para a maioria dos indicadores regionais
  library(REAT)  # para alguns indicadores regionais
  library(inspectdf)  # para inspecionar dataframes
  library(geobr)  # para baixar shapes brasileiros, para mapas
  library(ggspatial) # para colocar norte e escala nos mapas
  library(sf)   # para fazer mapas
  library(DT)   #para exposição dos dados
}
```

# 3 Criando funções
Devido ao grande número de datasets usados, visto que para cada ano entre 2006 e 2022 há um dataset diferente, foram construídas 6 funções para otimizar o script. Vale ressaltar que a função 2 corrigir_CNAE() foi criada para resolver um problema atrelado ao painel de dados. Em suma, entre os 79 municípios do MS, o município Paríso das Águas surgiu em 2013 a partir de 3 outros municípios, isto é Água Clara, Chapadão do Sul e Costa Rica. Assim, no dataset original não há o município Paraíso das Águas antes de 2013, mas, para padronizar o painel de dados, este município foi simulado nos períodos ausentes.

```{R}
###############################Funções Utilizadas###############################

# 1. Função para ler os CNAEs de 2006 a 2022 e armazenar em uma lista
ler_dados_CNAE <- function(arquivo, anos) {
  lista_dados <- list()  # Inicializando uma lista vazia para armazenar cada dataframe
  for (ano in anos) {  # Loop pelos anos especificados
    nome_sheet <- paste0("CNAE_", ano)  # Definindo o nome do sheet com base no ano atual
    lista_dados[[nome_sheet]] <- read_excel(arquivo, sheet = nome_sheet)  # Lendo o sheet e armazenando na lista
  }
  return(lista_dados)  # Retornando a lista com todos os dataframes
}

# 2. Função para corrigir dados de Paraiso das Aguas, Agua Clara, Costa Rica e Chapadao do Sul
corrigir_CNAE <- function(lista_dados, anos) {
  lista_dados_corrigidos <- list()  # Inicializando uma lista vazia para armazenar os dataframes corrigidos com seus nomes
  for (i in 1:length(lista_dados)) {  # Loop pelos dataframes na lista
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    
    if (i <= 7) {  # Verifica se i é menor ou igual a 7
      df_correcao <- df[1:79, 2:677]  # Selecionando as linhas e colunas conforme o código original
      df_novo <- df_correcao
      df_novo[1, ] <- (1 - 0.335) * df_correcao[1, ]  # Modificar a linha 1 com o fator (1 - 0.335)
      df_novo[23, ] <- (1 - 0.186) * df_correcao[23, ]  # Modificar a linha 23 com o fator (1 - 0.186)
      df_novo[27, ] <- (1 - 0.479) * df_correcao[27, ]  # Modificar a linha 27 com o fator (1 - 0.479)
      df_novo[58, ] <- 0.335 * df_correcao[1, ] + 0.186 * df_correcao[23, ] + 0.479 * df_correcao[27, ]  # Calcular a combinação ponderada para a linha 58
    } else {
      df_novo <- df[1:79, 2:677]   # Se i for maior que 7, apenas copia o dataframe original
    }
    
    nome_dataframe <- paste0("CNAE_", anos[i])  # Gerar um nome para o dataframe
    lista_dados_corrigidos[[nome_dataframe]] <- df_novo  # Armazenando o dataframe (corrigido ou original) na lista com o nome gerado
  }
  return(lista_dados_corrigidos)  # Retornando a lista com os dataframes corrigidos ou originais
}

# 3. Função para calcular Diversidade para os estados do MS de 2006 a 2022
calcular_Diversidade <- function(lista_dados, anos, mun) {
  lista_Div <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("Div_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_Div[[nome_df]] <- as.data.frame(diversity(df, rca = TRUE))  # Aplicar a função 'diversity' ao dataframe, calculando o Diversidade
    lista_Div[[nome_df]] <- cbind(mun, lista_Div[[nome_df]])  # Adicionar a variável 'mun' como uma nova coluna ao dataframe resultante
    colnames(lista_Div[[nome_df]])[2] <- "Diversidade" # Renomeando apenas a segunda coluna
  }
  return(lista_Div)  # Retornando a lista com os dataframes corrigidos
}

# 4. Função para calcular Ubiquidade para os estados do MS de 2006 a 2022
calcular_Ubiquidade <- function(lista_dados, anos) {
  lista_Ubi <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("Ubi_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_Ubi[[nome_df]] <- as.data.frame(ubiquity(df, rca = TRUE))  # Aplicar a função 'ubiquity' ao dataframe, calculando o Ubiquidade
    colnames(lista_Ubi[[nome_df]])[1] <- "Ubiquidade" # Renomeando apenas a segunda coluna
  }
  return(lista_Ubi)  # Retornando a lista com os dataframes corrigidos
}

# 5. Função para criar o Indice de Complexidade Economica Para os estados do MS de 2006 a 2022
calcular_ICE <- function(lista_dados, anos, mun) {
  lista_ICE <- list()
  for (i in 1:length(lista_dados)) {
    df <- lista_dados[[i]]  # Selecionando o dataframe atual
    nome_df <- paste0("ICE_MS_", anos[i])  # Gerar um nome para o dataframe usando o ano correspondente
    lista_ICE[[nome_df]] <- as.data.frame(morc(df, rca = TRUE))  # Aplicar a função 'morc' ao dataframe, calculando o ICE
    lista_ICE[[nome_df]] <- cbind(mun, lista_ICE[[nome_df]])  # Adicionar a variável 'mun' como uma nova coluna ao dataframe resultante
    colnames(lista_ICE[[nome_df]])[2] <- "ICE" # Renomeando apenas a segunda coluna
  }
  return(lista_ICE)  # Retornando a lista com os dataframes corrigidos
}

# 6. Função para consolidar dados de ICE de diferentes anos em um único DataFrame
consolidar_ICE <- function(lista_ICE, anos) {
  dados_ICE <- list()  # Inicializando uma lista vazia para armazenar os dados de ICE de cada ano
  for (i in seq_along(lista_ICE)) {
    dados_ICE[[i]] <- lista_ICE[[i]][, "ICE"]  # Extrai a coluna "ICE" do DataFrame atual e adiciona à lista de dados_ICE
  }
  df_ICE_consolidado <- do.call(cbind, dados_ICE)  # Combina os dados em um único DataFrame e define os nomes das colunas como os anos
  colnames(df_ICE_consolidado) <- anos  # Define os nomes das colunas como os anos fornecidos
  return(df_ICE_consolidado)
}
```


# 4 Extração e organização dos dados

Os dados usados foram extraídos a partir do Programa de Disseminação das Estatísticas do Trabalho (PDET) do Ministério do Trabalho e Emprego e foram agrupados em uma planilha Excel em que cada aba do arquivo .xlsx foi reservado com um dado ano da base de dados.

```{R}
##########################Complexidade Economia do MS###########################

# Definindo o arquivo e os anos
arquivo <- "DADOS_CNAE.xlsx"
anos <- 2006:2022

# Chamando a função para ler o excel
CNAE <- ler_dados_CNAE(arquivo, anos)

#Visualizacao das tabelas
print(CNAE$CNAE_2006)
```

Após a extração dos dados, faz-se necessária a correção da linha com o municípios Paraíso das Águas, que foi criado oficialmente em 2013.

```{R}
# Salvando o nome dos Municipios
Mun <- CNAE$CNAE_2006[1:79, 1] %>%
  separate("Município-Mato Grosso do Sul", into = c("Estado", "Municípios do MS"), sep = "-") %>%
  select("Municípios do MS")

# Visualizarcao dos nomes do municipios
print(Mun)

#Chamando funcao para corrigir as tabelas
CNAE_corrigido <- corrigir_CNAE(CNAE,anos)

#Visualizacao do CNAE_corrigido
DT::datatable(CNAE_corrigido$CNAE_2006, options = list(pageLength = 5))
```

# 5 Calculando os indicadores
Neste trabalho serão calculados três indicadores. Serão eles a diversidade, a ubiquidade e o índice de complexidade econômica.

## 5.1 Diversidade
A diversidade equivale ao número de setores em que o município possui vantagem comparativas reveladas (VCR). Em suma, as economias mais diversificadas tendem a ser mais complexas.
```{R}
# Chamando a função para calcular o Diversidade
Div <- calcular_Diversidade(CNAE_corrigido, anos, Mun)
```

### Diversidade - 2006

```{r}
DT::datatable(Div$Div_MS_2006, options = list(pageLength = 5))
```

### Diversidade - 2014

```{r}
DT::datatable(Div$Div_MS_2014, options = list(pageLength = 5))
```

### Diversidade - 2022

```{r}
DT::datatable(Div$Div_MS_2022, options = list(pageLength = 5))
```
A partir destes três anos é possível verificar a evolução da diversidade dos municípios.

## 5.2 Ubiquidade
A ubiquidade é uma medidade de quantas cidades possuem cada setor. Em outras palavras, a ubiqidade mede o quão comum é cada setor. Em geral, economias que possuem dotação em setores poucos ubiquos são mais complexos.

```{R}
# Chamando a função para calcular o Ubiquidade
Ubi <- calcular_Ubiquidade(CNAE_corrigido, anos)
```

### Ubiquidade - 2006
```{r}
DT::datatable(Ubi$Ubi_MS_2006, options = list(pageLength = 5))
```

### Ubiquidade - 2014
```{r}
DT::datatable(Ubi$Ubi_MS_2014, options = list(pageLength = 5))
```

### Ubiquidade - 2022
```{r}
DT::datatable(Ubi$Ubi_MS_2022, options = list(pageLength = 5))
```
A partir deste três anos é possível observar a evonlução da ubiquidade dos setores.

## 5.3 Índice de Complexidade Econômica
Para calcular a complexidade são usados os dados da diversidade e da ubiquidade, mas o R possui rotinas especializadas para calcular este indicador automaticamente. 

```{R}
# Chamando a função para calcular o ICE 
ICE <- calcular_ICE(CNAE_corrigido, anos, Mun)

# Chamando a função para consolidar os ICEs de todos os anos em apenas um dataframe
ICE_consolidado <- consolidar_ICE(ICE, anos)
ICE_consolidado <- cbind(Mun,ICE_consolidado)

# Baixar o ICE_consolidade em uma planilha
writexl::write_xlsx(as.data.frame(ICE_consolidado),path = "ICE.xlsx")

# Visualizar os ICEs
DT::datatable(ICE_consolidado, options = list(pageLength = 5))
```

Vale ressaltar que foram calculados Índice de Complexidade Econômica normalizadas, em uma escala em que o valor máximo é 100 e o valor mínimo é 0. Desssa forma, tem-se a complexidade relativa dos municípios para cada ano.

# 6 Análise da complexidade

## 6.1 Estatística descritiva

```{R}
# Estatísticas descritivas
tabela_descr <- describe(ICE_consolidado)

# Mostrando a tabela no R Markdown
kable(tabela_descr, digits = 2, caption = "Estatísticas Descritivas por Ano")
```

## 6.2 Histogramas
Os dados podem ser visualizados graficamente por meio de histogramas, essa forma de visualização é interessante para mostrar a dispersão dos dados. A partir destes gráficos, percebe-se que ao longo do período observado houve uma tendência de convergência da complexidade, visto que a disparidade de complexidade entre a capital Campo Grande, que possui a máxima complexidade relativa, diminuiu em relação ao resto do estado. 

### Histograma de 2006
```{R}
##visualização gráfica dos dados
hist(ICE$ICE_MS_2006$ICE,
     main = "Histograma do ICE de 2006",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2006$ICE), max(ICE$ICE_MS_2006$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa
```

### Histograma de 2014
```{R}
##visualização gráfica dos dados
hist(ICE$ICE_MS_2014$ICE,
     main = "Histograma do ICE de 2014",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2014$ICE), max(ICE$ICE_MS_2014$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa
```

### Histograma de 2022
```{R}
##visualização gráfica dos dados
hist(ICE$ICE_MS_2022$ICE,
     main = "Histograma do ICE de 2022",
     xlab = "Valores de ICE",
     ylab = "Frequência",
     col = "lightblue",
     breaks = seq(min(ICE$ICE_MS_2022$ICE), max(ICE$ICE_MS_2022$ICE), length.out = 20), # opcional
     freq = TRUE)  # freq=FALSE para densidade relativa
```

## 6.3 Mapas do MS
Por último, pode-se visualizar a complexidade do MS por meio do uso de mapas.

Primeiro, para tal, é necessário ter um objeto com os municípios e as suas respectivas coordenadas.
```{R}
all_mun_ms <- read_municipality(code_muni=50, year=2022)
```

Em seguida, é necessário juntar as coordenadas dos municípios com os seus respectivos Índices de Complexidade Econômica em um único objeto. Como a ordem dos municípios é coincidentemente a mesma nos dois objetos, pode-se apenas fazer isso apenas usando a rotina cbind()
```{R}
ICE_mapas <- cbind(all_mun_ms,ICE_consolidado)
```

### Mapa de 2006
```{R}
ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2006), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2006",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()
```

### Mapa de 2014
```{R}
ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2014), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2014",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()
```

### Mapa de 2022
```{R}
ggplot() +
  geom_sf(data=ICE_mapas, aes(fill=X2022), color= "black", size=0.01)+
  labs(title="ICE dos Municípios do MS - 2022",
       caption='Fonte: Elaboração própria', size=8)+
  scale_fill_gradient(low = "red", 
                       high = "blue", limits=c(0, 100),
                       name="ICE")+
  theme_minimal()
```


# 7 Conclusão

Com todos os indicadores e dados à disposição percebe-se uma grande discrepância entre a capital Campo Grande, que permanece como o município mais complexo, e o resto do estado. Todavia, percebe-se que ao longo dos anos analisados, isto é entre 2006 e 2022, houve uma tendência de convergência da estrutura produtiva do MS que está atrelado a um aumneto da média do Índice de Complexidade Econômica, indo de 13,40 em 2006 para 21,13 em 2022. Outrossim, a importância destes dados está no seu poder de evidenciar quais são os municípios que estão relativamente mais atrasados estruturalmente. Informações como esta, são importantes istrumentos para a análise e para o desenho do desenvolvimento da economia regional.

# 8 Referências

SILVA JUNIOR, Ernani de Almeida; FAGUNDES, Mayra Batista Bitencourt; FIGUEIREDO, Adriano Marcos Rodrigues; MACHADO, João Victor. Complexidade econômica regional: uma abordagem a partir de dados de emprego regional. In: CONGRESSO DA SOBER, 57., 2019, Ilhéus. Anais [...]. Ilhéus: SOBER, 2019.

ROSENSTEIN‑RODAN, P. N. Problemas de industrialização da Europa oriental e sud-oriental. In: AGARWALA, A. N.; SINGH, S. P. (Orgs.). A economia do subdesenvolvimento. [S.l.]: [s.n.], 1943. 

LEWIS, W. A. The Theory of Economic Growth. London: Allen & Unwin Ltd., 1955. 

HIRSCHMAN, A. O. The Strategy of Economic Development. New Haven (CT): Yale University Press, 1958. 

PREBISCH, R. The Economic Development of Latin America and Its Principal Problems. Economic Bulletin for Latin America, n. 7, p. 1–22, 1962. 

KUZNETS, S. Modern Economic Growth: Rate, Structure, and Spread. New Haven and London: Yale University Press, 1966. 

KALDOR, N. Causes of the Slow Rate of Economic Growth of the United Kingdom. Cambridge: Cambridge University Press, 1966.

FURTADO, C. Dialética do desenvolvimento. Rio de Janeiro: Fundo de Cultura, 1964. 

HAUSMANN, Ricardo et al. The Atlas of Economic Complexity: Mapping Paths to Prosperity. Cambridge: The MIT Press, 2013. Disponível em: http://www.jstor.org/stable/j.ctt9qf8jp. Acesso em: 24 jul. 2025.

HIDALGO, César A.; HAUSMANN, Ricardo. The Building Blocks of Economic Complexity. Proceedings of the National Academy of Sciences of the United States of America, v. 106, n. 26, p. 10570–10575, 30 jun. 2009. DOI: 10.1073/pnas.0900943106.

BALASSA, B. Trade liberalisation and "revealed" comparative advantage. The Manchester School, v. 33, n. 2, p. 99–123, 1965.

FIGUEIREDO, Adriano Marcos Rodrigues. Mapas em R com `geobr`. Campo Grande-MS,Brasil: RStudio/Rpubs, 2020. Disponível em <https://adrianofigueiredo.netlify.com/post/mapas-em-r-com-geobr/>.