1 Descrição do Desafio

Em 2019, a Gerência de Planejamento da FIEC precisava de ajuda do Observatório da Indústria da FIEC para estimar a receita da FIEC para o ano de 2020. Para lhe auxiliar, saiba que as entidades do Sistema S são mantidas com recursos de empresas dos setores correspondentes. As contribuições dessas companhias ao sistema incidem sobre a folha de pagamento, são recolhidas pelo governo e repassadas às entidades.
Além disso, parcerias com as empresas para ações específicas de consultoria e treinamento, venda de ingressos, cursos pagos e outras medidas também contribuem para a receita dessas organizações.
No caso, a FIEC é uma entidade representativa do setor industrial, a alíquota da contribuição empresarial para os serviços de aprendizagem (Senai) é de 1%. Já os serviços sociais (Sesi) recebem 1,5% da folha. A arrecadação da FIEC depende, portanto, dos repasses que Senai e Sesi recebem.
Considerando estas informações, construa um relatório para apresentar a estimativa de arrecadação da FIEC para 2020, apresente no relatório a justificativa de escolha metodológica para a realização da estimação. Qual a estimativa de arrecadação da FIEC para 2020? E qual o crescimento desta arrecadação em comparação a 2019? Desconsidere os efeitos da Pandemia do COVID19 em 2020. O texto deverá ter no máximo 5.000 caracteres com espaço.
Para construir este relatório, disponibilizamos dados da massa salarial do setor industrial para o estado do Ceará no link a seguir:(…) Demais bases de dados e parâmetros para a simulação utilizados na estimação serão de sua responsabilidade obtê-los, devendo referenciá-los no relatório. O prazo de confecção e entrega é de um dia.

2 Metatexto

Todo o processo de pesquisa, documentação e escrita usou softwares gratuitos: Linux, R, RStudio Community, Tex e OnlyOffice.

Para garantir a lisura e a replicação das estimações feitas, disponibilizo todo o material usado e códigos no link: (…)

3 Estatégia Econométrica

A receita da Fiec depende, em última instância, da folha salarial dos vínculos formais das indústrias cearenses. Sendo uma tranformação linear do montante salarial industrial cearense (represento a partir de agora como \(w_t\)), de acordo com a alíquota aplicada para a contribuição ao Sistema S (Senai com 1% e Sesi com 1,5%). Devemos, portanto, estimar e prever a massa salarial para aplicar a alíquota.

Para tal, usarei o instrumental econométrico de séries temporais \(ARIMA(p,d,q)(P,D,Q)_s\) e \(VAR(p)\). O primeiro para estimar a série em termos dela mesma, no passado. O segundo para testar se o estoque de pessoal e seus termos passados ajudarão a prever melhor a massa salarial.

Os modelos \(ARIMA(p,d,q)(P,D,Q)_s\) admitem:

  • \(p\) valores passados da variável em questão, chamados de valores autoregressivos;
  • \(q\) valores passados de erros, idealmente \(i.i.d.\) e \(\epsilon_t: N(0, \sigma^2)\), chamado de componente de média móvel;
  • \(d\) diferenciações imediatas, i.e., subtração com valores imediatamente passados para expurgar a raíz unitária do passeio aleatório;
  • \(D\) diferenciações sazonais, para expurgar a raíz unitária na sazonalidade multiplicativa inter-ciclo.

Para entender como a sazonalidade multiplicativa atua no modelo juntamente com o componente autoregressivo sazonal (\(SAR(P)\)) e média móvel sazonal (\(SMA(Q)\)), veja o seguinte exemplo:

\[ AR(1)(2)_6 \ \ \therefore\] \[ (1- \phi_1 L)(1- \phi_6 L^6 - \phi_{12} L^{12}) y_t = \epsilon_t \ \ \rightarrow \] \[ y_t = \phi_{1}y_{t-1} + \phi_{6}y_{t-6} - \phi_{1}\phi_{6}y_{t-7} + \phi_{12}y_{t-12} - \phi_{1}\phi_{12}y_{t-13} + \epsilon_t \]

\[ MA(2)(2)_{11} \ \ \therefore \] \[ y_t = (1- \theta_{1}L^{} - \theta_{2}L^{2})(1- \theta_{11}L^{11} - \theta_{22}L^{22})\epsilon_t \ \ \rightarrow \] \[ y_t = \epsilon_t - \theta_{1}\epsilon_{t-1} - \theta_{2}\epsilon_{t-2} - \theta_{11}\epsilon_{t-11} + \theta_{1}\theta_{11}\epsilon_{t-12} + \theta_{2}\theta_{11}\epsilon_{t-13} - \theta_{22}\epsilon_{t-22} + \theta_{1}\theta_{22}\epsilon_{t-23} + \theta_{2}\theta_{22}\epsilon_{t-24} \]

Nos exemplos acima, vemos que os modelos com sazonalidade multiplicativa são particularmente parcimoniosos por considerarem \(y_{t-7}\), \(y_{t-13}\), \(\epsilon_{t-12}\), \(\epsilon_{t-13}\), \(\epsilon_{t-23}\) e \(\epsilon_{t-24}\) sem a adição de novos coeficientes para isso, sem diminuir o grau de liberdade nas estatísticas dos coeficientes estimados para a série.

Para o trabalho, apoio-me em um trabalho anterior que fiz, Modelagem Econométrica de Séries Temporais Estacionárias (link). Estimaremos via inspeção visual da FAC e FACP e por critérios de informação. O passo seguinte é diagnosticar os resíduos para certificar que se comportam como um resíduo-branco. Por fim, a previsão.

4 Visualizações

Farei uso da decomposição através da média em doze meses somente para fins elucidativos e didáticos. Para que percebamos as diferenças entre tendência, sazonalidade e choque. Não é indicado pela teoria usar esse método para fins de previsão1.

5 ARIMA da Massa Salarial

5.1 Raíz Unitária e Diferenciação

Os testes indicam, pelo p-valor do KPSS a 1%, a presença de raíz unitária, i.e., \(I(1)\). O que pode ser confirmado complementariamente pelo p-valor de PP a 10%, favorecendo a hipótese nula de \(I(1)\), a 5%. Ou seja, podemos suspeitar que nosso modelo será um \(ARIMA(p,1,q)(P,D,Q)_s\).

kpss_stat kpss_pvalue pp_stat pp_pvalue
1.466691 0.01 -1.022664 0.1

Tanto a decomposição quanto o próximo teste mostram também alta persistência inter-sazonalidade. Como confirmaremos com os testes, é bem possível que seja um \(ARIMA(p,1,q)(P,1,Q)_{12}\).

ndiffs nsdiffs
1 1

5.2 FAC & FACP

Aplicando a primeira diferenciação, conforme a Figura 1, percebemos que o mesmo mês do ano anterior é significativamente importante! Nem a autorregressão ou erro imediatamente anteriores explicam tão bem a \(w_t\) quanto \(w_{t=12}\) e \(\epsilon_{t=12}\). É o que faremos asseguir.

Testes FAC & FACP para o Log(Massa Salarial) diferenciado em d=1

Testes FAC & FACP para o Log(Massa Salarial) diferenciado em d=1

Agora, com \(\Delta w = log(w_{t}) - log(w_{t-12})\) procedemos o teste. Pela Figura 2, vemos que a décima segunda ordem é suficiente para evidenciar um \(AR(1)\). O formato senóide e persistente da FAC está relacionado à transformação teórica de um \(AR(1)\) em um \(MA(\infty)\) por conta de sua raíz polinomial está dentro do ciclo unitário.

Testes FAC & FACP para o Log(Massa Salarial) diferenciado em d=12

Testes FAC & FACP para o Log(Massa Salarial) diferenciado em d=12

5.3 O Modelo

Os seguintes modelos foram testados, considerando as informações das FAC e FACP anteriores:

Model name Orders
sal_a <ARIMA(1,0,0)(0,1,0)[12]>
sal_b <ARIMA(1,0,0)(1,1,0)[12]>
sal_c <ARIMA(1,0,1)(1,1,0)[12]>
sal_d <ARIMA(1,1,0)(1,1,0)[12]>
sal_e <ARIMA(1,1,0)(1,1,0)[12]>

O melhor modelo é o A, em todos os critérios de informação:

.model sigma2 log_lik AIC AICc BIC
sal_a 0.0002088 216.3308 -428.6615 -428.4876 -424.1082
sal_b 0.0002116 216.3500 -426.7000 -426.3470 -419.8700
sal_d 0.0002160 215.4331 -424.8663 -424.5081 -418.0782
sal_e 0.0002160 215.4331 -424.8663 -424.5081 -418.0782
sal_c 0.0002113 217.1843 -426.3686 -425.7716 -417.2620

Que tem os seguintes coeficientes, confirmamos a persistência senóide da FAC por causa do \(AR(1)\) com alto coeficiente (no caso, \(\phi_1 = 0.9798\)), que transforma-se teoricamente num \(MA(\infty)\):

## Series: log_sal 
## Model: ARIMA(1,0,0)(0,1,0)[12] 
## 
## Coefficients:
##          ar1
##       0.9798
## s.e.  0.0185
## 
## sigma^2 estimated as 0.0002088:  log likelihood=216.33
## AIC=-428.66   AICc=-428.49   BIC=-424.11

A seguir, a visualização do modelo ao lado dos dados originais:

5.4 Diagnóstico do Resíduo

Diagnóstico Visual dos Resíduos

Diagnóstico Visual dos Resíduos

O p-valor do Teste LJung-Box aproxima-se de zero, ou seja, é evidência contra a independência dos resíduos, como podemos ver pelo FAC da Figura 3. A hipótese nula do Teste ARCH do Multiplicador Lagrangeano de homodasticidade dos resíduos pode ser rejeitada a 5%.

5.5 Previsão

Tendo em mente que esse é um valor real, descontado pelo INPC com base em 2012, aplico a transformação linear da alíquota de \(0,025\). Temos:

Meses Valor.Real.Estimado
janeiro 14380754
fevereiro 14269800
março. 14050277
abril 13926905
maio 13822054
junho 13746841
julho 13756296
agosto 13746253
setembro 13770584
outubro 13762823
novembro 13687212
dezembro 13393948

6 VAR(p)

Por causa da alta significância dos erros e componentes autoregressivos múltiplos de 12, mesmo diferenciando a série em \(\Delta w = [log(w_{t}) - log(w_{t-1})] - [log(w_{t-12}) - log(w_{t-13})]\), não temos estacionariedade dos termos sazonais. O \(VAR(p)\), portanto, alcançaria valores com \(p=12\) e \(p=24\), diminuindo os graus de liberdade e causando o que chamamos de overfitting, o que seria terrível para uma previsão “fora da amostra”.

Testei um \(VAR(1)\) com as duas variáveis em \(\Delta w = log(w_{t}) - log(w_{t-12})\), a Estatística-F acusou insignificância conjunta, ou seja, o conjunto de preditores não explica conjuntamente a variável predita, em ambos os sentidos. Então, o modelo \(ARIMA(1,0,0)(0,1,0)[12]\) é minha melhor estimação.


  1. Para mais informações, ver R. S. Bueno, Econometria de Séries Temporais, 2ª edição; no capítulo 2.↩︎