TF - ME607
Instituto de Matemática, Estatística e Computação Científica (IMECC)
Universidade Estadual de Campinas (UNICAMP)
Compreender a evolução da indústria automotiva brasileira e, a partir das análises, identificar padrões, ciclos econômicos, efeitos de crises e momentos de crescimento, possibilitando a viabilização de projeções e decisões estratégicas.
Com base nos resultados, governos e empresas conseguem elaborar políticas públicas, ações e investimentos para o setor de forma embasada.
Leitura dos dados, seleção e nomeação das colunas.
Diferenciação da série para tornar estacionária, alteração do formato data, e ajuste de calendário.
# Seleção e filtragem
dados <- dados %>%
select(data, producao, comercial, caminhoes, onibus) %>%
filter(data > "1979-12-01", data < "2025-01-01") %>%
mutate(dias_mes = days_in_month(data),
producao = producao / dias_mes,
comercial = comercial / dias_mes,
caminhoes = caminhoes / dias_mes,
onibus = onibus / dias_mes)
create.calendar("cal", weekdays = c("saturday", "sunday"))
dados <- dados %>%
mutate(dias_uteis = bizdays(from = data, to = data + months(1) - days(1), cal = "cal"),
across(c(producao, comercial, caminhoes, onibus), ~ .x / dias_uteis))
# Conversão para tsibble
dados_ts <- dados %>%
mutate(month = yearmonth(data)) %>%
as_tsibble(index = month)
# Diferenciação
dados_ts_dif <- dados_ts %>%
mutate(across(c(producao, comercial, caminhoes, onibus), ~ c(NA, diff(.)))) %>%
slice(-1)| Data | Produção de automóveis | Produção de comerciais leves | Produção de caminhões | Produção de ônibus | dias_mes | dias_uteis |
|---|---|---|---|---|---|---|
| 1980-01-01 | 113.8842 | 13.59384 | 11.728739 | 1.3958944 | 31 | 22 |
| 1980-02-01 | 118.5793 | 14.88966 | 12.793103 | 1.7603448 | 29 | 20 |
| 1980-03-01 | 120.0339 | 14.02419 | 13.733871 | 1.9145161 | 31 | 20 |
| 1980-04-01 | 45.9000 | 5.67619 | 3.284127 | 0.2904762 | 30 | 21 |
| Estatística | Valor |
|---|---|
| Mínimo | 1.50 |
| 1º Quartil | 102.90 |
| Mediana | 190.19 |
| Média | 201.93 |
| 3º Quartil | 280.63 |
| Máximo | 452.39 |
| Desvio Padrão | 102.56 |
Também foram aplicadas as decomposições X11, SEATS, STL e Prophet.
Como a componente mais forte da série foi a de sazonalidade, os candidatos a melhor modelo foram aqueles que possuem componente sazonal (como o Holt-Winters e o SARIMA).
Entre os modelos de regressão, também foi esperado que o melhor deles fosse aquele que envolve sazonalidade (Modelo de regressão linear com sazonalidade).
Para avaliar os modelos fora da amostra, foi utilizada a técnica Expanding Window com uma janela de estimação inicial fixa de 200 observações.
Obs.: Na validação cruzada não foram utilizados os modelos de regressão e o SARIMAX por conta das variáveis preditoras.
| Modelo | RMSE | MAE | MAPE |
|---|---|---|---|
| SARIMA | 1062.78 | 751.18 | 908.46 |
| hw | 1066.31 | 752.39 | 623.48 |
| arma12 | 1123.56 | 796.50 | 424.33 |
| ma2 | 1162.05 | 825.09 | 129.79 |
| ar1 | 1165.62 | 825.10 | 109.28 |
| ses | 1166.88 | 826.30 | 113.16 |
| média | 1165.88 | 826.45 | 103.02 |
| holt | 1185.48 | 843.28 | 172.86 |
| snaive | 1400.85 | 991.30 | 1280.92 |
| Modelo | RMSE | MAE | MAPE |
|---|---|---|---|
| SARIMA | 1062.78 | 751.18 | 908.46 |
| hw | 1066.31 | 752.39 | 623.48 |
O valor previsto para Janeiro de 2025 foi 207.7432 e o real 197.8592.
O valor previsto para Janeiro de 2025 foi 221.9717 e o real 197.8592.
| Modelo | Previsto | Real |
|---|---|---|
| SARIMA | 207.7432 | 197.8592 |
| SARIMAX | 220.3491 | 197.8592 |
| Holt-Winters | 221.9717 | 197.8592 |
| GARCH | 237.3402 | 197.8592 |
Para uma análise sem o ponto outlier da pandemia, foram considerados apenas os dados até dezembro de 2019. Assim como na série completa, os modelos que melhor se ajustam são o Holt-Winters, o SARIMA e o SARIMAX.
| Modelo | RMSE | MAE | MAPE |
|---|---|---|---|
| hw | 33.2 | 24.4 | 159.12 |
| SARIMA | 33.9 | 24.4 | 194.00 |
Neste trabalho, analisamos a série temporal da produção de automóveis de passeio no Brasil, com dados compreendendo o período de 1980 até os dias atuais, com o objetivo de modelar seu comportamento ao longo do tempo. Ao longo da análise, observou-se que, apesar das diferenças estruturais entre a série completa e a série recortada até a pandemia, ambas apresentaram resultados semelhantes no processo de modelagem.
Pelo critério da análise dos resíduos, o modelo que apresentou melhor desempenho foi o SARIMAX. No entanto, a validação cruzada indicou que o modelo SARIMA se destacou por apresentar os menores valores de RMSE e MAE, além de ter sido o que mais se aproximou da produção observada em janeiro de 2025.
A escolha do modelo mais adequado depende de múltiplos fatores, como o desempenho em diferentes métricas, a estabilidade dos parâmetros e a finalidade da previsão. Embora o SARIMA não tenha obtido o melhor resultado na análise dos resíduos, os demais critérios avaliados sustentam sua escolha como o modelo que melhor representa a dinâmica da série temporal analisada.
MAZA, C. T. Material do curso de Séries Temporais. 2025. Disponível em: https://ctruciosm.github.io/ME607.html.
ANFAVEA. Disponível em: https://anfavea.com.br/site/.