Introducción

El sector automotriz colombiano fue seleccionado para este análisis debido a su importancia dentro de la economía tanto a nivel nacional, regional y local, y a su capacidad para reflejar dinámicas macroeconómicas, comportamientos del consumidor y efectos de crisis globales, como la pandemia de COVID-19.

Su carácter estratégico se evidencia en la interacción con múltiples actividades industriales, comerciales y de servicios, lo que lo convierte en un sector sensible a factores externos como la tasa de cambio, las políticas fiscales y las regulaciones ambientales. Además, su evolución reciente ofrece una oportunidad para identificar brechas de eficiencia, proponer recomendaciones orientadas a la innovación tecnológica y a la sostenibilidad, y comprender cómo este sector responde a los retos de competitividad en un entorno cada vez más exigente a nivel local y global.

Instalar/Cargar librerias necesarias para el análisis

Para el presente analisis requerimos de las siguientes librerias de R:

library(readxl) Para leer archivos Excel

library(tseries) Para pruebas de estacionariedad

library(forecast) Para modelado ARIMA y pronósticos

library(ggplot2) Para visualización de datos

library(plotly) Para gráficos interactivos

library(timetk) simplifica y acelera el análisis exploratorio, visualización, y preparación de datos temporales para modelado.

Cargar base de datos

La base de datos dispone de informacion de cada una de las variables a analizar, tanto a nivel nacional, regional asi como local. Para el analisis se analizan las variables de Venta de Vehiculos a nivel Colombia, a nivel del Departamento del Valle y de la ciudad de Cali. Esta informacion se encuentra en un archivo Excel.

PASO INDISPENSABLE: Declarar la (s) variable (s) como serie (s) temporal (es):

Variable 1 La variable 1 se designa para la información a nivel nacional (Colombia), para el periodo 2014 a 2024, tal como se muestra en la siguiente tabla.

##        Jan   Feb   Mar   Apr   May   Jun   Jul   Aug   Sep   Oct   Nov   Dec
## 2014 20115 23744 24075 26128 26865 22974 27650 27465 29528 31386 25700 40393
## 2015 21241 22871 24671 21863 22525 22476 26595 23208 24855 22412 21004 29546
## 2016 16740 20278 19737 20291 19464 20589 17526 22409 21378 19168 22384 33431
## 2017 17215 17931 21022 17082 19898 19826 18607 20901 19297 19689 21103 25386
## 2018 16399 18293 19523 20166 20522 18270 19315 21410 21370 21496 26245 33043
## 2019 15941 18440 20170 19763 22269 19455 22874 23284 22659 23858 23946 30661
## 2020 18427 20547 12290   217  8933 11981 14435 13209 18408 20858 22330 26854
## 2021 14327 19648 22914 19021 14684 20417 23117 21052 22824 23340 23616 25312
## 2022 17391 19199 20837 20622 22411 23306 23233 24386 23871 22577 22625 21880
## 2023 13852 15761 17244 13740 15674 14364 13091 14801 15525 13817 18497 19856
## 2024 11581 15597 13347 15291 14805 14543 16497 16498 17117 18521 21824 25331

Variable 2 La variable 2 se designa para la información a nivel regional (Valle del Cauca), para el periodo 2014 a 2024, tal como se muestra en la siguiente tabla.

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2014 2241 2445 2526 2414 2800 2330 2988 2937 3092 3249 3117 2901
## 2015 1928 2615 3007 2356 2523 2790 3449 2599 2840 2427 2221 2927
## 2016 2026 2616 2350 2493 2400 2407 2396 2662 2608 2469 3052 3816
## 2017 2098 2233 2586 2072 2393 2605 2444 2639 2521 2532 2675 3084
## 2018 2158 2162 2371 2451 2474 2310 2364 2513 2549 2634 2896 2895
## 2019 1763 2059 2491 2228 2553 2420 2753 2448 2422 2593 2432 2820
## 2020 1895 2111 1204    4  913 1267 1792 1548 2027 2186 2322 2591
## 2021 1407 1917 2408 1663  987 1970 2259 2027 2328 2183 2327 2486
## 2022 1785 1754 2019 1875 2191 2454 2153 2392 2132 1760 2037 1944
## 2023 1264 1358 1476 1121 1225 1180 1182 1290 1589 1290 1401 1568
## 2024 1130 1373 1181 1484 1345 1321 1560 1637 1626 1652 1849 2092

Variable 3 La variable 3 se designa para la información a nivel local (Cali), para el periodo 2014 a 2024, tal como se muestra en la siguiente tabla.

##           Jan      Feb      Mar      Apr      May      Jun      Jul      Aug
## 2014 1659.000 1845.000 1875.000 2118.000 2199.000 1972.000 2191.000 2346.000
## 2015 1705.000 1934.000 2322.000 1945.000 2152.000 2069.000 2647.000 2182.000
## 2016 1689.000 2179.000 1947.000 2025.000 1954.000 1947.000 2035.000 2212.000
## 2017 1659.000 1822.000 2256.000 1816.000 2115.000 2331.000 2208.000 2336.000
## 2018 1926.000 1922.000 2097.000 2142.000 2176.000 2046.000 2064.000 2242.000
## 2019 1558.000 1676.000 2263.000 1990.000 2279.000 2207.000 2480.000 2169.000
## 2020 1708.000 1887.000 1062.000    1.000  805.000 1133.000 1585.000 1382.000
## 2021 1238.000 1648.000 2153.000 1473.000  885.000 1742.000 2052.000 1753.000
## 2022 1608.000 1548.000 1768.000 1634.000 1920.000 2208.000 1902.000 2136.000
## 2023 1094.000 1181.000 1293.000  972.000 1082.000 1032.000 1045.000 1134.000
## 2024  993.000 1228.000 1061.000 1310.000 1189.000 1181.000 1387.000 1482.000
##           Sep      Oct      Nov      Dec
## 2014 2482.000 2548.000 2258.000 3124.000
## 2015 2342.000 2318.000 2124.000 2793.000
## 2016 2144.000 1985.000 2560.000 3128.000
## 2017 2238.000 2266.000 2385.000 2700.000
## 2018 2290.000 2356.000 2561.000 2571.000
## 2019 2180.000 2334.000 2236.000 2541.000
## 2020 1852.000 1971.000 2117.000 2309.444
## 2021 2102.000 1953.000 2050.000 2216.000
## 2022 1891.000 1543.000 1795.000 1731.000
## 2023 1435.000 1135.000 1268.000 1405.000
## 2024 1487.000 1458.000 1624.000 1865.000

Extracción de señales

Gráfico inicial de las Ventas de Vehiculos a Nivel Nacional en niveles - Serie Original

Muestra las ventas reales de vehículos mes a mes, en la cual se observa una fuerte caída en el año 2020 debido a la pandemia (COVID-19) y una recuperación parcial en los años posteriores, aunque sin volver a los niveles máximos de 2014–2015.

Extracción señales Ventas Vehiculos Nacional

Tendencia Indica la dirección de largo plazo de las ventas 2014–2016: Tendencia descendente. 2017–2019: Estabilidad relativa con ligera recuperación. 2020: Fuerte caída debido a la pandemia. 2021–2022: Recuperación importante. 2023–2024: Nueva caída marcada. 2025: Señales de leve repunte, pero sin alcanzar los niveles más altos del pasado.

Estacionalidad Se observa un patrón cíclico que se repite cada año, con picos altos en ciertos meses probablemente mediados y finales de año, por lanzamientos, planes de financiamiento, mientra que a inicio de año el nivel de ventas es bajo. Esto refleja que el mercado automotriz colombiano está fuertemente influenciado por factores estacionales como, promociones y cierre de año fiscal.

Residuos Son las variaciones no explicadas por la tendencia ni la estacionalidad. Se nota un choque muy fuerte en el 2020 , coincidiendo con el inicio de la pandemia. Después de 2021, los residuos se estabilizan, pero con fluctuaciones que pueden deberse a factores coyunturales tales como, cambios regulatorios, inflación, tasas de interés, desarrollo tecnológico (vehiculos electricos).

Conclusion:

El mercado automotriz en Colombia muestra una estacionalidad clara, con picos de ventas predecibles cada año. La tendencia general desde 2014 es a la baja, con recuperación parcial después de la pandemia, pero sin volver a los niveles máximos.

La pandemia de COVID-19 en 2020 generó la mayor caída en ventas de toda la serie.

Entre 2023 y 2024 se observa otra reducción, posiblemente asociada a factores macroeconómicos (altas tasas de interés, inflación, bajo consumo). Para 2025 se proyecta un repunte leve, aunque todavía en niveles moderados respecto a la década anterior.

Extracción señales Ventas Vehiculos Valle

Conclusión

Las ventas de vehículos en el Valle presentan un patrón estacional marcado, con incrementos regulares en ciertos meses del año. Sin embargo, la tendencia de largo plazo es descendente, pasando de niveles cercanos a 2.600 unidades en 2015 a valores por debajo de 2.000 después de 2022. La caída más abrupta se observa en 2020, asociada a la pandemia de COVID-19, con una recuperación parcial en los años siguientes, aunque sin alcanzar los niveles previos. El comportamiento residual muestra fluctuaciones coyunturales, pero en general estables. En conclusión, el mercado automotriz en el Valle refleja una pérdida de dinamismo estructural, afectado por factores externos y macroeconómicos, aunque conserva su estacionalidad anual, mostrando una fuerte relacion con el compartamiento nacional.

Extracción señales variable 3

Después de la descomposición temporal de cada variable, se extrae la variable ajustada por estacionalidad para graficarla junto con la serie original:

Se crea la variable1 de Venta de Vehiculos Colombia ajustada por estacionalidad

Se crea la variable2 Venta de Vehiculos Valle ajustada por estacionalidad

Se crea la variable3 Venta de Vehiculos Cali ajustada por estacionalidad

Ahora si se puede graficar las series originales versus la ajustada por estacionalidad

Gráfico serie original VS ajustada Variable 1 - Venta de Vehiculos Colombia

Gráfico serie original VS ajustada Variable 2 - Ventas Vehiculos Valle

Gráfico serie original VS ajustada Variable 3 - Venta de Vehiculos Cali

Ahora graficamos serie original vs tendencia

Primero se debe obtener la tendencia de cada variable y luego graficarla

Tendencia Ventas Vehiculos Colombia

Tendencia Ventas Vehiculos Valle

Tendencia Ventas Vehiculos Cali

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia:

Tasa de crecimiento de la serie de tendencia y original para las Ventas de Vehiculos a nivel Colombia

## [1] 120
## [1] 120
## [1] 120

Gráfico variable original y tendencia Ventas de Vehiculos Colombia: tasa de crecimiento anual

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: Ventas Vehiculos Cali

## [1] 120
## [1] 120
## [1] 120

Ahora calculamos la tasa de crecimiento de la serie original vs tendencia: Venta Vehiculos Cali

## [1] 120
## [1] 120
## [1] 120

Analizar la tasa de crecimiento anual ayuda a detectar cambios en el entorno económico que afectan el sector. Se pueden prever crisis o períodos de auge y prepararse para ellos.

Modelo ARIMA

División en conjunto de entrenamiento y prueba para la variable 1 - Ventas de Vehiculos Colombia, que es la elegida para pronosticar

El código siguiente divide una serie temporal (variable1_ts) en dos subconjuntos:

Conjunto de entrenamiento (train): Datos desde enero de 2014 hasta septiembre de 2024. Conjunto de prueba (test): Datos desde octubre de 2024 hasta diciembre de 2024.

Esto se hace para evaluar el desempeño de modelos de predicción en datos no vistos.

Modelo ARIMA automático normal (sin tener en cuenta el factor estacional)

Identificación automática del modelo ARIMA

## Series: train_ts 
## ARIMA(1,1,2) 
## 
## Coefficients:
##          ar1      ma1     ma2
##       0.7711  -1.3734  0.3966
## s.e.  0.1198   0.1463  0.1323
## 
## sigma^2 = 17741966:  log likelihood = -1248.95
## AIC=2505.91   AICc=2506.23   BIC=2517.32
## 
## Training set error measures:
##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -434.9487 4146.303 2840.497 -67.76767 77.01546 0.7694171
##                     ACF1
## Training set -0.03775687

Estimación del modelo identificado automatico y validación de Significancia de coeficientes

## 
## z test of coefficients:
## 
##     Estimate Std. Error z value  Pr(>|z|)    
## ar1  0.77111    0.11976  6.4389 1.204e-10 ***
## ma1 -1.37338    0.14632 -9.3860 < 2.2e-16 ***
## ma2  0.39664    0.13232  2.9977  0.002721 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Series: train_ts 
## ARIMA(1,1,2) 
## 
## Coefficients:
##          ar1      ma1     ma2
##       0.7711  -1.3734  0.3966
## s.e.  0.1198   0.1463  0.1323
## 
## sigma^2 = 17741966:  log likelihood = -1248.95
## AIC=2505.91   AICc=2506.23   BIC=2517.32
## 
## Training set error measures:
##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -434.9487 4146.303 2840.497 -67.76767 77.01546 0.7694171
##                     ACF1
## Training set -0.03775687

Validación de residuales o errores del modelo

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,1,2)
## Q* = 91.804, df = 21, p-value = 7.87e-11
## 
## Model df: 3.   Total lags used: 24

Serie temporal de residuales: -Los residuales fluctúan alrededor de cero, lo que es deseable. -Sin embargo, se observan picos altos (sobre todo antes de 2020), lo que indica que en ciertos periodos el modelo no captura completamente las variaciones de las ventas. -Después de 2021 los residuales parecen más estables, lo que sugiere que el modelo se ajusta mejor en años recientes. - Dado que el modelo no captura completamente las variaciones en ventas, sería conveniente revisar modelos mas completos, incluyendo otras variables.

Función de autocorrelación: La mayoría de los rezagos están dentro de las bandas de confianza son las líneas azules, lo cual indica que los residuales se comportan casi como ruido blanco.

Sin embargo, aparecen algunos picos significativos en múltiplos de 12 y 24 (estacionalidad anual), lo que sugiere que el modelo ARIMA(1,1,2) no captura completamente la componente estacional de las ventas.

Histograma de residuales: Esto implica que el modelo funciona de forma aceptable, pero hay eventos extremos (como la pandemia en 2020) que generan errores mayores a lo esperado.

Conclusion El modelo ARIMA (1,1,2) presenta razonablemente la tendencia general de ventas, los residuales son uniformes, sin embargo tiene una debildad, al no contemplar de manera adecuada la estacionalidad, especialmente ciclos anuales, y choque atipicos (COVID-19).

Lo anterior permite inducir, que la aplicación de un modelo SARIMA podría mostrar un mejor desempeño para este modelo.

Pronóstico modelo ARIMA automático dentro de muestra o en el set de prueba

Interpretación modelo automatico (1,1,2):

La línea observada: muestra un crecimiento sostenido y pronunciado en las ventas, pasando de alrededor de 18.000 a más de 24.000 unidades en poco tiempo.

La línea pronosticada: se mantiene prácticamente plana y muy por debajo de los valores reales.

Esto refleja que el modelo utilizado no captura la tendencia de crecimiento del mercado y genera una subestimación significativa de las ventas.

En términos de precisión, el pronóstico es poco confiable, ya que presenta un alto error de predicción al no ajustarse al comportamiento real.

Pronóstico automático dentro del set de prueba como tabla

##     Tiempo Observado Pronosticado
## 1 2024.750     18521     17098.79
## 2 2024.833     21824     17230.50
## 3 2024.917     25331     17332.06

Ahora pronosticamos con el modelo automatico fuera del periodo de análisis, es decir enero 2025

Es decir, le sumamos al periodo de prueba una observación más. Es decir, se estan pronosticando 4 observaciones o meses.

##     Tiempo Pronostico
## 1 2024.750   17098.79
## 2 2024.833   17230.50
## 3 2024.917   17332.06
## 4 2025.000   17410.38
## [1] "Pronóstico para enero 2025: 2025 = 17410.3806092015"

Modelo SARIMA automático

Este modelo podria ser una solución o mejora al modelo arima tradicional ya que recoge el efecto estacional de las variables, es recomendable por tanto para datos que si tienen un componente estacional fuerte.

El modelo ajustado en este ejemplo es un SARIMA(1,0,1)(0,1,1)[12], lo que significa:

(1,0,1): Parte ARIMA no estacional: 1 término autorregresivo (AR), refleja que tiene como base el mes anterior 0 diferenciación (d), lo que indica que la serie no necesita ser diferenciada para hacerla estacionaria. 1 término de media móvil (MA) indica que tiene en cuenta variabilidades de periodos pasados.

(0,1,1)[12]: Parte estacional con periodicidad 12 (mensual si los datos son mensuales): 0 no hay término autorregresivo estacional (SAR). 1 se aplica una diferenciacion estacional de 12 meses 1 término de media móvil estacional (SMA).

El modelo SARIMA(1,0,1)(0,1,1)[12] sugiere que:

El modelo SARIMA ofrece tener una mejor vision frente al comportamiento observado, ya que incluye la estacionalidad del mercado de venta de vehiculos, permitiendo realizar pronosticos mas acertados y realistas.

Identificación dautomática del modelo SARIMA

## Series: train_ts 
## ARIMA(1,0,1)(0,1,1)[12] with drift 
## 
## Coefficients:
##          ar1      ma1     sma1     drift
##       0.7888  -0.2348  -0.7359  -70.6592
## s.e.  0.0862   0.1431   0.1037   29.5113
## 
## sigma^2 = 8678623:  log likelihood = -1103.54
## AIC=2217.07   AICc=2217.61   BIC=2230.88

A continuación, se crea el objeto darima para luegO poder graficar los valores reales y observados:

## Series: train_ts 
## ARIMA(1,0,1)(0,1,1)[12] 
## 
## Coefficients:
##          ar1      ma1     sma1
##       0.8594  -0.2746  -0.6908
## s.e.  0.0685   0.1319   0.0972
## 
## sigma^2 = 8996361:  log likelihood = -1105.43
## AIC=2218.86   AICc=2219.21   BIC=2229.9
## 
## Training set error measures:
##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -460.2031 2819.623 1872.857 -56.37066 63.58204 0.5073084
##                      ACF1
## Training set -0.006174814

Validación de residuales del modelo automatico SARIMA

En el correlograma de residuos siguiente se observa que, mejora la correlación de los residuos frente a lso dos modelos anteriores, y al comparar los valores reales VS pronosticados se determina una relacion similar, mostrando el modelo SARIMA un mejor desempeño.

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1)(0,1,1)[12]
## Q* = 18.835, df = 21, p-value = 0.5958
## 
## Model df: 3.   Total lags used: 24

Pronóstico con el modelo SARIMA dentro del set de prueba-Gráfico líneas

Aunque el pronóstico sigue estando por debajo de los valores observados, la brecha es mucho menor en comparación con el modelo ARIMA simple, lo que indica que SARIMA mejora la precisión.

El paralelismo entre ambas líneas evidencia que el modelo reconoce la dinámica de crecimiento y la estacionalidad de las ventas.

Pronóstico del modelo automático SARIMA en el set de prueba-Tabla

##     Tiempo Observado Pronosticado
## 1 2024.750     18521     16948.05
## 2 2024.833     21824     18731.03
## 3 2024.917     25331     21993.52

Pronóstico del modelo automático SARIMA fuera de muestra, es decir, en enero 2025

Es decir, le sumamos al periodo de prueba una observación más. Es decir, se estan pronosticando 4 observaciones o meses.

##     Tiempo Pronostico
## 1 2024.750   16948.05
## 2 2024.833   18731.03
## 3 2024.917   21993.52
## 4 2025.000   11743.77
## [1] "Pronóstico para enero 2025: 2025 = 11743.76551736"

Conclusión:

El modelo automático SARIMA(1,0,1) fue el que mejor desempeño mostró en la comparación entre los datos reales y los pronosticados dentro del periodo de prueba (oct.nov.dic2024). Destacó por su mayor precisión en la captura de los puntos de quiebre, lo que lo hace el más confiable.

No obstante, al analizar los residuos de los modelos, se identifican posibles áreas de mejora para robustecer los pronósticos en los tres casos evaluados. Algunas estrategias podrían incluir la aplicación de una transformación logarítmica o trabajar desde el inicio con la serie ajustada por estacionalidad donde nos permita la aproximacion de manera consistente al comportamiento real del mercado.

Estrategias empresariales

De acuedo a los resultados obtenidos, se podrían proponer las siguientes estrategias para alcanzar los objetivos empresariales propuestos, mitigando los riesgos de mercado y de liquidez:

  • Planear mejor los inventarios, ajustando produccion de acuerdo a las tendecias y picos estacionales
  • Campañas promocionales en periodos de baja demanda para equilibrar ventas anuales
  • Planear y Mejorar las inversiones en desarrollos tecnologicos ofreciendo mejores prestaciones al consumidor