Gabriel Chirinos
31/10/2021
El presente estudio técnico tiene como finalidad analizar las primas cobradas por una compañia de seguros enfocándose en el ramo de seguros de automóvil. Para la fecha del presente estudio (31/10/2021), se cuenta con la información estadística correspondiente al período comprendido desde 01/03/2017 hasta el 31/10/2021 con lo cuál se desea pronosticar la prima a cobrar durante los próximos seis meses.
Para establecer los pronósticos se utilizarán modelos tales como ARIMA, ETS y HOLT-WINTERS (Aditivo o Multiplicativo), se busca conseguir el modelo que generé los pronósticos más precisos para conocer la prima a cobrar durante el período seleccionado.
La serie de tiempo en estudio esta compuesta por las primas cobradas netas de anulaciones y devoluciones por una compañia de seguros “X” durante el período 01/03/2017 - 31/10/2021, se enfoca en los seguros de automóvil y pólizas establecidas en dólares norteamericanos ($).
La finalidad de todo EDA en series de tiempo es identificar como se comportan las características claves que componen una serie de tiempo las cuales son:
El análisis de esta información proporciona una amplia compresión del comportamiento de la serie en el pasado y puede utilizarse para pronosticar el futuro.
A continuación, se realiza la descomposión de la serie en sus principales componentes : tendencia, estacionales y aleatorios.
Se observa una tendencia de crecimiento lineal y esto es producto del crecimiento de la cartera con el pasar de los años y la consolidación de los productos de automóvil ofrecidos por la compañia, además, se aprecia un patrón estacional anual.
La serie presenta una estacionalidad anual y al eliminar el componente de la tendencia se observa que en enero disminuye considerablemente la prima cobrada, esto es algo típico y no inusual en las compañias de seguros. Además, tambien se observa que la mayor recolección de primas por parte de la compañia es durante el último trimestre del año.
Adicional al gráfico de estacionalidad, se añade un mapa de calor de la serie para visualizar el patrón estacional desde otra perspectiva.
En la gráfica se aprecia como apartir del año 2019 se incrementa la cartera de la compañia “X”, esto es debido seguramente a impulsos comerciales que atrayeron una gran cantidad de asegurados y la renovación de las pólizas iniciadas durante los años posteriores. Con el mapa de calor se puede confirma lo expuesto anteriormente, en enero disminuye considerablemente el cobro de prima, además, se puede apreciar que en el año 2021 durante los meses de Junio a Agosto se recolecto una gran cantidad de prima.
Para establecer los pronósticos se dividirá la serie en dos particiones, una destinada al entrenamiento de los distintos modelos y otra con la cual se contrastará la presición de los modelos. Se utilizarán los siguientes modelos :
Se establece como prueba los últimos cuatro meses del año 2021 de los cuáles se conoce la cantidad de prima cobrada por la compañia de seguros “X”.
A continuación, se presentan las metricas de precisión:
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 6719.331 | 37698.65 | 27452.52 | -34.998064 | 60.15157 | 0.4717743 | -0.0701117 | NA |
| Test set | 6101.319 | 23632.49 | 21838.17 | 1.451027 | 8.45977 | 0.3752911 | 0.0274283 | 0.5095241 |
Se observa una disminución considerable en la tasa de error (MAPE) en el conjunto de prueba (8%) con respecto al conjunto de entrenamiento (60%). En el gráfico se evidencia una posible subestimación del modelo.
Metricas de precisión:
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 1494.648 | 41011.01 | 32365.45 | -59.7683125 | 80.31266 | 0.5562035 | 0.0508897 | NA |
| Test set | 1455.884 | 31398.40 | 28697.43 | -0.8691774 | 11.54037 | 0.4931681 | 0.0434191 | 0.6308004 |
Metricas de precisión:
| ME | RMSE | MAE | MPE | MAPE | MASE | ACF1 | Theil’s U | |
|---|---|---|---|---|---|---|---|---|
| Training set | 6584.246 | 39839.87 | 28646.28 | 10.535592 | 28.301479 | 0.4922892 | -0.0672804 | NA |
| Test set | 23397.543 | 33512.77 | 24476.32 | 8.811224 | 9.238468 | 0.4206279 | -0.1787581 | 0.7643705 |
De los tres modelos seleccionados para la elaboración de las predicciones el modelo que logra minimizar el MAPE en el conjunto de prueba fue el SARIMA por lo cuál será utilizado para computar las proyecciones para el horizonte seleccionado.
Esto no implica que los demás modelos no pueda ser utilizados para realizar pronósticos, el modelo Holt-Winters Aditivo tuvo un gran ajuste a la serie captando a partir del año 2020 los fuertes picos estacionales observados. En futuros análisis se pudiera considerar ambos pronósticos de los modelos y computar una media con su respectivo intervalo de confianza.
Se procede a ajustar el modelo esta vez al conjunto completo de datos y a realizar los pronósticos de las primas cobradas durante los próximos seis meses y se presentan con su respectivos intervalos de confianza del 80% y 95%.
Los residuos en un modelo de series de tiempo se conocen comúnmente como lo que queda luego del ajuste del modelo. Los residuos se computan de la diferencia entre los valores reales observados en la serie contra los valores ajustados por el modelo.
El análisis de los residuos permite comprender si un modelo de serie de tiempo ha logrado captar o no adecuadamente toda la información que se presenta en los datos, se espera que un buen modelo de pronósticos produzca residuos con las siguientes propiedades:
Además de estas propiedades esenciales, es útil que los residuos también satisfagan las dos propiedades siguientes:
Estas dos propiedades facilitan el cálculo de los intervalos de predicción. Sin embargo, un modelo de pronóstico que no satisfaga estas propiedades no necesariamente puede mejorarse.
Se observa un incremento en la variación de los residuos luego del año 2019 esto es debido al crecimiento que experimienta la serie durante estos períodos. La media de los mismos es distinta de 0 lo que indica un posible sesgo en los pronósticos del modelo y a su vez, se observa la no distribución normal de los residuos.
No se evidencia autocorrelación entre los residuos, se realiza el contraste de hipótesis de Ljung-Box para verificar.
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,1,1)(1,0,0)[12]
## Q* = 7.4243, df = 9, p-value = 0.593
##
## Model df: 2. Total lags used: 11
Al optener un p-valor mayor al nivel de significancia (0,05), se concluye que no hay suficiente evidencia para rechazar la hipótesis nula y por ende los residuos del modelo no están auto correlacionados.