Gabriel Chirinos

30/11/2021

1. Introducción

El objetivo del presente estudio es analizar los reclamos pagados por una pequeña compañia de seguros “X” durante el año 2020, enfocándose en los seguros de salud individual. Se desea encontrar una distribución de probabilidad continua que se ajuste de forma optima a los reclamos indemnizados durante el período de estudio.

En la práctica actuarial es muy común realizar este tipo de análisis para llevar a cabo de simulaciones estadísticas o cálculo de tarifas.

2. Datos

Los datos en estudio son los reclamos pagados de salud individual durante el año 2020 por una pequeña compañia de seguros “X”. Se toman encuenta solo reclamos de pólizas establecidas en dólares norteamericanos ($) y que hayan afectado a la cobertura básica del producto (Se excluye maternidad y atención médica primaria).

A continuación, se presenta la distribución empírica observada y la función de distribución acumulada de los reclamos pagados por la compañia durante el período seleccionado.

Se resalta el reclamo promedio en líneas segmentadas rojas, siento el valor de este de 1285 dólares. Además, el monto mínimo y máximo indemnizado es de 13 y 10368 dólares respectivamente. La curtosis de los reclamos pagados es de 5.45 lo que indica que la concentración de los datos en la distribución es leptocúrtica, esto es facil de detectar visualmente por la alta concentración de los valores alrededor de la media.

3. Ajuste de Distribuciones

Para realizar el ajuste de las distribuciones a los datos en estudio se utilizó el método de máxima verosimilitud, el cuál busca maximizar la probabilidad de los parámetros de las funciones de densidad que dependen de la distribución de probabilidad y las observaciones de la muestra.

Las distribuciones de probabilidad continuas que buscaremos estimar sus parámetros y ajustar a los datos, son las que comúnmente se utilizan es seguros de salud:

A continuación, se muestra el resultado de la estimación de los parámetros para ambas distribuciones haciendo uso del método seleccionado.

## Maximum likelihood estimates for the Lognormal model 
## meanlog    sdlog  
##   5.794    1.712
## Maximum likelihood estimates for the Gamma model 
##     shape       rate  
## 0.4700139  0.0003659

Una vez estimados los parámetros podemos visualizar el ajuste de las distribuciones teóricas a la distribución empírica de los datos en estudio.

4. Comparación de Distribuciones.

Para poder seleccionar la distribución con el mejor ajuste veremos el estadístico de calidad AIC (Akaike Criteria Information) lo ideal es escoger el modelo que minimiza el valor del AIC. Luego, para verificar el ajuste de la distribución elegida a los datos se hará uso de pruebas de la bondad del ajuste como lo son el test de Kolmogorov–Smirnov el cuál contrasta la similitud entre la distribución empirica de los datos y la distribución teórica estimada.

AIC de los modelos estimados:

Distribución AIC
Log-Normal 1104.515
Gamma 1124.869

Se selecciona como modelo definitivo el ajuste Log-Normal por ser el que logra minimizar el AIC. Una vez seleccionada la distribución es útil conocer la incertidumbre de la estimación de los parámetros, esto se hace mediante intervalos de confianza por bootstrap.

5% 95%
meanlog 5.484588 6.110009
sdlog 1.472567 1.934199

5. Bondad del Ajuste.

Para determinar si la distribución escogida se ajusta de manera optima a los datos en estudio se realiza una simulación de una muestra proviniente de una distribución Log-Normal con los parámetros estimados y del mismo tamaño de los datos utilizados para la estimación.

Luego se procede a calcular la distancia de Kolmogorov-Smirnov la cuál es un insumo para poder realizar el test de Kolmogorov-Smirnov. Se define la distancia Kolmogorov-Smirnov como la distancia vertical máxima entre la función de distribución acumulada empírica y la simulada o teórica.

## [1] "Distancia Kolmogorov–Smirnov: 0.169"

A continuación, se presenta visualmente la comparación de la distribución empírica acumulada y la simulada mediante los parámetros estimados.

Finalmente, solo resta computar el test de Kolmogorov-Smirnov para determinar si el valor de la distancia es suficientemente grande como para concluir que ambas muestras provienen de distintas distribuciones.

## 
##  Two-sample Kolmogorov-Smirnov test
## 
## data:  cobert_basica$monto and sim_lnorm
## D = 0.16901, p-value = 0.2638
## alternative hypothesis: two-sided

Al tener un p-valor mayor al nivel de significación (0,05), se concluye que no hay suficientes evidencias para rechazar la hipótesis nula y, por ende, ambas muestras proviente de la misma distribución de probabilidad.