Aplicación de modelos lineales generalizados

Para empezar a responder la pregunta planteada notemos lo siguiente:

El monto promedio de prima anual es de $1,257 y la suma total de las primas es de $699,376.
Por otro, lado el monto promedio de reclamación es de $63,067 y la suma total de los montos reclamos es de $35,065,280.

Dados los montos de primas actuales solo estamos cubriendo cerca del 1.13% de los montos reclamados, por lo que es bastante claro que el valor de las primas no es el correcto.

Para el modelo que usaremos transformaremos las variables, considerado entonces la proporción de cobertura del monto de reclamo de la póliza dada la prima de esta, es decir, el cociente de la prima entre reclamo.

Consideraremos toda proporción mayor a 2.5% como buena y menor como mala. Aplicaremos un modelo logístico para encontrar las variables significativas que afectan la probabilidad de que una prima tenga mayor cobertura del monto de reclamo.

Tras aplicar el modelo obtenemos lo siguiente:

Aplicando sobre las variables de características del asegurado (meses como cliente, edad, sexo, educación, ocupación, hobbies, relación), solo la variable de hobbies es significativa. Sin embargo, no lo es en gran medida y depende el tipo de hobby si la probabilidad de cobertura aumenta o disminuye.
Aplicando sobre las variables de características del incidente (tipo de incidente, tipo de colisión, severidad, autoridades contactadas, hora del día) no se encontraron variables significativas.
Aplicando el modelo sobre todas las variables se obtuvo que solo el monto de la prima es una variable significativa, aumentando la probabilidad de una cobertura más amplia al aumentar el valor de la prima.

El otro acercamiento al problema fue considerar el monto esperado de las reclamaciones y con este tomar los reclamos que superaban este monto y los que no.

Aplicaremos un modelo logístico para encontrar las variables significativas que afectan la probabilidad que un monto de reclamo sea mayor a $65,000

Tras aplicar el modelo obtenemos lo siguiente:

Bajo las variables de características del asegurado (meses como cliente, edad, sexo, educación, ocupación, hobbies, relación), encontramos que las variables de hobbies y ocupación son significativas. Al igual que en el modelo pasado, depende el tipo de hobby y el tipo de ocupación si la probabilidad de cobertura aumenta o disminuye.
Bajo las variables de características del incidente (tipo de incidente, tipo de colisión, severidad, autoridades contactadas, hora del día), no se encontraron variables significativas.
Finalmente el modelo bajo todas las variables obtuvo los hobbies, la ocupación y el tipo de colisión como variables significativas. Como en los casos anteriores dependiendo el caso, la probabilidad aumenta o disminuye.

Se intentó con distintos modelos, pero no se obtenían variables significativas, los dos modelos anteriores fueron los únicos que sí las obtuvieron.

Aplicación de modelos lineales generalizados

Diego Zamarripa

31/10/2020