Analisis de la base Polizas Emitidas

Authors

Daniel Lara

Mateo Quimbiulco

Introducción

El presente informe analiza la base de datos Polizas Emitidas, incluyendo insights que permiten la correcta comprension de la misma, asi como analisis estadisticos y metodos de clasificacion para entender la relacion entre variables e individuos.

Carga de la Base de Datos

Para comenzar el analisis, debemos leer la base Polizas_Emitidas, la cual se encuentra en formato .txt y cuyos valores dentro del archivo estan separados por un espacio en blanco.

Las primeras filas de la base se muestran a continuacion:

giro_actividad fecha_constitucion id_poliza anio_mes tipo_agente sucursal ramo_comercial tipo_persona prima_anual prima_emitida fecha_emision fecha_vigencia_desde fecha_vigencia_hasta forma_pago suma_aseg
Produccion 2007-04-12 67421 2021-08 PRODUCTOR QUITO BUEN USO DE ANTICIPO JURIDICO 3075.60 256.30 2018-07-03 2018-06-29 2021-09-30 EFECTIVO 91716.45
Produccion 1975-01-24 89042 2020-12 UNIDAD DE PRODU QUITO FIEL CUMPLIMIENTO DE CONTRATO JURIDICO 12009.60 1000.80 2017-03-15 2016-11-26 2022-11-25 EFECTIVO 13900.00
Comercializacion/Distribucion 2001-03-02 96382 2020-09 DIRECTO QUITO FIEL CUMPLIMIENTO DE CONTRATO JURIDICO 479.16 39.93 2020-03-25 2020-03-16 2020-11-11 EFECTIVO 6072.50
Comercializacion/Distribucion 2004-04-07 70642 2020-09 PRODUCTOR QUITO BUEN USO DE ANTICIPO JURIDICO 1802.40 150.20 2020-09-11 2020-09-08 2020-10-23 EFECTIVO 67682.88
Comercializacion/Distribucion 2009-02-06 67486 2019-09 PRODUCTOR GUAYAQUIL FIEL CUMPLIMIENTO DE CONTRATO JURIDICO 13371.36 1114.28 2018-10-16 2018-10-29 2019-12-23 EFECTIVO 150633.77
Produccion 1999-08-23 55563 2018-11 UNIDAD DE PRODU GUAYAQUIL GARANTIA ADUANERA JURIDICO 406.32 33.86 2018-11-19 2018-11-19 2018-12-19 EFECTIVO 9961.00

Prepocesamiento de datos y Manejo de Calidad

Se evaluará la calidadde los datos en campos como: Fecha constitución, Prima anual y Suma asegurada. Para aquello, se deberá identificar y corregir insconsistencias o valores atípicos

Identificación de inconsistencias como valores: Nan, infty.

Para aquello, se usó la siguiente función que revisará dentro de las variables mencionadas si existen las inconsistencias anteriores.

Debemos primeramente considerar a fecha constitución como un dato de fecha con un formato específico.

Ahora, una vez hecho esto, procederemos al verificar la existencia de valores inconsistentes como: Nan, infty.

Obteniendo:

No se encontraron valores faltantes (NA) ni infinitos en las columnas fecha_constitucion, prima_anual o suma_asegurada.

con esto, vemos que: en efecto, no existen valores NaN ni infty en las variables mencionadas.

Identificar y corregir valores atípicos

Dentro de la base de datos, en especial dentro de las variables Prima anual y Suma asegurada, es fácil ver que son valores muy dispersos, eso se puede decir por el rango de la muestra.

[1] 1153943
[1] 803438920
[1] 24399116
[1] 162113649383

La técnica que usaremos será por el Criterio Intercuartilico, identificaremos los datos atípicos y los reemplazaremos con regresión lineal, pero lo haremos por muestras o lotes de datos de toda la tabla de información, para luego unirlos.

Se diseño funciones que usarán el criterio intercuartilico y reemplazará los datos de cualquier muestra.

Ahora, de una vez serapando en lotes a nuestros datos, obtendremos que cada lote sin valores atipicos y además reemplazados con una regresión lineal.

Con la ayuda de estas dos funciones siguientes, hemos logrado identificar los valores atipicos y reemplazarlos;

Ahora, veamos como quedaron los valores de prima asegurada y suma asegurada quitando los valores atipicos.

Conclusiones de indentificar y corregir

En la base de datos, los valores atipicos se vieron presentes pues al ser una variable con datos muy dispersos, el tratamiento de la correción fue muy delicada pues algunos de ellos representaban un gran peso para la data. Pero reemplazándolos con predicciones semejantes se logró obtener una estabilidad adecuada sin perder información.

Análisis Exploratorio en Relación a la Sucursal y el Ramo Comercial

Visualizacion de los Datos

Visualizamos las variables de interes y los valores que estas mismas poseen para identificar la estrategia de analisis.

sucursal ramo_comercial prima_emitida
QUITO BUEN USO DE ANTICIPO 256.30
QUITO FIEL CUMPLIMIENTO DE CONTRATO 1000.80
QUITO FIEL CUMPLIMIENTO DE CONTRATO 39.93
QUITO BUEN USO DE ANTICIPO 150.20
GUAYAQUIL FIEL CUMPLIMIENTO DE CONTRATO 1114.28
GUAYAQUIL GARANTIA ADUANERA 33.86

Categorias de la variable Sucursal:

Sucursal
QUITO
GUAYAQUIL
IBARRA
CUENCA
MANTA
AMBATO
LOJA

Categorias de la variable Ramo Comercial:

Ramo Comercial
BUEN USO DE ANTICIPO
FIEL CUMPLIMIENTO DE CONTRATO
GARANTIA ADUANERA
SERIEDAD DE OFERTA
GARANTIAS JUDICIALES
DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES
BUEN USO CARTA CREDITO

Agrupación de los Datos

Además para analizar la distribución de los individuos en cada categoría de interés procedemos a realizar un conteo por grupos.

Conteo por Sucursal:

Sucursal Total por Sucursal
AMBATO 1054
CUENCA 1672
GUAYAQUIL 11468
IBARRA 461
LOJA 351
MANTA 1637
QUITO 15385

Conteo por Ramo Comercial:

Ramo Comercial Total por Ramo
BUEN USO CARTA CREDITO 13
BUEN USO DE ANTICIPO 8392
DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES 149
FIEL CUMPLIMIENTO DE CONTRATO 15994
GARANTIA ADUANERA 6766
GARANTIAS JUDICIALES 102
SERIEDAD DE OFERTA 612

Finalmente agruparemos Sucursal y Ramo Comercial en función de la Prima Emitida, pero para ello, de todas las observaciones obtenidas para una sucursal y un ramo comercial fijo, se calculará la suma total de las mismas.

Así obtenemos la siguiente tabla:

Sucursal Ramo Comercial Prima Total
AMBATO BUEN USO DE ANTICIPO 241855.86
AMBATO FIEL CUMPLIMIENTO DE CONTRATO 75306.74
AMBATO GARANTIA ADUANERA 531.62
AMBATO GARANTIAS JUDICIALES 716.31
AMBATO SERIEDAD DE OFERTA 279.45
CUENCA BUEN USO DE ANTICIPO 724743.89

Además si consideramos ordenar las categorias de Ramo Comercial de la siguiente manera:

Orden Ramo.Comercial
1 BUEN USO CARTA CREDITO
2 DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES
3 SERIEDAD DE OFERTA
4 GARANTIAS JUDICIALES
5 GARANTIA ADUANERA
6 BUEN USO DE ANTICIPO
7 FIEL CUMPLIMIENTO DE CONTRATO

Visualizaciones Gráficas

Podemos observar una clara tendencia entre la suma de la prima emitida y el ramo comercial para cada sucursal.

Podemos visualizar la tendencia de cada gráfico por separado.

Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.

Además el conteo de valores por Sucursal y Ramo Comercial se encuentran resumidos en la siguiente tabla de contingencia.

Tabla de Contingencia
BUEN USO CARTA CREDITO BUEN USO DE ANTICIPO DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES FIEL CUMPLIMIENTO DE CONTRATO GARANTIA ADUANERA GARANTIAS JUDICIALES SERIEDAD DE OFERTA
AMBATO 0 571 0 475 2 2 4
CUENCA 0 768 0 797 78 24 5
GUAYAQUIL 0 2983 0 5269 3154 10 52
IBARRA 0 281 0 168 0 0 12
LOJA 0 162 1 187 1 0 0
MANTA 0 37 0 103 1494 3 0
QUITO 13 3590 148 8995 2037 63 539

Resultados

Una vez realizado el análisis correspondiente, podemos concluir que existe una clara relación entre la sucursal y el ramo comercial en términos de prima emitida. Con la técnica de agrupamiento utilizada, vemos que los ramos ‘Buen uso de anticipo’ y ‘Fiel cumplimiento de contrato’ son los que acumulan la mayor cantidad de Prima Emitida con respecto a las otras categorías y en la mayoría de sucursales. Además de ser las categorías con mayor cantidad de individuos en cada sucursal.

Evolución Temporal de las Pólizas

Visualización de los Datos

Vamos a seleccionar las variables Prima Anual y Fecha Emision, las cuales son de interés para visualizar la evolución temporal.

Prima Anual Fecha de Emisión
3075.60 2018-07-03
12009.60 2017-03-15
479.16 2020-03-25
1802.40 2020-09-11
13371.36 2018-10-16
406.32 2018-11-19

Transformación de los Datos

Dado que contamos con una gran cantidad de fechas, y en algunos de los casos repetidas, realizar un gráfico de evolución temporal para todas las fechas puede no resultar adecuado, y además dificil de interpretar, por lo que se optó en agrupar las fechas por su correspondiente año. Además en los casos de fechas de emision repetidos, se considero la suma de todos los valores para la prima anual.

La tabla final de esta transformación se muestra a continuación:

Fecha de Emisión Total Prima Anual Año de Emisión
2004-03-05 4063.20 2004
2005-05-20 36708.84 2005
2006-03-24 154532.40 2006
2006-05-17 33600.00 2006
2007-10-18 812.64 2007
2007-10-19 2867.16 2007

Podemos además visualizar todos los años en los que se ha emitido una póliza.

 [1] 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
[16] 2019 2020 2021 2022

Visualizaciones Temporales

La evolución temporal por Prima Anual, para todos los años se muestra a continuación:

Además para poder analizar la evolución temporal para un año en específico se consideran las siguientes gráficas.

Así podemos filtrar los años de interés para analizar la evolución de la Prima Anual e identificar momentos clave de crecimiento y decrecimiento para este indicador.

Resultados

No se visualiza una tendencia general en el valor de la Prima Anual por año, ya que este valor tiende a aumentar y disminuir según el tiempo, presuntamente de manera arbitraria. Un análisis más a fondo de la evolución temporal por año y por sucursal podría proporcionar información más específica, puesto que los valores de la Prima Anual entre cada sucursal son distintos.

Además se puede observar que a partir del año 2013, los valores de la Prima Anual empiezan a tener picos más altos, con respecto a los años anteriores, siendo el 2018 en donde se emitió la poliza con el valor de Prima Anual más alto.

Segmentación de Clientes por Tipo de Póliza y Monto Asegurado

Dado que tanto como Tipo de Póliza y Monto Asegurado, son variables no jerarquicas, usaremos el método de clasificación: k-means.

Dado que todos los individuos son Tipo de Persona Jurídica, no tiene sentido considerar dicha variable, por tanto, agruparemos por Tipo de Agente y Suma Asegurada.

Así, seleccionamos dichas variables

Para tener una óptima segmentación por clusters, escalaremos las variables:

Ahora, debemos considerar el k adecuado del total de segmentaciones a las variables, se usará métodos como Método del Codo.

Observando el gráfico, la mejor opción por críterior gráfico será tomar k=6.

Procederemos a ejecutar el método k-means.

Observemos ahora la distribución que tomó la segmentación.

Notamos que pues cada tipo de agente en su mayoria tuvo una preferencia en común a no dejar una suma de dinero asegurada tan alta, y muy pocos, más en el tipo de agente de productor, decidieron dejar una suma asegurada alta, mayor a 10M$.

Conclusiones

Esta sección nos ayudó a ver patrones en que los tipos de agentes decidieron dejar una suma asegurada, notamos que pues, en su mayoría cada tipo de agente, decidió dejar una suma asegurada muy baja mostrando entonces el claro patrón de bajas cantidades de dinero asegurado.