| giro_actividad | fecha_constitucion | id_poliza | anio_mes | tipo_agente | sucursal | ramo_comercial | tipo_persona | prima_anual | prima_emitida | fecha_emision | fecha_vigencia_desde | fecha_vigencia_hasta | forma_pago | suma_aseg |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Produccion | 2007-04-12 | 67421 | 2021-08 | PRODUCTOR | QUITO | BUEN USO DE ANTICIPO | JURIDICO | 3075.60 | 256.30 | 2018-07-03 | 2018-06-29 | 2021-09-30 | EFECTIVO | 91716.45 |
| Produccion | 1975-01-24 | 89042 | 2020-12 | UNIDAD DE PRODU | QUITO | FIEL CUMPLIMIENTO DE CONTRATO | JURIDICO | 12009.60 | 1000.80 | 2017-03-15 | 2016-11-26 | 2022-11-25 | EFECTIVO | 13900.00 |
| Comercializacion/Distribucion | 2001-03-02 | 96382 | 2020-09 | DIRECTO | QUITO | FIEL CUMPLIMIENTO DE CONTRATO | JURIDICO | 479.16 | 39.93 | 2020-03-25 | 2020-03-16 | 2020-11-11 | EFECTIVO | 6072.50 |
| Comercializacion/Distribucion | 2004-04-07 | 70642 | 2020-09 | PRODUCTOR | QUITO | BUEN USO DE ANTICIPO | JURIDICO | 1802.40 | 150.20 | 2020-09-11 | 2020-09-08 | 2020-10-23 | EFECTIVO | 67682.88 |
| Comercializacion/Distribucion | 2009-02-06 | 67486 | 2019-09 | PRODUCTOR | GUAYAQUIL | FIEL CUMPLIMIENTO DE CONTRATO | JURIDICO | 13371.36 | 1114.28 | 2018-10-16 | 2018-10-29 | 2019-12-23 | EFECTIVO | 150633.77 |
| Produccion | 1999-08-23 | 55563 | 2018-11 | UNIDAD DE PRODU | GUAYAQUIL | GARANTIA ADUANERA | JURIDICO | 406.32 | 33.86 | 2018-11-19 | 2018-11-19 | 2018-12-19 | EFECTIVO | 9961.00 |
Analisis de la base Polizas Emitidas
Introducción
El presente informe analiza la base de datos Polizas Emitidas, incluyendo insights que permiten la correcta comprension de la misma, asi como analisis estadisticos y metodos de clasificacion para entender la relacion entre variables e individuos.
Carga de la Base de Datos
Para comenzar el analisis, debemos leer la base Polizas_Emitidas, la cual se encuentra en formato .txt y cuyos valores dentro del archivo estan separados por un espacio en blanco.
Las primeras filas de la base se muestran a continuacion:
Prepocesamiento de datos y Manejo de Calidad
Se evaluará la calidadde los datos en campos como: Fecha constitución, Prima anual y Suma asegurada. Para aquello, se deberá identificar y corregir insconsistencias o valores atípicos
Identificación de inconsistencias como valores: Nan, infty.
Para aquello, se usó la siguiente función que revisará dentro de las variables mencionadas si existen las inconsistencias anteriores.
Debemos primeramente considerar a fecha constitución como un dato de fecha con un formato específico.
Ahora, una vez hecho esto, procederemos al verificar la existencia de valores inconsistentes como: Nan, infty.
Obteniendo:
No se encontraron valores faltantes (NA) ni infinitos en las columnas fecha_constitucion, prima_anual o suma_asegurada.
con esto, vemos que: en efecto, no existen valores NaN ni infty en las variables mencionadas.
Identificar y corregir valores atípicos
Dentro de la base de datos, en especial dentro de las variables Prima anual y Suma asegurada, es fácil ver que son valores muy dispersos, eso se puede decir por el rango de la muestra.
[1] 1153943
[1] 803438920
[1] 24399116
[1] 162113649383
La técnica que usaremos será por el Criterio Intercuartilico, identificaremos los datos atípicos y los reemplazaremos con regresión lineal, pero lo haremos por muestras o lotes de datos de toda la tabla de información, para luego unirlos.
Se diseño funciones que usarán el criterio intercuartilico y reemplazará los datos de cualquier muestra.
Ahora, de una vez serapando en lotes a nuestros datos, obtendremos que cada lote sin valores atipicos y además reemplazados con una regresión lineal.
Con la ayuda de estas dos funciones siguientes, hemos logrado identificar los valores atipicos y reemplazarlos;
Ahora, veamos como quedaron los valores de prima asegurada y suma asegurada quitando los valores atipicos.
Conclusiones de indentificar y corregir
En la base de datos, los valores atipicos se vieron presentes pues al ser una variable con datos muy dispersos, el tratamiento de la correción fue muy delicada pues algunos de ellos representaban un gran peso para la data. Pero reemplazándolos con predicciones semejantes se logró obtener una estabilidad adecuada sin perder información.
Análisis Exploratorio en Relación a la Sucursal y el Ramo Comercial
Visualizacion de los Datos
Visualizamos las variables de interes y los valores que estas mismas poseen para identificar la estrategia de analisis.
| sucursal | ramo_comercial | prima_emitida |
|---|---|---|
| QUITO | BUEN USO DE ANTICIPO | 256.30 |
| QUITO | FIEL CUMPLIMIENTO DE CONTRATO | 1000.80 |
| QUITO | FIEL CUMPLIMIENTO DE CONTRATO | 39.93 |
| QUITO | BUEN USO DE ANTICIPO | 150.20 |
| GUAYAQUIL | FIEL CUMPLIMIENTO DE CONTRATO | 1114.28 |
| GUAYAQUIL | GARANTIA ADUANERA | 33.86 |
Categorias de la variable Sucursal:
| Sucursal |
|---|
| QUITO |
| GUAYAQUIL |
| IBARRA |
| CUENCA |
| MANTA |
| AMBATO |
| LOJA |
Categorias de la variable Ramo Comercial:
| Ramo Comercial |
|---|
| BUEN USO DE ANTICIPO |
| FIEL CUMPLIMIENTO DE CONTRATO |
| GARANTIA ADUANERA |
| SERIEDAD DE OFERTA |
| GARANTIAS JUDICIALES |
| DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES |
| BUEN USO CARTA CREDITO |
Agrupación de los Datos
Además para analizar la distribución de los individuos en cada categoría de interés procedemos a realizar un conteo por grupos.
Conteo por Sucursal:
| Sucursal | Total por Sucursal |
|---|---|
| AMBATO | 1054 |
| CUENCA | 1672 |
| GUAYAQUIL | 11468 |
| IBARRA | 461 |
| LOJA | 351 |
| MANTA | 1637 |
| QUITO | 15385 |
Conteo por Ramo Comercial:
| Ramo Comercial | Total por Ramo |
|---|---|
| BUEN USO CARTA CREDITO | 13 |
| BUEN USO DE ANTICIPO | 8392 |
| DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES | 149 |
| FIEL CUMPLIMIENTO DE CONTRATO | 15994 |
| GARANTIA ADUANERA | 6766 |
| GARANTIAS JUDICIALES | 102 |
| SERIEDAD DE OFERTA | 612 |
Finalmente agruparemos Sucursal y Ramo Comercial en función de la Prima Emitida, pero para ello, de todas las observaciones obtenidas para una sucursal y un ramo comercial fijo, se calculará la suma total de las mismas.
Así obtenemos la siguiente tabla:
| Sucursal | Ramo Comercial | Prima Total |
|---|---|---|
| AMBATO | BUEN USO DE ANTICIPO | 241855.86 |
| AMBATO | FIEL CUMPLIMIENTO DE CONTRATO | 75306.74 |
| AMBATO | GARANTIA ADUANERA | 531.62 |
| AMBATO | GARANTIAS JUDICIALES | 716.31 |
| AMBATO | SERIEDAD DE OFERTA | 279.45 |
| CUENCA | BUEN USO DE ANTICIPO | 724743.89 |
Además si consideramos ordenar las categorias de Ramo Comercial de la siguiente manera:
| Orden | Ramo.Comercial |
|---|---|
| 1 | BUEN USO CARTA CREDITO |
| 2 | DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES |
| 3 | SERIEDAD DE OFERTA |
| 4 | GARANTIAS JUDICIALES |
| 5 | GARANTIA ADUANERA |
| 6 | BUEN USO DE ANTICIPO |
| 7 | FIEL CUMPLIMIENTO DE CONTRATO |
Visualizaciones Gráficas
Podemos observar una clara tendencia entre la suma de la prima emitida y el ramo comercial para cada sucursal.
Podemos visualizar la tendencia de cada gráfico por separado.
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.
Además el conteo de valores por Sucursal y Ramo Comercial se encuentran resumidos en la siguiente tabla de contingencia.
| BUEN USO CARTA CREDITO | BUEN USO DE ANTICIPO | DEBIDA EJECUCION DE OBRA Y BUENA CALIDAD DE MATERIALES | FIEL CUMPLIMIENTO DE CONTRATO | GARANTIA ADUANERA | GARANTIAS JUDICIALES | SERIEDAD DE OFERTA | |
|---|---|---|---|---|---|---|---|
| AMBATO | 0 | 571 | 0 | 475 | 2 | 2 | 4 |
| CUENCA | 0 | 768 | 0 | 797 | 78 | 24 | 5 |
| GUAYAQUIL | 0 | 2983 | 0 | 5269 | 3154 | 10 | 52 |
| IBARRA | 0 | 281 | 0 | 168 | 0 | 0 | 12 |
| LOJA | 0 | 162 | 1 | 187 | 1 | 0 | 0 |
| MANTA | 0 | 37 | 0 | 103 | 1494 | 3 | 0 |
| QUITO | 13 | 3590 | 148 | 8995 | 2037 | 63 | 539 |
Resultados
Una vez realizado el análisis correspondiente, podemos concluir que existe una clara relación entre la sucursal y el ramo comercial en términos de prima emitida. Con la técnica de agrupamiento utilizada, vemos que los ramos ‘Buen uso de anticipo’ y ‘Fiel cumplimiento de contrato’ son los que acumulan la mayor cantidad de Prima Emitida con respecto a las otras categorías y en la mayoría de sucursales. Además de ser las categorías con mayor cantidad de individuos en cada sucursal.
Evolución Temporal de las Pólizas
Visualización de los Datos
Vamos a seleccionar las variables Prima Anual y Fecha Emision, las cuales son de interés para visualizar la evolución temporal.
| Prima Anual | Fecha de Emisión |
|---|---|
| 3075.60 | 2018-07-03 |
| 12009.60 | 2017-03-15 |
| 479.16 | 2020-03-25 |
| 1802.40 | 2020-09-11 |
| 13371.36 | 2018-10-16 |
| 406.32 | 2018-11-19 |
Transformación de los Datos
Dado que contamos con una gran cantidad de fechas, y en algunos de los casos repetidas, realizar un gráfico de evolución temporal para todas las fechas puede no resultar adecuado, y además dificil de interpretar, por lo que se optó en agrupar las fechas por su correspondiente año. Además en los casos de fechas de emision repetidos, se considero la suma de todos los valores para la prima anual.
La tabla final de esta transformación se muestra a continuación:
| Fecha de Emisión | Total Prima Anual | Año de Emisión |
|---|---|---|
| 2004-03-05 | 4063.20 | 2004 |
| 2005-05-20 | 36708.84 | 2005 |
| 2006-03-24 | 154532.40 | 2006 |
| 2006-05-17 | 33600.00 | 2006 |
| 2007-10-18 | 812.64 | 2007 |
| 2007-10-19 | 2867.16 | 2007 |
Podemos además visualizar todos los años en los que se ha emitido una póliza.
[1] 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
[16] 2019 2020 2021 2022
Visualizaciones Temporales
La evolución temporal por Prima Anual, para todos los años se muestra a continuación:
Además para poder analizar la evolución temporal para un año en específico se consideran las siguientes gráficas.
Así podemos filtrar los años de interés para analizar la evolución de la Prima Anual e identificar momentos clave de crecimiento y decrecimiento para este indicador.
Resultados
No se visualiza una tendencia general en el valor de la Prima Anual por año, ya que este valor tiende a aumentar y disminuir según el tiempo, presuntamente de manera arbitraria. Un análisis más a fondo de la evolución temporal por año y por sucursal podría proporcionar información más específica, puesto que los valores de la Prima Anual entre cada sucursal son distintos.
Además se puede observar que a partir del año 2013, los valores de la Prima Anual empiezan a tener picos más altos, con respecto a los años anteriores, siendo el 2018 en donde se emitió la poliza con el valor de Prima Anual más alto.
Segmentación de Clientes por Tipo de Póliza y Monto Asegurado
Dado que tanto como Tipo de Póliza y Monto Asegurado, son variables no jerarquicas, usaremos el método de clasificación: k-means.
Dado que todos los individuos son Tipo de Persona Jurídica, no tiene sentido considerar dicha variable, por tanto, agruparemos por Tipo de Agente y Suma Asegurada.
Así, seleccionamos dichas variables
Para tener una óptima segmentación por clusters, escalaremos las variables:
Ahora, debemos considerar el k adecuado del total de segmentaciones a las variables, se usará métodos como Método del Codo.
Observando el gráfico, la mejor opción por críterior gráfico será tomar k=6.
Procederemos a ejecutar el método k-means.
Observemos ahora la distribución que tomó la segmentación.
Notamos que pues cada tipo de agente en su mayoria tuvo una preferencia en común a no dejar una suma de dinero asegurada tan alta, y muy pocos, más en el tipo de agente de productor, decidieron dejar una suma asegurada alta, mayor a 10M$.
Conclusiones
Esta sección nos ayudó a ver patrones en que los tipos de agentes decidieron dejar una suma asegurada, notamos que pues, en su mayoría cada tipo de agente, decidió dejar una suma asegurada muy baja mostrando entonces el claro patrón de bajas cantidades de dinero asegurado.