Introducción

En este proyecto trabajamos con una base de datos de un banco, dicha base de datos contiene información relacionada con una campaña de marketing realizada por el banco para promocionar un pagaré.

Se cuentan con 45,211 observaciones de 17 variables:

  • Age: Edad del cliente
  • Job: Tipo de empleo del cliente, divididos en 12 categorías
  • Marital: Estado civil del cliente
  • Education: Nivel educativo del cliente, divididos en 4 categorías
  • Default: Indica si el cliente tiene crédito en incumplimiento
  • Balance: Balance en la cuenta del cliente
  • Housing: Indica si el cliente cuenta con un crédito hipotecario
  • Loan: Indica si el cliente cuenta con préstamos de otro tipo
  • Contact: Indica el medio que se uso para promover el nuevo producto
  • Day: Último día de contacto con el cliente
  • Month: Último mes de contacto con el cliente
  • Duration: Tiempo de exposición a la campaña en segundos
  • Campaign: A cuántas otras campañas se ha expuesto el cliente
  • Previous Days: Número de días que han pasado desde el último contacto con el cliente
  • Previous: Días que han pasado desde la última campaña del banco que se le mostró al cliente
  • Poutcome: Resultado de la última campaña del banco que se le mostró al cliente
  • Event: (Class) Resultado de la campaña a la que se está dando seguimiento

Análisis

Podemos notar que la campaña de marketing no fue un éxito dentro de nuestros clientes ya que solo cerca del 10% de ellos adquirieron el pagaré.

Para poder determinar que fue lo que causó este pobre desempeño, empezaremos por conocer a los clientes del banco.

Perfil de los Clientes

Empezaremos por conocer la distribución por edad de la cartera de clientes del banco.

Podemos ver que la mayoría de ellos se encuentran entre los 30 y los 50 años. Pero, ¿en que trabajan?

El banco agrupa a sus clientes de acuerdo a su empleo en las siguientes categorías: en gerencia, en administración, en servicios, técnicos, emprendedores, trabajadores de cuello azul, jubilados, trabajadores independientes, empleados domésticos, estudiantes y desempleados. También se agrega la categoría de “desconocido” cuando no se tiene la información respecto al trabajo del cliente.

En la siguiente tabla veremos la distribución laboral dentro de la cartera de clientes, notemos que los 5 trabajos más frecuentes conforman el 80% del total.

Trabajo # de Clientes
Blue-collar 9,732
Management 9,458
Technician 7,597
Admin. 5,171
Services 4,154
Retired 2,264
Self-employed 1,579
Entrepreneur 1,487
Unemployed 1,303
Housemaid 1,240
Student 938
Unknown 288

Podemos apreciar que en este top 5 figuran empleos que son usualmente de baja paga o que requieren menos formación profesional (exceptuando a los que laboran en administración o en gerencia). Lo que nos lleva a ver cual es el grado educativo de los clientes.

La mayoría de los clientes tiene al menos una educación secundaria. Y solo el 29% de ellos tiene una formación profesional.

Perfil Crediticio

Ahora nos interesa conocer sobre las características bancarias de los clientes. Es de vital importancia entender los adeudos o créditos con los que cuentan para tener el perfil completo del cliente.

Primero notemos que un poco más de la mitad de los clientes cuentan con un crédito hipotecario.

Pero la mayoría no cuenta con otro tipo de crédito.

Esto nos dice que aproximadamente la mitad de los clientes están comprometidos a pagar una hipoteca, la cual es una carga financiera importante.

Estrategia de Marketing

Para darnos una idea de la estrategia de marketing vamos a observar los medios de contacto con el cliente.

Podemos decir que fue una campaña telefónica donde el principal medio de contacto fue el celular.

Solo nos falta ver la duración de las llamadas respecto a si la campaña fue un éxito o no.

Podemos ver que la duración parece jugar un papel importante en si el cliente adquiere un pagaré, sin embargo hay que tener en cuenta que aunque estén relacionados, esto no implica causalidad (por lo cual no la usaremos en el modelo). Bien puede que las llamadas duren más porque el cliente esta interesado en el producto y este preguntando muchas cosas. También hay que resaltar que esto último habla bien del servicio que dan los ejecutivos, con el tiempo necesario, ya que informan de buena manera al cliente sobre las características del producto y logran que este invierta en el.

Finalmente resulta de interés conocer la relación entre los resultado de la campaña anterior y la actual.

Aquí podemos ver que no se tiene mucha información, sin embargo, se nota la presencia de clientes fieles que adquirieron un pagaré la campaña pasada y que ahora más de la mitad de ellos lo volvió a adquirir.

Modelo

Para contestar la interrogante de que se hizo bien y que se hizo mal en la campaña, utilizaremos el modelo regresión logística. Utilizaremos las siguientes variables en el modelo:

  • Job
  • Education
  • Housing
  • Loan
  • Contact
  • Poutcome
  • Class (nuestra variable independiente)

Primero observemos las variables que decrecen la probabilidad de que los clientes adquieran un pagaré (en orden descendente).

Coef
(Intercept) -2.97
Housingyes -0.57
Jobhousemaid -0.48
Jobentrepreneur -0.45
Jobunknown -0.34
Jobblue-collar -0.32
Jobself-employed -0.30
Jobtechnician -0.29
Jobservices -0.26
Jobmanagement -0.25
Educationprimary -0.25
Educationsecondary -0.09
Jobadmin. -0.08


Y los que aumentan la probabilidad

Coef
Poutcomesuccess 2.47
Contactcellular 0.97
Contacttelephone 0.77
Loanno 0.52
Jobstudent 0.51
Poutcomeother 0.50
Jobretired 0.40
Poutcomefailure 0.21
Educationtertiary 0.14

Rendimiento

Dada la naturaleza desbalanceada de los datos, nuestro criterio para determinar si este modelo toma en cuenta las variables determinantes en en éxito o fracaso de la campaña será el de las curvas AUC-ROC, ya que no tiene sentido tomar en cuenta el accuracy dado que bastaría con solo acertar los que no compraron el producto para tener un valor muy bueno de precisión.

Estas curvas toman en cuenta muy bien la tasa de verdaderos positivos y de falsos positivos por lo cual si ambos son buenos, concluiremos que el modelo es adecuado.

Podemos ver que el área bajo la curva es de 0.733 lo cuál nos indica que el modelo es aceptable (con un 73% de probabilidad, el modelo distinguirá correctamente entre ambas clases) y podemos realizar recomendaciones basándonos en el.

Nuestro corte de probabilidades en este modelo es 0.25 ya que nos da buenas métricas.

Negativo Real Positivo Real
Negativo Predicho 38,733 3,994
Positivo predicho 1,189 1,295

Resumen

Los pagarés al ser instrumentos de inversión que requieren que el dinero invertido por el cliente se quede en la cuenta por un tiempo fijo, no son ideales para gente que necesita disponer de su dinero rápidamente o para los que necesiten realizar varios movimientos en periodos reducidos de tiempo.

Primero notemos que el intercepto es el que más peso guarda respecto a las variables que hacen menos probable la compra del producto, en el se encuentra la información correspondiente a los clientes desempleados de los cuales se desconoce su nivel educativo, el medio de contacto, el resultado de la última campaña, los que no tienen un crédito hipotecario y los que si tienen otro tipo crédito.

Para darnos una idea del efecto que tiene la lealtad del cliente, a través del resultado de la campaña anterior, veamos la probabilidad de adquirir el pagaré para los siguientes casos:

job education housing loan contact poutcome prob
management primary no no cellular success 62.00%
technician primary no no cellular success 61.00%
entrepreneur primary no no cellular success 57.00%
blue-collar primary no no cellular success 60.00%
unknown primary no no cellular success 60.00%
retired primary no no cellular success 76.00%
admin. primary no no cellular success 66.00%
services primary no no cellular success 62.00%
self-employed primary no no cellular success 61.00%
unemployed primary no no cellular success 68.00%
housemaid primary no no cellular success 56.00%
student primary no no cellular success 78.00%

Tomamos como referencia la educación primaria ya que es la que más reduce la probabilidad, pero prácticamente podemos decir que el haber tenido éxito en la campaña anterior, nos da una probabilidad importante de que el cliente adquiera el pagaré. Y de acuerdo a nuestro corte, sería una compra segura.

Observaremos las 5 fuerzas laborales más importantes dentro de la cartera del banco y veremos cual es la probabilidad si la campaña anterior fue un fracaso con ellos.

job education housing loan contact poutcome prob
blue-collar primary no no cellular failure 14%
management primary no no cellular failure 15%
technician primary no no cellular failure 14%
admin. primary no no cellular failure 17%
services primary no no cellular failure 15%

Podemos ver que este hecho prácticamente disminuye la probabilidad en casi el 50%. Por lo cual el tener éxito en la campaña anterior es la variable más importante para determinar la compra o no del pagaré.

También se puede apreciar que aunque tengamos que en ambos se tenga una educación terciaria, la probabilidad aún no alcanza la prob. de 0.25. Aunque los de administración se encuentran muy cerca, con los cuales valdría la pena promocionar el pagaré vehemente.

job education housing loan contact poutcome prob
blue-collar tertiary no no cellular failure 19%
management tertiary no no cellular failure 20%
technician tertiary no no cellular failure 20%
admin. tertiary no no cellular failure 23%
services tertiary no no cellular failure 20%

No veremos los casos donde hay algún crédito porque estos solo bajan la probabilidad. Lo que si vale la pena es analizar a las dos fuerzas laborales que mejor respondieron a la campaña: los estudiantes y los jubilados.

Veamos como son sus probabilidades cuando tienen educación primaria y terciaria y considerando que la campaña anterior fue un fracaso en ellos.

job education housing loan contact poutcome prob
student tertiary no no cellular failure 35%
student primary no no cellular failure 27%
retired tertiary no no cellular failure 33%
retired primary no no cellular failure 25%

Aqui 3 de los 4 casos pasan nuestra probabilidad de corte, quedandosé en el borde el cliente retirado con educación primaria, esta probabilidad podría pasar el umbral si a estos clientes se les explicaran las bondades de un pagaré.

Aquí lo importante es que si cuenta con un crédito hipotecario o algún préstamo o si el medio de contacto fue el teléfono fijo, esto lleva a las probabilidades a estar bajo del corte.

job education housing loan contact poutcome prob
student tertiary yes no cellular failure 23%
student tertiary no yes cellular failure 24%
retired tertiary yes no cellular failure 21%
retired tertiary no yes cellular failure 22%
student tertiary no no telephone failure 21%
retired tertiary no no telephone failure 22%

De estos, el que más baja la probabilidad es que el cliente cuente un crédito hipotecario, si así baja la probabilidad de los clientes donde mejor le fue al banco por debajo del umbral, también será determinante en los otros tipos de cliente.

Esto nos muestra que para los que no compraron la campaña pasada, es necesario mantener el contacto a través del celular y que el objetivo son los clientes sin ningún tipo de crédito.

De los análisis anteriores podemos ver que la lealtad, el contacto a través del celular y la presencia de un crédito hipotecario son las variables más importantes y que más ejercen fuerza sobre la probabilidad.

Propuestas

El objetivo principal es aumentar el número de clientes leales y de ser posible atraer más clientes que sean estudiantes o jubilados.

  1. Para los clientes que cuenten con algún crédito hipotecario, ofrecer pagarés que requieran una inversión menos grande y por periodos más cortos de tiempo, a una tasa de interés más baja. Así tratar de bajar el impacto negativo en la probabilidad de esta variable.

  2. Se pueden ofrecer los próximos productos (o pagarés) primero a los clientes leales como preámbulo a una campaña global. Si los clientes leales responden de buena manera, implementar la campaña, si no, reajustar el producto o cambiarlo, no se puede esperar tener éxito en los clientes del banco si los leales no responden bien.

  3. Para los clientes con formación profesional (preferiblemente que trabajen en las 5 fuerzas laborales mas predominantes en la cartera), dado que su probabilidad esta cerca de nuestro corte, se podrían ofrecer instrumentos más interesantes como fondos de renta variable o futuros.

  4. Ofrecer productos que atraigan a más estudiantes y jubilados al banco, por ejemplo para los estudiantes cuentas de débito sin monto mínimo mensual, tarjetas con poca línea de crédito o para los jubilados un fondo de pensiones planes de inversión en la bolsa.