Introducción

La base de datos utilizada corresponde al Bank Marketing Dataset, un conjunto que recoge información de campañas de marketing telefónico realizadas por una entidad financiera en Portugal entre 2008 y 2010. El archivo contiene𝑛=39.188 registros (observaciones) y 21 variables, y está disponible públicamente en repositorios como Kaggle: (https://www.kaggle.com/datasets/pkdarabi/bank-marketing-dataset).

Desde el punto de vista estadístico, se trabaja con una muestra de tamaño 𝑛=39.188, donde cada observación representa un cliente contactado durante las campañas. La población de referencia corresponde al conjunto de clientes potenciales de la entidad financiera sujetos a estrategias de marketing similares en el periodo de estudio. En este sentido, los indicadores calculados en el informe (media, mediana, desviación estándar, entre otros) se interpretan como estimadores muestrales de los parámetros poblacionales.

Su propósito principal es permitir el estudio de los factores asociados al éxito de dichas campañas, especialmente la identificación de patrones que influyen en que un cliente acepte o no una oferta comercial del banco.

Antes de realizar el análisis, se llevó a cabo un proceso completo de pre-procesamiento. Esta limpieza permitió trabajar con una base más coherente y confiable.

El alcance de este informe es estrictamente descriptivo. Se asume que las variables registradas reflejan adecuadamente la interacción entre el cliente y la campaña, y que la calidad del registro permite extraer conclusiones válidas a nivel exploratorio. Asimismo, no se consideran factores externos no incluidos en el dataset, por lo que los resultados se interpretan bajo las limitaciones propias de la información disponible.

1. Descripción de las variables

El dataset está conformado por 21 variables que describen las características de los clientes, sus condiciones financieras, los detalles del contacto telefónico realizado durante las campañas de marketing y los resultados de campañas anteriores. Estas variables se dividen en dos grandes grupos: cualitativas y cuantitativas, cada una con subtipos según su naturaleza.

En total, el conjunto de datos cuenta con:

11 variables cualitativas

  • Nominales (10): representan categorías sin un orden natural, como el trabajo del cliente, el estado civil, el mes o día de contacto, o la respuesta final a la campaña.

  • Ordinales (1): nivel educativo, que sigue una jerarquía implícita (p. ej., primaria < secundaria < universitaria).

10 variables cuantitativas

  • Continuas (7): expresan medidas en una escala numérica continua, como edad, duración de la llamada o la tasa de interés interbancaria.

  • Discretas (3): corresponden a conteos o frecuencias, como el número de llamadas durante la campaña, los días desde el último contacto o el número de contactos previos.

De esta manera, el dataset integra tanto información demográfica (edad, estado civil, educación, ocupación), como financiera (créditos, préstamos, tasas económicas), y también operativa de la campaña (medio de contacto, duración de llamadas, historial de intentos).

La Tabla 1 resume cada una de las variables, indicando su nombre, descripción y clasificación según su naturaleza, lo que facilita la comprensión de la estructura del conjunto de datos y prepara el terreno para el análisis exploratorio posterior.

Tabla 1 - Descripción y clasificación de variables del dataset Bank Customers
Nombre Descripción Clasificación por naturaleza
Edad (age) Edad del cliente en años Cuantitativa continua
Trabajo (job) Situación laboral del cliente (ejemplo: obrero, administrativo, desempleado, etc.) Cualitativa nominal
Estado civil (marital_status) Estado civil del cliente (soltero, casado, divorciado, etc.) Cualitativa nominal
Educación (education) Nivel educativo alcanzado por el cliente Cualitativa ordinal
Crédito en mora (default) Indica si el cliente está en situación de mora crediticia Cualitativa nominal
Préstamo hipotecario (housing) Indica si el cliente tiene un préstamo hipotecario Cualitativa nominal
Préstamo personal (loan) Indica si el cliente tiene un préstamo personal Cualitativa nominal
Medio de contacto (contact) Medio de contacto con el cliente (teléfono fijo o celular) Cualitativa nominal
Mes del último contacto (month) Mes en el que el cliente fue contactado por última vez Cualitativa nominal
Día de la semana del último contacto (day_of_week) Día de la semana en que el cliente fue contactado por última vez Cualitativa nominal
Duración de la última llamada (duration) Duración en segundos de la última llamada realizada al cliente Cuantitativa continua
Número de llamadas actuales (campaign) Número de llamadas realizadas al cliente durante la campaña actual Cuantitativa discreta
Días desde contacto anterior (p_days) Número de días desde el último contacto en campañas anteriores (999 = nunca contactado) Cuantitativa discreta
Número de llamadas previas (previous) Número de contactos previos en campañas anteriores Cuantitativa discreta
Resultado de campañas anteriores (p_outcome) Resultado de campañas anteriores (ejemplo: éxito, fracaso, desconocido) Cualitativa nominal
Tasa de empleo trimestral (emp_var_rate) Tasa de variación del empleo en el trimestre Cuantitativa continua
Índice de precios al consumidor (cons_price_idx) Índice de precios al consumidor mensual Cuantitativa continua
Índice de confianza del consumidor (cons_conf_idx) Índice de confianza del consumidor mensual Cuantitativa continua
Tasa de interés interbancaria (euribor3m) Tasa de interés interbancaria a 3 meses Cuantitativa continua
Número de empleados (nr.employed) Número de empleados en el trimestre Cuantitativa continua
Respuesta a campaña (y) Indica si el cliente aceptó la campaña de inversión (sí/no) Cualitativa nominal

###2. Indicadores Estadísticos y Análisis de Resultados

En la Tabla 2 se presentan los indicadores de tendencia central y dispersión (media, mediana, desviación estándar, valores mínimos, máximos y cuartiles) para las 10 variables cuantitativas que del conjunto de datos. No obstante, con el objetivo de no exceder la extensión máxima permitida para este informe, se seleccionaron únicamente 4 variables para un análisis detallado de sus resultados estadísticos:

Tabla 2 - Indicadores estadísticos de las variables cuantitativas
Media Mediana Desv_Estandar Min Q1 Q3 Max
age 40.00 38.00 10.41 17.00 32.00 47.00 98.00
duration 258.16 179.00 258.71 0.00 102.00 320.00 4918.00
campaign 2.57 2.00 2.77 1.00 1.00 3.00 56.00
pdays 962.58 999.00 186.66 0.00 999.00 999.00 999.00
previous 0.17 0.00 0.50 0.00 0.00 0.00 7.00
emp.var.rate 0.08 1.10 1.57 -3.40 -1.80 1.40 1.40
cons.price.idx 93.58 93.75 0.58 92.20 93.08 93.99 94.77
cons.conf.idx -40.50 -41.80 4.63 -50.80 -42.70 -36.40 -26.90
euribor3m 3.62 4.86 1.74 0.63 1.34 4.96 5.04
nr.employed 5166.92 5191.00 72.29 4963.60 5099.10 5228.10 5228.10

Edad (age): Con una media de 40.00 y mediana de 38.00, la muestra se concentra en adultos jóvenes, reforzado por un Q1 de 32.00 y Q3 de 47.00 que agrupa al 50% central. El rango es amplio, iniciando en un mínimo de 17.00 hasta un máximo de 98.00, lo que indica que, aunque el enfoque es la población laboralmente activa, la campaña alcanza hasta la tercera edad. La desviación estándar de 10.41 confirma una dispersión moderada respecto al promedio de edad.

Duración (duration): Esta variable presenta una media de 258.16 y una desviación estándar de 258.71, lo que evidencia una dispersión casi igual al promedio y una volatilidad extrema en las llamadas. El mínimo de 0.00 sugiere intentos fallidos, mientras que el máximo de 4918.00 (82 minutos) se aleja drásticamente del Q3 de 320.00, marcando valores atípicos de gran interés. La mediana de 179.00 refleja que la mayoría de las interacciones son más breves que el promedio calculado.

Campaña (campaign):El promedio de contactos es de 2.57, muy cercano a la mediana de 2.00 y al Q3 de 3.00, lo que indica que el 75% de los clientes recibe tres llamadas o menos. Sin embargo, la desviación estándar de 2.77 y el valor máximo de 56.00 denotan casos de insistencia extrema que rompen la norma del Q1 de 1.00. Esta diferencia entre el comportamiento central y el máximo sugiere una gestión ineficiente en ciertos prospectos saturados.

Días previos (pdays): La estadística está dominada por el valor 999.00, que aparece en la mediana, Q1, Q3 y el máximo, funcionando como código para clientes sin contacto anterior. Aunque la media baja a 962.58 y existe un mínimo de 0.00, la desviación de 186.66 es causada únicamente por la pequeña fracción de clientes ya conocidos. Este predominio absoluto del valor 999 en los cuartiles confirma que el objetivo del banco es la captación pura de nuevos productos.

3. Evaluación de la Relación Lineal

## [1] "Edad vs Campaña: 0.0045"
## [1] "Duración vs Edad: -0.001"
## [1] "Euribor vs No. Empleados: 0.9451"

Análisis de descartes: Se evaluaron relaciones como age vs campaign y duration vs age, las cuales fueron descartadas por presentar coeficientes cercanos a cero. Estas variables no poseen dependencia lineal, lo que indica que la edad del cliente no influye en la duración de la llamada ni en la intensidad del contacto comercial.

Relación seleccionada La combinación de las variables euribor3m y nr.employed arrojó un coeficiente de correlación de r=0.945, cumpliendo con el requisito de ser superior a 0.55. De acuerdo con criterios estadísticos comúnmente aceptados, un coeficiente de correlación se considera débil entre 0.0 y 0.3, moderado entre 0.3 y 0.7 y fuerte cuando es superior a 0.7; por lo tanto, el valor obtenido indica una correlación positiva muy fuerte, cercana a una relación lineal perfecta. En términos prácticos, esto implica que ambas variables tienden a moverse en la misma dirección; sin embargo, es importante precisar que esta relación corresponde a una asociación estadística y no implica necesariamente una relación de causalidad directa entre las variables. ### 4. Gráficos Estadísticos y Análisis

## `geom_smooth()` using formula = 'y ~ x'

Histograma de Edad: El histograma revela una distribución unimodal con un ligero sesgo a la derecha, donde la mayor concentración de clientes se encuentra entre los 30 y 45 años. Se observa que la frecuencia disminuye drásticamente después de los 60 años, lo que confirma que el esfuerzo de mercadeo está segmentado hacia la población en edad laboral activa. La presencia de barras pequeñas en edades avanzadas (cercanas a 90) ratifica la existencia de valores atípicos que elevan levemente el promedio por encima de la mediana.

Análisis del Diagrama de Puntos: El gráfico de dispersión muestra una relación lineal positiva consistente, lo cual es coherente con el coeficiente de correlación estimado (=0.945). La disposición de los datos en patrones horizontales sugiere que la variable nr.employed toma valores relativamente constantes en ciertos periodos, mientras que euribor3m presenta variaciones más continuas, reflejando la periodicidad de los indicadores macroeconómicos. A pesar de esta estructura, la tendencia general es claramente creciente, lo que respalda la existencia de una relación lineal fuerte en términos estadísticos.

Gráfico de Dispersión El gráfico de dispersión para la variable campaign permite visualizar el esfuerzo comercial aplicado a cada observación de la base de datos de manera individual. Se observa que la gran mayoría de los puntos se concentran en la franja inferior, entre 1 y 3 contactos (coincidiendo con el Q3 de 3.00), lo que indica una gestión estandarizada para la mayor parte de la población. No obstante, la dispersión muestra puntos aislados que ascienden hasta los 56 contactos, evidenciando casos atípicos de alta insistencia que se alejan drásticamente del comportamiento promedio de 2.57.

5. Diagramas de cajas

  • El primer diagrama de cajas revela una diferencia significativa en la distribución de la variable duration entre ambas categorías de respuesta. Se observa que la mediana del grupo que aceptó el producto (“yes”) es notablemente superior a la del grupo que lo rechazó (“no”), lo que sugiere que el éxito de la conversión comercial requiere de una interacción telefónica más prolongada para el cierre de la venta. Finalmente, la gran cantidad de valores atípicos (puntos rojos) en el grupo que rechazo (“no”) confirma la presencia de casos excepcionales donde la llamada se extendió muy por encima del comportamiento típico de la muestra.

  • El segundo diagrama de cajas para la variable age segmentado por la respuesta y permite comparar el perfil demográfico de ambas poblaciones de estudio. Se observa que las medianas de edad son muy similares para ambos grupos (cercanas a los 38-40 años), lo que indica que la edad biológica no es el factor determinante para la aceptación del producto. Sin embargo, el grupo que aceptó la campaña (“yes”) muestra una mayor cantidad de valores atípicos en edades avanzadas, sugiriendo que los adultos mayores podrían tener una mayor disposición al ahorro o inversión.

6. Estimación puntual de parámetros y análisis por subpoblaciones

En este apartado se presentan estimaciones puntuales de la media (𝑥) y la desviación estándar (𝑠) para las variables cuantitativas seleccionadas (age, duration, campaign y pdays). Inicialmente, se calculan estas medidas para la muestra total y posteriormente se estiman por subgrupos definidos por la variable cualitativa y (aceptación de la campaña: yes/no), lo que permite comparar el comportamiento de las variables entre ambas poblaciones.

Media y desviación estándar (muestra total)
Media Desv_Estandar
age 40.00 10.41
duration 258.16 258.71
campaign 2.57 2.77
pdays 962.58 186.66
Media y desviación estándar por grupo (y)
y edad_media edad_sd duracion_media duracion_sd campaign_media campaign_sd pdays_media pdays_sd
no 39.90 9.90 220.86 207.02 2.64 2.88 984.26 120.06
yes 40.78 13.75 551.89 399.15 2.04 1.65 791.79 403.58

En la muestra total, la variable age presenta una media de 40 años y una desviación estándar de 10.41, lo que indica una dispersión moderada respecto al promedio. En contraste, duration muestra una media de 258.13 y una desviación estándar de 258.68, prácticamente igual a la media, lo que evidencia una dispersión relativa muy alta y sugiere la presencia de valores atípicos. Por su parte, campaign tiene una media de 2.57 y una desviación de 2.77, indicando una variabilidad considerable en el número de contactos. Finalmente, pdays presenta una media de 962.59 con una desviación de 186.63, lo que refleja una fuerte concentración en valores altos, consistente con la codificación de clientes no contactados previamente.

Al analizar por subgrupos según la variable y, se observan diferencias relevantes. En duration, los clientes que aceptaron la campaña (yes) presentan una media significativamente mayor (551.82) frente a los que no aceptaron (no: 220.84), lo que sugiere que la duración de la llamada está asociada positivamente con el éxito de la campaña. Asimismo, la desviación estándar también es mayor en este grupo (399.13), indicando mayor variabilidad en las interacciones exitosas. En campaign, los clientes que aceptaron recibieron en promedio menos contactos (2.04 vs 2.64), lo que podría indicar que una menor insistencia está asociada con mayor efectividad.

En cuanto a age, las medias son muy similares entre grupos (40.78 vs 39.90), lo que sugiere que la edad no genera diferencias significativas en la aceptación. Finalmente, en pdays, se observa una menor media en el grupo yes (791.84 vs 984.27), lo que indica que los clientes que aceptaron fueron, en promedio, contactados más recientemente en campañas anteriores, lo cual podría influir en su predisposición a aceptar la oferta.

7. Construcción de intervalos de confianza (una y dos poblaciones)

  • Se plantea un intervalo de confianza para la media de la edad de los clientes, con el objetivo de estimar el rango en el cual se encuentra la edad promedio poblacional, dado que esta variable mostró una distribución aproximadamente simétrica en el análisis exploratorio. Sea μ la media poblacional de la edad de los clientes y x̄ la media muestral.
## [1] 39.89441 40.10053
## attr(,"conf.level")
## [1] 0.95

Segun los datos obetnidos, el intervalo de confianza al 95% para la media de la edad de los clientes se encuentra entre 39.89 y 40.10 años. Esto indica que, con un nivel de confianza del 95%, la verdadera edad promedio de la población está dentro de este rango. En términos prácticos, se confirma que la base de clientes se concentra alrededor de los 40 años, lo que corresponde a una población adulta en edad económicamente activa y coherente con el enfoque de las campañas de marketing del banco.

  • Se construye un intervalo de confianza para la diferencia de medias en la duración de las llamadas entre los clientes que aceptaron la campaña y aquellos que no, con el fin de evaluar si existe una diferencia significativa en el tiempo de interacción telefónica entre ambos grupos.
## [1] -343.0081 -319.0528
## attr(,"conf.level")
## [1] 0.95

El intervalo de confianza al 95% para la diferencia de medias en la duración de las llamadas entre los grupos de clientes que aceptaron y no aceptaron la campaña se encuentra entre -342.96 y -319.01. Dado que el intervalo no incluye el valor cero, se concluye que existe una diferencia estadísticamente significativa entre ambos grupos.

El signo negativo del intervalo indica que, en promedio, la duración de las llamadas es mayor en los clientes que aceptaron la campaña en comparación con aquellos que no la aceptaron. Esto sugiere una asociación positiva entre una mayor duración de la interacción telefónica y la probabilidad de éxito en la campaña.

8. Estimación de proporciones de éxito y comparación entre grupos

Con base en el análisis exploratorio previo, se define como criterio de éxito para la variable cuantitativa duration (duración de la llamada) que una interacción sea considerada exitosa cuando supera los 300 segundos. Este umbral permite identificar aquellas llamadas con mayor nivel de interacción, las cuales, según lo observado anteriormente, están asociadas con una mayor probabilidad de aceptación de la campaña.

## [1] 0.2726669
## [1] 0.2682669 0.2771117
## attr(,"conf.level")
## [1] 0.95

La proporción de clientes que cumplen con el criterio de éxito, definido como llamadas con duración superior a 300 segundos, es de 0.2726 (27.26%). El intervalo de confianza al 95% indica que la proporción poblacional se encuentra entre 0.2682 y 0.2771.

Esto implica que, con un nivel de confianza del 95%, entre el 26.82% y el 27.71% de las llamadas realizadas superan el umbral establecido. En términos del análisis, se observa que aproximadamente una cuarta parte de las interacciones telefónicas alcanza una duración elevada, lo cual es consistente con la existencia de un segmento de clientes con mayor nivel de interacción dentro de la campaña.

La estrechez del intervalo refleja además una alta precisión en la estimación, debido al gran tamaño de la muestra utilizada.

Seguidamente, se analiza si la proporción de éxito difiere entre los clientes que aceptaron la campaña (y = yes) y aquellos que no (y = no).

##      
##           0     1
##   no  27056  7706
##   yes  1438  2976
## [1] 0.4379128 0.4671663
## attr(,"conf.level")
## [1] 0.95

El intervalo de confianza al 95% para la diferencia de proporciones de éxito entre los clientes que aceptaron la campaña (y = yes) y aquellos que no (y = no) se encuentra entre 0.4378 y 0.4670.

Dado que el intervalo no incluye el valor cero, se concluye que existe una diferencia estadísticamente significativa entre ambos grupos. En particular, la proporción de llamadas exitosas (duración mayor a 300 segundos) es considerablemente mayor en los clientes que aceptaron la campaña en comparación con los que no lo hicieron.

En términos prácticos, esto indica que la probabilidad de que una llamada supere el umbral de 300 segundos es entre 43.78% y 46.70% mayor en el grupo de clientes que aceptaron la oferta. Este resultado evidencia una fuerte asociación entre una mayor duración de la interacción telefónica y el éxito de la campaña.

No obstante, esta relación debe interpretarse con cautela, ya que no implica causalidad directa, sino una asociación observada dentro de los datos analizados.

9. Formulación y contraste de hipótesis estadísticas

Con el fin de complementar el análisis inferencial, se formulan pruebas de hipótesis para evaluar afirmaciones sobre parámetros poblacionales, tanto en el caso de una sola población como en la comparación entre dos poblaciones.

Se evalúa si la edad promedio de los clientes es igual a 40 años, valor cercano al observado en el análisis descriptivo.

## 
##  One Sample t-test
## 
## data:  datos$age
## t = -0.048061, df = 39175, p-value = 0.9617
## alternative hypothesis: true mean is not equal to 40
## 95 percent confidence interval:
##  39.89441 40.10053
## sample estimates:
## mean of x 
##  39.99747

No se rechaza la hipótesis nula, ya que el p-valor (0.9659) es mayor que el nivel de significancia de 0.05. Esto indica que no existe evidencia estadísticamente significativa para afirmar que la edad promedio de los clientes sea diferente de 40 años.

Adicionalmente, la media estimada de la muestra es 39.99775, un valor prácticamente igual a 40, lo que refuerza la consistencia del resultado obtenido en la prueba de hipótesis. Esta cercanía entre el valor observado y el valor planteado en la hipótesis nula sugiere que la edad promedio de la población se mantiene estable alrededor de los 40 años.

En términos del contexto del estudio, esto confirma que la base de clientes del banco se concentra en un rango de edad característico de población adulta, sin evidenciar desviaciones significativas respecto al valor de referencia analizado.

Por otro lado, se evalúa si existe diferencia en la duración promedio de las llamadas entre los clientes que aceptaron la campaña y los que no.

## 
##  Welch Two Sample t-test
## 
## data:  duration by y
## t = -54.182, df = 4718.9, p-value < 2.2e-16
## alternative hypothesis: true difference in means between group no and group yes is not equal to 0
## 95 percent confidence interval:
##  -343.0081 -319.0528
## sample estimates:
##  mean in group no mean in group yes 
##          220.8604          551.8908

Se rechaza la hipótesis nula, ya que el p-valor es menor a 0.05 (p-value < 2.2e-16). Esto indica que existe evidencia estadísticamente significativa para afirmar que la duración promedio de las llamadas es diferente entre los clientes que aceptaron la campaña y aquellos que no.

En particular, la duración promedio de las llamadas en el grupo que no aceptó la campaña es de aproximadamente 220.84 segundos, mientras que en el grupo que sí aceptó es de 551.82 segundos, evidenciando una diferencia considerable entre ambos. El intervalo de confianza al 95% para la diferencia de medias se encuentra entre -342.96 y -319.01, lo que confirma que esta diferencia es consistente y no se debe al azar.

El signo negativo del intervalo indica que la media del grupo que aceptó la campaña es mayor que la del grupo que no aceptó. En términos prácticos, esto muestra que las llamadas exitosas tienden a ser significativamente más largas, lo que sugiere una fuerte asociación entre una mayor duración de la interacción telefónica y la aceptación del producto.

10. Conclusiones

  • El análisis evidenció que las variables demográficas, como la edad, presentan una alta estabilidad en la población estudiada. Tanto los intervalos de confianza como la prueba de hipótesis confirmaron que la edad promedio se mantiene alrededor de los 40 años, sin diferencias estadísticamente significativas frente a este valor, lo que indica que el perfil del cliente es consistente y se concentra en población adulta económicamente activa.

  • Las variables operativas de la campaña, especialmente la duración de la llamada, muestran una relación clara con el resultado comercial. Se encontró que los clientes que aceptaron la campaña presentan tiempos de interacción significativamente mayores, lo cual fue respaldado tanto por intervalos de confianza como por pruebas de hipótesis y análisis de proporciones. Esto sugiere que las interacciones más prolongadas están asociadas con una mayor probabilidad de éxito.

  • El análisis inferencial en su conjunto (intervalos de confianza, pruebas de hipótesis y proporciones) permitió validar estadísticamente los patrones observados en la etapa descriptiva. En particular, se identificó que aproximadamente el 27% de las llamadas superan el umbral de éxito definido, y que esta proporción es considerablemente mayor en los clientes que aceptan la oferta. Sin embargo, todas estas relaciones deben interpretarse como asociaciones dentro de los datos, sin implicar causalidad directa.

11. Referencias

Moro, S., Cortez, P., & Rita, P. (2014). A data-driven approach to predict the success of bank telemarketing. Decision Support Systems, 62, 22–31. https://doi.org/10.1016/j.dss.2014.03.001

Darabi, P. (2020). Bank Marketing Dataset [Data set]. Kaggle. https://www.kaggle.com/datasets/pkdarabi/bank-marketing-dataset