En los últimos años, las organizaciones que comercializan múltiples productos y canales de venta enfrentan el reto de conocer mejor a sus clientes para tomar decisiones basadas en datos. Aunque las empresas cuentan con información histórica sobre compras, gastos, descuentos, reclamos y comportamiento en diferentes canales (web, catálogo y tienda física), esta información se encuentra dispersa y no siempre se utiliza estratégicamente.
El conjunto de datos analizado corresponde a una base de clientes que registra características demográficas (edad aproximada, composición del hogar, nivel educativo, estado civil), variables económicas (ingreso estimado), historial de compras por categoría de producto y comportamiento frente a promociones y canales de compra. Adicionalmente, se dispone de información relacionada con la antigüedad del cliente en la empresa y registros de quejas.
En este contexto, el proyecto se orienta a aprovechar el
conjunto de datos disponible para construir una visión más clara y
estructurada del comportamiento de los clientes, utilizando técnicas de
análisis exploratorio, reducción de dimensión y segmentación, bajo los
lineamientos de la metodología CRISP-DM.
El propósito central del análisis es aprovechar la información disponible sobre los clientes para apoyar la toma de decisiones estratégicas de mercadeo. A través del uso de técnicas de exploración, reducción de dimensión y segmentación, se busca transformar los datos en conocimiento útil y accionable para la organización.
De manera específica, el análisis persigue los siguientes objetivos:
En última instancia, el análisis pretende ofrecer a la empresa una visión más clara y estructurada de su base de clientes, facilitando la priorización de esfuerzos comerciales y el uso más eficiente de los recursos disponibles.
El conjunto de datos recoge información histórica de clientes de una empresa de retail. Integra variables demográficas, hábitos de consumo y relación con la marca.
Incluye más de 2.200 clientes, con registros consolidados por hogar.
🗓 Año de nacimiento
🎓 Nivel educativo
💵 Ingreso del
hogar
👶 Niños en casa
🧑Adolescentes en casa
❤️ Estado civil
Permiten caracterizar el perfil socioeconómico de los clientes.
📌 Cohorte de ingreso
💳 Gasto total consolidado
⏳ Antigüedad del cliente
Permiten analizar segmentación, valor del cliente y fidelización.
La preparación de los datos se centró en tres frentes principales: calidad de los datos, construcción de variables derivadas y exploración descriptiva inicial.
Se realizó una verificación inicial de:
📌 Tipos de datos
* Identificación correcta de variables
numéricas, categóricas y fechas.
* Conversión de año de nacimiento y
fecha de incorporación a formatos adecuados.
📌 Revisión de
duplicidad por identificador único
* No se detectaron duplicados
relevantes.
📌 Rangos plausibles para edad e ingresos
*
Eliminación de registros (año de nacimiento antiguo e ingreso alto).
📌 Valores faltantes
* Se identificaron valores faltantes en
variables específicas (año de nacimiento e ingreso) y se aplicaron
criterios de imputación o exclusión según su impacto.
Con el fin de enriquecer la lectura del comportamiento de los clientes, se generaron variables derivadas a partir de la información original:
Estas variables permiten dimensionar el valor del cliente en el tiempo y facilitan la posterior segmentación.
Una vez depurado el conjunto de datos, se realizó un análisis exploratorio para identificar patrones generales y posibles relaciones de interés entre variables.
PC1: Nivel de consumo y poder adquisitivo del hogar.
Valores altos se relacionan con un mayor ingreso y gasto, en cambio los
valores bajos se relacionan con los hogares con mayor carga
familiar.
PC2: Perfil demográfico y estrategia de compra. Valores
positivos están asociados a clientes jóvenes y poco orientados a
descuentos, por otra parte, los valores negativos se asocian a clientes
maduros y estratégicos, es decir, que planifican sus compras con el fin
de aprovechar descuentos.
Relación variables — gasto
El gasto total
muestra asociación positiva con el ingreso y con la antigüedad,
confirmando que los clientes consolidados aportan mayor valor.
Segmentación
El clustering permitió identificar
grupos diferenciados (alto consumo, consumo moderado, bajo consumo), lo
cual abre la puerta a estrategias diferenciadas de comunicación,
retención y monetización.
Comportamiento de compra
La mayor parte de las
compras sigue ocurriendo en tienda física, pero el canal digital aparece
como un espacio de crecimiento. No todos los supuestos se confirman (por
ejemplo, niños/adolescentes no necesariamente aumentan gasto en dulces),
mostrando la utilidad de la analítica.
Descuentos y promociones
Los descuentos influyen
de forma relevante en el gasto, lo que sugiere revisar políticas
promocionales para equilibrar atracción de clientes y margen de
rentabilidad.
Valor para la toma de decisiones
Los resultados
permiten pasar de una estrategia generalista a una estrategia basada en
datos: campañas más focalizadas, mejor asignación de recursos y mayor
capacidad de fidelizar clientes de alto valor.