Contexto del Problema

En los últimos años, las organizaciones que comercializan múltiples productos y canales de venta enfrentan el reto de conocer mejor a sus clientes para tomar decisiones basadas en datos. Aunque las empresas cuentan con información histórica sobre compras, gastos, descuentos, reclamos y comportamiento en diferentes canales (web, catálogo y tienda física), esta información se encuentra dispersa y no siempre se utiliza estratégicamente.

El conjunto de datos analizado corresponde a una base de clientes que registra características demográficas (edad aproximada, composición del hogar, nivel educativo, estado civil), variables económicas (ingreso estimado), historial de compras por categoría de producto y comportamiento frente a promociones y canales de compra. Adicionalmente, se dispone de información relacionada con la antigüedad del cliente en la empresa y registros de quejas.

Preguntas clave del negocio

  • ¿Qué tipos de clientes generan mayor gasto total?
  • ¿Existen perfiles de consumidores con patrones similares de compra?
  • ¿Cómo influyen variables como ingreso, educación y estructura del hogar?
  • ¿Qué papel juegan los descuentos y los canales de venta?
  • ¿Qué segmentos requieren estrategias especiales de retención?

Decisiones comerciales que se apoyan con el análisis

  • Diseño de campañas más focalizadas
  • Personalización de ofertas por segmento
  • Priorización de canales con mayor potencial
  • Identificación de clientes de alto valor y fidelización
  • Enfoque preventivo frente al abandono


En este contexto, el proyecto se orienta a aprovechar el conjunto de datos disponible para construir una visión más clara y estructurada del comportamiento de los clientes, utilizando técnicas de análisis exploratorio, reducción de dimensión y segmentación, bajo los lineamientos de la metodología CRISP-DM.

Objetivos del Análisis

El propósito central del análisis es aprovechar la información disponible sobre los clientes para apoyar la toma de decisiones estratégicas de mercadeo. A través del uso de técnicas de exploración, reducción de dimensión y segmentación, se busca transformar los datos en conocimiento útil y accionable para la organización.

De manera específica, el análisis persigue los siguientes objetivos:

En última instancia, el análisis pretende ofrecer a la empresa una visión más clara y estructurada de su base de clientes, facilitando la priorización de esfuerzos comerciales y el uso más eficiente de los recursos disponibles.

Comprensión de los Datos

🛒 1. Contexto general

El conjunto de datos recoge información histórica de clientes de una empresa de retail. Integra variables demográficas, hábitos de consumo y relación con la marca.

Incluye más de 2.200 clientes, con registros consolidados por hogar.

🎯 2. Estructura general del dataset

👤 Variables demográficas

🗓 Año de nacimiento
🎓 Nivel educativo
💵 Ingreso del hogar
👶 Niños en casa
🧑‍Adolescentes en casa
❤️ Estado civil

Permiten caracterizar el perfil socioeconómico de los clientes.

🛍 Variables de comportamiento y transacciones
🍷🍎🥩🐟🍬💍 Gasto por categorías
🎯 Compras con descuento
⏱ Recencia
⚠️ Quejas registradas
🗓 Fecha de Incorporación
🌐 Canal de compra:
  • Web
  • Catálogo
  • Tienda física
📊 Variables derivadas

📌 Cohorte de ingreso
💳 Gasto total consolidado
⏳ Antigüedad del cliente

Permiten analizar segmentación, valor del cliente y fidelización.

📝 3. Descripción general del dataset

3.1 Clientes por nivel educativo
La base de clientes presenta un perfil altamente calificado: más del 50% cuenta con formación universitaria y cerca del 40% tiene estudios de posgrado. Este patrón sugiere un segmento con mayor capacidad adquisitiva.
3.2 Clientes por estado civil
La mayor proporción de clientes pertenece a hogares conformados (casados o en unión libre), que en conjunto superan el 60% de la base.
3.3 Distribución de niños en el hogar
Predominan hogares sin niños pequeños, lo que puede estar relacionado con una mayor capacidad de gasto en otras categorías distintas a productos infantiles.
3.4 Distribución de adolescentes en el hogar
La presencia de adolescentes es limitada y se concentra principalmente en hogares con un solo miembro en este rango de edad.
3.5 Gasto promedio por cohorte
Los clientes que ingresaron antes (cohorte 2012) presentan el mayor gasto promedio, seguidos por los de 2013 y 2014. Este comportamiento es consistente con el efecto de antigüedad en la relación, donde los clientes más antiguos acumulan mayor gasto y muestran una relación más estable con la marca.
3.6 Gasto total y comportamiento de consumo
Se observa que una parte relevante del gasto está asociada al uso de descuentos, lo que sugiere sensibilidad a promociones.
3.7 Ingresos vs Gastos
Existe relación positiva entre ingreso y gasto total, aunque con diferencias entre clientes de ingresos similares, lo cual indica perfiles de consumo diferentes.
3.8 Uso de canales de compra
La tienda física sigue siendo el canal principal, mientras que el canal web aparece como una oportunidad para crecer en ventas digitales.
✔️ Síntesis General
  • La base integra adecuadamente demografía, consumo, promociones y canales.
  • Se observan patrones claros de gasto por nivel de ingreso y estructura del hogar.
  • El uso de descuentos influye en el comportamiento de compra.
  • El rol de la tienda física continúa siendo dominante, con oportunidad digital.

Preparación de los Datos

La preparación de los datos se centró en tres frentes principales: calidad de los datos, construcción de variables derivadas y exploración descriptiva inicial.

1 Revisión inicial de calidad de los datos

Se realizó una verificación inicial de:

📌 Tipos de datos
* Identificación correcta de variables numéricas, categóricas y fechas.
* Conversión de año de nacimiento y fecha de incorporación a formatos adecuados.
📌 Revisión de duplicidad por identificador único
* No se detectaron duplicados relevantes.
📌 Rangos plausibles para edad e ingresos
* Eliminación de registros (año de nacimiento antiguo e ingreso alto).
📌 Valores faltantes
* Se identificaron valores faltantes en variables específicas (año de nacimiento e ingreso) y se aplicaron criterios de imputación o exclusión según su impacto.

2 Construcción de variables derivadas

Con el fin de enriquecer la lectura del comportamiento de los clientes, se generaron variables derivadas a partir de la información original:

  • Gasto total consolidado: suma de los gastos en vinos, carnes, pescados, dulces, frutas y artículos de lujo.
  • Cohorte de incorporación: año en que el cliente ingresó a la empresa.
  • Antigüedad en años: tiempo transcurrido entre la fecha de incorporación y una fecha de referencia.

Estas variables permiten dimensionar el valor del cliente en el tiempo y facilitan la posterior segmentación.

3 Exploración descriptiva inicial

Una vez depurado el conjunto de datos, se realizó un análisis exploratorio para identificar patrones generales y posibles relaciones de interés entre variables.

a) Composición del hogar y gasto en dulces

El análisis muestra que la presencia de niños en el hogar no incrementa el consumo de dulces. Por el contrario, los hogares sin niños presentan mayores valores promedio y mayor variabilidad en el gasto.
La presencia de adolescentes no incrementa el gasto en dulces. Por el contrario, los hogares sin adolescentes concentran los niveles más altos de consumo y la mayor variabilidad, lo que sugiere patrones de compra distintos asociados a otras dinámicas del hogar.
b) Relaciones entre variables







Las diferentes categorías de gasto están fuertemente relacionadas entre sí y con el gasto total, reforzando la idea de comportamientos de consumo integrados.
c) Distribución del gasto según estado civil
Se observan variaciones en la distribución del gasto por estado civil, con outliers asociados a clientes de alto consumo.
d) Distribución del gasto según nivel educativo
La distribución del gasto por nivel educativo muestra una alta dispersión, especialmente en los niveles superiores. En vinos, la mediana aumenta progresivamente con mayor nivel educativo.
e) Distribución del gasto según la antiguedad
El gráfico muestra una relación positiva pero débil entre la antigüedad del cliente y el gasto total. A medida que aumenta el tiempo de permanencia, el gasto tiende a incrementarse ligeramente; sin embargo, la dispersión es alta, lo que indica comportamientos muy heterogéneos entre clientes con la misma antigüedad.

Modelación

1. Análisis de Componentes Principales

Gráfico de Sedimentación






Con 2 componentes se explica alrededor del 52% de la varianza. El PCA confirma que la estructura del dataset puede resumirse en pocos factores principales, facilitando la segmentación y reduciendo ruido sin perder información relevante.
Interpretación de las Componentes Principales

PC1: Nivel de consumo y poder adquisitivo del hogar. Valores altos se relacionan con un mayor ingreso y gasto, en cambio los valores bajos se relacionan con los hogares con mayor carga familiar.

PC2: Perfil demográfico y estrategia de compra. Valores positivos están asociados a clientes jóvenes y poco orientados a descuentos, por otra parte, los valores negativos se asocian a clientes maduros y estratégicos, es decir, que planifican sus compras con el fin de aprovechar descuentos.

2. Agrupación - Cluster

Método del codo para determinar el K óptimo






El punto de inflexión (“codo”) aparece alrededor de k = 3, por lo que este valor representa una segmentación eficiente: suficiente diferenciación entre clientes sin sobre-fragmentar la población.
Coeficiente de silueta para determinar K óptimo





Con 2 clusters se presenta un mayor coeficiente de silueta, seguido de 3 clusters.
Coeficiente de silueta para K=2 y K=3





Se decide trabajar con K=3.
Agrupación de clientes
Cluster 1: Alto consumo, clientes jóvenes
• PC1 muy positivo se relaciona con un alto ingreso y alta intensidad de gasto
• PC2 positivo representa principalmente clientes más jóvenes
• Bajo uso de descuentos
• Compra menos estratégica y más orientada al consumo
• Alta frecuencia de compra en distintos canales
Segmento de alto valor, ideal para estrategias premium y fidelización.
Cluster 2: Bajo consumo, perfil promedio en comportamiento
• PC1 negativo indica un menor nivel de consumo y poder adquisitivo
• PC2 cercano a 0 se asocia con un comportamiento y perfil demográfico promedio
• Hogares con mayor carga familiar
• Gasto moderado–bajo
• Uso de descuentos similar al promedio
Representa clientes de menor valor económico, pero con comportamiento estable y predecible.
Cluster 3: Consumo medio, clientes maduros y estratégicos
• PC1 levemente positivo indica un consumo medio
• PC2 muy negativo se relaciona con clientes mayores, con adolescentes en el hogar
• Alta sensibilidad a promociones
• Uso intensivo de descuentos y compras planificadas
• Mayor experiencia como clientes
Segmento estratégico y sensible al precio, clave para acciones promocionales y retención.

Conclusión

Relación variables — gasto
El gasto total muestra asociación positiva con el ingreso y con la antigüedad, confirmando que los clientes consolidados aportan mayor valor.

Segmentación
El clustering permitió identificar grupos diferenciados (alto consumo, consumo moderado, bajo consumo), lo cual abre la puerta a estrategias diferenciadas de comunicación, retención y monetización.

Comportamiento de compra
La mayor parte de las compras sigue ocurriendo en tienda física, pero el canal digital aparece como un espacio de crecimiento. No todos los supuestos se confirman (por ejemplo, niños/adolescentes no necesariamente aumentan gasto en dulces), mostrando la utilidad de la analítica.

Descuentos y promociones
Los descuentos influyen de forma relevante en el gasto, lo que sugiere revisar políticas promocionales para equilibrar atracción de clientes y margen de rentabilidad.

Valor para la toma de decisiones
Los resultados permiten pasar de una estrategia generalista a una estrategia basada en datos: campañas más focalizadas, mejor asignación de recursos y mayor capacidad de fidelizar clientes de alto valor.

La analítica confirma patrones clave del negocio, corrige supuestos y habilita decisiones comerciales más inteligentes y medibles.