Introducción
En los últimos años, las organizaciones que comercializan múltiples
productos y canales de venta enfrentan el reto de conocer mejor a sus
clientes para tomar decisiones basadas en datos. Aunque las empresas
cuentan con información histórica sobre compras, gastos, descuentos,
reclamos y comportamiento en diferentes canales (web, catálogo y tienda
física), esta información se encuentra dispersa y no siempre se utiliza
estratégicamente.
Descripción del conjunto de datos
El conjunto de datos analizado corresponde a una base de clientes que
registra características demográficas (edad aproximada, composición del
hogar, nivel educativo, estado civil), variables económicas (ingreso
estimado), historial de compras por categoría de producto y
comportamiento frente a promociones y canales de compra. Adicionalmente,
se dispone de información relacionada con la antigüedad del cliente en
la empresa y registros de quejas.
Pregunta de investigación
¿De qué manera la segmentación de clientes basada en variables
sociodemográficas y hábitos de compra puede contribuir a la
personalización de ofertas y a la mejora de los ingresos de un
supermercado?
Con base en la pregunta de investigación y el conjunto de datos se
tiene una ruta para aproximarse a la respuesta. Esta ruta consiste en la
comprensión de las características de la población y la respuesta a
algunas preguntas orientadoras:
Preguntas clave del negocio
- ¿Qué tipos de clientes generan mayor gasto total?
- ¿Existen perfiles de consumidores con patrones similares de
compra?
- ¿Cómo influyen variables como ingreso, educación y estructura del
hogar?
- ¿Qué papel juegan los descuentos y los canales de venta?
- ¿Qué segmentos requieren estrategias especiales de retención?
En este contexto, el proyecto se orienta a aprovechar el
conjunto de datos disponible para construir una visión más clara y
estructurada del comportamiento de los clientes, utilizando técnicas de
análisis exploratorio, reducción de dimensión y segmentación, bajo los
lineamientos de la metodología CRISP-DM.
Análisis exploratorio
🛒 1. Contexto general
El conjunto de datos recoge información histórica de clientes de una
empresa de retail. Integra variables demográficas, hábitos de consumo y
relación con la marca.
Incluye más de 2.200 clientes, con registros
consolidados por hogar.
🎯 2. Estructura general del dataset
👤 Variables demográficas
🗓 Año de nacimiento
🎓 Nivel educativo
💵 Ingreso del
hogar
👶 Niños en casa
🧑Adolescentes en casa
❤️ Estado civil
Permiten caracterizar el perfil socioeconómico de los clientes.
🛍 Variables de comportamiento y transacciones
🍷🍎🥩🐟🍬💍 Gasto por categorías
🎯 Compras con descuento
⏱ Recencia
⚠️ Quejas registradas
🗓
Fecha de Incorporación
🌐 Canal de compra:
-
Web
-
Catálogo
-
Tienda física
📊 Variables derivadas
📌 Cohorte de ingreso
💳 Gasto total consolidado
⏳ Antigüedad del cliente
Permiten analizar segmentación, valor del cliente y fidelización.
📝 3. Descripción general del dataset
3.1 Clientes por nivel educativo
La base de clientes presenta un perfil altamente calificado: más del 50%
cuenta con formación universitaria y cerca del 40% tiene estudios de
posgrado. Este patrón sugiere un segmento con mayor capacidad
adquisitiva.
3.2 Clientes por estado civil
La mayor proporción de clientes pertenece a hogares conformados (casados
o en unión libre), que en conjunto superan el 60% de la base.
3.3 Distribución de niños en el hogar
Predominan hogares sin niños pequeños, lo que puede estar relacionado
con una mayor capacidad de gasto en otras categorías distintas a
productos infantiles.
3.4 Distribución de adolescentes en el hogar
La presencia de adolescentes es limitada y se concentra principalmente
en hogares con un solo miembro en este rango de edad.
3.5 Gasto promedio por cohorte
Los clientes que ingresaron antes (cohorte 2012) presentan el mayor
gasto promedio, seguidos por los de 2013 y 2014. Este comportamiento es
consistente con el efecto de antigüedad en la relación, donde los
clientes más antiguos acumulan mayor gasto y muestran una relación más
estable con la marca.
3.6 Gasto total y comportamiento de consumo
Se observa que una parte relevante del gasto está asociada al uso de
descuentos, lo que sugiere sensibilidad a promociones.
3.7 Ingresos vs Gastos
Existe relación positiva entre ingreso y gasto total,
aunque con diferencias entre clientes de ingresos similares, lo cual
indica perfiles de consumo diferentes.
3.8 Uso de canales de compra
La tienda física sigue siendo el canal
principal, mientras que el canal web aparece como una
oportunidad para crecer en ventas digitales.
✔️ Síntesis General
- La base integra adecuadamente demografía, consumo, promociones y
canales.
- Se observan patrones claros de gasto por nivel de ingreso y
estructura del hogar.
- El uso de descuentos influye en el comportamiento de compra.
- El rol de la tienda física continúa siendo dominante, con
oportunidad digital.
Correlación entre las variables
La preparación de los datos se centró en tres frentes principales:
calidad de los datos, construcción de variables derivadas y exploración
descriptiva inicial.
Ya conociendo el conunto de datos, es posible realizar cruce de
variables para identificar posibles patrones generales y relaciones de
interés entre ellas.
a) Composición del hogar y gasto en dulces
El análisis muestra que la presencia de niños en el hogar no incrementa
el consumo de dulces. Por el contrario, los hogares sin niños presentan
mayores valores promedio y mayor variabilidad en el gasto.
La presencia de adolescentes no incrementa el gasto en dulces. Por el
contrario, los hogares sin adolescentes concentran los niveles más altos
de consumo y la mayor variabilidad, lo que sugiere patrones de compra
distintos asociados a otras dinámicas del hogar.
b) Relaciones entre variables
Las diferentes categorías de gasto están fuertemente relacionadas entre
sí y con el gasto total, reforzando la idea de comportamientos de
consumo integrados.
c) Distribución del gasto según estado civil
Se observan variaciones en la distribución del gasto por estado civil,
con outliers asociados a clientes de alto consumo.
d) Distribución del gasto según nivel educativo
La distribución del gasto por nivel educativo muestra una alta
dispersión, especialmente en los niveles superiores. En vinos, la
mediana aumenta progresivamente con mayor nivel educativo.
e) Distribución del gasto según la antiguedad
El gráfico muestra una relación positiva pero débil entre la antigüedad
del cliente y el gasto total. A medida que aumenta el tiempo de
permanencia, el gasto tiende a incrementarse ligeramente; sin embargo,
la dispersión es alta, lo que indica comportamientos muy heterogéneos
entre clientes con la misma antigüedad.
Modelación
1. Análisis de Componentes Principales
Gráfico de Sedimentación

Con 2 componentes se explica alrededor del
52% de la varianza. El PCA confirma que la estructura
del dataset puede resumirse en pocos factores
principales, facilitando la segmentación y reduciendo ruido sin
perder información relevante.
Interpretación de las Componentes Principales
PC1: Nivel de consumo y poder adquisitivo del hogar.
Valores altos se relacionan con un mayor ingreso y gasto, en cambio los
valores bajos se relacionan con los hogares con mayor carga
familiar.
PC2: Perfil demográfico y estrategia de compra. Valores
positivos están asociados a clientes jóvenes y poco orientados a
descuentos, por otra parte, los valores negativos se asocian a clientes
maduros y estratégicos, es decir, que planifican sus compras con el fin
de aprovechar descuentos.
2. Agrupación - Cluster
Método del codo para determinar el K óptimo

El punto de inflexión (“codo”) aparece alrededor de k =
3, por lo que este valor representa una segmentación eficiente:
suficiente diferenciación entre clientes sin sobre-fragmentar la
población.
Coeficiente de silueta para determinar K óptimo
Con 2 clusters se presenta un mayor coeficiente de silueta, seguido de 3
clusters.
Coeficiente de silueta para K=2 y K=3
Se decide trabajar con K=3.
Agrupación de clientes
Cluster 1: Alto consumo, clientes jóvenes
• PC1 muy
positivo se relaciona con un alto ingreso y alta intensidad de gasto
• PC2 positivo representa principalmente clientes más jóvenes
• Bajo
uso de descuentos
• Compra menos estratégica y más orientada al
consumo
• Alta frecuencia de compra en distintos canales
Segmento de alto valor, ideal para estrategias premium y fidelización.
Cluster 2: Bajo consumo, perfil promedio en
comportamiento
• PC1 negativo indica un menor nivel de
consumo y poder adquisitivo
• PC2 cercano a 0 se asocia con un
comportamiento y perfil demográfico promedio
• Hogares con mayor
carga familiar
• Gasto moderado–bajo
• Uso de descuentos similar
al promedio
Representa clientes de menor valor económico, pero con
comportamiento estable y predecible.
Cluster 3: Consumo medio, clientes maduros y
estratégicos
• PC1 levemente positivo indica un consumo
medio
• PC2 muy negativo se relaciona con clientes mayores, con
adolescentes en el hogar
• Alta sensibilidad a promociones
• Uso
intensivo de descuentos y compras planificadas
• Mayor experiencia
como clientes
Segmento estratégico y sensible al precio, clave para
acciones promocionales y retención.
Conclusión
Relación variables — gasto
El gasto total
muestra asociación positiva con el ingreso y con la antigüedad,
confirmando que los clientes consolidados aportan mayor valor.
Segmentación
El clustering permitió identificar
grupos diferenciados (alto consumo, consumo moderado, bajo consumo), lo
cual abre la puerta a estrategias diferenciadas de comunicación,
retención y monetización.
Comportamiento de compra
La mayor parte de las
compras sigue ocurriendo en tienda física, pero el canal digital aparece
como un espacio de crecimiento. No todos los supuestos se confirman (por
ejemplo, niños/adolescentes no necesariamente aumentan gasto en dulces),
mostrando la utilidad de la analítica.
Descuentos y promociones
Los descuentos influyen
de forma relevante en el gasto, lo que sugiere revisar políticas
promocionales para equilibrar atracción de clientes y margen de
rentabilidad.
Valor para la toma de decisiones
Los resultados
permiten pasar de una estrategia generalista a una estrategia basada en
datos: campañas más focalizadas, mejor asignación de recursos y mayor
capacidad de fidelizar clientes de alto valor.
La analítica confirma patrones clave del negocio, corrige
supuestos y habilita decisiones comerciales más inteligentes y
medibles.