Taller 3 TDBD - Regresión cuantílica

1 Introducción

El presente trabajo analiza el comportamiento de compra de los clientes de una empresa del sector food retail a partir de un conjunto de datos que simula interacciones reales de consumidores con distintos productos y canales de venta. La base de datos incluye información demográfica, socioeconómica y de comportamiento, lo que permite explorar cómo ciertas características de los clientes se relacionan con sus patrones de consumo.

A partir de esta información, el estudio busca aportar evidencia sobre las características asociadas al comportamiento de consumo de los clientes, lo cual puede resultar útil para comprender mejor la dinámica del gasto y apoyar la toma de decisiones en estrategias comerciales y de segmentación de clientes. Esto se logra mediante la aplicación de técnicas de Regresión Lineal Clásica y Regresión Cuantílica.

2 Análisis exploratorio de datos

El conjunto de datos que se analizarán es una simulación intencionada diseñada para evaluar habilidades de análisis de datos, basándose en la realidad operativa de una empresa líder en food retail.

Los datos replican interacciones de una cartera de cientos de miles de clientes con los cinco tipos de productos de la empresa (vinos, carnes, frutas, pescados y dulces) a través de sus tres canales de venta (tienda, catálogo y web), e incluyen además las respuestas de los clientes a diferentes campañas de marketing directo.

Adicionalmente, el conjunto de datos contiene información demográfica y de comportamiento de los clientes, como el año de nacimiento, el nivel de ingresos del hogar, la composición familiar y la fecha de incorporación del cliente a la empresa. Estas variables permiten analizar no solo el nivel de gasto de los consumidores, sino también identificar posibles factores asociados a los patrones de compra.

A partir de esta información, se construirá una variable de gasto total, que resume el consumo del cliente en las diferentes categorías de productos. Esta variable será utilizada como la variable dependiente en el análisis, permitiendo estudiar cómo características como la edad, el ingreso, la presencia de menores en el hogar y la antigüedad del cliente se relacionan con el nivel de gasto en la tienda.

Primero, se hace la escogencia de las variables numéricas de interés:

3 Preparación de los Datos

Se realizó un proceso de transformación y construcción de variables con el objetivo de obtener indicadores más adecuados para el análisis. En primer lugar, se creó la variable menores_en_casa, que representa el número total de menores en el hogar, sumando la cantidad de niños y adolescentes reportados. Esta variable permite aproximar la composición familiar del cliente, lo cual podría influir en sus patrones de consumo.

Posteriormente, se construyó la variable gasto, que corresponde al gasto total del cliente en la tienda, calculado como la suma del consumo en las distintas categorías de productos: vinos, frutas, carnes, pescados, dulces y productos premium.

Adicionalmente, se realizaron transformaciones sobre variables temporales y demográficas. A partir del año de nacimiento se calculó la variable edad, mientras que de la fecha de ingreso del cliente se extrajo el año para estimar la variable antigüedad, definida como el número de años que el cliente lleva vinculado con la empresa.

Estas transformaciones permiten disponer de variables más interpretables y comparables.

# =========================
# 4. Transformación y construcción de variables
# =========================

datos <- datos %>%
  mutate(
    # Número total de menores en el hogar
    menores_en_casa = niños_en_casa + adolescentes_en_casa,
    
    # Gasto total del cliente
    gasto = gasto_en_vinos + gasto_en_frutas + gasto_en_carnes +
            gasto_en_pescados + gasto_en_dulces + gasto_en_oro,
    
    # Extraer el año de la fecha de ingreso
    fecha_de_ingreso = as.numeric(format(fecha_de_ingreso, "%Y")),
    
    # Calcular edad
    edad = 2015 - año_de_nacimiento,
    
    # Calcular antigüedad del cliente
    antiguedad = 2015 - fecha_de_ingreso
  )

Para evitar redundancia en la información, se eliminan las variables originales que fueron utilizadas para construir las variables derivadas gasto y antigüedad. De esta forma, se conserva únicamente la información agregada necesaria para el análisis, reduciendo la dimensionalidad del conjunto de datos y facilitando la estimación del modelo.

# =========================
# 5. Depuración de la base final
# =========================

# Se eliminan las variables originales que ya no se necesitan,
# dejando únicamente las variables finales para el modelo

datos <- datos %>%
  select(
    gasto,
    edad,
    ingreso_original,
    menores_en_casa,
    antiguedad
  )

Variable explicativa: Ingreso original. Una vez definidas las variables que se utilizarán en el modelo, se procede a examinar la posible presencia de valores atípicos en las variables explicativas. Este paso es importante porque observaciones extremas pueden tener una influencia considerable sobre los resultados de la estimación.

En particular, se analiza la variable ingreso_original, la cual representa el ingreso anual del cliente. Dado que esta variable puede presentar una alta dispersión, es necesario revisar su rango de valores y evaluar la presencia de observaciones inusualmente altas o bajas.

min(datos$ingreso_original, na.rm = TRUE)

## [1] 1730

max(datos$ingreso_original, na.rm = TRUE)

## [1] 666666

Para ello, primero se calculan los valores mínimo y máximo de la variable. Los resultados indican que el ingreso anual de los clientes se encuentra entre 1730 y 666666 dólares, lo que evidencia un rango bastante amplio y sugiere la posible existencia de valores extremos.

boxplot.stats(datos$ingreso_original)$out

## [1] 153924 157243 160803 156924 162397 157733 157146 666666

Posteriormente, se identifican posibles valores atípicos utilizando el criterio del diagrama de caja (boxplot). Este método permite detectar observaciones que se encuentran significativamente alejadas del comportamiento general de la distribución. Los resultados muestran la presencia de varios ingresos particularmente altos que podrían distorsionar el análisis.

Con el fin de evitar que estas observaciones extremas influyan de manera desproporcionada en el modelo, se decide filtrar los valores superiores a 153924, conservando únicamente aquellos registros que se encuentran dentro de un rango más representativo de la distribución de ingresos.

datos <- datos[datos$ingreso_original <= 153924, ]

Finalmente, se visualiza la distribución del ingreso anual mediante un histograma, lo que permite observar con mayor claridad la forma de la distribución una vez tratados los valores atípicos.

hist(datos$ingreso_original,
     breaks = 30,
     col = "lightblue",
     border = "white",
     main = "Distribución del ingreso anual de los clientes",
     xlab = "Ingreso anual",
     ylab = "Frecuencia")

Variable explicativa: Edad. A continuación, se analiza la variable edad con el fin de identificar posibles valores atípicos que puedan afectar el análisis. Inicialmente, se examinan los valores mínimo y máximo de la variable. Los resultados muestran que la edad de los clientes se encuentra en un rango entre 19 y 115 años.

Si bien la presencia de clientes adultos mayores es plausible, una edad de 115 años resulta poco frecuente y podría corresponder a un registro extremo o potencialmente atípico dentro del conjunto de datos.

Para identificar formalmente posibles valores extremos, se utiliza el criterio del diagrama de caja (boxplot).

min(datos$edad, na.rm = TRUE)

## [1] 19

max(datos$edad, na.rm = TRUE)

## [1] 115

A partir de este análisis, se identifica el valor 115 como un posible valor atípico, por lo que se decide excluirlo del conjunto de datos para evitar que influya en el análisis posterior.

boxplot.stats(datos$edad)$out

## [1] 115

datos <- datos[
  datos$edad != 115,
]

Finalmente, se visualiza la distribución de la variable mediante un diagrama de cajas, el cual permite observar la dispersión de los datos, la mediana y la posible presencia de valores extremos.

boxplot(datos$edad,
        main = "Diagrama de cajas de la edad",
        ylab = "Edad",
        col = "lightblue")

En primer lugar, se observa que la mediana de la edad se encuentra aproximadamente alrededor de 45 años, lo que indica que la mitad de los clientes tiene una edad inferior a este valor y la otra mitad una edad superior.

El rango intercuartílico (IQR), que está representado por la caja, se extiende aproximadamente entre 38 y 56 años, lo que indica que el 50 % central de los clientes se concentra dentro de este intervalo de edad. Esto sugiere que la mayor parte de los clientes pertenece a un segmento de adultos de mediana edad.

Los bigotes del diagrama muestran que las edades se extienden aproximadamente desde alrededor de 20 años hasta cerca de 75 años, lo que indica que el conjunto de datos incluye tanto clientes jóvenes como adultos mayores.

Finalmente, tras eliminar el valor atípico previamente identificado (115 años), no se observan nuevos valores extremos en la distribución, lo que sugiere que la variable edad presenta una dispersión razonable.

Otras variables explicativas

tabla <- data.frame(
  Media = c(mean(datos$menores_en_casa, na.rm = TRUE),
            mean(datos$antiguedad, na.rm = TRUE)),
  
  Mediana = c(median(datos$menores_en_casa, na.rm = TRUE),
              median(datos$antiguedad, na.rm = TRUE)),
  
  Min = c(min(datos$menores_en_casa, na.rm = TRUE),
          min(datos$antiguedad, na.rm = TRUE)),
  
  Max = c(max(datos$menores_en_casa, na.rm = TRUE),
          max(datos$antiguedad, na.rm = TRUE)),
  
  SD = c(sd(datos$menores_en_casa, na.rm = TRUE),
         sd(datos$antiguedad, na.rm = TRUE))
)

rownames(tabla) <- c("Menores en casa", "Antigüedad")

tabla <- t(tabla)

tabla %>%
  knitr::kable(
    digits = 2,
    caption = "<div style='text-align:center; font-size:18px; font-weight:bold; font-style:normal; color:black;'>Estadísticos descriptivos de las variables</div>",
    align = "c",
    escape = FALSE
  ) %>%
  kableExtra::kable_styling(
    full_width = FALSE,
    position = "center"
  ) %>%
  kableExtra::row_spec(0, bold = TRUE) %>%
  kableExtra::column_spec(1:3, width = "3cm")

Estadísticos descriptivos de las variables
	Menores en casa	Antigüedad
Media	0.95	1.97
Mediana	1.00	2.00
Min	0.00	1.00
Max	3.00	3.00
SD	0.75	0.69

En el caso de menores_en_casa, la media es de 0.95 y la mediana es 1, lo que indica que, en promedio, los hogares cuentan aproximadamente con un menor. El rango de esta variable se encuentra entre 0 y 3 menores por hogar, lo que sugiere que la mayoría de las familias tiene pocos menores a cargo. La desviación estándar de 0.75 indica una dispersión moderada alrededor de la media.

Por su parte, la variable antigüedad presenta una media de 1.97 años y una mediana de 2 años, lo que sugiere que la mayoría de los clientes lleva relativamente poco tiempo vinculada con la empresa. El rango observado va de 1 a 3 años, lo que indica que se trata principalmente de clientes recientes. La desviación estándar de 0.69 muestra que la variabilidad en la antigüedad de los clientes es relativamente baja.

Variable dependiente: gasto. Se analizó la distribución de la variable gasto, definida como el gasto total del cliente en las diferentes categorías de productos. Para ello, se construyó un histograma acompañado de la media y la mediana como medidas de tendencia central.

Este análisis permite evaluar si la distribución del gasto es simétrica o si, por el contrario, presenta asimetrías o valores extremos. En contextos donde la media y la mediana difieren de manera importante, la media puede no representar adecuadamente el comportamiento típico de los datos. Por esta razón, resulta pertinente complementar el análisis con enfoques como la regresión cuantílica, que permite estudiar el efecto de las variables explicativas en distintos puntos de la distribución del gasto y no únicamente en su valor promedio.

# Calcular media y mediana
media_gasto <- mean(datos$gasto, na.rm = TRUE)
mediana_gasto <- median(datos$gasto, na.rm = TRUE)

ggplot(datos, aes(x = gasto)) +
  geom_histogram(bins = 30,
                 fill = "lightblue",
                 color = "white") +
  
  geom_vline(xintercept = media_gasto,
             linetype = "solid",
             size = 0.8) +
  
  geom_vline(xintercept = mediana_gasto,
             linetype = "dashed",
             size = 0.8) +
  
  annotate("text",
           x = media_gasto + 265,
           y = Inf,
           label = paste0("media = ", round(media_gasto,2)),
           vjust = 2,
           size = 4) +
  
  annotate("text",
           x = mediana_gasto - 250,
           y = Inf,
           label = paste0("mediana = ", round(mediana_gasto,2)),
           vjust = 4,
           size = 4) +
  
  labs(
    title = "Distribución del gasto total",
    x = "Gasto",
    y = "Frecuencia"
  ) +
  
  theme_minimal()

4 Modelado

4.1 Regresión lineal

Para contar con un punto de referencia inicial, se estima primero un modelo de regresión lineal clásica (OLS) en el que el gasto total del cliente se explica en función de las variables edad, ingreso_original, menores_en_casa y antiguedad.

4.1.1 Interpretación de resultados

La tabla de resultados presenta los coeficientes estimados (\(\beta\)) asociados a cada una de las variables explicativas. Estos coeficientes indican el cambio esperado en el gasto del cliente ante una variación en cada variable, manteniendo las demás constantes.

A continuación, se describe la interpretación de cada uno de los coeficientes estimados.

Edad: Manteniendo constantes las demás variables del modelo, un aumento de un año en la edad del cliente se asocia con una disminución aproximada de 0.609 unidades monetarias en el gasto realizado en la tienda. Esto sugiere que, en promedio, los clientes de mayor edad tienden a gastar ligeramente menos que los clientes más jóvenes.

Ingreso original: El coeficiente asociado a ingreso_original indica que, manteniendo constantes las demás variables, un aumento de una unidad en el ingreso anual del cliente se relaciona con un incremento aproximado de 0.01348 unidades monetarias en el gasto. Este resultado es consistente con la intuición económica de que clientes con mayores ingresos tienden a presentar mayores niveles de consumo.

Menores en casa: El coeficiente estimado para menores_en_casa sugiere que, manteniendo constantes las demás variables, cada menor adicional en el hogar se asocia con una disminución aproximada de 187 dólares en el gasto en la tienda. Este resultado podría indicar que los hogares con más menores redistribuyen su presupuesto hacia otros tipos de consumo.

Antigüedad: Finalmente, la variable antiguedad presenta una relación positiva con el gasto. En particular, manteniendo constantes las demás variables, cada año adicional de antigüedad del cliente en la empresa se asocia con un incremento aproximado de 137 dólares en el gasto. Esto sugiere que los clientes con una relación más prolongada con la empresa tienden a gastar más.

4.2 Regresión cuantílica

En esta sección se estima un modelo de regresión cuantílica con el fin de analizar cómo las variables explicativas influyen en distintos puntos de la distribución del gasto. A diferencia de la regresión lineal tradicional, que estima el efecto promedio, esto permite evaluar el impacto de las variables en diferentes niveles de gasto. En particular, se estiman los modelos correspondientes a los cuantiles 10%, 50% y 90% de la distribución.

# =========================
# 9. Estimar regresión cuantílica
# =========================
# Se estiman modelos para varios cuantiles:
# 0.1 = clientes de bajo gasto
# 0.5 = mediana
# 0.9 = clientes de alto gasto

#Semillita de reproducibilidad
set.seed(123)

taus <- c(0.1, 0.5, 0.9)

qr_fits <- rq(form, tau = taus, data = datos)

# Resumen del modelo con errores estándar bootstrap
summary(qr_fits, se = "boot")

## 
## Call: rq(formula = form, tau = taus, data = datos)
## 
## tau: [1] 0.1
## 
## Coefficients:
##                  Value      Std. Error t value    Pr(>|t|)  
## (Intercept)      -511.61172   51.24658   -9.98333    0.00000
## edad               -0.29993    0.70247   -0.42696    0.66945
## ingreso_original    0.01380    0.00083   16.61946    0.00000
## menores_en_casa  -115.81775   11.68220   -9.91404    0.00000
## antiguedad         88.85452   11.33144    7.84141    0.00000
## 
## Call: rq(formula = form, tau = taus, data = datos)
## 
## tau: [1] 0.5
## 
## Coefficients:
##                  Value      Std. Error t value    Pr(>|t|)  
## (Intercept)      -561.84039   37.00004  -15.18486    0.00000
## edad               -0.65558    0.68555   -0.95628    0.33904
## ingreso_original    0.02148    0.00053   40.80299    0.00000
## menores_en_casa  -174.88004   13.00121  -13.45106    0.00000
## antiguedad        117.28227   12.44692    9.42259    0.00000
## 
## Call: rq(formula = form, tau = taus, data = datos)
## 
## tau: [1] 0.9
## 
## Coefficients:
##                  Value      Std. Error t value    Pr(>|t|)  
## (Intercept)      -347.74818   58.58351   -5.93594    0.00000
## edad               -0.78174    1.38136   -0.56592    0.57151
## ingreso_original    0.02494    0.00064   38.85709    0.00000
## menores_en_casa  -203.77187   18.04887  -11.29001    0.00000
## antiguedad        138.34610   16.89424    8.18895    0.00000

# =========================
# Tabla resumen de coeficientes por tau
# =========================

taus <- c(0.10, 0.50, 0.90)

qr_fits <- rq(
  gasto ~ edad + ingreso_original + menores_en_casa + antiguedad,
  tau = taus,
  data = datos
)

tabla_tau <- broom::tidy(qr_fits) %>%
  filter(term != "(Intercept)") %>%
  mutate(
    term = recode(term,
      "edad" = "Edad",
      "ingreso_original" = "Ingreso original",
      "menores_en_casa" = "Menores en casa",
      "antiguedad" = "Antigüedad"
    ),
    tau = paste0("τ = ", tau)
  ) %>%
  select(term, tau, estimate)

tabla_final <- tabla_tau %>%
  pivot_wider(
    names_from = term,
    values_from = estimate
  )

tabla_final %>%
  knitr::kable(
    digits = 3,
    caption = "<div style='text-align:center;font-size:18px; font-weight:bold; font-style:normal; color:black;'>Coeficientes estimados de la regresión cuantílica por cuantil</div>",
    align = "c",
    escape = FALSE
  ) %>%
  kable_styling(
    full_width = FALSE,
    position = "center"
  ) %>%
  add_header_above(c(" " = 1, "Variables explicativas" = 4)) %>%
  column_spec(2:5, width = "3cm")

Coeficientes estimados de la regresión cuantílica por cuantil
	Variables explicativas
tau	Edad	Ingreso original	Menores en casa	Antigüedad
τ = 0.1	-0.300	0.014	-115.818	88.855
τ = 0.5	-0.656	0.021	-174.880	117.282
τ = 0.9	-0.782	0.025	-203.772	138.346

G <- seq(0.05, 0.95, by = 0.05)              # vector de cuantiles: 0.05, 0.10, ..., 0.95

qr_fit <- quantreg::rq(form, tau = G, data = datos)

coef_keep <- c("edad","ingreso_original","menores_en_casa","antiguedad")
# nombres de los coeficientes que quieres graficar (excluye el intercepto)

ols_coef <- broom::tidy(ols) %>%
  dplyr::filter(term %in% c("(Intercept)", coef_keep)) %>%
  dplyr::transmute(term, ols = estimate)
# extrae de OLS los coeficientes; filtra a los mismos términos (y opcionalmente el intercepto)
# y renombra estimate -> ols para usarlo como referencia horizontal

# Coefs QR con IC (95%). se.type = "nid" es rápido y estándar.
# Si quieres bootstrap: se.type="boot", R=500, bsmethod="xy"
prof_ci <- broom::tidy(
  qr_fit,
  se.type   = "boot",
  conf.int  = TRUE,
  conf.level= 0.95
) |>
  dplyr::filter(term %in% coef_keep) |>
  dplyr::left_join(ols_coef, by = "term")

nombres_vars <- c(
  edad = "Edad",
  ingreso_original = "Ingreso original",
  menores_en_casa = "Menores en casa",
  antiguedad = "Antigüedad"
)

ggplot(prof_ci, aes(tau, estimate)) +
  geom_ribbon(aes(ymin = conf.low, ymax = conf.high), alpha = 0.15) +
  geom_line() + geom_point() +
  geom_hline(aes(yintercept = ols), linetype = "dashed") +
  facet_wrap(~ term, scales = "free_y",labeller = labeller(term = nombres_vars)) +
  labs(title = "QR vs OLS con IC (banda 95%)", x = "τ", y = "Estimación")+
  theme(
    strip.text = element_text(face = "bold", size = 12)
  )

4.2.1 Interpretación de resultados

El anterior gráfico muestra la estimación de los coeficientes de la regresión cuantílica (QR) para diferentes valores del cuantil τ, comparándolos con el coeficiente obtenido mediante regresión lineal OLS (línea horizontal discontinua). La banda gris representa el intervalo de confianza del 95 %, lo que permite observar la precisión de las estimaciones a lo largo de la distribución del gasto.

Antigüedad: En el caso de antigüedad, el coeficiente es positivo en todos los cuantiles, lo que indica que un mayor tiempo de relación del cliente con la empresa se asocia con un mayor nivel de gasto. Además, se observa que el efecto aumenta progresivamente a medida que se avanza hacia cuantiles más altos. Esto sugiere que la antigüedad tiene un impacto más fuerte entre los clientes con mayores niveles de gasto. Además, en los cuantiles superiores el coeficiente cuantílico se ubica por encima del estimado OLS, lo que indica que el modelo lineal promedio subestima el efecto de la antigüedad en los consumidores de mayor gasto.

Este resultado sugiere la presencia de un proceso de fidelización acumulativa, donde los clientes que permanecen más tiempo en la empresa no solo gastan más, sino que amplían progresivamente su nivel de consumo.

Edad: Para la variable edad, el coeficiente es generalmente negativo en la mayoría de los cuantiles, lo que indica que, en promedio, los clientes de mayor edad tienden a gastar menos que los clientes más jóvenes. No obstante, el efecto no es completamente constante a lo largo de la distribución: en algunos cuantiles bajos el coeficiente se acerca a cero e incluso se vuelve ligeramente positivo, mientras que en los cuantiles más altos el efecto negativo se intensifica. Esto sugiere que la edad tiene un impacto más pronunciado entre los clientes con mayores niveles de gasto.

Una posible interpretación económica es que los consumidores más jóvenes tienen mayor propensión marginal al consumo dentro de este tipo de retail, mientras que los consumidores de mayor edad podrían presentar patrones de consumo más conservadores.

Adicionalmente, la variabilidad observada en los extremos de la distribución sugiere una mayor incertidumbre en la estimación para los cuantiles extremos.

Ingreso original: En el caso de ingreso, el coeficiente es positivo en todos los cuantiles y aumenta gradualmente a medida que se avanza hacia cuantiles superiores. Esto indica que los clientes con mayores ingresos tienden a gastar más, y que este efecto es particularmente fuerte entre los consumidores que ya presentan niveles altos de gasto. En comparación con la estimación de OLS, la regresión cuantílica muestra que el impacto del ingreso no es constante, sino que se intensifica en los segmentos de clientes con mayor consumo, ocasionando el mismo impacto descrito en la antiguedad, en donde la OLS subestima el efecto de esta variable en las personas cuyos gastos son mayores.

Este resultado sugiere la presencia de elasticidades heterogéneas del consumo respecto al ingreso, donde los clientes con mayor capacidad adquisitiva no solo gastan más, sino que también responden con mayor intensidad a incrementos en su ingreso.

Menores en casa: La variable menores en casa presenta un coeficiente negativo en todos los cuantiles, lo que indica que la presencia de menores en el hogar se asocia con una reducción en el gasto del cliente. Además, el efecto negativo se vuelve más pronunciado a medida que aumenta el cuantil, lo que sugiere que los hogares con más menores limitan especialmente el gasto entre los clientes que presentan mayores niveles de consumo. En comparación con la línea de OLS, se observa que el efecto negativo es más fuerte en los cuantiles superiores, lo que evidencia heterogeneidad en el impacto de esta variable.

Una posible explicación es que los hogares con menores tienden a redistribuir su presupuesto hacia otros tipos de consumo, como educación, salud o bienes esenciales, lo que reduce el gasto en las categorías analizadas.Este patrón también sugiere que los hogares con menores presentan restricciones presupuestarias más fuertes, especialmente cuando se trata de niveles de consumo más elevados.

En general, los resultados muestran que el impacto de algunas variables no es constante a lo largo de la distribución del gasto. En particular, variables como ingreso_original y antigüedad tienen un efecto más fuerte entre los clientes que presentan mayores niveles de gasto, mientras que menores_en_casa reduce el gasto de forma más pronunciada en los cuantiles superiores. Esto evidencia la utilidad de la regresión cuantílica, ya que permite capturar heterogeneidad en el comportamiento de los consumidores que no sería visible al estimar únicamente el efecto promedio mediante una regresión lineal tradicional.

5 Recomendaciones para la compañía

A partir de los resultados obtenidos en el modelo de regresión cuantílica, es posible identificar algunos patrones en el comportamiento de los clientes que pueden ser útiles para el diseño de estrategias comerciales y de marketing.

5.1 Segmentación de clientes según nivel de gasto

Los resultados muestran que algunas variables, como el ingreso y la antigüedad del cliente, tienen un impacto más fuerte en los cuantiles superiores del gasto. Esto sugiere que la empresa podría beneficiarse de segmentar sus campañas según el nivel de consumo de los clientes, enfocando estrategias diferenciadas para clientes de bajo, medio y alto gasto.

Por ejemplo, los clientes que se encuentran en los cuantiles superiores podrían ser considerados clientes de alto valor, por lo que sería conveniente desarrollar programas de fidelización, beneficios exclusivos o promociones personalizadas para mantener su nivel de consumo.

5.2 Estrategias dirigidas a clientes con mayor ingreso

El ingreso del cliente presenta una relación positiva y creciente con el gasto en todos los cuantiles. Esto indica que los clientes con mayores ingresos tienden a gastar más en la tienda. En consecuencia, la empresa podría orientar campañas de marketing dirigidas a este segmento, por ejemplo mediante promociones en productos premium, programas de fidelidad o recomendaciones personalizadas.

5.3 Programas de fidelización para clientes con mayor antigüedad

La variable antigüedad también muestra una relación positiva con el gasto, lo que sugiere que los clientes que llevan más tiempo vinculados con la empresa tienden a consumir más. Por lo tanto, sería recomendable fortalecer estrategias de retención y fidelización, como descuentos exclusivos, beneficios acumulativos o recompensas por permanencia.

5.4 Estrategias de consumo para hogares con menores

La variable menores_en_casa presenta una relación negativa con el gasto, lo que podría indicar que los hogares con más menores tienden a distribuir su presupuesto en otros tipos de consumo. En este sentido, la empresa podría diseñar promociones orientadas a este tipo de hogares, por ejemplo mediante paquetes familiares, descuentos en productos de consumo frecuente o campañas específicas para familias.