Estudio de disposición a pagar por termos

Para el desarrollo del presente estudio de mercado en la ciudad de Santiago de Cali, se adopta la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que a diferencia de los enfoques convencionales, integra una estructura que asegura la alineación del ciclo de vida de los datos con las exigencias de Termos Cali SAS. Esta metodología facilita una comprensión del problema de negocio y un tratamiento de la información, permitiendo la generación de conocimiento accionable para la toma de decisiones.

1. Entendimiento del negocio

En esta fase se transforma la necesidad comercial en una arquitectura técnica de minería de datos.

1.1. Determinación de los objetivos del negocio

La organización busca mitigar la incertidumbre y poder determinar el precio que los consumidores están dispuestos a pagar por un termo de acero inoxidable con capacidad de conservación térmica mínima de seis horas.

  • Objetivo principal: identificar el precio óptimo de equilibrio que maximice la intención de compra sin sacrificar el margen de contribución.

  • Criterio de exito: generar una matriz de precios basada en datos que permita segmentar la oferta según el perfil sociodemográfico del cliente.

1.2. Evaluación de la Situación Actual

  • Inventario de recursos: disponemos de un dataset de encuestas primarias con variables como sexo, edad, ingreso, precio dispuesto a pagar, termos por año, canal de compra y capacidad del termo.

  • Riesgos: se identifica el riesgo de “sesgo de deseabilidad social”, donde el encuestado declara una disposición a pagar que podría variar frente al desembolso real.

  • Contingencias: se aplicarán técnicas de validación cruzada y análisis de residuos para asegurar la robustez del modelo.

Declaración del problema: ¿Cómo varían los factores determinantes de la disposición a pagar entre los diferentes niveles socioeconómicos y canales de venta en Cali?

1.3. Objetivos de minería de datos

Para dar respuesta al negocio, los objetivos técnicos se definen como:

  • Modelado predictivo: desarrollar un modelo de regresión lineal múltiple con alto poder explicativo (\(R^2\)) para cuantificar el impacto de cada variable sobre el precio.

  • Validación estadística: garantizar que el modelo cumpla con los supuestos de Gauss-Markov (Normalidad, Homocedasticidad e Independencia) para asegurar inferencias válidas de precio sean sólidas y accionables.

1.4. Plan del Proyecto

Siguiendo la estructura de CRISP-DM, el proyecto se ejecutará en fases: desde un análisis descriptivo para entender el comportamiento del consumidor, hasta la simulación de escenarios de mercado mediante las predicciones del modelo final.

2. Comprensión de los Datos.

En esta fase, realizamos una exploración mediante estadísticas descriptivas y análisis de distribuciones para evaluar la calidad de la información recolectada a través de encuestas aplicadas a residentes de Cali mayores de 18 años. El objetivo principal es identificar patrones preliminares en la disposición a pagar, detectar posibles valores atípicos (outliers) y corregir inconsistencias en el diligenciamiento. Asimismo, se exploran las relaciones iniciales entre variables para establecer una base que oriente el proceso de modelado predictivo.

2.1. Recolección de Datos Iniciales

Los datos provienen de una fuente primaria recolectada mediante encuestas aplicadas a residentes de Cali mayores de 18 años. El dataset integra variables cuantitativas y categóricas que permiten caracterizar el perfil sociodemográfico del consumidor y analizar su comportamiento de compra frente a la categoría de termos.

## Rows: 50
## Columns: 10
## $ Sexo                       <chr> "Hombre", "Hombre", "Hombre", "Hombre", "Ho…
## $ Sexo_num                   <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1…
## $ Edad                       <dbl> 18, 47, 24, 18, 25, 38, 42, 47, 33, 29, 41,…
## $ Ingreso                    <ord> 1 SMMLV y 2 SMMLV, 1 SMMLV y 2 SMMLV, 1 SMM…
## $ Ingreso_num                <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2…
## $ `Precio dispuesto a pagar` <dbl> 90450, 94197, 86188, 76761, 50867, 41411, 8…
## $ `Termos por año`           <dbl> 0, 2, 2, 3, 2, 3, 1, 3, 2, 2, 1, 2, 2, 3, 3…
## $ `Canal de compra`          <chr> "Fisico", "Fisico", "Fisico", "Online", "On…
## $ Canal_num                  <dbl> 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1…
## $ `Capacidad del termo`      <dbl> 500, 1200, 1200, 500, 1200, 1200, 1000, 120…

2.2. Descripción de los datos

Tabla 1. Diccionario de variables de segmentacion
Variable Descripcion
Sexo Variable categorica que permite detectar si existen diferencias de pago por sexo.
Edad Variable numerica continua. Se utiliza para identificar la relevancia generacional en los habitos de consumo y la elasticidad del precio segun el ciclo de vida del cliente (filtro: >18 años).
Nivel de Ingreso Variable categorica ordinal segmentada en niveles del 1 al 5 (basados en el SMMLV). Es el predictor para la estrategia de segmentacion de precios de Termos Cali SAS.
Precio dispuesto a pagar (DAP) Es nuestra variable objetivo (numerica). Representa el precio maximo, expresado en pesos colombianos (COP), que el cliente potencial esta dispuesto a invertir en el producto.
Termos por anio Variable numerica que mide la frecuencia de consumo. Es importante para identificar si los heavy users (quienes compran mas unidades) tienen una disposicion a pagar distinta a la de los compradores ocasionales.
Canal de Preferencia Variable categorica nominal (Fisico/Online). Su analisis permite determinar la sensibilidad del precio segun el entorno de compra y definir la estrategia de ventas
Capacidad del termo Expresada en mililitros (ml). Es un atributo tecnico critico para justificar variaciones de precio basadas en el volumen fisico del producto.

2.3. Análisis Exploratorio de Datos

El siguiente diagnóstico visual permite validar la coherencia de los datos capturados y asegurar una base para el modelado predictivo.

2.3.1. Distribución de la disposición a pagar

A continuación, se presenta la distribución de la variable objetivo que permite identificar visualmente el rango de precios donde se concentra la mayor intención de compra de los residentes de Cali.

El gráfico muestra una asimetria negativa, donde la disposición a pagar promedio se sitúa en $93.189.72, concentrándose principalmente en los rangos de $75.000 y $105.000.

Desde el punto de vista estadístico, se registra una curtosis de -0.21, lo que clasifica la distribución como una curva Platicúrtica, el cual demuestra una curva más plana e indica que los valores del precio a pagar estan más dispersos y no hay una concentración clara en el centro, sugiriendo que:

  • Dispersión de precios: los valores que los consumidores están dispuestos a pagar no están agrupados estrechamente, sino que presentan una variabilidad considerable.
  • Diversidad de segmentos: no existe una concentración extrema en un solo punto central, lo que implica una convivencia de distintos perfiles con capacidades adquisitivas diversas.
  • Oportunidad de mercado: existe la posibilidad de ofrecer productos en un rango de precios más amplio sin perder representatividad, permitiendo capturar diferentes niveles de excedente del consumidor.

La naturaleza platicúrtica de los datos favorece a Termos Cali SAS para implementar una estrategia de precios diferenciada (Premium y Estándar), dado que el consumidor no está anclado a un único precio “común”.

2.3.2. Disposición a pagar por nivel de ingreso

Los datos por nivel de ingresos, muestra una correlación positiva entre el rango salarial y la diposición a pagar por los termos dado que se observa que a medida que aumental el nivel de ingresos los puntos de precio se desplazan hacia valores más altos; mientras las personas con ingresos más bajos concentra su disposición por debajo que impactan directamente la política comercial de Termos Cali SAS y se concluye:

  • El grupo con ingresos de Mas de 4 SMMLV lidera la intención de compra con una disposición a pagar promedio de $119.050. Este resultado valida la viabilidad de una línea de productos de alta gama dirigida a este estrato.
  • El segmento de 2 SMMLV y 3SMMLV presenta la mayor desviación estándar, lo cual demuestra que los consumidores en este rango tienen opiniones muy divididas sobre el valor del producto.

La progresión de los promedios confirma que el ingreso es un predictor potente de la DAP. Para maximizar el margen, Termos Cali SAS debería anclar el precio de sus termos de mayor capacidad al promedio del segmento Mas de 4 SMMLV, mientras utiliza promociones tácticas en el segmento más volátil.

2.3.3. Capacidad del termo

El coeficiente de correlación de Pearson es de 0.15, lo que indica una relación débil entre la capacidad del termo y la disposición a pagar, lo que sugiere que el consumidor de Cali no necesariamente está dispuesto a pagar más solo por tener más capacidad. Asimismo, si la pendiente de la línea roja es ascendente, existe una oportunidad de justificar incrementos de precio basados exclusivamente en el atributo de los mililitros (ml).

Dado que la correlación es débil, la empresa debe enfocar su comunicación en otros atributos como el diseño o la duración térmica, más que en el tamaño.

2.3.4. Análisis de disposición a pagar por sexo

Para determinar si el sexo influye en la percepción de valor de los productos de Termos Cali SAS, se analiza la distribución de precios mediante un gráfico de violín complementado con medidas de tendencia central.

El análisis comparativo indica que la disposición a pagar por los termos varía según el sexo, observándose una valoración mayor en las mujeres, el cual presenta el promedio más alto en comparación con el de los hombres. La diferencia porcentual entre el segmento con mayor y menor DAP es del 3.4%.

La mediana de las mujeres ($98.945) supera a la de los hombres ($90.115.50), al igual que el tercer cuartil ($111.082 frente a $105.062), lo que indica una mayor disposición a pagar precios elevados dentro de este grupo.

Asimismo, el grupo masculino presenta una mayor dispersión en los datos, mientras que en las mujeres se aprecia una variabilidad menor, es decir que este grupo posee una referencia de precio más homogénea respecto al monto que estaría dispuesto a pagar por los productos de Termos Cali SAS.


Implicaciones del mercado:

  • Uniformidad vs. Segmentación: la diferencia es marginal, lo que sugiere que el género no es un factor determinante en la fijación de precios.
  • Comportamiento del mercado: el grupo Hombre muestra una sensibilidad al precio similar, concentrando sus respuestas en rangos más conservadores.

Estrategia de producto: La empresa puede mantener una comunicación neutra y enfocarse en otros predictores como el ingreso, dado que el género no genera sesgos de precio.

3. Modelado estadístico

En esta etapa, cuantificamos el impacto real de las variables independientes sobre nuestra variable objetivo.

3.1. Análisis de Correlación Preliminar

Antes de construir la ecuación, validamos la fuerza de las relaciones lineales mediante una matriz de correlación

La matriz de correlación muestra que la relación más fuerte se encuentra entre el nivel de ingreso y el precio dispuesto a pagar con un coeficiente positivo de 0.72. Por lo anterior, en el modelo se utilizara esta variable como explicativa.

3.2. Simulación de Escenarios de Mercado

A partir de la distribución original, se simula una muestra de 200 observaciones para proyectar el comportamiento de la demanda bajo condiciones controladas.

La figura 4 evidencia una relación positiva entre la disposición a pagar y el ingreso percibido por las personas. Mientras que la figura 5 muestra como los clientes que prefieren el medio de compra FISICO estan dispuestos a pagar precios superiores en comparación de los que compran en ONLINE.

3.3. Clasificación de Canales mediante Algoritmo KNN

Para determinar el canal de compra preferido en la simulación, aplicamos el algoritmo de K-Nearest Neighbors (KNN), permitiendo clasificar a los nuevos clientes según su cercanía con los perfiles reales identificados en la fase de auditoría.

4. Evaluación del modelo predictivo

4.1. Entrenamiento y resultados de la regresión

Se realiza una división de la muestra en entrenamiento y prueba (80/20) para validar la precisión del modelo final.

## 
## Call:
## lm(formula = .outcome ~ ., data = dat)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -15220.4  -3464.1     45.3   3735.8  10426.0 
## 
## Coefficients:
##                               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      47682       1282  37.192  < 2e-16 ***
## Ingreso_num                      13724        342  40.132  < 2e-16 ***
## `\\`Canal de compra\\`Online`     2796       1008   2.774  0.00621 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 5076 on 157 degrees of freedom
## Multiple R-squared:  0.9212, Adjusted R-squared:  0.9202 
## F-statistic: 918.2 on 2 and 157 DF,  p-value: < 2.2e-16

Análisis de Hallazgos y Ajuste del Modelo:

El modelo presenta un ajuste estadístico muy alto (\(R^2 =\) 0.921), lo que implica que la arquitectura de variables seleccionada explica el 92.1% de la variación en la disposición a pagar de los consumidores en Cali.

La variable con mayor peso predictivo es el Nivel de Ingreso. El coeficiente calculado indica que por cada aumento de una unidad en el rango salarial (equivalente a 1 SMMLV), la disposición a pagar se incrementa de forma lineal en aproximadamente $13.724 COP.

Por el contrario, el Canal de Compra no presenta una significancia estadística robusta (\(\alpha = 0.05\)), lo que sugiere que la percepción de valor está más ligada al poder adquisitivo y a las características físicas del producto (Capacidad) que al entorno donde se realiza la transacción.

Certificación de Precisión Predictiva: El modelo analítico reduce drásticamente la incertidumbre al explicar la mayor parte de la varianza en el comportamiento de compra. La validación mediante el MAE (Error Absoluto Medio) asegura que nuestras predicciones tienen un margen de desviación de apenas $4.513 COP, brindando a la organización una herramienta precisa y de bajo riesgo para capturar el valor óptimo en el mercado de Cali.

4.2. Validación de predicciones

Lo siguiente es analizar la distribución de la prediccion de disposicion de pago que se observa en la figura 6, la cual tiene una distribución normal donde la media, mediana y moda se encuentran alrededor del valor central. Este comportamiento va en concordancia con los valores simulados a partir del modelo de regresión lineal que tambien sigue una distribución normal.

4.3. Distribución de la disposición de pago predicha

Analizamos la distribución de las predicciones en la Figura 7, la cual presenta una distribución normal donde la media y mediana coinciden en el valor central, validando la estabilidad del modelo simulado, lo que indica que las predicciones del modelo no están sesgadas hacia valores extremos, sino que se agrupan alrededor de un valor central.

  • Identificación del “Sweet Spot”: la mayor densidad de probabilidad (las barras más altas) se concentra entre los $80.000 y $105.000 COP, rango donde la mayoría de los clientes potenciales en Cali se sienten cómodos pagando, lo que representa el volumen masivo de ventas esperado para la empresa.

Estrategia de segmentación derivada del gráfico:

  1. Zona de Eficiencia ($60.000 - $80.000): representa el segmento con alta sensibilidad al precio o niveles de ingresos bajos. Aquí, la estrategia de Termos Cali SAS debe enfocarse en la eficiencia operativa y modelos base.
  2. Zona Premium (>$110.000): aunque la frecuencia es menor, existen “colas” en la distribución que alcanzan los $130.000 COP. Esto valida la oportunidad de ofrecer versiones con atributos superiores para capturar el excedente de los consumidores con mayor disposición a pagar.

5. Validación del modelo

5.1. Prueba de Normalidad (Shapiro-Wilk)

La prueba registra un estadístico W de 0.98395. Dado que el valor-p (0.061) es mayor que el nivel de significancia (\(\alpha = 0.05\)), se confirma que los residuos siguen una distribución normal. Esto garantiza que los márgenes de error calculados para nuestras predicciones de precio son estadísticamente válidos, permitiendo a la gerencia conocer el riesgo real de cada estimación.

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo_final)
## W = 0.98395, p-value = 0.06102

5.2. Prueba de Homocedasticidad (Breusch-Pagan)

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_final$finalModel
## BP = 0.48388, df = 2, p-value = 0.7851

El resultado muestra un valor-p de 0.7851, el cual es superior al nivel de significancia convencional (\(\alpha = 0.05\)). Por lo tanto, no se rechaza la hipótesis nula (\(H_0\)) de homocedasticidad.Esto indica que no existe evidencia estadística de que la varianza de los residuos cambie sistemáticamente con los valores de las variables explicativas, por lo que puede asumirse que el supuesto de varianza constante se cumple en el modelo.

Al confirmarse la varianza constante, garantizamos que el modelo tiene el mismo nivel de precisión en todos los rangos salariales evaluados. Termos Cali SAS puede confiar en que la estimación del “precio óptimo” es técnicamente consistente tanto para clientes de 1 SMMLV como para aquellos con ingresos superiores a 4 SMMLV.

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo_final$finalModel
## BP = 0.48388, df = 2, p-value = 0.7851

5.3. Prueba de Independencia (Durbin-Watson)

El último supuesto de Gauss-Markov exige que los errores o residuos sean independientes entre sí (no autocorrelacionados). En un estudio de mercado, la falta de independencia podría significar que las respuestas de un grupo de encuestados están influyendo sistemáticamente en otros, lo que sesgaría la validez del modelo predictivo.

## 
##  Durbin-Watson test
## 
## data:  modelo_final$finalModel
## DW = 1.9021, p-value = 0.2669
## alternative hypothesis: true autocorrelation is greater than 0

El estadístico de Durbin-Watson es de 1.9021 (valor cercano a 2 indica que no hay autocorrelación) con un valor-p de 0.2669. lo que permite concluir que los residuos son independientes.

Al validar la independencia, Termos Cali SAS tiene la certeza de que las preferencias capturadas en la encuesta son individuales y genuinas. Esto garantiza que las proyecciones de demanda y precio no están infladas por patrones de error repetitivos, proporcionando una base para el despliegue de la estrategia comercial en Cali.

5.4. Diagnóstico visual de homocedasticidad

Más allá de las pruebas numéricas, la inspección visual de los residuos es el estándar de oro para certificar un modelo. En la Figura 8, buscamos una “nube de puntos” sin formas geométricas claras, lo que confirmaría que el error es puramente aleatorio.

La línea de suavizado negra se mantiene relativamente horizontal y cercana al cero, y los puntos se dispersan de manera uniforme a lo largo del eje X. Esto demuestra visualmente que el modelo no comete errores sistemáticos, validando la precisión de las proyecciones de precio.

6. Estimaciones

Utilizando el modelo de regresión validado bajo los supuestos de Gauss-Markov, se han generado proyecciones de la disposición a pagar (DAP). Estas estimaciones permiten a Termos Cali SAS pasar de una fijación de precios intuitiva a una estrategia basada en la elasticidad del valor percibido por el cliente.

6.1 Matriz de predicción de precios

Para la interpretación de la siguiente tabla, se define la escala de ingresos basada en el SMMLV: Nivel 1: <1 | Nivel 2: 1-2 | Nivel 3: 2-3 | Nivel 4: 3-4 | Nivel 5: >4.

Tabla 2. Matriz de Decisiones Automatizada
Nivel de Ingreso Canal de Compra Precio Sugerido (COP)
1 Fisico 61.406
1 Online 64.202
2 Fisico 75.130
2 Online 77.926
3 Fisico 88.853
3 Online 91.649
4 Fisico 102.577
4 Online 105.373
5 Fisico 116.301
5 Online 119.097

6.2. Insights estratégicos y recomendaciones

Tras el análisis del modelo, el cual presenta un poder explicativo del 92.1%, se derivan las siguientes directrices estratégicas para la gerencia de Termos Cali SAS:

  • Potencial de segmentación premium: se observa un incremento consistente en la disposición a pagar conforme aumenta el nivel de ingresos. Los estratos más altos muestran valoraciones promedio de $121.955 COP, lo que justifica el desarrollo de una línea de alto valor percibido para este nicho.

  • Dado que la variable de canal no presenta significancia estadística (p-valor > 0.05), se recomienda una política de paridad de precios entre el canal físico y online. La omnicanalidad debe enfocarse en la conveniencia logística y no en la competencia por precio.

  • Para los segmentos de ingresos bajos y capacidades estándar, el precio de aceptación se sitúa cerca de los $60.017 COP. En este segmento, la rentabilidad dependerá estrictamente de la eficiencia operativa y economías de escala.