Para el desarrollo del presente estudio de mercado en la ciudad de Santiago de Cali, se adopta la metodología CRISP-DM (Cross Industry Standard Process for Data Mining) que a diferencia de los enfoques convencionales, integra una estructura que asegura la alineación del ciclo de vida de los datos con las exigencias de Termos Cali SAS. Esta metodología facilita una comprensión del problema de negocio y un tratamiento de la información, permitiendo la generación de conocimiento accionable para la toma de decisiones.
En esta fase se transforma la necesidad comercial en una arquitectura técnica de minería de datos.
La organización busca mitigar la incertidumbre y poder determinar el precio que los consumidores están dispuestos a pagar por un termo de acero inoxidable con capacidad de conservación térmica mínima de seis horas.
Objetivo principal: identificar el precio óptimo de equilibrio que maximice la intención de compra sin sacrificar el margen de contribución.
Criterio de exito: generar una matriz de precios basada en datos que permita segmentar la oferta según el perfil sociodemográfico del cliente.
Inventario de recursos: disponemos de un dataset de encuestas primarias con variables como sexo, edad, ingreso, precio dispuesto a pagar, termos por año, canal de compra y capacidad del termo.
Riesgos: se identifica el riesgo de “sesgo de deseabilidad social”, donde el encuestado declara una disposición a pagar que podría variar frente al desembolso real.
Contingencias: se aplicarán técnicas de validación cruzada y análisis de residuos para asegurar la robustez del modelo.
Declaración del problema: ¿Cómo varían los factores determinantes de la disposición a pagar entre los diferentes niveles socioeconómicos y canales de venta en Cali?
Para dar respuesta al negocio, los objetivos técnicos se definen como:
Modelado predictivo: desarrollar un modelo de regresión lineal múltiple con alto poder explicativo (\(R^2\)) para cuantificar el impacto de cada variable sobre el precio.
Validación estadística: garantizar que el modelo cumpla con los supuestos de Gauss-Markov (Normalidad, Homocedasticidad e Independencia) para asegurar inferencias válidas de precio sean sólidas y accionables.
Siguiendo la estructura de CRISP-DM, el proyecto se ejecutará en fases: desde un análisis descriptivo para entender el comportamiento del consumidor, hasta la simulación de escenarios de mercado mediante las predicciones del modelo final.
En esta fase, realizamos una exploración mediante estadísticas descriptivas y análisis de distribuciones para evaluar la calidad de la información recolectada a través de encuestas aplicadas a residentes de Cali mayores de 18 años. El objetivo principal es identificar patrones preliminares en la disposición a pagar, detectar posibles valores atípicos (outliers) y corregir inconsistencias en el diligenciamiento. Asimismo, se exploran las relaciones iniciales entre variables para establecer una base que oriente el proceso de modelado predictivo.
Los datos provienen de una fuente primaria recolectada mediante encuestas aplicadas a residentes de Cali mayores de 18 años. El dataset integra variables cuantitativas y categóricas que permiten caracterizar el perfil sociodemográfico del consumidor y analizar su comportamiento de compra frente a la categoría de termos.
## Rows: 50
## Columns: 10
## $ Sexo <chr> "Hombre", "Hombre", "Hombre", "Hombre", "Ho…
## $ Sexo_num <dbl> 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1…
## $ Edad <dbl> 18, 47, 24, 18, 25, 38, 42, 47, 33, 29, 41,…
## $ Ingreso <ord> 1 SMMLV y 2 SMMLV, 1 SMMLV y 2 SMMLV, 1 SMM…
## $ Ingreso_num <dbl> 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2…
## $ `Precio dispuesto a pagar` <dbl> 90450, 94197, 86188, 76761, 50867, 41411, 8…
## $ `Termos por año` <dbl> 0, 2, 2, 3, 2, 3, 1, 3, 2, 2, 1, 2, 2, 3, 3…
## $ `Canal de compra` <chr> "Fisico", "Fisico", "Fisico", "Online", "On…
## $ Canal_num <dbl> 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1…
## $ `Capacidad del termo` <dbl> 500, 1200, 1200, 500, 1200, 1200, 1000, 120…
| Variable | Descripcion |
|---|---|
| Sexo | Variable categorica que permite detectar si existen diferencias de pago por sexo. |
| Edad | Variable numerica continua. Se utiliza para identificar la relevancia generacional en los habitos de consumo y la elasticidad del precio segun el ciclo de vida del cliente (filtro: >18 años). |
| Nivel de Ingreso | Variable categorica ordinal segmentada en niveles del 1 al 5 (basados en el SMMLV). Es el predictor para la estrategia de segmentacion de precios de Termos Cali SAS. |
| Precio dispuesto a pagar (DAP) | Es nuestra variable objetivo (numerica). Representa el precio maximo, expresado en pesos colombianos (COP), que el cliente potencial esta dispuesto a invertir en el producto. |
| Termos por anio | Variable numerica que mide la frecuencia de consumo. Es importante para identificar si los heavy users (quienes compran mas unidades) tienen una disposicion a pagar distinta a la de los compradores ocasionales. |
| Canal de Preferencia | Variable categorica nominal (Fisico/Online). Su analisis permite determinar la sensibilidad del precio segun el entorno de compra y definir la estrategia de ventas |
| Capacidad del termo | Expresada en mililitros (ml). Es un atributo tecnico critico para justificar variaciones de precio basadas en el volumen fisico del producto. |
El siguiente diagnóstico visual permite validar la coherencia de los datos capturados y asegurar una base para el modelado predictivo.
A continuación, se presenta la distribución de la variable objetivo que permite identificar visualmente el rango de precios donde se concentra la mayor intención de compra de los residentes de Cali.
El gráfico muestra una asimetria negativa, donde la disposición a pagar promedio se sitúa en $93.189.72, concentrándose principalmente en los rangos de $75.000 y $105.000.
Desde el punto de vista estadístico, se registra una curtosis de -0.21, lo que clasifica la distribución como una curva Platicúrtica, el cual demuestra una curva más plana e indica que los valores del precio a pagar estan más dispersos y no hay una concentración clara en el centro, sugiriendo que:
La naturaleza platicúrtica de los datos favorece a Termos Cali SAS para implementar una estrategia de precios diferenciada (Premium y Estándar), dado que el consumidor no está anclado a un único precio “común”.
Los datos por nivel de ingresos, muestra una correlación positiva entre el rango salarial y la diposición a pagar por los termos dado que se observa que a medida que aumental el nivel de ingresos los puntos de precio se desplazan hacia valores más altos; mientras las personas con ingresos más bajos concentra su disposición por debajo que impactan directamente la política comercial de Termos Cali SAS y se concluye:
La progresión de los promedios confirma que el ingreso es un predictor potente de la DAP. Para maximizar el margen, Termos Cali SAS debería anclar el precio de sus termos de mayor capacidad al promedio del segmento Mas de 4 SMMLV, mientras utiliza promociones tácticas en el segmento más volátil.
El coeficiente de correlación de Pearson es de 0.15, lo que indica una relación débil entre la capacidad del termo y la disposición a pagar, lo que sugiere que el consumidor de Cali no necesariamente está dispuesto a pagar más solo por tener más capacidad. Asimismo, si la pendiente de la línea roja es ascendente, existe una oportunidad de justificar incrementos de precio basados exclusivamente en el atributo de los mililitros (ml).
Dado que la correlación es débil, la empresa debe enfocar su comunicación en otros atributos como el diseño o la duración térmica, más que en el tamaño.
Para determinar si el sexo influye en la percepción de valor de los productos de Termos Cali SAS, se analiza la distribución de precios mediante un gráfico de violín complementado con medidas de tendencia central.
El análisis comparativo indica que la disposición a pagar por los termos varía según el sexo, observándose una valoración mayor en las mujeres, el cual presenta el promedio más alto en comparación con el de los hombres. La diferencia porcentual entre el segmento con mayor y menor DAP es del 3.4%.
La mediana de las mujeres ($98.945) supera a la de los hombres ($90.115.50), al igual que el tercer cuartil ($111.082 frente a $105.062), lo que indica una mayor disposición a pagar precios elevados dentro de este grupo.
Asimismo, el grupo masculino presenta una mayor dispersión en los datos, mientras que en las mujeres se aprecia una variabilidad menor, es decir que este grupo posee una referencia de precio más homogénea respecto al monto que estaría dispuesto a pagar por los productos de Termos Cali SAS.
Implicaciones del mercado:
Estrategia de producto: La empresa puede mantener una comunicación neutra y enfocarse en otros predictores como el ingreso, dado que el género no genera sesgos de precio.
En esta etapa, cuantificamos el impacto real de las variables independientes sobre nuestra variable objetivo.
Antes de construir la ecuación, validamos la fuerza de las relaciones lineales mediante una matriz de correlación
La matriz de correlación muestra que la relación más fuerte se encuentra entre el nivel de ingreso y el precio dispuesto a pagar con un coeficiente positivo de 0.72. Por lo anterior, en el modelo se utilizara esta variable como explicativa.
A partir de la distribución original, se simula una muestra de 200 observaciones para proyectar el comportamiento de la demanda bajo condiciones controladas.
La figura 4 evidencia una relación positiva entre la disposición a pagar y el ingreso percibido por las personas. Mientras que la figura 5 muestra como los clientes que prefieren el medio de compra FISICO estan dispuestos a pagar precios superiores en comparación de los que compran en ONLINE.
Para determinar el canal de compra preferido en la simulación, aplicamos el algoritmo de K-Nearest Neighbors (KNN), permitiendo clasificar a los nuevos clientes según su cercanía con los perfiles reales identificados en la fase de auditoría.
Se realiza una división de la muestra en entrenamiento y prueba (80/20) para validar la precisión del modelo final.
##
## Call:
## lm(formula = .outcome ~ ., data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -15220.4 -3464.1 45.3 3735.8 10426.0
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 47682 1282 37.192 < 2e-16 ***
## Ingreso_num 13724 342 40.132 < 2e-16 ***
## `\\`Canal de compra\\`Online` 2796 1008 2.774 0.00621 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 5076 on 157 degrees of freedom
## Multiple R-squared: 0.9212, Adjusted R-squared: 0.9202
## F-statistic: 918.2 on 2 and 157 DF, p-value: < 2.2e-16
Análisis de Hallazgos y Ajuste del Modelo:
El modelo presenta un ajuste estadístico muy alto (\(R^2 =\) 0.921), lo que implica que la arquitectura de variables seleccionada explica el 92.1% de la variación en la disposición a pagar de los consumidores en Cali.
La variable con mayor peso predictivo es el Nivel de Ingreso. El coeficiente calculado indica que por cada aumento de una unidad en el rango salarial (equivalente a 1 SMMLV), la disposición a pagar se incrementa de forma lineal en aproximadamente $13.724 COP.
Por el contrario, el Canal de Compra no presenta una significancia estadística robusta (\(\alpha = 0.05\)), lo que sugiere que la percepción de valor está más ligada al poder adquisitivo y a las características físicas del producto (Capacidad) que al entorno donde se realiza la transacción.
Certificación de Precisión Predictiva: El modelo analítico reduce drásticamente la incertidumbre al explicar la mayor parte de la varianza en el comportamiento de compra. La validación mediante el MAE (Error Absoluto Medio) asegura que nuestras predicciones tienen un margen de desviación de apenas $4.513 COP, brindando a la organización una herramienta precisa y de bajo riesgo para capturar el valor óptimo en el mercado de Cali.
Lo siguiente es analizar la distribución de la prediccion de disposicion de pago que se observa en la figura 6, la cual tiene una distribución normal donde la media, mediana y moda se encuentran alrededor del valor central. Este comportamiento va en concordancia con los valores simulados a partir del modelo de regresión lineal que tambien sigue una distribución normal.
Analizamos la distribución de las predicciones en la Figura 7, la cual presenta una distribución normal donde la media y mediana coinciden en el valor central, validando la estabilidad del modelo simulado, lo que indica que las predicciones del modelo no están sesgadas hacia valores extremos, sino que se agrupan alrededor de un valor central.
La prueba registra un estadístico W de 0.98395. Dado que el valor-p (0.061) es mayor que el nivel de significancia (\(\alpha = 0.05\)), se confirma que los residuos siguen una distribución normal. Esto garantiza que los márgenes de error calculados para nuestras predicciones de precio son estadísticamente válidos, permitiendo a la gerencia conocer el riesgo real de cada estimación.
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo_final)
## W = 0.98395, p-value = 0.06102
##
## studentized Breusch-Pagan test
##
## data: modelo_final$finalModel
## BP = 0.48388, df = 2, p-value = 0.7851
El resultado muestra un valor-p de 0.7851, el cual es superior al nivel de significancia convencional (\(\alpha = 0.05\)). Por lo tanto, no se rechaza la hipótesis nula (\(H_0\)) de homocedasticidad.Esto indica que no existe evidencia estadística de que la varianza de los residuos cambie sistemáticamente con los valores de las variables explicativas, por lo que puede asumirse que el supuesto de varianza constante se cumple en el modelo.
Al confirmarse la varianza constante, garantizamos que el modelo tiene el mismo nivel de precisión en todos los rangos salariales evaluados. Termos Cali SAS puede confiar en que la estimación del “precio óptimo” es técnicamente consistente tanto para clientes de 1 SMMLV como para aquellos con ingresos superiores a 4 SMMLV.
##
## studentized Breusch-Pagan test
##
## data: modelo_final$finalModel
## BP = 0.48388, df = 2, p-value = 0.7851
El último supuesto de Gauss-Markov exige que los errores o residuos sean independientes entre sí (no autocorrelacionados). En un estudio de mercado, la falta de independencia podría significar que las respuestas de un grupo de encuestados están influyendo sistemáticamente en otros, lo que sesgaría la validez del modelo predictivo.
##
## Durbin-Watson test
##
## data: modelo_final$finalModel
## DW = 1.9021, p-value = 0.2669
## alternative hypothesis: true autocorrelation is greater than 0
El estadístico de Durbin-Watson es de 1.9021 (valor cercano a 2 indica que no hay autocorrelación) con un valor-p de 0.2669. lo que permite concluir que los residuos son independientes.
Al validar la independencia, Termos Cali SAS tiene la certeza de que las preferencias capturadas en la encuesta son individuales y genuinas. Esto garantiza que las proyecciones de demanda y precio no están infladas por patrones de error repetitivos, proporcionando una base para el despliegue de la estrategia comercial en Cali.
Más allá de las pruebas numéricas, la inspección visual de los residuos es el estándar de oro para certificar un modelo. En la Figura 8, buscamos una “nube de puntos” sin formas geométricas claras, lo que confirmaría que el error es puramente aleatorio.
La línea de suavizado negra se mantiene relativamente horizontal y cercana al cero, y los puntos se dispersan de manera uniforme a lo largo del eje X. Esto demuestra visualmente que el modelo no comete errores sistemáticos, validando la precisión de las proyecciones de precio.
Utilizando el modelo de regresión validado bajo los supuestos de Gauss-Markov, se han generado proyecciones de la disposición a pagar (DAP). Estas estimaciones permiten a Termos Cali SAS pasar de una fijación de precios intuitiva a una estrategia basada en la elasticidad del valor percibido por el cliente.
Para la interpretación de la siguiente tabla, se define la escala de ingresos basada en el SMMLV: Nivel 1: <1 | Nivel 2: 1-2 | Nivel 3: 2-3 | Nivel 4: 3-4 | Nivel 5: >4.
| Nivel de Ingreso | Canal de Compra | Precio Sugerido (COP) |
|---|---|---|
| 1 | Fisico | 61.406 |
| 1 | Online | 64.202 |
| 2 | Fisico | 75.130 |
| 2 | Online | 77.926 |
| 3 | Fisico | 88.853 |
| 3 | Online | 91.649 |
| 4 | Fisico | 102.577 |
| 4 | Online | 105.373 |
| 5 | Fisico | 116.301 |
| 5 | Online | 119.097 |
Tras el análisis del modelo, el cual presenta un poder explicativo del 92.1%, se derivan las siguientes directrices estratégicas para la gerencia de Termos Cali SAS:
Potencial de segmentación premium: se observa un incremento consistente en la disposición a pagar conforme aumenta el nivel de ingresos. Los estratos más altos muestran valoraciones promedio de $121.955 COP, lo que justifica el desarrollo de una línea de alto valor percibido para este nicho.
Dado que la variable de canal no presenta significancia estadística (p-valor > 0.05), se recomienda una política de paridad de precios entre el canal físico y online. La omnicanalidad debe enfocarse en la conveniencia logística y no en la competencia por precio.
Para los segmentos de ingresos bajos y capacidades estándar, el precio de aceptación se sitúa cerca de los $60.017 COP. En este segmento, la rentabilidad dependerá estrictamente de la eficiencia operativa y economías de escala.