Estudio de caso: Precio dispuesto a pagar por un termo de marca Stanley
1 Introducción
El conjunto de datos “Dataenc” contiene información sobre el ingreso, edad, residencia, ocupación, canal de compra, precio dipuesto a pagar que fueron recopilados a través de una encuesta realizada a 39 personas sobre termos de la marca “Stanley”.
El objetivo principal del estudio es evaluar si variables como la edad, la frecuencia de uso, el canal de compra preferido y el gasto en productos similares influyen de manera significativa en la disposición a pagar. Para ello, se plantea la estimación de un modelo de regresión lineal simple que permita analizar la relación entre la variable dependiente (precio dispuesto a pagar) y las variables explicativas seleccionadas.
Esto nos permite comprender y optimizar estrategias de pricing, segmentación y posicionamiento de marca en el mercado.
2 Preparación y limpieza de los datos
A continuación, se procede a evaluar la calidad de los datos mediante la verificación de los formatos de las variables y el número total de registros analizados, con el fin de realizar los ajustes necesarios antes del modelamiento.
Este proceso es fundamental para asegurar que los resultados obtenidos se basen en información consistente, estructurada y confiable.
En primera instancia, se examina la estructura de los datos recolectados a través de la encuesta, lo que permite identificar posibles inconsistencias, errores de digitación o variables que requieran transformación.
En la revisión anterior se observa que los nombres de las variables corresponden directamente a las preguntas completas de la encuesta, lo que genera identificadores extensos y poco prácticos para el análisis. Por esta razón, se procede a renombrarlas utilizando etiquetas más cortas, claras y consistentes, facilitando así su manipulación y modelamiento posterior.
Se detecta un valor atípico en la variable Gasto_aprox correspondiente a 0.25, el cual se interpreta como un posible error de digitación o registro. Con el fin de garantizar la consistencia y calidad de la información para el modelamiento estadístico, se procede a eliminar dicha observación antes de continuar con el análisis.
En esta etapa del análisis se identifica que existen dos variables registradas inicialmente como tipo carácter: Ingreso y Gasto_aprox. No obstante, conceptualmente corresponden a tipos distintos: la variable Ingreso es de naturaleza categórica ordinal, mientras que Gasto_aprox representa una variable numérica.En consecuencia, se realiza la conversión de estas variables y de Ocupación, Residencia, Canal_compra a tipo factor, con el fin de facilitar la caracterización de la población encuestada.
A continuación, en la Tabla 1, se presenta cada variable del conjunto de datos y su tipo:
| Variable | Tipo |
|---|---|
| Marca | POSIXct |
| Correo | character |
| Autorizacion | character |
| Nombre | character |
| Edad | numeric |
| Ocupacion | factor |
| Ingreso | ordered |
| Residencia | factor |
| Dispo_pago | numeric |
| Canal_compra | factor |
| Uso_termo | numeric |
| Gasto_aprox | numeric |
3 Caracterización de la población encuestada
A continuación, se realiza una descripción del perfil demográfico de los 38 encuestados, a partir de variables como edad, ocupación, ingreso y lugar de residencia. Este análisis es de carácter descriptivo y permite identificar las principales características de la muestra.
3.0.1 Análisis descriptivo de variables demográficas
3.0.1.1 Edad
La edad promedio de los encuestados es de 33 años, lo que indica que la muestra está compuesta principalmente por adultos jóvenes. Evidenciando asi que el análisis de la disposición a pagar por un termo Stanley reflejará la percepción del precio de personas en una etapa de vida activa laboralmente.
Se observa también la participación de personas entre los 24 y 51 años, la mayoría se concentra en un rango cercano a los 30 años, lo que implica que los resultados estarán más influenciados por las preferencias y hábitos de consumo de este segmento, es decir, que el interés por productos como termos de marca puede estar asociado a estilos de vida dinámicos que involucren su uso.
| Medida | Valor |
|---|---|
| Media | 33.42 |
| Desviación estándar | 7.61 |
| Mínimo | 24.00 |
| Q1 | 27.25 |
| Mediana | 33.00 |
| Q3 | 37.75 |
| Máximo | 51.00 |
3.0.1.2 Ingreso
La distribución de ingresos muestra que el 60.6% de los participantes percibe entre 2 y 6 millones de pesos mensuales, mientras que un 21.1% se ubica en el rango superior. La inclusión de diversos niveles salariales en la encuesta permite validar que la muestra no está limitada a un único segmento económico. Al no ser el ingreso una variable predictora en nuestro modelo, estos datos sirven exclusivamente para caracterizar la solvencia general del grupo consultado, dejando que la predicción del precio dependa enteramente de las valoraciones subjetivas y el uso práctico reportado por la población encuestada.
| Ingreso | Participantes | Porcentaje |
|---|---|---|
| $0 a $2.000.000 | 6 | 15.8% |
| $2.000.001 a $4.000.000 | 15 | 39.5% |
| $4.000.001 a $6.000.000 | 9 | 23.7% |
| $6.000.001 en adelante | 8 | 21.1% |
3.0.1.3 Ocupación
La ocupación predominante de los encuestados es Empleado, representando el 65.8% de la muestra. Le sigue Independiente con 31.6%, mientras que Estudiante representa solo el 2.6%. Esto indica que la gran mayoría de los participantes (aproximadamente el 97%,) se encuentra activo laboralmente, lo que sugiere participantes con rutinas establecidas y participación en actividades productivas.
En este contexto, la disposición a pagar por un termo de la marca Stanley podría estar más relacionada con la percepción de utilidad y calidad del producto en el día a día, más que con la categoría laboral de los encuestados.
| Ocupacion | Porcentaje |
|---|---|
| Empleado | 65.8 |
| Independiente | 31.6 |
| Estudiante | 2.6 |
3.0.1.4 Residencia
La distribución de residencia de los encuestados muestra que la mayoría se concentra en ciudades principales, representando el 57.9% de la población, mientras que el 42.1% reside en Municipios Intermedios.
Esta distribución indica que la población encuestada está relativamente equilibrada entre zonas urbanas principales y localidades intermedias.
| Residencia | Porcentaje |
|---|---|
| Ciudad Principal | 57.9 |
| Municipio Intermedio | 42.1 |
4 Selección de variables
Previo a la simulación, se analizó la relación entre la variable objetivo: Dispo_pago y las variables explicativas: Uso_termo, Edad y Gasto_aprox.
De acuerdo con los diagramas de dispersión, la variable que muestra una relación positiva más evidente con el precio que los consumidores estarían dispuestos a pagar por el termo Stanley es la frecuencia de uso semanal de termos o botellas reutilizables. A medida que aumenta la frecuencia de uso, se observan valores más altos del precio dispuesto a pagar, lo que sugiere una posible relación lineal positiva.
En contraste, la variable edad no presenta una tendencia clara, mientras que el gasto en productos similares evidencia una relación menos definida y con mayor dispersión. Por lo tanto, preliminarmente, la frecuencia de uso semanal se perfila como la principal candidata a variable independiente en un modelo de regresión lineal simple, siendo el precio dispuesto a pagar la variable dependiente.
5 Después de ajustes en la base de datos empezamos la simulación
Después de realizar los ajustes y limpieza en la base de datos original, se construyó un subconjunto de variables relevantes para el análisis.
Este nuevo dataset incluye la variable objetivo (precio dispuesto a pagar) y las variables explicativas seleccionadas para el modelo inicial: uso semanal del termo y preferencia de canal de compra.
La creación de este conjunto simplificado permite un modelamiento más estructurado y facilita la interpretación de resultados.
## precio_dispuesto_pagar uso_semanal preferencia_canal
## 1 150000 5 Tienda Física
## 2 50000 3 Online
## 3 50000 3 Tienda Física
## 4 150000 4 Tienda Física
## 5 70000 4 Online
## 6 90000 2 Tienda Física
## 7 80000 4 Tienda Física
## 8 80000 4 Online
## 9 60000 3 Tienda Física
## 10 50000 3 Tienda Física
## 11 100000 3 Online
## 12 200000 6 Tienda Física
## 13 100000 4 Tienda Física
## 14 200000 6 Online
## 15 90000 3 Online
## 16 150000 5 Online
## 17 230000 6 Tienda Física
## 18 150000 3 Tienda Física
## 19 150000 5 Tienda Física
## 20 100000 3 Online
## 21 30000 3 Tienda Física
## 22 150000 4 Online
## 23 150000 6 Online
## 24 100000 4 Online
## 25 60000 3 Tienda Física
## 26 150000 5 Tienda Física
## 27 150000 4 Online
## 28 30000 2 Online
## 29 70000 3 Online
## 30 200000 7 Tienda Física
## 31 250000 7 Online
## 32 140000 5 Tienda Física
## 33 150000 5 Tienda Física
## 34 150000 4 Tienda Física
## 35 200000 7 Online
## 36 100000 4 Online
## 37 80000 4 Online
## 38 50000 3 Tienda Física
| precio_dispuesto_pagar | uso_semanal | preferencia_canal |
|---|---|---|
| 150000 | 5 | Tienda Física |
| 50000 | 3 | Online |
| 50000 | 3 | Tienda Física |
| 150000 | 4 | Tienda Física |
| 70000 | 4 | Online |
| 90000 | 2 | Tienda Física |
| 80000 | 4 | Tienda Física |
| 80000 | 4 | Online |
| 60000 | 3 | Tienda Física |
| 50000 | 3 | Tienda Física |
| 100000 | 3 | Online |
| 200000 | 6 | Tienda Física |
| 100000 | 4 | Tienda Física |
| 200000 | 6 | Online |
| 90000 | 3 | Online |
| 150000 | 5 | Online |
| 230000 | 6 | Tienda Física |
| 150000 | 3 | Tienda Física |
| 150000 | 5 | Tienda Física |
| 100000 | 3 | Online |
| 30000 | 3 | Tienda Física |
| 150000 | 4 | Online |
| 150000 | 6 | Online |
| 100000 | 4 | Online |
| 60000 | 3 | Tienda Física |
| 150000 | 5 | Tienda Física |
| 150000 | 4 | Online |
| 30000 | 2 | Online |
| 70000 | 3 | Online |
| 200000 | 7 | Tienda Física |
| 250000 | 7 | Online |
| 140000 | 5 | Tienda Física |
| 150000 | 5 | Tienda Física |
| 150000 | 4 | Tienda Física |
| 200000 | 7 | Online |
| 100000 | 4 | Online |
| 80000 | 4 | Online |
| 50000 | 3 | Tienda Física |
Se construyó un gráfico de dispersión para analizar la relación entre el uso semanal del termo y el precio dispuesto a pagar, diferenciando los resultados según el canal de compra preferido.
Este análisis permite identificar posibles patrones de comportamiento, segmentación de clientes y tendencias preliminares antes de estimar el modelo de regresión.
El gráfico evidencia una relación positiva entre la frecuencia de uso del termo y el precio dispuesto a pagar, lo que sugiere que consumidores con mayor intensidad de uso tienden a asignar un mayor valor al producto.
Sin embargo, se observa dispersión significativa en algunos niveles de uso, lo cual indica que esta variable no explica completamente la variabilidad del precio.
Adicionalmente, se identifican diferencias visuales según el canal de compra, especialmente en los niveles más altos de uso, lo que podría reflejar comportamientos diferenciados entre segmentos de consumidores.
6 Simulación
Con el fin de analizar el comportamiento potencial del mercado bajo un mayor volumen de observaciones, se realizó una simulación basada en el modelo de regresión estimado.
Se generaron 200 observaciones adicionales utilizando la media y variabilidad observada en la muestra original para la variable de uso del termo. Posteriormente, se estimó el precio dispuesto a pagar incorporando un componente aleatorio, representando la variabilidad natural del mercado.
Este ejercicio permite visualizar cómo podría comportarse la relación entre uso y disposición de pago en un escenario ampliado.
El gráfico muestra una relación positiva clara entre la frecuencia de uso del termo y el precio dispuesto a pagar. A medida que aumenta el uso semanal, se observa un incremento en la disposición de pago.
Aunque existe variabilidad en los valores, la tendencia general mantiene un patrón creciente, lo que respalda la hipótesis de que los consumidores que utilizan con mayor frecuencia el producto perciben un mayor valor en él.
La dispersión observada refleja la heterogeneidad natural del mercado, indicando que, aunque el uso es un factor relevante, no es el único determinante del precio que los consumidores están dispuestos a pagar.
7 Aplicar el modelo KNN para predecir la preferencia de consumo
Con el fin de complementar el análisis, se aplicó el algoritmo K-Nearest Neighbors (KNN) para predecir la preferencia de canal de compra a partir del uso del termo y el precio dispuesto a pagar.
Previamente, las variables fueron estandarizadas para garantizar que ambas contribuyeran de manera equilibrada al cálculo de distancias. Se utilizó un valor de k = 3, clasificando cada observación según sus tres vecinos más cercanos.
El gráfico resultante muestra cómo el mercado puede segmentarse en función del comportamiento de consumo, identificando zonas donde predomina el canal online y otras donde se concentra la compra en tienda física.
Este análisis permite visualizar patrones de preferencia que pueden apoyar estrategias diferenciadas por perfil de consumidor.
Se observa que existe una relación positiva entre el uso del termo y la disposición de pago: a mayor uso, mayor es el precio que el consumidor estaría dispuesto a pagar.
Además, el modelo identifica patrones de agrupación entre los consumidores. En los niveles intermedios y altos de uso y precio, se evidencia una diferenciación entre quienes prefieren comprar en línea y quienes prefieren tienda física.
Esto sugiere que tanto la frecuencia de uso como la percepción de valor del producto influyen en el canal de compra elegido.
8 Dividir datos en conjunto de entrenamiento y prueba (80/20)
Para evaluar el desempeño del modelo, los datos fueron divididos en dos conjuntos: 80% para entrenamiento y 20% para prueba.
El conjunto de entrenamiento se utilizó para ajustar el modelo de regresión lineal, incorporando como variables explicativas el uso del termo y el canal de compra predicho previamente mediante KNN.
Esta división permite simular un escenario más realista, donde el modelo aprende con una parte de la información y posteriormente puede ser evaluado con datos que no ha visto antes. De esta manera, se reduce el riesgo de sobreajuste y se mejora la confiabilidad de los resultados.
##
## Call:
## lm(formula = .outcome ~ ., data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -74702 -19992 1718 20898 80182
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -34693 8682 -3.996 9.88e-05 ***
## Uso_termo 36998 1863 19.856 < 2e-16 ***
## `Canal_compra_predTienda Física` -2882 4966 -0.580 0.562
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 31280 on 157 degrees of freedom
## Multiple R-squared: 0.7158, Adjusted R-squared: 0.7121
## F-statistic: 197.7 on 2 and 157 DF, p-value: < 2.2e-16
El modelo de regresión lineal simple alcanza un R2 ajustado de 0.71, lo que indica que la frecuencia de uso semanal explica satisfactoriamente el 71% de la variabilidad en la disposición a pagar por un termo Stanley. Este nivel de ajuste se considera robusto para un modelo de una sola variable, sugiriendo que el uso constante es el principal motor de valoración para este segmento. Si bien factores como el ingreso podrían influir en la capacidad de compra, estos se mantuvieron como variables categóricas de caracterización debido a la naturaleza del ejercicio y la sensibilidad de los datos. Además se evidencia que, más allá del perfil socioeconómico, la intensidad de uso esperada es el factor determinante que captura la percepción de valor y define la expectativa de precio en la muestra analizada.
La variable “Uso_termo” es estadísticamente significativa (p < 0.001) y tiene un efecto positivo. Esto significa que, a medida que aumenta la frecuencia de uso del termo, también aumenta el precio que el consumidor estaría dispuesto a pagar.
El coeficiente estimado para la variable Uso_termo indica que por cada unidad adicional en la frecuencia de uso semanal del termo,la disposición a pagar aumenta en promedio $36.998 COP,manteniendo constante el canal de compra.
Para el coeficiente estimado de la variable Canal_compra_predTienda Física, se evidencia que las personas que prefieren Tienda Física estarían dispuestas a pagar, en promedio, $2.882 menos que quienes prefieren el canal de referencia (Online), manteniendo constante el uso. Sin embargo, la variable “Canal_compra_pred (Tienda Física)” no resulta estadísticamente significativa (p = 0.562), lo que sugiere que, una vez considerado el uso del termo, el canal de compra no genera una diferencia relevante en el precio dispuesto a pagar.
En general, el modelo demuestra que el principal factor que influye en la disposición de pago es la frecuencia de uso del producto.
9 Realizar predicción en el conjunto de prueba
Una vez entrenado el modelo, se realizaron predicciones sobre el 20% de los datos reservados para prueba. Esto permite evaluar cómo se comporta el modelo frente a información que no fue utilizada durante el entrenamiento.
El gráfico muestra la relación entre el uso del termo y el precio dispuesto a pagar en el conjunto de prueba. Los puntos están diferenciados por canal de compra y se incluye una línea de tendencia que resume el comportamiento general de los datos.
Se observa nuevamente una relación positiva entre el uso del termo y la disposición de pago, lo que confirma la consistencia del modelo. El uso del termo continúa siendo el principal factor asociado al precio que el consumidor estaría dispuesto a pagar.
Además, al presentarse en formato interactivo, el gráfico permite explorar con mayor detalle cada observación.
## `geom_smooth()` using formula = 'y ~ x'
10 Distribución de las predicciones
El gráfico presenta la distribución de los valores predichos de disposición a pagar en el conjunto de prueba.
El histograma muestra cómo se concentran las predicciones, mientras que la curva de densidad permite visualizar la forma general de la distribución. La línea roja punteada indica el valor promedio estimado por el modelo.
Se observa que la mayoría de las predicciones se agrupan en un rango intermedio, lo que sugiere que el modelo identifica un nivel promedio de disposición a pagar coherente con la tendencia general encontrada en el análisis.
La forma relativamente simétrica de la distribución indica estabilidad en las predicciones y ausencia de valores extremos predominantes.
El resumen estadístico de las predicciones permite observar los valores
mínimos y máximos estimados por el modelo, así como la media y los
cuartiles.
La media representa el valor promedio que el modelo estima como
disposición a pagar en el conjunto de prueba.
Los cuartiles muestran cómo se distribuyen las predicciones, indicando
el rango donde se concentra el 50% central de los valores.
En conjunto, este resumen confirma que las estimaciones del modelo se mantienen dentro de un rango coherente y consistente con la relación identificada entre el uso del termo y el precio dispuesto a pagar.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 38214 102307 121108 125695 149452 213203
El valor mínimo estimado de disposición a pagar es $38.214, mientras que el máximo alcanza $213.203. Esto indica que el modelo contempla un rango amplio de posibles valores según el nivel de uso del termo.
La media de las predicciones es $125.695, lo que representa el valor promedio que el modelo estima que los consumidores estarían dispuestos a pagar.
El 50% central de los valores se encuentra entre $102.307 (primer cuartil) y $213.203 (tercer cuartil), con una mediana de $121.108. Esto muestra que la mayoría de las estimaciones se concentran en un rango intermedio, lo que sugiere estabilidad y coherencia en las predicciones del modelo.
11 Conclusión
En este análisis se implementaron etapas de pre procesamiento de los datos donde se realizó una preparación del conjunto de datos Dataenc, renombrando variables para facilitar el modelamiento, eliminando un valor atípico en Gasto_aprox y ajustando tipos de datos (factores y variable numérica) para garantizar consistencia. La caracterización de los 38 encuestados mostró una muestra dominada por adultos jóvenes (edad promedio de 33 años), mayoritariamente activos laboralmente y con niveles de ingreso diversos, lo cual brinda un contexto demográfico útil para interpretar la disposición a pagar por un termo Stanley.
A partir de los diagramas de dispersión, se identificó que la variable con relación más clara y positiva con el precio dispuesto a pagar es la frecuencia de uso semanal del termo; en contraste, edad y gasto en productos similares no evidenciaron patrones lineales definidos. Con base en ello, se estimó un modelo lineal (y luego se simuló una muestra ampliada) confirmando una tendencia creciente: a mayor uso, mayor valoración del producto, aunque con dispersión, lo que sugiere que el uso es relevante pero no explica por completo todas las diferencias de precio entre personas.
Finalmente, se aplicó KNN (k=3) para predecir el canal de compra y se entrenó un modelo de regresión con partición 80/20, integrando Uso_termo y Canal_compra_pred. El modelo obtuvo un R² ajustado de 0.71, evidenciando buen poder explicativo principalmente por la significancia de Uso_termo (p < 0.001), mientras que el canal de compra no resultó significativo. Las predicciones en prueba mostraron una distribución estable y coherente (media ≈ 125.695, con valores mayormente concentrados en un rango intermedio), lo que respalda que la intensidad de uso es el factor más consistente para estimar la disposición a pagar en esta muestra.
En conclusión, el ejercicio permitió aplicar de manera integral técnicas de limpieza de datos, análisis exploratorio, simulación y modelamiento predictivo para comprender los factores que influyen en la disposición a pagar por un termo Stanley. Como enseñanza, la dinamica del trabajo demuestra la importancia de conocer el objetivo principal del problema, conocer la variable objetivo, tipo, caracteristica y medición para posterior seleccionar esas variables explicativas con mayor afinidad. Además, refleja que un modelo no solo debe ajustarse bien estadísticamente, sino también tener coherencia conceptual. Para incrementar el poder explicativo del modelo, sería recomendable ampliar el tamaño de la muestra, incorporar variables adicionales como ingreso en formato numérico, percepción de calidad o marca, aplicar validación cruzada y evaluar modelos alternativos (regresión múltiple, modelos no lineales o técnicas de machine learning) que capturen mejor la complejidad del comportamiento del consumidor.