El presente análisis tiene como objetivo modelar y predecir el valor que un consumidor estaría dispuesto a pagar por un termo, utilizando variables sociodemográficas y de comportamiento.
Se consideran como variables explicativas el género, la edad, el rango de ingreso, el uso principal del termo y la frecuencia semanal de uso.El enfoque metodológico incluirá análisis exploratorio, regresión lineal múltiple y validación del modelo mediante partición de datos en entrenamiento y prueba.
Datos <- read_excel("Datos_precio_termo.xlsx")
kable(head(Datos))
| Id | Genero | Edad | Rango_ingreso | Valor_pagar | Uso | Frecuencia |
|---|---|---|---|---|---|---|
| 1 | Masculino | 24 | Entre 1 y 2 SMMLV | 30 | deporte | 5 |
| 2 | Masculino | 23 | Entre 1 y 2 SMMLV | 40 | deporte | 5 |
| 3 | Masculino | 24 | Entre 1 y 2 SMMLV | 35 | Trabajo | 6 |
| 4 | Masculino | 25 | Entre 1 y 2 SMMLV | 80 | deporte | 4 |
| 5 | Femenino | 23 | Entre 1 y 2 SMMLV | 150 | Trabajo - Deporte | 5 |
| 6 | Femenino | 25 | Entre 1 y 2 SMMLV | 70 | Trabajo | 5 |
Con el fin de facilitar la interpretación del modelo y el análisis por grupos, se procedió a categorizar las variables cualitativas del estudio.
Las variables Género, Rango de ingreso y Uso del termo fueron transformadas a formato factor. En particular, el Rango de ingreso fue definido como una variable categórica ordinal, permitiendo establecer una jerarquía entre los niveles salariales.
Esta categorización permite analizar diferencias en el valor dispuesto a pagar según grupos salariales, género y tipo de uso del termo.
| Genero | n |
|---|---|
| Femenino | 11 |
| Masculino | 9 |
| Rango_ingreso | n |
|---|---|
| Entre 1 y 2 SMMLV | 11 |
| Entre 2 y 3 SMMLV | 2 |
| Más de 3 SMMLV | 7 |
| Uso | n |
|---|---|
| Deporte | 4 |
| Trabajo | 7 |
| Trabajo-Deporte | 9 |
La muestra está compuesta por 20 individuos, de los cuales el 55% corresponde a mujeres (n = 11) y el 45% a hombres (n = 9), lo que evidencia una ligera mayoría femenina pero una distribución relativamente equilibrada por género.
En cuanto al nivel de ingreso, el 55% (n = 11) se ubica entre 1 y 2 SMMLV, el 35% (n = 7) reporta ingresos superiores a 3 SMMLV y solo el 10% (n = 2) pertenece al rango entre 2 y 3 SMMLV, lo que indica una concentración en el segmento de ingreso medio-bajo y una baja representatividad del grupo intermedio.
Respecto al uso del termo, el 45% (n = 9) lo utiliza tanto para trabajo como para deporte, el 35% (n = 7) exclusivamente para trabajo y el 20% (n = 4) únicamente para deporte, sugiriendo que el uso mixto es el comportamiento predominante dentro de la muestra.
Con el objetivo de identificar patrones preliminares y posibles relaciones entre las variables explicativas y el valor dispuesto a pagar por el termo, se realizó un análisis gráfico exploratorio.Se evaluaron relaciones entre variables numéricas mediante diagramas de dispersión con línea de tendencia, y diferencias entre variables categóricas mediante diagramas de caja (boxplots).
El gráfico evidencia una relación positiva entre el nivel de ingreso
mensual y el valor máximo dispuesto a pagar, observándose que el grupo
“Más de 3 SMMLV” presenta la mediana más alta y mayor dispersión, lo que
indica mayor capacidad y variabilidad en la disposición de pago. En
contraste, el grupo “Entre 1 y 2 SMMLV” muestra una mediana menor y
mayor heterogeneidad, mientras que el grupo intermedio (“Entre 2 y 3
SMMLV”) presenta baja variabilidad y un bajo tamaño de muestra, por lo
que sus resultados deben ser interpretados con cautela.
El gráfico muestra que la frecuencia de uso no presenta una relación claramente creciente con el nivel de ingreso. El rombo rojo en cada categoría representa la media de uso. El grupo “Entre 2 y 3 SMMLV” registra la media más alta, aunque su tamaño muestral es reducido, lo que limita la generalización.
El grupo “Entre 1 y 2 SMMLV” presenta una frecuencia relativamente estable alrededor de 5 usos, con baja dispersión. Por su parte, el grupo “Más de 3 SMMLV” evidencia mayor variabilidad, con frecuencias que oscilan ampliamente y una media ligeramente inferior a la del grupo intermedio.
## `geom_smooth()` using formula = 'y ~ x'
El gráfico de dispersión no evidencia una relación clara o consistente entre la edad y el valor dispuesto a pagar. Aunque la línea de tendencia muestra una leve pendiente positiva, la alta dispersión de los puntos y la presencia de valores extremos impiden identificar un patrón definido. Además, el tamaño muestral es reducido, lo que limita la capacidad para establecer conclusiones robustas sobre la existencia de una relación estadísticamente significativa entre ambas variables.
## `geom_smooth()` using formula = 'y ~ x'
El diagrama muestra una ligera tendencia positiva entre la frecuencia de uso y el valor dispuesto a pagar, es decir, a mayor frecuencia de uso (más días por semana), parece aumentar levemente la disposición a pagar. Sin embargo, la dispersión es amplia: para una misma frecuencia (por ejemplo 5 días) existen valores de pago muy bajos y muy altos, lo que indica que la relación no es fuerte ni determinante. Nuevamente, dado el tamaño reducido de la muestra, no puede afirmarse una relación estadísticamente sólida.
El gráfico muestra que el valor dispuesto a pagar varía según el tipo de uso del termo. El grupo que utiliza el producto tanto para trabajo como para deporte presenta los valores más altos y una mayor concentración en rangos superiores (entre 100 y 160), lo que sugiere una mayor valoración del producto cuando su utilidad es múltiple. El grupo que lo usa exclusivamente para trabajo presenta alta variabilidad, con valores tanto bajos como elevados, indicando heterogeneidad en la percepción del precio. Por su parte, quienes lo utilizan únicamente para deporte tienden a mostrar valores más bajos en promedio.
============================================================================================
## Frecuencia Valor_pagar
## 1 4.272717 171.27575
## 2 4.789715 139.04735
## 3 7.589764 93.42504
## 4 5.260363 111.21673
## 5 5.352367 73.48973
## 6 7.834501 86.50879
El modelo muestra una tendencia general entre la frecuencia de uso y el valor dispuesto a pagar. Sin embargo, al agregar un componente aleatorio, se incorpora la variación que normalmente existe en datos reales de mercado. Esto hace que, incluso con niveles similares de frecuencia, los valores puedan variar bastante, lo que indica que el comportamiento del consumidor no depende únicamente de esta variable y no es totalmente predecible.
El gráfico de simulación muestra una nube de puntos ampliamente
dispersa, sin una tendencia visualmente fuerte entre la frecuencia de
uso y el valor dispuesto a pagar. Aunque podría existir una leve
relación positiva, la variabilidad es alta: para un mismo nivel de
frecuencia se observan valores muy distintos de disposición a pago. Esto
indica que la frecuencia por sí sola no explica de manera significativa
el valor que las personas están dispuestas a pagar y que intervienen
otros factores adicionales. Además, al tratarse de una simulación con
ruido agregado, la dispersión refleja un escenario más realista donde el
comportamiento no es completamente predecible.
Aunque el KNN asigna categorías, los puntos aparecen superpuestos entre
sí. Esto indica que la frecuencia y el valor dispuesto a pagar no son
suficientes para diferenciar claramente el tipo de uso del termo.
===========================================================================================
##
## Call:
## lm(formula = .outcome ~ ., data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -79.327 -20.934 -4.818 12.142 77.141
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 71.376 9.002 7.929 3.97e-13 ***
## Frecuencia -3.597 1.865 -1.929 0.05558 .
## Uso_predichoTrabajo 21.288 7.040 3.024 0.00292 **
## `Uso_predichoTrabajo - Deporte` 67.167 6.458 10.401 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 30.56 on 156 degrees of freedom
## Multiple R-squared: 0.4588, Adjusted R-squared: 0.4484
## F-statistic: 44.08 on 3 and 156 DF, p-value: < 2.2e-16
## `geom_smooth()` using formula = 'y ~ x'
El gráfico muestra cómo el modelo clasifica las observaciones del conjunto de prueba según el tipo de uso del termo en función de la frecuencia y el valor dispuesto a pagar. Se observa una ligera tendencia creciente entre ambas variables, pero las categorías predichas se superponen considerablemente en el espacio, lo que indica que la separación entre clases no es claramente definida usando solo estas dos variables. Esto sugiere que el modelo puede estar capturando patrones generales, pero la discriminación entre tipos de uso no es totalmente precisa.
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.
================================================================ ## Analisis por genero
##
## Call:
## lm(formula = .outcome ~ ., data = dat)
##
## Residuals:
## Min 1Q Median 3Q Max
## -61.869 -22.582 -2.159 23.117 78.617
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 103.048 9.909 10.399 <2e-16 ***
## Frecuencia 1.388 1.805 0.769 0.443
## genero_predichoMasculino -50.737 5.213 -9.733 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 31.59 on 157 degrees of freedom
## Multiple R-squared: 0.3881, Adjusted R-squared: 0.3803
## F-statistic: 49.79 on 2 and 157 DF, p-value: < 2.2e-16
## `geom_smooth()` using formula = 'y ~ x'
Predicciones = Corresponde al analisis por tipo de Uso Predicciones2 =
Corresponde al analisis por genero
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 46.48 59.27 95.63 89.59 116.95 122.83
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 54.44 59.37 108.42 87.84 111.63 114.82
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo)
## W = 0.96692, p-value = 0.0007074
##
## Shapiro-Wilk normality test
##
## data: residuals(modelo2)
## W = 0.98421, p-value = 0.06549
##
## studentized Breusch-Pagan test
##
## data: modelo$finalModel
## BP = 3.5614, df = 3, p-value = 0.3129
##
## studentized Breusch-Pagan test
##
## data: modelo2$finalModel
## BP = 3.3747, df = 2, p-value = 0.185
## Predicción del precio dispuesto a pagar para el nuevo dato: 124.1565
## Predicción del precio dispuesto a pagar para el nuevo dato: 57.86182
## Predicción del precio dispuesto a pagar para el nuevo dato: 108.5986