Simulación - Regresión lineal.

El presente análisis tiene como objetivo modelar y predecir el valor que un consumidor estaría dispuesto a pagar por un termo, utilizando variables sociodemográficas y de comportamiento.

Se consideran como variables explicativas el género, la edad, el rango de ingreso, el uso principal del termo y la frecuencia semanal de uso.El enfoque metodológico incluirá análisis exploratorio, regresión lineal múltiple y validación del modelo mediante partición de datos en entrenamiento y prueba.

Datos <- read_excel("Datos_precio_termo.xlsx")
kable(head(Datos))

Id	Genero	Edad	Rango_ingreso	Valor_pagar	Uso	Frecuencia
1	Masculino	24	Entre 1 y 2 SMMLV	30	deporte	5
2	Masculino	23	Entre 1 y 2 SMMLV	40	deporte	5
3	Masculino	24	Entre 1 y 2 SMMLV	35	Trabajo	6
4	Masculino	25	Entre 1 y 2 SMMLV	80	deporte	4
5	Femenino	23	Entre 1 y 2 SMMLV	150	Trabajo - Deporte	5
6	Femenino	25	Entre 1 y 2 SMMLV	70	Trabajo	5

2 Categorización de Variables

Con el fin de facilitar la interpretación del modelo y el análisis por grupos, se procedió a categorizar las variables cualitativas del estudio.

Las variables Género, Rango de ingreso y Uso del termo fueron transformadas a formato factor. En particular, el Rango de ingreso fue definido como una variable categórica ordinal, permitiendo establecer una jerarquía entre los niveles salariales.

Esta categorización permite analizar diferencias en el valor dispuesto a pagar según grupos salariales, género y tipo de uso del termo.

Categorías de Género
Genero	n
Femenino	11
Masculino	9

Categorías de Rango de Ingreso
Rango_ingreso	n
Entre 1 y 2 SMMLV	11
Entre 2 y 3 SMMLV	2
Más de 3 SMMLV	7

Categorías de Uso del Termo
Uso	n
Deporte	4
Trabajo	7
Trabajo-Deporte	9

La muestra está compuesta por 20 individuos, de los cuales el 55% corresponde a mujeres (n = 11) y el 45% a hombres (n = 9), lo que evidencia una ligera mayoría femenina pero una distribución relativamente equilibrada por género.

En cuanto al nivel de ingreso, el 55% (n = 11) se ubica entre 1 y 2 SMMLV, el 35% (n = 7) reporta ingresos superiores a 3 SMMLV y solo el 10% (n = 2) pertenece al rango entre 2 y 3 SMMLV, lo que indica una concentración en el segmento de ingreso medio-bajo y una baja representatividad del grupo intermedio.

Respecto al uso del termo, el 45% (n = 9) lo utiliza tanto para trabajo como para deporte, el 35% (n = 7) exclusivamente para trabajo y el 20% (n = 4) únicamente para deporte, sugiriendo que el uso mixto es el comportamiento predominante dentro de la muestra.

3. Análisis Exploratorio de Datos

Con el objetivo de identificar patrones preliminares y posibles relaciones entre las variables explicativas y el valor dispuesto a pagar por el termo, se realizó un análisis gráfico exploratorio.Se evaluaron relaciones entre variables numéricas mediante diagramas de dispersión con línea de tendencia, y diferencias entre variables categóricas mediante diagramas de caja (boxplots).

El gráfico evidencia una relación positiva entre el nivel de ingreso mensual y el valor máximo dispuesto a pagar, observándose que el grupo “Más de 3 SMMLV” presenta la mediana más alta y mayor dispersión, lo que indica mayor capacidad y variabilidad en la disposición de pago. En contraste, el grupo “Entre 1 y 2 SMMLV” muestra una mediana menor y mayor heterogeneidad, mientras que el grupo intermedio (“Entre 2 y 3 SMMLV”) presenta baja variabilidad y un bajo tamaño de muestra, por lo que sus resultados deben ser interpretados con cautela.

El gráfico muestra que la frecuencia de uso no presenta una relación claramente creciente con el nivel de ingreso. El rombo rojo en cada categoría representa la media de uso. El grupo “Entre 2 y 3 SMMLV” registra la media más alta, aunque su tamaño muestral es reducido, lo que limita la generalización.

El grupo “Entre 1 y 2 SMMLV” presenta una frecuencia relativamente estable alrededor de 5 usos, con baja dispersión. Por su parte, el grupo “Más de 3 SMMLV” evidencia mayor variabilidad, con frecuencias que oscilan ampliamente y una media ligeramente inferior a la del grupo intermedio.

Relacion entre la Edad y el valor dispuesto a pagar

## `geom_smooth()` using formula = 'y ~ x'

El gráfico de dispersión no evidencia una relación clara o consistente entre la edad y el valor dispuesto a pagar. Aunque la línea de tendencia muestra una leve pendiente positiva, la alta dispersión de los puntos y la presencia de valores extremos impiden identificar un patrón definido. Además, el tamaño muestral es reducido, lo que limita la capacidad para establecer conclusiones robustas sobre la existencia de una relación estadísticamente significativa entre ambas variables.

Relacion entre la frecuencia de uso y el valor dispuesto a pagar

## `geom_smooth()` using formula = 'y ~ x'

El diagrama muestra una ligera tendencia positiva entre la frecuencia de uso y el valor dispuesto a pagar, es decir, a mayor frecuencia de uso (más días por semana), parece aumentar levemente la disposición a pagar. Sin embargo, la dispersión es amplia: para una misma frecuencia (por ejemplo 5 días) existen valores de pago muy bajos y muy altos, lo que indica que la relación no es fuerte ni determinante. Nuevamente, dado el tamaño reducido de la muestra, no puede afirmarse una relación estadísticamente sólida.

Relacion entre el Tipo de uso (Deporte-Trabajo) y el valor dispuesto a pagar

El gráfico muestra que el valor dispuesto a pagar varía según el tipo de uso del termo. El grupo que utiliza el producto tanto para trabajo como para deporte presenta los valores más altos y una mayor concentración en rangos superiores (entre 100 y 160), lo que sugiere una mayor valoración del producto cuando su utilidad es múltiple. El grupo que lo usa exclusivamente para trabajo presenta alta variabilidad, con valores tanto bajos como elevados, indicando heterogeneidad en la percepción del precio. Por su parte, quienes lo utilizan únicamente para deporte tienden a mostrar valores más bajos en promedio.

============================================================================================

Modelo de la frecuencia de uso (DIAS) modelo

##   Frecuencia Valor_pagar
## 1   4.272717   171.27575
## 2   4.789715   139.04735
## 3   7.589764    93.42504
## 4   5.260363   111.21673
## 5   5.352367    73.48973
## 6   7.834501    86.50879

El modelo muestra una tendencia general entre la frecuencia de uso y el valor dispuesto a pagar. Sin embargo, al agregar un componente aleatorio, se incorpora la variación que normalmente existe en datos reales de mercado. Esto hace que, incluso con niveles similares de frecuencia, los valores puedan variar bastante, lo que indica que el comportamiento del consumidor no depende únicamente de esta variable y no es totalmente predecible.

El gráfico de simulación muestra una nube de puntos ampliamente dispersa, sin una tendencia visualmente fuerte entre la frecuencia de uso y el valor dispuesto a pagar. Aunque podría existir una leve relación positiva, la variabilidad es alta: para un mismo nivel de frecuencia se observan valores muy distintos de disposición a pago. Esto indica que la frecuencia por sí sola no explica de manera significativa el valor que las personas están dispuestas a pagar y que intervienen otros factores adicionales. Además, al tratarse de una simulación con ruido agregado, la dispersión refleja un escenario más realista donde el comportamiento no es completamente predecible.

Aunque el KNN asigna categorías, los puntos aparecen superpuestos entre sí. Esto indica que la frecuencia y el valor dispuesto a pagar no son suficientes para diferenciar claramente el tipo de uso del termo.

===========================================================================================

## 
## Call:
## lm(formula = .outcome ~ ., data = dat)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -79.327 -20.934  -4.818  12.142  77.141 
## 
## Coefficients:
##                                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       71.376      9.002   7.929 3.97e-13 ***
## Frecuencia                        -3.597      1.865  -1.929  0.05558 .  
## Uso_predichoTrabajo               21.288      7.040   3.024  0.00292 ** 
## `Uso_predichoTrabajo - Deporte`   67.167      6.458  10.401  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30.56 on 156 degrees of freedom
## Multiple R-squared:  0.4588, Adjusted R-squared:  0.4484 
## F-statistic: 44.08 on 3 and 156 DF,  p-value: < 2.2e-16

## `geom_smooth()` using formula = 'y ~ x'

El gráfico muestra cómo el modelo clasifica las observaciones del conjunto de prueba según el tipo de uso del termo en función de la frecuencia y el valor dispuesto a pagar. Se observa una ligera tendencia creciente entre ambas variables, pero las categorías predichas se superponen considerablemente en el espacio, lo que indica que la separación entre clases no es claramente definida usando solo estas dos variables. Esto sugiere que el modelo puede estar capturando patrones generales, pero la discriminación entre tipos de uso no es totalmente precisa.

## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

## Warning: The dot-dot notation (`..density..`) was deprecated in ggplot2 3.4.0.
## ℹ Please use `after_stat(density)` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

================================================================ ## Analisis por genero

## 
## Call:
## lm(formula = .outcome ~ ., data = dat)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -61.869 -22.582  -2.159  23.117  78.617 
## 
## Coefficients:
##                          Estimate Std. Error t value Pr(>|t|)    
## (Intercept)               103.048      9.909  10.399   <2e-16 ***
## Frecuencia                  1.388      1.805   0.769    0.443    
## genero_predichoMasculino  -50.737      5.213  -9.733   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 31.59 on 157 degrees of freedom
## Multiple R-squared:  0.3881, Adjusted R-squared:  0.3803 
## F-statistic: 49.79 on 2 and 157 DF,  p-value: < 2.2e-16

## `geom_smooth()` using formula = 'y ~ x'

Predicciones = Corresponde al analisis por tipo de Uso Predicciones2 = Corresponde al analisis por genero

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   46.48   59.27   95.63   89.59  116.95  122.83

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   54.44   59.37  108.42   87.84  111.63  114.82

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.96692, p-value = 0.0007074

## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo2)
## W = 0.98421, p-value = 0.06549

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo$finalModel
## BP = 3.5614, df = 3, p-value = 0.3129

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo2$finalModel
## BP = 3.3747, df = 2, p-value = 0.185

## Predicción del precio dispuesto a pagar para el nuevo dato:  124.1565

## Predicción del precio dispuesto a pagar para el nuevo dato:  57.86182

## Predicción del precio dispuesto a pagar para el nuevo dato:  108.5986

Taller 2 - Regresión Lineal

Adrian Bueno - 2502194
Diana Marcela Mosquera - 2502636
Cristhian Mosquera Zapata - 2508514
Alejandro Arroyave - 2507582

2026-02-26

Simulación - Regresión lineal.

2 Categorización de Variables

3. Análisis Exploratorio de Datos

Relacion entre la Edad y el valor dispuesto a pagar

Relacion entre la frecuencia de uso y el valor dispuesto a pagar

Relacion entre el Tipo de uso (Deporte-Trabajo) y el valor dispuesto a pagar

Modelo de la frecuencia de uso (DIAS) modelo

Taller 2 - Regresión Lineal

Adrian Bueno - 2502194 Diana Marcela Mosquera - 2502636 Cristhian Mosquera Zapata - 2508514 Alejandro Arroyave - 2507582

2026-02-26

Simulación - Regresión lineal.

2 Categorización de Variables

3. Análisis Exploratorio de Datos

Relacion entre la Edad y el valor dispuesto a pagar

Relacion entre la frecuencia de uso y el valor dispuesto a pagar

Relacion entre el Tipo de uso (Deporte-Trabajo) y el valor dispuesto a pagar

Modelo de la frecuencia de uso (DIAS) modelo

Adrian Bueno - 2502194
Diana Marcela Mosquera - 2502636
Cristhian Mosquera Zapata - 2508514
Alejandro Arroyave - 2507582