REGRESION LINEAL
MAPA DE CALOR
# Variables numƩricas relevantes
vars_numericas <- c("Cant", "Venta", "Costo_Venta",
"Precio_Final_Unitario", "Descuento_Porcentaje")
# Preparación de los datos
datos_cor <- datos_filtrados %>%
select(all_of(vars_numericas)) %>%
na.omit()
# Generar la matriz de correlación
matriz_cor <- cor(datos_cor)
# Ajuste del grƔfico sin mar
ggcorrplot(matriz_cor,
method = "square",
type = "upper",
lab = TRUE,
lab_size = 2, # Mejor tamaƱo de los coeficientes
tl.cex = 10, # TamaƱo de etiquetas mƔs grande
tl.srt = 45, # Rotación de 45° de etiquetas
colors = c("#6D9EC1", "white", "#E46726"),
title = "Mapa de Correlación - Variables Numéricas",
ggtheme = theme_minimal(base_size = 14) +
theme(
axis.text.x = element_text(angle = 45, hjust = 1),
axis.text.y = element_text(angle = 0, hjust = 1))
)

PRODUCTO 155001
# Filtrar solo los datos para el producto 155001
datos_155001 <- datos_filtrados %>%
filter(ID_Inventario == 155001) %>%
select(Venta, Cant, Costo_Venta,
Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
na.omit() # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_155001 <- datos_155001 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), # Asegúrate de que la fecha esté en formato Date
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses (ajustado por dĆas)
# Verificar las primeras filas para asegurarnos de que la variable de tiempo estƩ bien creada
head(datos_155001)
## # A tibble: 6 Ć 8
## Venta Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1187. 2 1194. 594. 85.8
## 2 21280 40 23874. 532 87.3
## 3 15960 30 17906. 532 87.3
## 4 31920 60 35811. 532 87.3
## 5 2968 5 2570. 594. 85.8
## 6 1187. 2 958. 594. 85.8
## # ā¹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_155001)
# Ver resumen del modelo
summary(modelo_regresion_155001)
##
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario +
## Descuento_Porcentaje + Tiempo, data = datos_155001)
##
## Residuals:
## Min 1Q Median 3Q Max
## -12228.9 -128.0 35.3 100.1 24517.4
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -3.319e+03 1.165e+03 -2.849 0.0044 **
## Cant 1.578e+02 3.300e+00 47.839 <2e-16 ***
## Costo_Venta 6.802e-01 8.789e-03 77.388 <2e-16 ***
## Precio_Final_Unitario 2.859e+00 2.544e-01 11.241 <2e-16 ***
## Descuento_Porcentaje 2.326e+01 1.199e+01 1.939 0.0525 .
## Tiempo 8.990e+04 1.940e+05 0.463 0.6431
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 742.9 on 8553 degrees of freedom
## Multiple R-squared: 0.9879, Adjusted R-squared: 0.9879
## F-statistic: 1.393e+05 on 5 and 8553 DF, p-value: < 2.2e-16
# Ajuste del modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_155001)
# Predicciones usando el modelo ajustado
predicciones_155001 <- predict(modelo_regresion_155001, newdata = datos_155001)
# Calcular MAPE (Mean Absolute Percentage Error)
mape_155001 <- mean(abs((datos_155001$Venta - predicciones_155001) / datos_155001$Venta)) * 100
# Calcular MSE (Mean Squared Error)
mse_155001 <- mean((datos_155001$Venta - predicciones_155001)^2)
# Mostrar las mƩtricas
cat("MAPE del modelo de regresión lineal para 155001: ", mape_155001, "\n")
## MAPE del modelo de regresión lineal para 155001: 14.49668
cat("MSE del modelo de regresión lineal para 155001: ", mse_155001, "\n")
## MSE del modelo de regresión lineal para 155001: 551515.6
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155001)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155001", # Cambia este ID para cada producto
Modelo = "Regresión Lineal",
MAPE = mape_155001,
MSE = mse_155001
))
PRODUCTO 3929788
# Filtrar solo los datos para el producto 3929788
datos_3929788 <- datos_filtrados %>%
filter(ID_Inventario == 3929788) %>%
select(Venta, Cant, Costo_Venta,
Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
na.omit() # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_3929788 <- datos_3929788 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), # Asegúrate de que la fecha esté en formato Date
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses (ajustado por dĆas)
# Verificar las primeras filas para asegurarnos de que la variable de tiempo estƩ bien creada
head(datos_3929788)
## # A tibble: 6 Ć 8
## Venta Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 364 10 254. 36.4 60
## 2 242. 6 167. 40.3 60
## 3 697. 15 506. 46.5 48.9
## 4 13020 300 10110. 43.4 52.3
## 5 2170 50 1685. 43.4 52.3
## 6 434 10 337. 43.4 52.3
## # ā¹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3929788 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_3929788)
# Ver resumen del modelo
summary(modelo_regresion_3929788)
##
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario +
## Descuento_Porcentaje + Tiempo, data = datos_3929788)
##
## Residuals:
## Min 1Q Median 3Q Max
## -4348.4 -81.8 -45.4 27.9 3441.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.154e+02 1.690e+02 3.049 0.0023 **
## Cant 2.552e+00 2.503e-01 10.193 < 2e-16 ***
## Costo_Venta 1.102e+00 8.312e-03 132.603 < 2e-16 ***
## Precio_Final_Unitario 8.877e-01 1.674e+00 0.530 0.5960
## Descuento_Porcentaje -7.636e+00 1.750e+00 -4.364 1.29e-05 ***
## Tiempo 2.082e+05 4.365e+04 4.771 1.85e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 218.9 on 13711 degrees of freedom
## Multiple R-squared: 0.9949, Adjusted R-squared: 0.9949
## F-statistic: 5.393e+05 on 5 and 13711 DF, p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3929788 <- predict(modelo_regresion_3929788, newdata = datos_3929788)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3929788 <- mean(abs((datos_3929788$Venta - predicciones_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100
# Calcular MSE (Mean Squared Error)
mse_3929788 <- mean((datos_3929788$Venta - predicciones_3929788)^2)
# Mostrar las mƩtricas
cat("MAPE del modelo de regresión lineal para 3929788: ", mape_3929788, "\n")
## MAPE del modelo de regresión lineal para 3929788: 22.37678
cat("MSE del modelo de regresión lineal para 3929788: ", mse_3929788, "\n")
## MSE del modelo de regresión lineal para 3929788: 47902.12
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3929788)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3929788", # Cambia este ID para cada producto
Modelo = "Regresión Lineal",
MAPE = mape_3929788,
MSE = mse_3929788
))
PRODUCTO 3904152
# Filtrar solo los datos para el producto 3904152
datos_3904152 <- datos_filtrados %>%
filter(ID_Inventario == 3904152) %>%
select(Venta, Cant, Costo_Venta,
Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
na.omit() # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_3904152 <- datos_3904152 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), # Asegúrate de que la fecha esté en formato Date
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses (ajustado por dĆas)
# Verificar las primeras filas para asegurarnos de que la variable de tiempo estƩ bien creada
head(datos_3904152)
## # A tibble: 6 Ć 8
## Venta Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 3402 1 2462. 3402 62.4
## 2 9240 3 7382. 3080 66.0
## 3 3402 1 2461. 3402 62.4
## 4 3402 1 2462. 3402 62.4
## 5 3402 1 2462. 3402 62.4
## 6 30800 10 24563. 3080 66.0
## # ā¹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3904152 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_3904152)
# Ver resumen del modelo
summary(modelo_regresion_3904152)
##
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario +
## Descuento_Porcentaje + Tiempo, data = datos_3904152)
##
## Residuals:
## Min 1Q Median 3Q Max
## -7591.2 -149.6 -11.9 114.8 3142.7
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.279e+04 1.005e+03 12.720 < 2e-16 ***
## Cant 2.651e+02 5.929e+01 4.470 8.16e-06 ***
## Costo_Venta 1.172e+00 2.513e-02 46.650 < 2e-16 ***
## Precio_Final_Unitario -1.734e-01 9.940e-02 -1.744 0.0812 .
## Descuento_Porcentaje -1.888e+02 1.108e+01 -17.049 < 2e-16 ***
## Tiempo 2.313e+06 1.487e+05 15.561 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 376.9 on 2550 degrees of freedom
## Multiple R-squared: 0.9987, Adjusted R-squared: 0.9987
## F-statistic: 4.059e+05 on 5 and 2550 DF, p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3904152 <- predict(modelo_regresion_3904152, newdata = datos_3904152)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3904152 <- mean(abs((datos_3904152$Venta - predicciones_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100
# Calcular MSE (Mean Squared Error)
mse_3904152 <- mean((datos_3904152$Venta - predicciones_3904152)^2)
# Mostrar las mƩtricas
cat("MAPE del modelo de regresión lineal para 3904152: ", mape_3904152, "\n")
## MAPE del modelo de regresión lineal para 3904152: 3.343441
cat("MSE del modelo de regresión lineal para 3904152: ", mse_3904152, "\n")
## MSE del modelo de regresión lineal para 3904152: 141741.2
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3904152)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3904152", # Cambia este ID para cada producto
Modelo = "Regresión Lineal",
MAPE = mape_3904152,
MSE = mse_3904152
))
PRODUCTO 155002
# Filtrar solo los datos para el producto 155002
datos_155002 <- datos_filtrados %>%
filter(ID_Inventario == 155002) %>%
select(Venta, Cant, Costo_Venta,
Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
na.omit() # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_155002 <- datos_155002 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), # Asegúrate de que la fecha esté en formato Date
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses (ajustado por dĆas)
# Verificar las primeras filas para asegurarnos de que la variable de tiempo estƩ bien creada
head(datos_155002)
## # A tibble: 6 Ć 8
## Venta Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 5320 10 8247. 532 87.3
## 2 5320 10 8247. 532 87.3
## 3 2660 5 4124. 532 87.3
## 4 630 1 519. 630 85.0
## 5 1120 2 1037. 560 86.6
## 6 1537. 3 1556. 512. 87.8
## # ā¹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155002 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_155002)
# Ver resumen del modelo
summary(modelo_regresion_155002)
##
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario +
## Descuento_Porcentaje + Tiempo, data = datos_155002)
##
## Residuals:
## Min 1Q Median 3Q Max
## -11980 -167 55 154 46301
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.521e+02 1.894e+03 0.450 0.652854
## Cant 2.992e+02 3.945e+00 75.856 < 2e-16 ***
## Costo_Venta 3.025e-01 9.834e-03 30.758 < 2e-16 ***
## Precio_Final_Unitario 3.681e+00 3.980e-01 9.250 < 2e-16 ***
## Descuento_Porcentaje -2.875e+01 1.957e+01 -1.469 0.141855
## Tiempo 9.982e+05 3.004e+05 3.323 0.000896 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 890.7 on 5746 degrees of freedom
## Multiple R-squared: 0.9723, Adjusted R-squared: 0.9723
## F-statistic: 4.039e+04 on 5 and 5746 DF, p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_155002 <- predict(modelo_regresion_155002, newdata = datos_155002)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_155002 <- mean(abs((datos_155002$Venta - predicciones_155002) / pmax(datos_155002$Venta, 0.01))) * 100
# Calcular MSE (Mean Squared Error)
mse_155002 <- mean((datos_155002$Venta - predicciones_155002)^2)
# Mostrar las mƩtricas
cat("MAPE del modelo de regresión lineal para 155002: ", mape_155002, "\n")
## MAPE del modelo de regresión lineal para 155002: 19.918
cat("MSE del modelo de regresión lineal para 155002: ", mse_155002, "\n")
## MSE del modelo de regresión lineal para 155002: 792516.1
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155002)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155002", # Cambia este ID para cada producto
Modelo = "Regresión Lineal",
MAPE = mape_155002,
MSE = mse_155002
))
PRODUCTO 3678055
# Filtrar solo los datos para el producto 3678055
datos_3678055 <- datos_filtrados %>%
filter(ID_Inventario == 3678055) %>%
select(Venta, Cant, Costo_Venta,
Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
na.omit() # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_3678055 <- datos_3678055 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), # Asegúrate de que la fecha esté en formato Date
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses (ajustado por dĆas)
# Verificar las primeras filas para asegurarnos de que la variable de tiempo estƩ bien creada
head(datos_3678055)
## # A tibble: 6 Ć 8
## Venta Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 36358 7 28807. 5194 65.9
## 2 5670 1 4213. 5670 62.8
## 3 10773 2 8232. 5386. 64.7
## 4 5670 1 4116. 5670 62.8
## 5 5386. 1 4156. 5386. 64.7
## 6 5386. 1 4213. 5386. 64.7
## # ā¹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3678055 <- lm(Venta ~ Cant + Costo_Venta +
Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
data = datos_3678055)
# Ver resumen del modelo
summary(modelo_regresion_3678055)
##
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario +
## Descuento_Porcentaje + Tiempo, data = datos_3678055)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3921.4 -165.9 -7.8 170.0 3631.6
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.260e+04 1.396e+03 9.024 < 2e-16 ***
## Cant 1.570e+03 1.017e+02 15.439 < 2e-16 ***
## Costo_Venta 9.057e-01 2.541e-02 35.648 < 2e-16 ***
## Precio_Final_Unitario 2.424e-01 8.578e-02 2.826 0.00477 **
## Descuento_Porcentaje -2.127e+02 1.512e+01 -14.061 < 2e-16 ***
## Tiempo 2.034e+06 2.032e+05 10.009 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 461.5 on 1654 degrees of freedom
## Multiple R-squared: 0.9976, Adjusted R-squared: 0.9976
## F-statistic: 1.376e+05 on 5 and 1654 DF, p-value: < 2.2e-16
#Predicciones usando el modelo ajustado
predicciones_3678055 <- predict(modelo_regresion_3678055, newdata = datos_3678055)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3678055 <- mean(abs((datos_3678055$Venta - predicciones_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100
# Calcular MSE (Mean Squared Error)
mse_3678055 <- mean((datos_3678055$Venta - predicciones_3678055)^2)
# Mostrar las mƩtricas
cat("MAPE del modelo de regresión lineal para 3678055: ", mape_3678055, "\n")
## MAPE del modelo de regresión lineal para 3678055: 2.900802
cat("MSE del modelo de regresión lineal para 3678055: ", mse_3678055, "\n")
## MSE del modelo de regresión lineal para 3678055: 212205.3
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3678055)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055", # Cambia este ID para cada producto
Modelo = "Regresión Lineal",
MAPE = mape_3678055,
MSE = mse_3678055
))
ANALISIS DE VARIABLES
IMPORTANTES
# Función simplificada para analizar coeficientes
analizar_coeficientes <- function(modelo, nombre_producto) {
resumen <- summary(modelo)
coef_df <- as.data.frame(resumen$coefficients)
colnames(coef_df) <- c("Estimate", "Std.Error", "t.value", "p.value")
coef_df$Variable <- rownames(coef_df)
coef_df$Producto <- nombre_producto
coef_df$Significativo <- ifelse(coef_df$p.value < 0.05, "SĆ", "No")
return(coef_df %>%
select(Producto, Variable, Estimate, p.value, Significativo) %>%
arrange(desc(abs(Estimate))))
}
# Aplicar a cada modelo
coef_155001 <- analizar_coeficientes(modelo_regresion_155001, "155001")
coef_155002 <- analizar_coeficientes(modelo_regresion_155002, "155002")
coef_3678055 <- analizar_coeficientes(modelo_regresion_3678055, "3678055")
coef_3904152 <- analizar_coeficientes(modelo_regresion_3904152, "3904152")
coef_3929788 <- analizar_coeficientes(modelo_regresion_3929788, "3929788")
# Combinar todos los coeficientes
todos_coeficientes <- bind_rows(coef_155001, coef_155002, coef_3678055, coef_3904152, coef_3929788)
# Tabla con variables importantes incluyendo significancia
variables_importantes <- todos_coeficientes %>%
filter(Variable != "(Intercept)") %>%
group_by(Producto) %>%
arrange(Producto, desc(abs(Estimate))) %>%
mutate(Impacto = ifelse(Estimate > 0, "Positivo", "Negativo"))
# Tabla completa con todas las variables importantes
kable(variables_importantes %>%
select(Producto, Variable, Estimate, p.value, Significativo, Impacto),
caption = "Variables importantes por producto",
col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
digits = c(0, 0, 4, 4, 0, 0)) %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Variables importantes por producto
|
Producto
|
Variable
|
Coeficiente
|
p-value
|
Significativo
|
Impacto
|
|
155001
|
Tiempo
|
89900.3830
|
0.6431
|
No
|
Positivo
|
|
155001
|
Cant
|
157.8442
|
0.0000
|
SĆ
|
Positivo
|
|
155001
|
Descuento_Porcentaje
|
23.2560
|
0.0525
|
No
|
Positivo
|
|
155001
|
Precio_Final_Unitario
|
2.8592
|
0.0000
|
SĆ
|
Positivo
|
|
155001
|
Costo_Venta
|
0.6802
|
0.0000
|
SĆ
|
Positivo
|
|
155002
|
Tiempo
|
998207.9076
|
0.0009
|
SĆ
|
Positivo
|
|
155002
|
Cant
|
299.2286
|
0.0000
|
SĆ
|
Positivo
|
|
155002
|
Descuento_Porcentaje
|
-28.7504
|
0.1419
|
No
|
Negativo
|
|
155002
|
Precio_Final_Unitario
|
3.6812
|
0.0000
|
SĆ
|
Positivo
|
|
155002
|
Costo_Venta
|
0.3025
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Tiempo
|
2034282.2796
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Cant
|
1570.0692
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Descuento_Porcentaje
|
-212.6746
|
0.0000
|
SĆ
|
Negativo
|
|
3678055
|
Costo_Venta
|
0.9057
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Precio_Final_Unitario
|
0.2425
|
0.0048
|
SĆ
|
Positivo
|
|
3904152
|
Tiempo
|
2313419.2297
|
0.0000
|
SĆ
|
Positivo
|
|
3904152
|
Cant
|
265.0523
|
0.0000
|
SĆ
|
Positivo
|
|
3904152
|
Descuento_Porcentaje
|
-188.8303
|
0.0000
|
SĆ
|
Negativo
|
|
3904152
|
Costo_Venta
|
1.1722
|
0.0000
|
SĆ
|
Positivo
|
|
3904152
|
Precio_Final_Unitario
|
-0.1734
|
0.0812
|
No
|
Negativo
|
|
3929788
|
Tiempo
|
208247.8173
|
0.0000
|
SĆ
|
Positivo
|
|
3929788
|
Descuento_Porcentaje
|
-7.6365
|
0.0000
|
SĆ
|
Negativo
|
|
3929788
|
Cant
|
2.5517
|
0.0000
|
SĆ
|
Positivo
|
|
3929788
|
Costo_Venta
|
1.1022
|
0.0000
|
SĆ
|
Positivo
|
|
3929788
|
Precio_Final_Unitario
|
0.8877
|
0.5960
|
No
|
Positivo
|
# Tabla resumen con top 3 por producto
top_por_producto <- variables_importantes %>%
group_by(Producto) %>%
slice_head(n = 3) %>%
select(Producto, Variable, Estimate, p.value, Significativo, Impacto)
kable(top_por_producto,
caption = "Top 3 variables mƔs importantes por producto",
col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
digits = c(0, 0, 4, 4, 0, 0)) %>%
kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Top 3 variables mƔs importantes por producto
|
Producto
|
Variable
|
Coeficiente
|
p-value
|
Significativo
|
Impacto
|
|
155001
|
Tiempo
|
89900.3830
|
0.6431
|
No
|
Positivo
|
|
155001
|
Cant
|
157.8442
|
0.0000
|
SĆ
|
Positivo
|
|
155001
|
Descuento_Porcentaje
|
23.2560
|
0.0525
|
No
|
Positivo
|
|
155002
|
Tiempo
|
998207.9076
|
0.0009
|
SĆ
|
Positivo
|
|
155002
|
Cant
|
299.2286
|
0.0000
|
SĆ
|
Positivo
|
|
155002
|
Descuento_Porcentaje
|
-28.7504
|
0.1419
|
No
|
Negativo
|
|
3678055
|
Tiempo
|
2034282.2796
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Cant
|
1570.0692
|
0.0000
|
SĆ
|
Positivo
|
|
3678055
|
Descuento_Porcentaje
|
-212.6746
|
0.0000
|
SĆ
|
Negativo
|
|
3904152
|
Tiempo
|
2313419.2297
|
0.0000
|
SĆ
|
Positivo
|
|
3904152
|
Cant
|
265.0523
|
0.0000
|
SĆ
|
Positivo
|
|
3904152
|
Descuento_Porcentaje
|
-188.8303
|
0.0000
|
SĆ
|
Negativo
|
|
3929788
|
Tiempo
|
208247.8173
|
0.0000
|
SĆ
|
Positivo
|
|
3929788
|
Descuento_Porcentaje
|
-7.6365
|
0.0000
|
SĆ
|
Negativo
|
|
3929788
|
Cant
|
2.5517
|
0.0000
|
SĆ
|
Positivo
|
RANDOM FOREST
PRODUCTO 155001
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
select(-Trx_Fecha, -Fecha)
# Ajustar el modelo Random Forest
set.seed(123) # Para reproducibilidad
modelo_rf_155001 <- randomForest(
Venta ~ .,
data = datos_modelo,
ntree = 500, # Número de Ôrboles
mtry = floor(sqrt(ncol(datos_modelo) - 1)), # NĆŗmero de variables a considerar en cada split
importance = TRUE # Calcular importancia de variables
)
# Ver resumen del modelo
print(modelo_rf_155001)
##
## Call:
## randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500, mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE)
## Type of random forest: regression
## Number of trees: 500
## No. of variables tried at each split: 2
##
## Mean of squared residuals: 1527551
## % Var explained: 96.64
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_155001, newdata = datos_modelo)
# Calcular mƩtricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)
# Mostrar las mƩtricas
cat("Modelo Random Forest para producto 155001\n")
## Modelo Random Forest para producto 155001
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.4085599
cat("MSE del modelo Random Forest:", mse_rf, "\n\n")
## MSE del modelo Random Forest: 387271.7
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155001)
print(importancia_vars)
## %IncMSE IncNodePurity
## Cant 30.450104 161568380699
## Costo_Venta 35.858281 202647475601
## Precio_Final_Unitario 2.363057 5466467501
## Descuento_Porcentaje 2.374052 9340162988
## Tiempo 3.107877 4882101135
# Graficar importancia de variables
varImpPlot(modelo_rf_155001, main = "Importancia de Variables - Producto 155001")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_rf
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 155001",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# NUEVOS ANĆLISIS AĆADIDOS
# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 155001",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# EstadĆsticas descriptivas de los errores
cat("EstadĆsticas descriptivas de los errores:\n")
## EstadĆsticas descriptivas de los errores:
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 10.78726
cat("Desviación estÔndar de errores:", sd(errores), "\n")
## Desviación estÔndar de errores: 622.2545
cat("MĆnimo:", min(errores), "\n")
## MĆnimo: -3000.569
cat("MƔximo:", max(errores), "\n")
## MƔximo: 47173.6
cat("Mediana:", median(errores), "\n")
## Mediana: -0.03039354
# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 155001",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155001", # Cambia este ID para cada producto
Modelo = "Random Forest",
MAPE = mape_rf,
MSE = mse_rf
))
PRODUCTO 3929788
# Crear una variable de tiempo continua basada en la fecha
datos_3929788 <- datos_3929788 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses
# Mostrar un resumen de los datos
summary(datos_3929788)
## Venta Cant Costo_Venta Precio_Final_Unitario
## Min. : 30.52 Min. : 1.00 Min. : 25.36 Min. : 28.00
## 1st Qu.: 403.20 1st Qu.: 10.00 1st Qu.: 280.17 1st Qu.: 36.40
## Median : 873.60 Median : 20.00 Median : 623.38 Median : 40.32
## Mean : 1660.11 Mean : 42.99 Mean : 1301.82 Mean : 40.83
## 3rd Qu.: 2016.00 3rd Qu.: 50.00 3rd Qu.: 1513.40 3rd Qu.: 43.57
## Max. :53096.40 Max. :1540.00 Max. :46610.46 Max. :108.92
## Descuento_Porcentaje Trx_Fecha Fecha
## Min. : 0.00 Min. :2023-01-02 00:00:00.00 Min. :2023-01-01
## 1st Qu.:60.00 1st Qu.:2023-07-05 00:00:00.00 1st Qu.:2023-07-01
## Median :60.19 Median :2024-01-15 00:00:00.00 Median :2024-01-01
## Mean :60.84 Mean :2024-01-06 20:09:02.74 Mean :2023-12-21
## 3rd Qu.:65.28 3rd Qu.:2024-07-09 00:00:00.00 3rd Qu.:2024-07-01
## Max. :71.72 Max. :2024-12-31 00:00:00.00 Max. :2024-12-01
## Tiempo
## Min. :0.000e+00
## 1st Qu.:6.983e-05
## Median :1.408e-04
## Mean :1.370e-04
## 3rd Qu.:2.110e-04
## Max. :2.701e-04
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
select(-Trx_Fecha, -Fecha)
# Ajustar el modelo Random Forest
set.seed(123) # Para reproducibilidad
modelo_rf_3929788 <- randomForest(
Venta ~ .,
data = datos_modelo,
ntree = 500, # Número de Ôrboles
mtry = floor(sqrt(ncol(datos_modelo) - 1)), # NĆŗmero de variables a considerar en cada split
importance = TRUE # Calcular importancia de variables
)
# Ver resumen del modelo
print(modelo_rf_3929788)
##
## Call:
## randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500, mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE)
## Type of random forest: regression
## Number of trees: 500
## No. of variables tried at each split: 2
##
## Mean of squared residuals: 19754.14
## % Var explained: 99.79
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3929788, newdata = datos_modelo)
# Calcular mƩtricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)
# Mostrar las mƩtricas
cat("Modelo Random Forest para producto 3929788\n")
## Modelo Random Forest para producto 3929788
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.4490773
cat("MSE del modelo Random Forest:", mse_rf, "\n\n")
## MSE del modelo Random Forest: 4061.364
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3929788)
print(importancia_vars)
## %IncMSE IncNodePurity
## Cant 34.276494 56601065324
## Costo_Venta 39.131339 68121001903
## Precio_Final_Unitario 2.395103 1273355507
## Descuento_Porcentaje 9.421761 3916614655
## Tiempo 1.643341 378918548
# Graficar importancia de variables
varImpPlot(modelo_rf_3929788, main = "Importancia de Variables - Producto 3929788")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_rf
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 3929788",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 3929788",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 3929788",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3929788", # Cambia este ID para cada producto
Modelo = "Random Forest",
MAPE = mape_rf,
MSE = mse_rf
))
PRODUCTO 3904152
# Crear una variable de tiempo continua basada en la fecha
datos_3904152 <- datos_3904152 %>%
mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),
Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)) # Tiempo en meses
# Mostrar un resumen de los datos
summary(datos_3904152)
## Venta Cant Costo_Venta Precio_Final_Unitario
## Min. : 2677 Min. : 1.000 Min. : 2250 Min. :2677
## 1st Qu.: 3108 1st Qu.: 1.000 1st Qu.: 2331 1st Qu.:3051
## Median : 3402 Median : 1.000 Median : 2472 Median :3108
## Mean : 7495 Mean : 2.413 Mean : 5724 Mean :3158
## 3rd Qu.: 7140 3rd Qu.: 2.000 3rd Qu.: 5194 3rd Qu.:3318
## Max. :169344 Max. :56.000 Max. :131032 Max. :3639
## Descuento_Porcentaje Trx_Fecha Fecha
## Min. :60.00 Min. :2023-01-02 00:00:00.00 Min. :2023-01-01
## 1st Qu.:64.43 1st Qu.:2023-07-12 00:00:00.00 1st Qu.:2023-07-01
## Median :65.90 Median :2024-01-16 00:00:00.00 Median :2024-01-01
## Mean :65.72 Mean :2024-01-06 20:44:30.42 Mean :2023-12-21
## 3rd Qu.:66.60 3rd Qu.:2024-06-28 00:00:00.00 3rd Qu.:2024-06-01
## Max. :70.43 Max. :2024-12-31 00:00:00.00 Max. :2024-12-01
## Tiempo
## Min. :0.000e+00
## 1st Qu.:6.983e-05
## Median :1.408e-04
## Mean :1.366e-04
## 3rd Qu.:1.995e-04
## Max. :2.701e-04
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3904152 %>%
select(-Trx_Fecha, -Fecha)
# Ajustar el modelo Random Forest
set.seed(123) # Para reproducibilidad
modelo_rf_3904152 <- randomForest(
Venta ~ .,
data = datos_modelo,
ntree = 500, # Número de Ôrboles
mtry = floor(sqrt(ncol(datos_modelo) - 1)), # NĆŗmero de variables a considerar en cada split
importance = TRUE # Calcular importancia de variables
)
# Ver resumen del modelo
print(modelo_rf_3904152)
##
## Call:
## randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500, mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE)
## Type of random forest: regression
## Number of trees: 500
## No. of variables tried at each split: 2
##
## Mean of squared residuals: 912601.7
## % Var explained: 99.19
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3904152, newdata = datos_modelo)
# Calcular mƩtricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)
# Mostrar las mƩtricas
cat("Modelo Random Forest para producto 3904152\n")
## Modelo Random Forest para producto 3904152
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.2195905
cat("MSE del modelo Random Forest:", mse_rf, "\n\n")
## MSE del modelo Random Forest: 233644.4
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3904152)
print(importancia_vars)
## %IncMSE IncNodePurity
## Cant 27.857528 127827976697
## Costo_Venta 33.273998 150734822975
## Precio_Final_Unitario 3.859049 3595343640
## Descuento_Porcentaje 4.653136 5848187484
## Tiempo 2.155004 1653911972
# Graficar importancia de variables
varImpPlot(modelo_rf_3904152, main = "Importancia de Variables - Producto 3904152")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_rf
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 3904152",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 3904152",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 3904152",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3904152", # Cambia este ID para cada producto
Modelo = "Random Forest",
MAPE = mape_rf,
MSE = mse_rf
))
PRODUCTO 155002
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155002 %>%
select(-Trx_Fecha, -Fecha)
# Ajustar el modelo Random Forest
set.seed(123) # Para reproducibilidad
modelo_rf_155002 <- randomForest(
Venta ~ .,
data = datos_modelo,
ntree = 500, # Número de Ôrboles
mtry = floor(sqrt(ncol(datos_modelo) - 1)), # NĆŗmero de variables a considerar en cada split
importance = TRUE # Calcular importancia de variables
)
# Ver resumen del modelo
print(modelo_rf_155002)
##
## Call:
## randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500, mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE)
## Type of random forest: regression
## Number of trees: 500
## No. of variables tried at each split: 2
##
## Mean of squared residuals: 975724.1
## % Var explained: 96.59
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_155002, newdata = datos_modelo)
# Calcular mƩtricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)
# Mostrar las mƩtricas
cat("Modelo Random Forest para producto 155002\n")
## Modelo Random Forest para producto 155002
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.550092
cat("MSE del modelo Random Forest:", mse_rf, "\n\n")
## MSE del modelo Random Forest: 183402.8
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155002)
print(importancia_vars)
## %IncMSE IncNodePurity
## Cant 35.795786 81092951910
## Costo_Venta 31.078376 72643004789
## Precio_Final_Unitario 14.132964 3540837939
## Descuento_Porcentaje 6.103098 5382968927
## Tiempo 7.484308 1781157778
# Graficar importancia de variables
varImpPlot(modelo_rf_155002, main = "Importancia de Variables - Producto 155002")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_rf
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 155002",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 155002",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 155002",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de Random Forest para producto 3678055
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055", # Cambia este ID para cada producto
Modelo = "Random Forest",
MAPE = mape_rf,
MSE = mse_rf
))
PRODUCTO 3678055
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3678055 %>%
select(-Trx_Fecha, -Fecha)
# Ajustar el modelo Random Forest
set.seed(123) # Para reproducibilidad
modelo_rf_3678055 <- randomForest(
Venta ~ .,
data = datos_modelo,
ntree = 500, # Número de Ôrboles
mtry = floor(sqrt(ncol(datos_modelo) - 1)), # NĆŗmero de variables a considerar en cada split
importance = TRUE # Calcular importancia de variables
)
# Ver resumen del modelo
print(modelo_rf_3678055)
##
## Call:
## randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500, mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE)
## Type of random forest: regression
## Number of trees: 500
## No. of variables tried at each split: 2
##
## Mean of squared residuals: 839721.5
## % Var explained: 99.05
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3678055, newdata = datos_modelo)
# Calcular mƩtricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)
# Mostrar las mƩtricas
cat("Modelo Random Forest para producto 3678055\n")
## Modelo Random Forest para producto 3678055
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.2172073
cat("MSE del modelo Random Forest:", mse_rf, "\n\n")
## MSE del modelo Random Forest: 230895.8
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3678055)
print(importancia_vars)
## %IncMSE IncNodePurity
## Cant 27.985712 59615600800
## Costo_Venta 36.667397 81742000969
## Precio_Final_Unitario 6.416070 1542604712
## Descuento_Porcentaje 5.379649 1721440173
## Tiempo 4.174552 1044473588
# Graficar importancia de variables
varImpPlot(modelo_rf_3678055, main = "Importancia de Variables - Producto 3678055")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_rf
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 3678055",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 3678055",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 3678055",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055", # Cambia este ID para cada producto
Modelo = "Random Forest",
MAPE = mape_rf,
MSE = mse_rf
))
XGBOOST
PRODUCTO 155001
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
select(-Trx_Fecha, -Fecha)
# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123) # Para reproducibilidad
indices_train <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
datos_train <- datos_modelo[indices_train, ]
datos_test <- datos_modelo[-indices_train, ]
# Separar variables predictoras y variable objetivo
X_train <- as.matrix(datos_train[, colnames(datos_train) != "Venta"])
y_train <- datos_train$Venta
X_test <- as.matrix(datos_test[, colnames(datos_test) != "Venta"])
y_test <- datos_test$Venta
# Crear matrices DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest <- xgb.DMatrix(data = X_test, label = y_test)
# Definir una rejilla completa de hiperparÔmetros para búsqueda
param_grid <- expand.grid(
eta = c(0.01, 0.05, 0.1, 0.3), # Learning rate
max_depth = c(3, 5, 7, 9), # Profundidad mƔxima
subsample = c(0.6, 0.8, 1.0), # Submuestra de observaciones
colsample_bytree = c(0.6, 0.8, 1.0), # Submuestra de variables
min_child_weight = c(1, 3, 5), # Peso mĆnimo en nodos hijos
gamma = c(0, 0.1, 0.3) # Regularización gamma
)
# Mostrar cuƔntas combinaciones tenemos
cat("Número total de combinaciones de hiperparÔmetros:", nrow(param_grid), "\n")
## Número total de combinaciones de hiperparÔmetros: 1296
# Para este ejemplo, vamos a limitar el nĆŗmero de combinaciones
# Seleccionando un subconjunto aleatorio de combinaciones (20 combinaciones)
set.seed(123)
if (nrow(param_grid) > 20) {
muestra_indices <- sample(1:nrow(param_grid), 20)
param_grid_reducida <- param_grid[muestra_indices, ]
} else {
param_grid_reducida <- param_grid
}
cat("NĆŗmero de combinaciones a evaluar:", nrow(param_grid_reducida), "\n")
## NĆŗmero de combinaciones a evaluar: 20
# Función para evaluar un conjunto de hiperparÔmetros con validación cruzada
evaluate_params <- function(params_row) {
params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = params_row$eta,
max_depth = params_row$max_depth,
subsample = params_row$subsample,
colsample_bytree = params_row$colsample_bytree,
min_child_weight = params_row$min_child_weight,
gamma = params_row$gamma
)
# Realizar validación cruzada
cv_results <- xgb.cv(
params = params,
data = dtrain,
nrounds = 100,
nfold = 5, # 5-fold validación cruzada
early_stopping_rounds = 10,
verbose = 0
)
# Extraer el mejor RMSE y el número óptimo de rondas
best_rmse <- min(cv_results$evaluation_log$test_rmse_mean)
best_nrounds <- which.min(cv_results$evaluation_log$test_rmse_mean)
return(list(rmse = best_rmse, nrounds = best_nrounds, params = params))
}
# Inicializar tabla para almacenar resultados
resultados_grid <- data.frame(
eta = numeric(nrow(param_grid_reducida)),
max_depth = numeric(nrow(param_grid_reducida)),
subsample = numeric(nrow(param_grid_reducida)),
colsample_bytree = numeric(nrow(param_grid_reducida)),
min_child_weight = numeric(nrow(param_grid_reducida)),
gamma = numeric(nrow(param_grid_reducida)),
nrounds = numeric(nrow(param_grid_reducida)),
rmse = numeric(nrow(param_grid_reducida))
)
# Realizar la bĆŗsqueda en cuadrĆcula (esto puede tardar varios minutos)
cat("Iniciando bĆŗsqueda en cuadrĆcula...\n")
## Iniciando bĆŗsqueda en cuadrĆcula...
for (i in 1:nrow(param_grid_reducida)) {
cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
# Obtener fila de parƔmetros actual
params_row <- param_grid_reducida[i, ]
# Evaluar combinación actual
result <- evaluate_params(params_row)
# Guardar resultados
resultados_grid$eta[i] <- params_row$eta
resultados_grid$max_depth[i] <- params_row$max_depth
resultados_grid$subsample[i] <- params_row$subsample
resultados_grid$colsample_bytree[i] <- params_row$colsample_bytree
resultados_grid$min_child_weight[i] <- params_row$min_child_weight
resultados_grid$gamma[i] <- params_row$gamma
resultados_grid$nrounds[i] <- result$nrounds
resultados_grid$rmse[i] <- result$rmse
}
## Evaluando combinación 1 de 20
## Evaluando combinación 2 de 20
## Evaluando combinación 3 de 20
## Evaluando combinación 4 de 20
## Evaluando combinación 5 de 20
## Evaluando combinación 6 de 20
## Evaluando combinación 7 de 20
## Evaluando combinación 8 de 20
## Evaluando combinación 9 de 20
## Evaluando combinación 10 de 20
## Evaluando combinación 11 de 20
## Evaluando combinación 12 de 20
## Evaluando combinación 13 de 20
## Evaluando combinación 14 de 20
## Evaluando combinación 15 de 20
## Evaluando combinación 16 de 20
## Evaluando combinación 17 de 20
## Evaluando combinación 18 de 20
## Evaluando combinación 19 de 20
## Evaluando combinación 20 de 20
# Ordenar resultados por RMSE (de menor a mayor)
resultados_grid <- resultados_grid[order(resultados_grid$rmse), ]
# Mostrar los 5 mejores conjuntos de hiperparƔmetros
cat("\nLos 5 mejores conjuntos de hiperparƔmetros:\n")
##
## Los 5 mejores conjuntos de hiperparƔmetros:
print(head(resultados_grid, 5))
## eta max_depth subsample colsample_bytree min_child_weight gamma nrounds
## 4 0.05 9 1.0 0.8 1 0.1 100
## 2 0.10 9 0.8 0.6 1 0.1 100
## 3 0.10 3 1.0 0.6 3 0.0 95
## 6 0.05 7 0.8 0.8 1 0.3 100
## 7 0.05 5 1.0 1.0 3 0.3 100
## rmse
## 4 885.4099
## 2 894.0994
## 3 961.1106
## 6 978.7279
## 7 996.1521
# Obtener los mejores hiperparƔmetros
mejores_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = resultados_grid$eta[1],
max_depth = resultados_grid$max_depth[1],
subsample = resultados_grid$subsample[1],
colsample_bytree = resultados_grid$colsample_bytree[1],
min_child_weight = resultados_grid$min_child_weight[1],
gamma = resultados_grid$gamma[1]
)
mejor_nrounds <- resultados_grid$nrounds[1]
cat("\nMejores hiperparƔmetros encontrados:\n")
##
## Mejores hiperparƔmetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
##
## $eval_metric
## [1] "rmse"
##
## $eta
## [1] 0.05
##
## $max_depth
## [1] 9
##
## $subsample
## [1] 1
##
## $colsample_bytree
## [1] 0.8
##
## $min_child_weight
## [1] 1
##
## $gamma
## [1] 0.1
cat("Número óptimo de rondas:", mejor_nrounds, "\n")
## Número óptimo de rondas: 100
cat("RMSE en validación cruzada:", resultados_grid$rmse[1], "\n\n")
## RMSE en validación cruzada: 885.4099
# Entrenar el modelo final con los mejores hiperparƔmetros
modelo_xgb_155001 <- xgb.train(
params = mejores_params,
data = dtrain,
nrounds = mejor_nrounds,
watchlist = list(train = dtrain, test = dtest),
verbose = 0
)
# Hacer predicciones en el conjunto de prueba
predicciones_test <- predict(modelo_xgb_155001, dtest)
# Calcular mƩtricas en el conjunto de prueba
# MAPE
mape_test <- mean(abs((y_test - predicciones_test) / pmax(y_test, 0.01))) * 100
# MSE
mse_test <- mean((y_test - predicciones_test)^2)
# Mostrar las mƩtricas en el conjunto de prueba
cat("MƩtricas en el conjunto de prueba:\n")
## MƩtricas en el conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 1.460781
cat("MSE del modelo XGBoost:", mse_test, "\n\n")
## MSE del modelo XGBoost: 308975
# Ahora hacer predicciones en el conjunto completo para comparabilidad con otros modelos
X_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completas <- predict(modelo_xgb_155001, X_completo)
# Calcular mƩtricas en el conjunto completo
# MAPE
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completas) / pmax(datos_modelo$Venta, 0.01))) * 100
# MSE
mse_completo <- mean((datos_modelo$Venta - predicciones_completas)^2)
# Mostrar las mƩtricas en el conjunto completo
cat("MƩtricas en el conjunto completo:\n")
## MƩtricas en el conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 1.099712
cat("MSE del modelo XGBoost:", mse_completo, "\n\n")
## MSE del modelo XGBoost: 103809.3
# Importancia de variables
importancia <- xgb.importance(
feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
model = modelo_xgb_155001
)
print(importancia)
## Feature Gain Cover Frequency
## <char> <num> <num> <num>
## 1: Costo_Venta 0.6024075757 0.36205133 0.26368635
## 2: Cant 0.3935043144 0.31805813 0.21109252
## 3: Precio_Final_Unitario 0.0034464656 0.23581258 0.31926847
## 4: Descuento_Porcentaje 0.0004900942 0.05944982 0.11403299
## 5: Tiempo 0.0001515501 0.02462814 0.09191967
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia,
main = "Importancia de Variables - Producto 155001 (XGBoost)")

# Crear grƔfico de valores observados vs predicciones
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_completas
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 155001 (XGBoost)",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# AnƔlisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores,
main = "Distribución de Errores - Producto 155001 (XGBoost)",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrÔfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_completas, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 155001 (XGBoost)",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155001", # Cambia este ID para cada producto
Modelo = "XGBoost",
MAPE = mape_completo,
MSE = mse_completo
))
PRODUCTO 3929788
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
select(-Trx_Fecha, -Fecha)
# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123) # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]
# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta
test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta
# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)
# Paso 3: Definir la rejilla de hiperparƔmetros para Grid Search
param_grid <- expand.grid(
eta = c(0.01, 0.05, 0.1, 0.3), # Learning rate
max_depth = c(3, 6, 9), # Profundidad mƔxima
min_child_weight = c(1, 3, 5), # Peso mĆnimo de nodo hijo
subsample = c(0.7, 0.9), # Proporción de observaciones
colsample_bytree = c(0.7, 0.9), # Proporción de variables
gamma = c(0, 0.1, 0.3) # Regularización gamma
)
# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 3929788\n")
## Grid Search para XGBoost - Producto 3929788
cat("Número total de combinaciones de hiperparÔmetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparÔmetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrĆas evaluar todas o usar una estrategia mĆ”s eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
selected_indices <- sample(1:nrow(param_grid), 12)
param_grid <- param_grid[selected_indices, ]
cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()
cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
# Extraer parÔmetros de la combinación actual
params <- list(
objective = "reg:squarederror", # Objetivo de regresión
eval_metric = "rmse", # Métrica de evaluación
eta = param_grid$eta[i],
max_depth = param_grid$max_depth[i],
min_child_weight = param_grid$min_child_weight[i],
subsample = param_grid$subsample[i],
colsample_bytree = param_grid$colsample_bytree[i],
gamma = param_grid$gamma[i]
)
cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
cat(" eta =", params$eta,
", max_depth =", params$max_depth,
", min_child_weight =", params$min_child_weight,
", subsample =", params$subsample,
", colsample_bytree =", params$colsample_bytree,
", gamma =", params$gamma, "\n")
# Validación cruzada para encontrar el número óptimo de iteraciones
cv_model <- xgb.cv(
params = params,
data = dtrain,
nrounds = 200, # MÔximo número de iteraciones
nfold = 5, # 5-fold validación cruzada
early_stopping_rounds = 20, # Detener si no hay mejora en 20 rondas
verbose = 0 # Suprimir mensajes
)
# Extraer mejor iteración y su RMSE
best_iteration <- cv_model$best_iteration
best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
cat(" Mejor iteración:", best_iteration, "\n")
cat(" RMSE en validación cruzada:", best_rmse, "\n\n")
# Guardar resultados
resultado_actual <- data.frame(
eta = params$eta,
max_depth = params$max_depth,
min_child_weight = params$min_child_weight,
subsample = params$subsample,
colsample_bytree = params$colsample_bytree,
gamma = params$gamma,
nrounds = best_iteration,
rmse_cv = best_rmse
)
resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
## eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 582.1593
##
## Evaluando combinación 2 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 118.5624
##
## Evaluando combinación 3 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0
## Mejor iteración: 200
## RMSE en validación cruzada: 170.2107
##
## Evaluando combinación 4 de 12 :
## eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 44
## RMSE en validación cruzada: 133.5118
##
## Evaluando combinación 5 de 12 :
## eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 123.7198
##
## Evaluando combinación 6 de 12 :
## eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 572.307
##
## Evaluando combinación 7 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 155.1739
##
## Evaluando combinación 8 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 137.9191
##
## Evaluando combinación 9 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 111.4454
##
## Evaluando combinación 10 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 158.1116
##
## Evaluando combinación 11 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0
## Mejor iteración: 200
## RMSE en validación cruzada: 117.3367
##
## Evaluando combinación 12 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 148.92
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]
# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
## eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 9 0.05 6 3 0.7 0.9 0.3 200
## 11 0.05 6 3 0.7 0.9 0.0 200
## 2 0.10 9 3 0.9 0.9 0.3 200
## 5 0.10 6 5 0.9 0.9 0.1 200
## 4 0.30 9 5 0.7 0.9 0.1 44
## 8 0.10 3 3 0.7 0.7 0.1 200
## 12 0.10 3 3 0.9 0.7 0.3 200
## 7 0.05 3 5 0.9 0.7 0.1 200
## 10 0.10 9 1 0.9 0.7 0.3 200
## 3 0.05 3 1 0.9 0.7 0.0 200
## 6 0.01 6 5 0.9 0.9 0.1 200
## 1 0.01 9 3 0.7 0.9 0.1 200
## rmse_cv
## 9 111.4454
## 11 117.3367
## 2 118.5624
## 5 123.7198
## 4 133.5118
## 8 137.9191
## 12 148.9200
## 7 155.1739
## 10 158.1116
## 3 170.2107
## 6 572.3070
## 1 582.1593
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
geom_bar(stat = "identity", fill = "steelblue") +
labs(
title = "Resultados del Grid Search - Producto 3929788",
x = "Combinación de HiperparÔmetros",
y = "RMSE en Validación Cruzada"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparƔmetros
mejores_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = resultados$eta[1],
max_depth = resultados$max_depth[1],
min_child_weight = resultados$min_child_weight[1],
subsample = resultados$subsample[1],
colsample_bytree = resultados$colsample_bytree[1],
gamma = resultados$gamma[1]
)
mejor_nrounds <- resultados$nrounds[1]
cat("\nMejores hiperparƔmetros encontrados:\n")
##
## Mejores hiperparƔmetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
##
## $eval_metric
## [1] "rmse"
##
## $eta
## [1] 0.05
##
## $max_depth
## [1] 6
##
## $min_child_weight
## [1] 3
##
## $subsample
## [1] 0.7
##
## $colsample_bytree
## [1] 0.9
##
## $gamma
## [1] 0.3
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparƔmetros
cat("Entrenando modelo final con los mejores hiperparƔmetros...\n")
## Entrenando modelo final con los mejores hiperparƔmetros...
modelo_final <- xgb.train(
params = mejores_params,
data = dtrain,
nrounds = mejor_nrounds,
watchlist = list(train = dtrain, test = dtest),
verbose = 0
)
# GUARDAR EL MODELO CON NOMBRE ESPERADO
modelo_xgb_3929788 <- modelo_final
# Paso 8: Evaluar el modelo
# Predicciones en conjunto de prueba
predicciones_test <- predict(modelo_final, dtest)
# Calcular mƩtricas
# MAPE
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100
# MSE
mse_test <- mean((test_y - predicciones_test)^2)
# Mostrar mƩtricas en conjunto de prueba
cat("\nMƩtricas en conjunto de prueba:\n")
##
## MƩtricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 2.397552
cat("MSE del modelo XGBoost:", mse_test, "\n\n")
## MSE del modelo XGBoost: 4468.535
# Paso 9: Predicciones en el conjunto completo
# Hacer predicciones en todo el conjunto de datos para comparación con otros modelos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)
# Calcular mƩtricas en conjunto completo
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) /
pmax(datos_modelo$Venta, 0.01))) * 100
mse_completo <- mean((datos_modelo$Venta - predicciones_completo)^2)
# Mostrar mƩtricas en conjunto completo
cat("MƩtricas en conjunto completo:\n")
## MƩtricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 2.320439
cat("MSE del modelo XGBoost:", mse_completo, "\n\n")
## MSE del modelo XGBoost: 2374.986
# Paso 10: AnƔlisis de importancia de variables
# Calcular importancia de variables
importancia <- xgb.importance(
feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
model = modelo_final
)
# Mostrar importancia de variables
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia)
## Feature Gain Cover Frequency
## <char> <num> <num> <num>
## 1: Costo_Venta 6.879414e-01 0.379835107 0.30601660
## 2: Cant 3.092763e-01 0.348868818 0.23838174
## 3: Precio_Final_Unitario 1.889956e-03 0.158134574 0.21058091
## 4: Descuento_Porcentaje 7.966024e-04 0.108656527 0.16680498
## 5: Tiempo 9.574946e-05 0.004504973 0.07821577
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia,
main = "Importancia de Variables - Producto 3929788 (XGBoost)")

# Paso 11: Visualizaciones para evaluación
# GrƔfico 1: Valores observados vs predichos
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_completo
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 3929788 (XGBoost)",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# GrƔfico 2: AnƔlisis de residuos
errores <- datos_modelo$Venta - predicciones_completo
# Histograma de errores
hist(errores,
main = "Distribución de Errores - Producto 3929788 (XGBoost)",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrƔfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 3929788 (XGBoost)",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3929788", # Cambia este ID para cada producto
Modelo = "XGBoost",
MAPE = mape_completo,
MSE = mse_completo
))
PRODUCTO 3904152
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3904152 %>%
select(-Trx_Fecha, -Fecha)
# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123) # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]
# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta
test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta
# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)
# Paso 3: Definir la rejilla de hiperparƔmetros para Grid Search
param_grid <- expand.grid(
eta = c(0.01, 0.05, 0.1, 0.3), # Learning rate
max_depth = c(3, 6, 9), # Profundidad mƔxima
min_child_weight = c(1, 3, 5), # Peso mĆnimo de nodo hijo
subsample = c(0.7, 0.9), # Proporción de observaciones
colsample_bytree = c(0.7, 0.9), # Proporción de variables
gamma = c(0, 0.1, 0.3) # Regularización gamma
)
# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 3904152\n")
## Grid Search para XGBoost - Producto 3904152
cat("Número total de combinaciones de hiperparÔmetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparÔmetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrĆas evaluar todas o usar una estrategia mĆ”s eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
selected_indices <- sample(1:nrow(param_grid), 12)
param_grid <- param_grid[selected_indices, ]
cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()
cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
# Extraer parÔmetros de la combinación actual
params <- list(
objective = "reg:squarederror", # Objetivo de regresión
eval_metric = "rmse", # Métrica de evaluación
eta = param_grid$eta[i],
max_depth = param_grid$max_depth[i],
min_child_weight = param_grid$min_child_weight[i],
subsample = param_grid$subsample[i],
colsample_bytree = param_grid$colsample_bytree[i],
gamma = param_grid$gamma[i]
)
cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
cat(" eta =", params$eta,
", max_depth =", params$max_depth,
", min_child_weight =", params$min_child_weight,
", subsample =", params$subsample,
", colsample_bytree =", params$colsample_bytree,
", gamma =", params$gamma, "\n")
# Validación cruzada para encontrar el número óptimo de iteraciones
cv_model <- xgb.cv(
params = params,
data = dtrain,
nrounds = 200, # MÔximo número de iteraciones
nfold = 5, # 5-fold validación cruzada
early_stopping_rounds = 20, # Detener si no hay mejora en 20 rondas
verbose = 0 # Suprimir mensajes
)
# Extraer mejor iteración y su RMSE
best_iteration <- cv_model$best_iteration
best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
cat(" Mejor iteración:", best_iteration, "\n")
cat(" RMSE en validación cruzada:", best_rmse, "\n\n")
# Guardar resultados
resultado_actual <- data.frame(
eta = params$eta,
max_depth = params$max_depth,
min_child_weight = params$min_child_weight,
subsample = params$subsample,
colsample_bytree = params$colsample_bytree,
gamma = params$gamma,
nrounds = best_iteration,
rmse_cv = best_rmse
)
resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
## eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 2600.543
##
## Evaluando combinación 2 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 94
## RMSE en validación cruzada: 755.4539
##
## Evaluando combinación 3 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0
## Mejor iteración: 200
## RMSE en validación cruzada: 713.1244
##
## Evaluando combinación 4 de 12 :
## eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 51
## RMSE en validación cruzada: 1264.852
##
## Evaluando combinación 5 de 12 :
## eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 80
## RMSE en validación cruzada: 1131.861
##
## Evaluando combinación 6 de 12 :
## eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 3122.179
##
## Evaluando combinación 7 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 196
## RMSE en validación cruzada: 1533.801
##
## Evaluando combinación 8 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 165
## RMSE en validación cruzada: 1176.676
##
## Evaluando combinación 9 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 172
## RMSE en validación cruzada: 955.5953
##
## Evaluando combinación 10 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 719.8701
##
## Evaluando combinación 11 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0
## Mejor iteración: 193
## RMSE en validación cruzada: 766.8847
##
## Evaluando combinación 12 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 124
## RMSE en validación cruzada: 790.5288
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]
# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
## eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3 0.05 3 1 0.9 0.7 0.0 200
## 10 0.10 9 1 0.9 0.7 0.3 200
## 2 0.10 9 3 0.9 0.9 0.3 94
## 11 0.05 6 3 0.7 0.9 0.0 193
## 12 0.10 3 3 0.9 0.7 0.3 124
## 9 0.05 6 3 0.7 0.9 0.3 172
## 5 0.10 6 5 0.9 0.9 0.1 80
## 8 0.10 3 3 0.7 0.7 0.1 165
## 4 0.30 9 5 0.7 0.9 0.1 51
## 7 0.05 3 5 0.9 0.7 0.1 196
## 1 0.01 9 3 0.7 0.9 0.1 200
## 6 0.01 6 5 0.9 0.9 0.1 200
## rmse_cv
## 3 713.1244
## 10 719.8701
## 2 755.4539
## 11 766.8847
## 12 790.5288
## 9 955.5953
## 5 1131.8614
## 8 1176.6762
## 4 1264.8522
## 7 1533.8006
## 1 2600.5432
## 6 3122.1785
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
geom_bar(stat = "identity", fill = "steelblue") +
labs(
title = "Resultados del Grid Search - Producto 3904152",
x = "Combinación de HiperparÔmetros",
y = "RMSE en Validación Cruzada"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparƔmetros
mejores_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = resultados$eta[1],
max_depth = resultados$max_depth[1],
min_child_weight = resultados$min_child_weight[1],
subsample = resultados$subsample[1],
colsample_bytree = resultados$colsample_bytree[1],
gamma = resultados$gamma[1]
)
mejor_nrounds <- resultados$nrounds[1]
cat("\nMejores hiperparƔmetros encontrados:\n")
##
## Mejores hiperparƔmetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
##
## $eval_metric
## [1] "rmse"
##
## $eta
## [1] 0.05
##
## $max_depth
## [1] 3
##
## $min_child_weight
## [1] 1
##
## $subsample
## [1] 0.9
##
## $colsample_bytree
## [1] 0.7
##
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparƔmetros
cat("Entrenando modelo final con los mejores hiperparƔmetros...\n")
## Entrenando modelo final con los mejores hiperparƔmetros...
modelo_final <- xgb.train(
params = mejores_params,
data = dtrain,
nrounds = mejor_nrounds,
watchlist = list(train = dtrain, test = dtest),
verbose = 0
)
modelo_xgb_3904152 <- modelo_final
# Paso 8: Evaluar el modelo
# Predicciones en conjunto de prueba
predicciones_test <- predict(modelo_final, dtest)
# Calcular mƩtricas
# MAPE
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100
# MSE
mse_test <- mean((test_y - predicciones_test)^2)
# Mostrar mƩtricas en conjunto de prueba
cat("\nMƩtricas en conjunto de prueba:\n")
##
## MƩtricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 1.898915
cat("MSE del modelo XGBoost:", mse_test, "\n\n")
## MSE del modelo XGBoost: 213902.1
# Paso 9: Predicciones en el conjunto completo
# Hacer predicciones en todo el conjunto de datos para comparación con otros modelos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)
# Calcular mƩtricas en conjunto completo
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) /
pmax(datos_modelo$Venta, 0.01))) * 100
mse_completo <- mean((datos_modelo$Venta - predicciones_completo)^2)
# Mostrar mƩtricas en conjunto completo
cat("MƩtricas en conjunto completo:\n")
## MƩtricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 1.70523
cat("MSE del modelo XGBoost:", mse_completo, "\n\n")
## MSE del modelo XGBoost: 78512.4
# Paso 10: AnƔlisis de importancia de variables
# Calcular importancia de variables
importancia <- xgb.importance(
feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
model = modelo_final
)
# Mostrar importancia de variables
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia)
## Feature Gain Cover Frequency
## <char> <num> <num> <num>
## 1: Cant 0.583969652 0.34587937 0.32933579
## 2: Costo_Venta 0.396423232 0.33601261 0.29059041
## 3: Precio_Final_Unitario 0.011807682 0.11761283 0.15498155
## 4: Descuento_Porcentaje 0.006789784 0.13345140 0.14022140
## 5: Tiempo 0.001009650 0.06704379 0.08487085
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia,
main = "Importancia de Variables - Producto 3904152 (XGBoost)")

# Paso 11: Visualizaciones para evaluación
# GrƔfico 1: Valores observados vs predichos
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_completo
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 3904152 (XGBoost)",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# GrƔfico 2: AnƔlisis de residuos
errores <- datos_modelo$Venta - predicciones_completo
# Histograma de errores
hist(errores,
main = "Distribución de Errores - Producto 3904152 (XGBoost)",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrƔfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 3904152 (XGBoost)",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de XGBoost para producto
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3904152", # Cambia este ID para cada producto
Modelo = "XGBoost",
MAPE = mape_completo,
MSE = mse_completo
))
PRODUCTO 155002
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155002 %>%
select(-Trx_Fecha, -Fecha)
# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123) # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]
# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta
test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta
# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)
# Paso 3: Definir la rejilla de hiperparƔmetros para Grid Search
param_grid <- expand.grid(
eta = c(0.01, 0.05, 0.1, 0.3), # Learning rate
max_depth = c(3, 6, 9), # Profundidad mƔxima
min_child_weight = c(1, 3, 5), # Peso mĆnimo de nodo hijo
subsample = c(0.7, 0.9), # Proporción de observaciones
colsample_bytree = c(0.7, 0.9), # Proporción de variables
gamma = c(0, 0.1, 0.3) # Regularización gamma
)
# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 155002\n")
## Grid Search para XGBoost - Producto 155002
cat("Número total de combinaciones de hiperparÔmetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparÔmetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrĆas evaluar todas o usar una estrategia mĆ”s eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
selected_indices <- sample(1:nrow(param_grid), 12)
param_grid <- param_grid[selected_indices, ]
cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()
cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
# Extraer parÔmetros de la combinación actual
params <- list(
objective = "reg:squarederror", # Objetivo de regresión
eval_metric = "rmse", # Métrica de evaluación
eta = param_grid$eta[i],
max_depth = param_grid$max_depth[i],
min_child_weight = param_grid$min_child_weight[i],
subsample = param_grid$subsample[i],
colsample_bytree = param_grid$colsample_bytree[i],
gamma = param_grid$gamma[i]
)
cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
cat(" eta =", params$eta,
", max_depth =", params$max_depth,
", min_child_weight =", params$min_child_weight,
", subsample =", params$subsample,
", colsample_bytree =", params$colsample_bytree,
", gamma =", params$gamma, "\n")
# Validación cruzada para encontrar el número óptimo de iteraciones
cv_model <- xgb.cv(
params = params,
data = dtrain,
nrounds = 200, # MÔximo número de iteraciones
nfold = 5, # 5-fold validación cruzada
early_stopping_rounds = 20, # Detener si no hay mejora en 20 rondas
verbose = 0 # Suprimir mensajes
)
# Extraer mejor iteración y su RMSE
best_iteration <- cv_model$best_iteration
best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
cat(" Mejor iteración:", best_iteration, "\n")
cat(" RMSE en validación cruzada:", best_rmse, "\n\n")
# Guardar resultados
resultado_actual <- data.frame(
eta = params$eta,
max_depth = params$max_depth,
min_child_weight = params$min_child_weight,
subsample = params$subsample,
colsample_bytree = params$colsample_bytree,
gamma = params$gamma,
nrounds = best_iteration,
rmse_cv = best_rmse
)
resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
## eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 1374.842
##
## Evaluando combinación 2 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 40
## RMSE en validación cruzada: 971.5163
##
## Evaluando combinación 3 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0
## Mejor iteración: 200
## RMSE en validación cruzada: 867.7989
##
## Evaluando combinación 4 de 12 :
## eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 15
## RMSE en validación cruzada: 994.0331
##
## Evaluando combinación 5 de 12 :
## eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 45
## RMSE en validación cruzada: 980.8653
##
## Evaluando combinación 6 de 12 :
## eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 1368.716
##
## Evaluando combinación 7 de 12 :
## eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 200
## RMSE en validación cruzada: 958.9118
##
## Evaluando combinación 8 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1
## Mejor iteración: 159
## RMSE en validación cruzada: 916.4004
##
## Evaluando combinación 9 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3
## Mejor iteración: 121
## RMSE en validación cruzada: 1021.42
##
## Evaluando combinación 10 de 12 :
## eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 200
## RMSE en validación cruzada: 932.0638
##
## Evaluando combinación 11 de 12 :
## eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0
## Mejor iteración: 200
## RMSE en validación cruzada: 876.858
##
## Evaluando combinación 12 de 12 :
## eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3
## Mejor iteración: 116
## RMSE en validación cruzada: 955.6755
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]
# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
## eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3 0.05 3 1 0.9 0.7 0.0 200
## 11 0.05 6 3 0.7 0.9 0.0 200
## 8 0.10 3 3 0.7 0.7 0.1 159
## 10 0.10 9 1 0.9 0.7 0.3 200
## 12 0.10 3 3 0.9 0.7 0.3 116
## 7 0.05 3 5 0.9 0.7 0.1 200
## 2 0.10 9 3 0.9 0.9 0.3 40
## 5 0.10 6 5 0.9 0.9 0.1 45
## 4 0.30 9 5 0.7 0.9 0.1 15
## 9 0.05 6 3 0.7 0.9 0.3 121
## 6 0.01 6 5 0.9 0.9 0.1 200
## 1 0.01 9 3 0.7 0.9 0.1 200
## rmse_cv
## 3 867.7989
## 11 876.8580
## 8 916.4004
## 10 932.0638
## 12 955.6755
## 7 958.9118
## 2 971.5163
## 5 980.8653
## 4 994.0331
## 9 1021.4196
## 6 1368.7160
## 1 1374.8418
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
geom_bar(stat = "identity", fill = "steelblue") +
labs(
title = "Resultados del Grid Search - Producto 155002",
x = "Combinación de HiperparÔmetros",
y = "RMSE en Validación Cruzada"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparƔmetros
mejores_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = resultados$eta[1],
max_depth = resultados$max_depth[1],
min_child_weight = resultados$min_child_weight[1],
subsample = resultados$subsample[1],
colsample_bytree = resultados$colsample_bytree[1],
gamma = resultados$gamma[1]
)
mejor_nrounds <- resultados$nrounds[1]
cat("\nMejores hiperparƔmetros encontrados:\n")
##
## Mejores hiperparƔmetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
##
## $eval_metric
## [1] "rmse"
##
## $eta
## [1] 0.05
##
## $max_depth
## [1] 3
##
## $min_child_weight
## [1] 1
##
## $subsample
## [1] 0.9
##
## $colsample_bytree
## [1] 0.7
##
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparƔmetros
cat("Entrenando modelo final con los mejores hiperparƔmetros...\n")
## Entrenando modelo final con los mejores hiperparƔmetros...
modelo_final <- xgb.train(
params = mejores_params,
data = dtrain,
nrounds = mejor_nrounds,
watchlist = list(train = dtrain, test = dtest),
verbose = 0
)
modelo_xgb_155002 <- modelo_final
# Paso 8: Evaluar el modelo
# Predicciones en conjunto de prueba
predicciones_test <- predict(modelo_final, dtest)
# Calcular mƩtricas
# MAPE
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100
# MSE
mse_test <- mean((test_y - predicciones_test)^2)
# Mostrar mƩtricas en conjunto de prueba
cat("\nMƩtricas en conjunto de prueba:\n")
##
## MƩtricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 7.240866
cat("MSE del modelo XGBoost:", mse_test, "\n\n")
## MSE del modelo XGBoost: 583253.4
# Paso 9: Predicciones en el conjunto completo
# Hacer predicciones en todo el conjunto de datos para comparación con otros modelos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)
# Calcular mƩtricas en conjunto completo
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) /
pmax(datos_modelo$Venta, 0.01))) * 100
mse_completo <- mean((datos_modelo$Venta - predicciones_completo)^2)
# Mostrar mƩtricas en conjunto completo
cat("MƩtricas en conjunto completo:\n")
## MƩtricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 7.033567
cat("MSE del modelo XGBoost:", mse_completo, "\n\n")
## MSE del modelo XGBoost: 183831.8
# Paso 10: AnƔlisis de importancia de variables
# Calcular importancia de variables
importancia <- xgb.importance(
feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
model = modelo_final
)
# Mostrar importancia de variables
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia)
## Feature Gain Cover Frequency
## <char> <num> <num> <num>
## 1: Cant 0.557384451 0.40946988 0.35258621
## 2: Costo_Venta 0.403565071 0.25647279 0.24310345
## 3: Precio_Final_Unitario 0.021156515 0.15789577 0.18965517
## 4: Descuento_Porcentaje 0.014753997 0.13444452 0.14482759
## 5: Tiempo 0.003139967 0.04171705 0.06982759
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia,
main = "Importancia de Variables - Producto 155002 (XGBoost)")

# Paso 11: Visualizaciones para evaluación
# GrƔfico 1: Valores observados vs predichos
datos_grafico <- data.frame(
Observado = datos_modelo$Venta,
Predicho = predicciones_completo
)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "Valores Observados vs Predicciones - Producto 155002 (XGBoost)",
x = "Ventas Observadas",
y = "Ventas Predichas"
) +
theme_minimal()

# GrƔfico 2: AnƔlisis de residuos
errores <- datos_modelo$Venta - predicciones_completo
# Histograma de errores
hist(errores,
main = "Distribución de Errores - Producto 155002 (XGBoost)",
xlab = "Error (Observado - Predicho)",
col = "skyblue",
breaks = 30)

# GrƔfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(
title = "Error vs Predicción - Producto 155002 (XGBoost)",
x = "Ventas Predichas",
y = "Error (Observado - Predicho)"
) +
theme_minimal()

# Guardar mƩtricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155002", # Cambia este ID para cada producto
Modelo = "XGBoost",
MAPE = mape_completo,
MSE = mse_completo
))
PRODUCTO 3678055
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3678055 %>%
select(-Trx_Fecha, -Fecha)
# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123) # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]
# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta
test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta
# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)
# Paso 3: Definir la rejilla de hiperparƔmetros
param_grid <- expand.grid(
eta = c(0.01, 0.05, 0.1, 0.3),
max_depth = c(3, 6, 9),
min_child_weight = c(1, 3, 5),
subsample = c(0.7, 0.9),
colsample_bytree = c(0.7, 0.9),
gamma = c(0, 0.1, 0.3)
)
cat("Grid Search para XGBoost - Producto 3678055\n")
## Grid Search para XGBoost - Producto 3678055
cat("Número total de combinaciones de hiperparÔmetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparÔmetros: 432
# Selección aleatoria de 12 combinaciones (si se desea limitar)
set.seed(456)
if (nrow(param_grid) > 12) {
param_grid <- param_grid[sample(1:nrow(param_grid), 12), ]
cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()
cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = param_grid$eta[i],
max_depth = param_grid$max_depth[i],
min_child_weight = param_grid$min_child_weight[i],
subsample = param_grid$subsample[i],
colsample_bytree = param_grid$colsample_bytree[i],
gamma = param_grid$gamma[i]
)
cat("Evaluando combinación", i, "de", nrow(param_grid), "...\n")
cv_model <- xgb.cv(
params = params,
data = dtrain,
nrounds = 200,
nfold = 5,
early_stopping_rounds = 20,
verbose = 0
)
best_iteration <- cv_model$best_iteration
best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
resultado_actual <- data.frame(
eta = params$eta,
max_depth = params$max_depth,
min_child_weight = params$min_child_weight,
subsample = params$subsample,
colsample_bytree = params$colsample_bytree,
gamma = params$gamma,
nrounds = best_iteration,
rmse_cv = best_rmse
)
resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 ...
## Evaluando combinación 2 de 12 ...
## Evaluando combinación 3 de 12 ...
## Evaluando combinación 4 de 12 ...
## Evaluando combinación 5 de 12 ...
## Evaluando combinación 6 de 12 ...
## Evaluando combinación 7 de 12 ...
## Evaluando combinación 8 de 12 ...
## Evaluando combinación 9 de 12 ...
## Evaluando combinación 10 de 12 ...
## Evaluando combinación 11 de 12 ...
## Evaluando combinación 12 de 12 ...
resultados <- resultados[order(resultados$rmse_cv), ]
# Paso 5: Mostrar resultados
print(resultados)
## eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 2 0.10 9 3 0.9 0.9 0.3 64
## 3 0.05 3 1 0.9 0.7 0.0 200
## 10 0.10 9 1 0.9 0.7 0.3 200
## 8 0.10 3 3 0.7 0.7 0.1 100
## 9 0.05 6 3 0.7 0.9 0.3 176
## 11 0.05 6 3 0.7 0.9 0.0 120
## 12 0.10 3 3 0.9 0.7 0.3 199
## 5 0.10 6 5 0.9 0.9 0.1 52
## 7 0.05 3 5 0.9 0.7 0.1 147
## 4 0.30 9 5 0.7 0.9 0.1 32
## 1 0.01 9 3 0.7 0.9 0.1 200
## 6 0.01 6 5 0.9 0.9 0.1 200
## rmse_cv
## 2 646.8068
## 3 661.7726
## 10 664.3754
## 8 674.4297
## 9 685.7602
## 11 692.0617
## 12 694.4776
## 5 949.4118
## 7 974.9420
## 4 1059.0507
## 1 2439.7500
## 6 2471.2850
# Visualización
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
geom_bar(stat = "identity", fill = "steelblue") +
labs(
title = "Resultados del Grid Search - Producto 3678055",
x = "Combinación de HiperparÔmetros",
y = "RMSE"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparƔmetros
mejores_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = resultados$eta[1],
max_depth = resultados$max_depth[1],
min_child_weight = resultados$min_child_weight[1],
subsample = resultados$subsample[1],
colsample_bytree = resultados$colsample_bytree[1],
gamma = resultados$gamma[1]
)
mejor_nrounds <- resultados$nrounds[1]
# Paso 7: Entrenar modelo final
modelo_final <- xgb.train(
params = mejores_params,
data = dtrain,
nrounds = mejor_nrounds,
watchlist = list(train = dtrain, test = dtest),
verbose = 0
)
modelo_xgb_3678055 <- modelo_final
# Paso 8: Evaluar modelo
predicciones_test <- predict(modelo_final, dtest)
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100
mse_test <- mean((test_y - predicciones_test)^2)
# Paso 9: Predicción en todo el conjunto
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) / pmax(datos_modelo$Venta, 0.01))) * 100
mse_completo <- mean((datos_modelo$Venta - predicciones_completo)^2)
# Paso 10: Importancia de variables
importancia <- xgb.importance(
feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
model = modelo_final
)
xgb.plot.importance(importancia,
main = "Importancia de Variables - Producto 3678055 (XGBoost)")

# Paso 11: GrÔficos de evaluación
datos_grafico <- data.frame(Observado = datos_modelo$Venta, Predicho = predicciones_completo)
ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, linetype = "dashed", color = "red") +
labs(title = "Observado vs Predicho - Producto 3678055", x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

errores <- datos_modelo$Venta - predicciones_completo
hist(errores,
main = "Distribución de Errores - Producto 3678055 (XGBoost)",
xlab = "Error (Observado - Predicho)",
col = "skyblue", breaks = 30)

ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Errores vs Predicción - Producto 3678055", x = "Venta Predicha", y = "Error") +
theme_minimal()

# Guardar mƩtricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
metricas_comparativas <- data.frame(
Producto = character(),
Modelo = character(),
MAPE = numeric(),
MSE = numeric(),
stringsAsFactors = FALSE
)
}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055", # Cambia este ID para cada producto
Modelo = "XGBoost",
MAPE = mape_completo,
MSE = mse_completo
))
Visualización de
MƩtricas
# Definir los colores para cada modelo
colores_modelos <- c(
"ARMA/SARIMA" = "#1f77b4", # Azul
"Regresión Lineal" = "#ff7f0e", # Naranja
"Random Forest" = "#2ca02c", # Verde
"XGBoost" = "#d62728" # Rojo
)
PRODUCTO 155001
# Primero, veamos quƩ datos tenemos realmente
print("Datos actuales para el producto 155001:")
## [1] "Datos actuales para el producto 155001:"
print(metricas_comparativas %>% filter(Producto == "155001"))
## Producto Modelo MAPE MSE
## 1 155001 ARMA 17.6816429 5.018641e+10
## 2 155001 Regresión Lineal 14.4966756 5.515156e+05
## 3 155001 Random Forest 0.4085599 3.872717e+05
## 4 155001 XGBoost 1.0997118 1.038093e+05
# Crear un dataframe manualmente con los 4 modelos para el producto 155001
# (con valores de ejemplo si es necesario)
datos_155001_completo <- data.frame(
Producto = rep("155001", 4),
Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
stringsAsFactors = FALSE
)
# Unir con los datos existentes
datos_155001_completo <- left_join(
datos_155001_completo,
metricas_comparativas %>% filter(Producto == "155001"),
by = c("Producto", "Modelo")
)
# Ahora asigna valores para las mƩtricas de los modelos faltantes
# Si tienes los valores, reemplaza los 0 con los valores correctos
# O toma nota de cuƔles son NA para reemplazarlos con los valores reales
# Valores para Regresión Lineal (reemplaza estos con los valores reales)
if (is.na(datos_155001_completo$MAPE[2])) {
datos_155001_completo$MAPE[2] <- mape_155001 # O el valor correcto
}
if (is.na(datos_155001_completo$MSE[2])) {
datos_155001_completo$MSE[2] <- mse_155001 # O el valor correcto
}
# Valores para Random Forest (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de Random Forest para el producto 155001,
# usa las variables r2_rf, rmse_rf, etc.
if (is.na(datos_155001_completo$MAPE[3]) && exists("mape_rf")) {
datos_155001_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_155001_completo$MSE[3]) && exists("mse_rf")) {
datos_155001_completo$MSE[3] <- mse_rf
}
# Valores para XGBoost (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de XGBoost para el producto 155001,
# usa las variables r2_completo, rmse_completo, etc.
if (is.na(datos_155001_completo$MAPE[4]) && exists("mape_completo")) {
datos_155001_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_155001_completo$MSE[4]) && exists("mse_completo")) {
datos_155001_completo$MSE[4] <- mse_completo
}
# Ver los datos completos
print("Datos completos para el producto 155001:")
## [1] "Datos completos para el producto 155001:"
print(datos_155001_completo)
## Producto Modelo MAPE MSE
## 1 155001 ARMA/SARIMA NA NA
## 2 155001 Regresión Lineal 14.4966756 551515.6
## 3 155001 Random Forest 0.4085599 387271.7
## 4 155001 XGBoost 1.0997118 103809.3
# GrƔfico para MAPE
ggplot(datos_155001_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 155001",
subtitle = "Métrica: MAPE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MAPE (%)"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
)
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# GrƔfico para MSE
ggplot(datos_155001_completo, aes(x = Modelo, y = MSE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MSE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 155001",
subtitle = "Métrica: MSE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MSE"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_155001_completo$MSE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

PRODUCTO 3929788
# Primero, veamos quƩ datos tenemos realmente
print("Datos actuales para el producto 3929788:")
## [1] "Datos actuales para el producto 3929788:"
print(metricas_comparativas %>% filter(Producto == "3929788"))
## Producto Modelo MAPE MSE
## 1 3929788 ARMA 12.8370507 2.110452e+10
## 2 3929788 Regresión Lineal 22.3767801 4.790212e+04
## 3 3929788 Random Forest 0.4490773 4.061364e+03
## 4 3929788 XGBoost 2.3204394 2.374986e+03
# Crear un dataframe manualmente con los 4 modelos para el producto 3929788
datos_3929788_completo <- data.frame(
Producto = rep("3929788", 4),
Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
stringsAsFactors = FALSE
)
# Unir con los datos existentes
datos_3929788_completo <- left_join(
datos_3929788_completo,
metricas_comparativas %>% filter(Producto == "3929788"),
by = c("Producto", "Modelo")
)
# Ahora asigna valores para las mƩtricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3929788_completo$MAPE[2])) {
datos_3929788_completo$MAPE[2] <- mape_3929788
}
if (is.na(datos_3929788_completo$MSE[2])) {
datos_3929788_completo$MSE[2] <- mse_3929788
}
# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3929788
if (is.na(datos_3929788_completo$MAPE[3]) && exists("mape_rf")) {
datos_3929788_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_3929788_completo$MSE[3]) && exists("mse_rf")) {
datos_3929788_completo$MSE[3] <- mse_rf
}
# Valores para XGBoost
if (is.na(datos_3929788_completo$MAPE[4]) && exists("mape_completo")) {
datos_3929788_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_3929788_completo$MSE[4]) && exists("mse_completo")) {
datos_3929788_completo$MSE[4] <- mse_completo
}
# Ver los datos completos
print("Datos completos para el producto 3929788:")
## [1] "Datos completos para el producto 3929788:"
print(datos_3929788_completo)
## Producto Modelo MAPE MSE
## 1 3929788 ARMA/SARIMA NA NA
## 2 3929788 Regresión Lineal 22.3767801 47902.121
## 3 3929788 Random Forest 0.4490773 4061.364
## 4 3929788 XGBoost 2.3204394 2374.986
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4",
"Regresión Lineal" = "#ff7f0e",
"Random Forest" = "#2ca02c",
"XGBoost" = "#d62728")
# GrƔfico para MSE
ggplot(datos_3929788_completo, aes(x = Modelo, y = MSE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MSE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3929788",
subtitle = "Métrica: MSE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MSE"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3929788_completo$MSE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# GrƔfico para MAPE
ggplot(datos_3929788_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3929788",
subtitle = "Métrica: MAPE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MAPE (%)"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3929788_completo$MAPE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

PRODUCTO 3904152
# Primero, veamos quƩ datos tenemos realmente
print("Datos actuales para el producto 3904152:")
## [1] "Datos actuales para el producto 3904152:"
print(metricas_comparativas %>% filter(Producto == "3904152"))
## Producto Modelo MAPE MSE
## 1 3904152 ARMA 15.3567919 2.464310e+10
## 2 3904152 Regresión Lineal 3.3434409 1.417412e+05
## 3 3904152 Random Forest 0.2195905 2.336444e+05
## 4 3904152 XGBoost 1.7052297 7.851240e+04
# Crear un dataframe manualmente con los 4 modelos para el producto 3904152
datos_3904152_completo <- data.frame(
Producto = rep("3904152", 4),
Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
stringsAsFactors = FALSE
)
# Unir con los datos existentes
datos_3904152_completo <- left_join(
datos_3904152_completo,
metricas_comparativas %>% filter(Producto == "3904152"),
by = c("Producto", "Modelo")
)
# Ahora asigna valores para las mƩtricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3904152_completo$MAPE[2])) {
datos_3904152_completo$MAPE[2] <- mape_3904152
}
if (is.na(datos_3904152_completo$MSE[2])) {
datos_3904152_completo$MSE[2] <- mse_3904152
}
# Valores para Random Forest
if (is.na(datos_3904152_completo$MAPE[3]) && exists("mape_rf")) {
datos_3904152_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_3904152_completo$MSE[3]) && exists("mse_rf")) {
datos_3904152_completo$MSE[3] <- mse_rf
}
# Valores para XGBoost
if (is.na(datos_3904152_completo$MAPE[4]) && exists("mape_completo")) {
datos_3904152_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_3904152_completo$MSE[4]) && exists("mse_completo")) {
datos_3904152_completo$MSE[4] <- mse_completo
}
# Ver los datos completos
print("Datos completos para el producto 3904152:")
## [1] "Datos completos para el producto 3904152:"
print(datos_3904152_completo)
## Producto Modelo MAPE MSE
## 1 3904152 ARMA/SARIMA NA NA
## 2 3904152 Regresión Lineal 3.3434409 141741.2
## 3 3904152 Random Forest 0.2195905 233644.4
## 4 3904152 XGBoost 1.7052297 78512.4
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4",
"Regresión Lineal" = "#ff7f0e",
"Random Forest" = "#2ca02c",
"XGBoost" = "#d62728")
# GrƔfico para MSE
ggplot(datos_3904152_completo, aes(x = Modelo, y = MSE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MSE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3904152",
subtitle = "Métrica: MSE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MSE"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3904152_completo$MSE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# GrƔfico para MAPE
ggplot(datos_3904152_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3904152",
subtitle = "Métrica: MAPE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MAPE (%)"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3904152_completo$MAPE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

PRODUCTO 155002
# Primero, veamos quƩ datos tenemos realmente
print("Datos actuales para el producto 155002:")
## [1] "Datos actuales para el producto 155002:"
print(metricas_comparativas %>% filter(Producto == "155002"))
## Producto Modelo MAPE MSE
## 1 155002 ARMA 25.833028 3.691080e+10
## 2 155002 Regresión Lineal 19.918004 7.925161e+05
## 3 155002 XGBoost 7.033567 1.838318e+05
# Crear un dataframe manualmente con los 4 modelos para el producto 155002
datos_155002_completo <- data.frame(
Producto = rep("155002", 4),
Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
stringsAsFactors = FALSE
)
# Unir con los datos existentes
datos_155002_completo <- left_join(
datos_155002_completo,
metricas_comparativas %>% filter(Producto == "155002"),
by = c("Producto", "Modelo")
)
# Ahora asigna valores para las mƩtricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_155002_completo$MAPE[2])) {
datos_155002_completo$MAPE[2] <- mape_155002
}
if (is.na(datos_155002_completo$MSE[2])) {
datos_155002_completo$MSE[2] <- mse_155002
}
# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 155002
if (is.na(datos_155002_completo$MAPE[3]) && exists("mape_rf")) {
datos_155002_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_155002_completo$MSE[3]) && exists("mse_rf")) {
datos_155002_completo$MSE[3] <- mse_rf
}
# Valores para XGBoost
if (is.na(datos_155002_completo$MAPE[4]) && exists("mape_completo")) {
datos_155002_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_155002_completo$MSE[4]) && exists("mse_completo")) {
datos_155002_completo$MSE[4] <- mse_completo
}
# Ver los datos completos
print("Datos completos para el producto 155002:")
## [1] "Datos completos para el producto 155002:"
print(datos_155002_completo)
## Producto Modelo MAPE MSE
## 1 155002 ARMA/SARIMA NA NA
## 2 155002 Regresión Lineal 19.9180037 792516.1
## 3 155002 Random Forest 0.2172073 230895.8
## 4 155002 XGBoost 7.0335667 183831.8
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4",
"Regresión Lineal" = "#ff7f0e",
"Random Forest" = "#2ca02c",
"XGBoost" = "#d62728")
# GrƔfico para MSE
ggplot(datos_155002_completo, aes(x = Modelo, y = MSE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MSE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 155002",
subtitle = "Métrica: MSE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MSE"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_155002_completo$MSE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# GrƔfico para MAPE
ggplot(datos_155002_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 155002",
subtitle = "Métrica: MAPE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MAPE (%)"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_155002_completo$MAPE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

PRODUCTO 3678055
# Primero, veamos quƩ datos tenemos realmente
print("Datos actuales para el producto 3678055:")
## [1] "Datos actuales para el producto 3678055:"
print(metricas_comparativas %>% filter(Producto == "3678055"))
## Producto Modelo MAPE MSE
## 1 3678055 ARMA 22.7377450 3.134333e+10
## 2 3678055 Regresión Lineal 2.9008020 2.122053e+05
## 3 3678055 Random Forest 0.5500920 1.834028e+05
## 4 3678055 Random Forest 0.2172073 2.308958e+05
## 5 3678055 XGBoost 0.2564149 2.464722e+05
# Crear un dataframe manualmente con los 4 modelos para el producto 3678055
datos_3678055_completo <- data.frame(
Producto = rep("3678055", 4),
Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
stringsAsFactors = FALSE
)
# Unir con los datos existentes
datos_3678055_completo <- left_join(
datos_3678055_completo,
metricas_comparativas %>% filter(Producto == "3678055"),
by = c("Producto", "Modelo")
)
# Ahora asigna valores para las mƩtricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3678055_completo$MAPE[2])) {
datos_3678055_completo$MAPE[2] <- mape_3678055
}
if (is.na(datos_3678055_completo$MSE[2])) {
datos_3678055_completo$MSE[2] <- mse_3678055
}
# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3678055
if (is.na(datos_3678055_completo$MAPE[3]) && exists("mape_rf")) {
datos_3678055_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_3678055_completo$MSE[3]) && exists("mse_rf")) {
datos_3678055_completo$MSE[3] <- mse_rf
}
# Valores para XGBoost
if (is.na(datos_3678055_completo$MAPE[4]) && exists("mape_completo")) {
datos_3678055_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_3678055_completo$MSE[4]) && exists("mse_completo")) {
datos_3678055_completo$MSE[4] <- mse_completo
}
# Ver los datos completos
print("Datos completos para el producto 3678055:")
## [1] "Datos completos para el producto 3678055:"
print(datos_3678055_completo)
## Producto Modelo MAPE MSE
## 1 3678055 ARMA/SARIMA NA NA
## 2 3678055 Regresión Lineal 2.9008020 212205.3
## 3 3678055 Random Forest 0.5500920 183402.8
## 4 3678055 Random Forest 0.2172073 230895.8
## 5 3678055 XGBoost 0.2564149 246472.2
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4",
"Regresión Lineal" = "#ff7f0e",
"Random Forest" = "#2ca02c",
"XGBoost" = "#d62728")
# GrƔfico para MSE
ggplot(datos_3678055_completo, aes(x = Modelo, y = MSE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MSE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3678055",
subtitle = "Métrica: MSE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MSE"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3678055_completo$MSE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# GrƔfico para MAPE
ggplot(datos_3678055_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
geom_bar(stat = "identity", width = 0.6) +
geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
scale_fill_manual(values = colores_modelos) +
labs(
title = "Comparación de modelos para Producto 3678055",
subtitle = "Métrica: MAPE (valores mÔs bajos indican mejor precisión)",
x = "",
y = "MAPE (%)"
) +
theme_minimal() +
theme(
legend.position = "none",
plot.title = element_text(size = 12, face = "bold"),
plot.subtitle = element_text(size = 10),
axis.text.x = element_text(angle = 45, hjust = 1)
) +
ylim(0, max(datos_3678055_completo$MAPE, na.rm = TRUE) * 1.1) # Ajustar el lĆmite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

ESTIMACIĆN DE
PRECIOS
Preparación de
datos
# Función para preparar datos de un producto
prepare_price_data <- function(df, product_id) {
product_data <- df %>%
filter(ID_Inventario == product_id) %>%
arrange(Trx_Fecha) %>%
select(
Trx_Fecha, Precio_Final_Unitario, Cant, Venta,
Costo_Venta, Descuento_Porcentaje, Semana, Mes
) %>%
mutate(
Dia_Semana = wday(Trx_Fecha),
Mes_Num = month(Trx_Fecha),
Anio = year(Trx_Fecha),
Dias_Desde_Inicio = as.numeric(difftime(Trx_Fecha, min(Trx_Fecha), units = "days")),
Margen_Unitario = (Venta / Cant) - (Costo_Venta / Cant),
Precio_Unitario_Calc = Venta / Cant,
ID_Inventario = product_id
)
return(product_data)
}
# AsegĆŗrate de que 'datos' sea tu data.frame cargado correctamente
# Por ejemplo, si vienes de un archivo .csv:
# datos <- read.csv("archivo.csv")
# Aplicar la función a todos los productos
ids <- unique(datos$ID_Inventario)
productos_preparados <- map_df(ids, function(id) {
prepare_price_data(datos, id)
})
# Mostrar una parte del resultado
head(productos_preparados)
## # A tibble: 6 Ć 15
## Trx_Fecha Precio_Final_Unitario Cant Venta Costo_Venta
## <dttm> <dbl> <dbl> <dbl> <dbl>
## 1 2023-01-02 00:00:00 980 1 980 727.
## 2 2023-01-03 00:00:00 728 1 728 905.
## 3 2023-01-03 00:00:00 840 6 5040 3598.
## 4 2023-01-04 00:00:00 1120 1 1120 577.
## 5 2023-01-04 00:00:00 728 8 5824 6619.
## 6 2023-01-04 00:00:00 980 10 9800 7273.
## # ā¹ 10 more variables: Descuento_Porcentaje <dbl>, Semana <dbl>, Mes <dbl>,
## # Dia_Semana <dbl>, Mes_Num <dbl>, Anio <dbl>, Dias_Desde_Inicio <dbl>,
## # Margen_Unitario <dbl>, Precio_Unitario_Calc <dbl>, ID_Inventario <dbl>
# Vector con productos (debe ir primero)
productos_ids <- top_ids
# Función para entrenar modelo ARMA por producto
train_arma_model <- function(data, product_id) {
library(forecast) # AsegĆŗrate de cargar forecast si no estĆ” cargado aĆŗn
product_data <- data %>% filter(ID_Inventario == product_id)
serie_ts <- ts(product_data$Venta, frequency = 12)
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
return(modelo_arma)
}
# Crear lista de modelos ARMA por producto
modelos_arma_lista <- setNames(
lapply(productos_ids, function(id) train_arma_model(datos, id)),
as.character(productos_ids)
)
# Función para modelo regresión lineal
train_reg_model <- function(data, product_id) {
product_data <- data %>% filter(ID_Inventario == product_id)
modelo_reg <- lm(Venta ~ Precio_Final_Unitario, data = product_data)
return(modelo_reg)
}
# Función para modelo Random Forest
train_rf_model <- function(data, product_id) {
product_data <- data %>% filter(ID_Inventario == product_id)
predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
rf_data <- product_data %>% select(all_of(predictors), Venta)
modelo_rf <- randomForest(Venta ~ ., data = rf_data, ntree = 100)
return(modelo_rf)
}
# Función para modelo XGBoost
train_xgb_model <- function(data, product_id) {
product_data <- data %>% filter(ID_Inventario == product_id)
predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
train_matrix <- xgb.DMatrix(data = as.matrix(product_data[, predictors]), label = product_data$Venta)
params <- list(objective = "reg:squarederror")
modelo_xgb <- xgb.train(params = params, data = train_matrix, nrounds = 50, verbose = 0)
return(modelo_xgb)
}
# Crear listas de modelos
modelos_reg_lista <- setNames(lapply(productos_ids, function(id) train_reg_model(datos, id)), as.character(productos_ids))
modelos_rf_lista <- setNames(lapply(productos_ids, function(id) train_rf_model(datos, id)), as.character(productos_ids))
modelos_xgb_lista <- setNames(lapply(productos_ids, function(id) train_xgb_model(datos, id)), as.character(productos_ids))
Entrenar modelos de
predicción de precios
# Función para entrenar modelos de predicción de precios
train_price_models <- function(data, product_id, test_size = 0.2) {
price_data <- prepare_price_data(data, product_id) %>%
drop_na() %>%
select(
Precio_Final_Unitario,
Cant, Costo_Venta, Descuento_Porcentaje,
Dia_Semana, Mes_Num, Anio, Dias_Desde_Inicio,
Margen_Unitario
)
# Evitar fallos si hay muy pocos datos
if (nrow(price_data) < 10) {
warning(paste("Producto", product_id, "tiene menos de 10 registros. Se omite."))
return(NULL)
}
set.seed(123)
train_index <- createDataPartition(price_data$Precio_Final_Unitario, p = 1 - test_size, list = FALSE)
train_data <- price_data[train_index, ]
test_data <- price_data[-train_index, ]
# 1. Regresión Lineal
lm_model <- lm(Precio_Final_Unitario ~ ., data = train_data)
# 2. Random Forest
rf_model <- randomForest(
Precio_Final_Unitario ~ .,
data = train_data,
ntree = 500,
importance = TRUE
)
# 3. XGBoost
features <- setdiff(names(train_data), "Precio_Final_Unitario")
x_train <- as.matrix(train_data[, features])
y_train <- train_data$Precio_Final_Unitario
x_test <- as.matrix(test_data[, features])
y_test <- test_data$Precio_Final_Unitario
dtrain <- xgb.DMatrix(data = x_train, label = y_train)
dtest <- xgb.DMatrix(data = x_test, label = y_test)
xgb_params <- list(
objective = "reg:squarederror",
eval_metric = "rmse",
eta = 0.1,
max_depth = 6,
min_child_weight = 3,
subsample = 0.8,
colsample_bytree = 0.8
)
xgb_model <- xgb.train(
params = xgb_params,
data = dtrain,
nrounds = 100,
watchlist = list(train = dtrain, test = dtest),
early_stopping_rounds = 10,
verbose = 0
)
# Evaluación
lm_pred <- predict(lm_model, newdata = test_data)
rf_pred <- predict(rf_model, newdata = test_data)
xgb_pred <- predict(xgb_model, x_test)
lm_rmse <- sqrt(mean((lm_pred - test_data$Precio_Final_Unitario)^2))
rf_rmse <- sqrt(mean((rf_pred - test_data$Precio_Final_Unitario)^2))
xgb_rmse <- sqrt(mean((xgb_pred - test_data$Precio_Final_Unitario)^2))
lm_r2 <- 1 - sum((test_data$Precio_Final_Unitario - lm_pred)^2) /
sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
rf_r2 <- 1 - sum((test_data$Precio_Final_Unitario - rf_pred)^2) /
sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
xgb_r2 <- 1 - sum((test_data$Precio_Final_Unitario - xgb_pred)^2) /
sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
metrics <- data.frame(
Model = c("Linear Regression", "Random Forest", "XGBoost"),
RMSE = c(lm_rmse, rf_rmse, xgb_rmse),
R2 = c(lm_r2, rf_r2, xgb_r2)
)
return(list(metrics = metrics))
}
# IDs de los 5 productos a modelar
productos_ids <- c(155001, 3929788, 3904152, 155002, 3678055)
# Aplicar modelo a cada producto
resultados_modelos <- map(productos_ids, function(id) {
resultado <- train_price_models(datos, product_id = id)
if (!is.null(resultado)) {
resultado$metrics %>% mutate(ID_Inventario = id)
} else {
NULL
}
}) %>% compact() %>% bind_rows()
# Mostrar resultados
resultados_modelos
## Model RMSE R2 ID_Inventario
## 1 Linear Regression 30.2314808 0.9301839 155001
## 2 Random Forest 20.4235912 0.9681360 155001
## 3 XGBoost 10.4223865 0.9917020 155001
## 4 Linear Regression 0.9961090 0.9745183 3929788
## 5 Random Forest 0.7372416 0.9860417 3929788
## 6 XGBoost 0.3352396 0.9971138 3929788
## 7 Linear Regression 63.2610620 0.8980785 3904152
## 8 Random Forest 12.2140718 0.9962006 3904152
## 9 XGBoost 11.1592529 0.9968285 3904152
## 10 Linear Regression 25.7977520 0.9226069 155002
## 11 Random Forest 10.3007416 0.9876611 155002
## 12 XGBoost 5.1695872 0.9968922 155002
## 13 Linear Regression 110.6053375 0.8924438 3678055
## 14 Random Forest 30.7411253 0.9916915 3678055
## 15 XGBoost 18.7278222 0.9969164 3678055
# Lista con los IDs de productos (puedes usar top_ids que ya definiste)
productos_ids <- top_ids
# Entrenar modelos para cada producto y guardar en lista
modelos_precio_lista <- setNames(
lapply(productos_ids, function(id) train_price_models(datos, id)),
as.character(productos_ids)
)
Estimar precios
óptimos
estimate_optimal_prices <- function(data, product_id, price_models, demand_models = NULL, future_dates = NULL) {
price_steps <- 20
best_price_model_idx <- which.max(price_models$metrics$R2)
best_price_model_name <- price_models$metrics$Model[best_price_model_idx]
product_data <- data %>% filter(ID_Inventario == product_id)
min_price <- min(product_data$Precio_Final_Unitario, na.rm = TRUE)
max_price <- max(product_data$Precio_Final_Unitario, na.rm = TRUE)
price_range <- seq(min_price, max_price, length.out = price_steps)
future_scenarios <- data.frame()
for (future_date in future_dates) {
future_date <- as.Date(future_date)
mes_actual <- lubridate::month(future_date)
mes_data <- product_data %>% filter(lubridate::month(Trx_Fecha) == mes_actual)
if (nrow(mes_data) < 5) mes_data <- product_data
costo_mes <- median(mes_data$Costo_Venta, na.rm = TRUE)
cant_mes <- median(mes_data$Cant, na.rm = TRUE)
desc_mes <- median(mes_data$Descuento_Porcentaje, na.rm = TRUE)
if (is.na(costo_mes)) costo_mes <- median(product_data$Costo_Venta, na.rm = TRUE)
if (is.na(cant_mes) || cant_mes == 0) cant_mes <- median(product_data$Cant, na.rm = TRUE)
if (is.na(desc_mes)) desc_mes <- median(product_data$Descuento_Porcentaje, na.rm = TRUE)
date_df <- data.frame(
Trx_Fecha = rep(future_date, price_steps),
Precio_Final_Unitario = price_range,
Cant = cant_mes,
Costo_Venta = costo_mes,
Descuento_Porcentaje = desc_mes,
Dia_Semana = lubridate::wday(future_date),
Mes_Num = mes_actual,
Anio = lubridate::year(future_date),
Dias_Desde_Inicio = as.numeric(difftime(future_date, min(product_data$Trx_Fecha), units = "days")),
Margen_Unitario = NA
)
future_scenarios <- rbind(future_scenarios, date_df)
}
future_scenarios$Margen_Unitario <- future_scenarios$Precio_Final_Unitario -
(future_scenarios$Costo_Venta / future_scenarios$Cant)
product_data <- product_data %>% arrange(Trx_Fecha)
elasticity_df <- product_data %>%
filter(!is.na(Cant) & !is.na(Precio_Final_Unitario)) %>%
mutate(
P_lag = lag(Precio_Final_Unitario),
Q_lag = lag(Cant),
dP = Precio_Final_Unitario - P_lag,
dQ = Cant - Q_lag,
elasticity_point = (dQ / Q_lag) / (dP / P_lag)
) %>%
filter(!is.na(elasticity_point), is.finite(elasticity_point))
elasticity <- median(elasticity_df$elasticity_point, na.rm = TRUE)
if (is.na(elasticity) || !is.finite(elasticity)) elasticity <- 1.5
results <- future_scenarios %>%
mutate(Venta_Esperada = 0, Margen_Total = 0)
for (i in 1:nrow(results)) {
baseline_price <- median(product_data$Precio_Final_Unitario, na.rm = TRUE)
price_ratio <- baseline_price / results$Precio_Final_Unitario[i]
adjusted_quantity <- results$Cant[i] * (price_ratio ^ elasticity)
results$Venta_Esperada[i] <- results$Precio_Final_Unitario[i] * adjusted_quantity
results$Margen_Total[i] <- adjusted_quantity * results$Margen_Unitario[i]
}
optimal_prices <- results %>%
group_by(Trx_Fecha) %>%
slice_max(Venta_Esperada, n = 1) %>%
select(Trx_Fecha, Precio_Optimal = Precio_Final_Unitario, Venta_Esperada, Margen_Total)
return(list(
resultados = results,
precios_optimos = optimal_prices,
elasticidad = elasticity
))
}
Visualizar
resultados
dates_future <- seq.Date(as.Date("2025-01-01"), by = "month", length.out = 6)
precios_optimos_lista <- list()
for (id in productos_ids) {
cat("Estimando precios óptimos para producto:", id, "\n")
modelo_precio <- modelos_precio_lista[[as.character(id)]]
if (!is.null(modelo_precio)) {
precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
data = datos,
product_id = id,
price_models = modelo_precio,
future_dates = dates_future
)
}
}
## Estimando precios óptimos para producto: 155001
## Estimando precios óptimos para producto: 3929788
## Estimando precios óptimos para producto: 3904152
## Estimando precios óptimos para producto: 155002
## Estimando precios óptimos para producto: 3678055
graficas_individuales <- list()
for (id in names(precios_optimos_lista)) {
df_optimo <- precios_optimos_lista[[id]]$precios_optimos
p <- ggplot(df_optimo, aes(x = Trx_Fecha, y = Precio_Optimal)) +
geom_line(color = "#1f77b4", linewidth = 1.2) +
geom_point(color = "#1f77b4", size = 2) +
labs(
title = paste("Precio Ćptimo por Mes - Producto", id),
x = "Fecha",
y = "Precio Ćptimo"
) +
scale_x_date(date_labels = "%b %Y", date_breaks = "1 month") +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold"),
axis.text.x = element_text(angle = 45, hjust = 1)
)
graficas_individuales[[id]] <- p
}
for (id in names(graficas_individuales)) {
print(graficas_individuales[[id]])
}





Integración de
precios óptimos y modelos
integrate_with_existing_models <- function(data, product_id, price_opt_results,
arma_model = NULL, reg_model = NULL,
rf_model = NULL, xgb_model = NULL) {
optimal_prices <- price_opt_results[[as.character(product_id)]]$precios_optimos
if (is.null(optimal_prices) || nrow(optimal_prices) == 0) {
warning(paste("No se encontraron precios óptimos para el producto", product_id))
return(data.frame())
}
future_data <- data.frame(
Fecha = optimal_prices$Trx_Fecha,
Precio_Final_Unitario = optimal_prices$Precio_Optimal
)
hist_data <- data %>%
filter(ID_Inventario == product_id) %>%
arrange(Trx_Fecha)
future_features <- data.frame()
for (i in 1:nrow(optimal_prices)) {
future_date <- optimal_prices$Trx_Fecha[i]
future_price <- optimal_prices$Precio_Optimal[i]
mes_data <- hist_data %>% filter(lubridate::month(Trx_Fecha) == lubridate::month(future_date))
if (nrow(mes_data) < 5) mes_data <- hist_data
avg_features <- mes_data %>%
summarise(
Cant = median(Cant, na.rm = TRUE),
Costo_Venta = median(Costo_Venta, na.rm = TRUE),
Costo_Devolucion = median(Costo_Devolucion, na.rm = TRUE),
Precio_Lista_Unitario = median(Precio_Lista_Unitario, na.rm = TRUE),
Descuento_Porcentaje = median(Descuento_Porcentaje, na.rm = TRUE),
Tiempo = as.numeric(difftime(future_date, min(hist_data$Trx_Fecha), units = "days")) / 30
)
avg_features$Precio_Final_Unitario <- future_price
avg_features$Trx_Fecha <- future_date
future_features <- rbind(future_features, avg_features)
}
if (!is.null(arma_model)) {
arma_forecast <- forecast(arma_model, h = nrow(optimal_prices))
future_data$Venta_ARMA <- as.numeric(arma_forecast$mean)
ref_price <- median(hist_data$Precio_Final_Unitario, na.rm = TRUE)
elasticity <- 1.5
future_data$Venta_ARMA_Ajustada <- future_data$Venta_ARMA *
(ref_price / future_data$Precio_Final_Unitario)^elasticity
}
if (!is.null(reg_model)) {
tryCatch({
future_data$Venta_RegLineal <- predict(reg_model, newdata = future_features)
}, error = function(e) {
future_data$Venta_RegLineal <- NA
})
}
if (!is.null(rf_model)) {
tryCatch({
future_data$Venta_RandomForest <- predict(rf_model, newdata = future_features)
}, error = function(e) {
future_data$Venta_RandomForest <- NA
})
}
if (!is.null(xgb_model)) {
tryCatch({
features <- xgb_model$feature_names
if (is.null(features)) {
features <- setdiff(names(future_features), "Venta")
}
xgb_matrix <- as.matrix(future_features[, features, drop = FALSE])
future_data$Venta_XGBoost <- predict(xgb_model, xgb_matrix)
}, error = function(e) {
future_data$Venta_XGBoost <- NA
})
}
avg_cost_per_unit <- median(hist_data$Costo_Venta / hist_data$Cant, na.rm = TRUE)
for (model in c("ARMA_Ajustada", "RegLineal", "RandomForest", "XGBoost")) {
vcol <- paste0("Venta_", model)
if (vcol %in% names(future_data)) {
ucol <- paste0("Unidades_", model)
ccol <- paste0("Costo_", model)
mcol <- paste0("Margen_", model)
future_data[[ucol]] <- future_data[[vcol]] / future_data$Precio_Final_Unitario
future_data[[ccol]] <- future_data[[ucol]] * avg_cost_per_unit
future_data[[mcol]] <- future_data[[vcol]] - future_data[[ccol]]
}
}
pred_cols <- c("Venta_ARMA_Ajustada", "Venta_RegLineal", "Venta_RandomForest", "Venta_XGBoost")
pred_cols <- pred_cols[pred_cols %in% names(future_data)]
tryCatch({
if (length(pred_cols) > 0 && ncol(future_data[, pred_cols, drop = FALSE]) > 0) {
future_data$Venta_Consenso <- rowMeans(future_data[, pred_cols, drop = FALSE], na.rm = TRUE)
future_data$Unidades_Consenso <- future_data$Venta_Consenso / future_data$Precio_Final_Unitario
future_data$Costo_Consenso <- future_data$Unidades_Consenso * avg_cost_per_unit
future_data$Margen_Consenso <- future_data$Venta_Consenso - future_data$Costo_Consenso
}
}, error = function(e) {
warning(paste("No se pudo calcular el consenso para producto", product_id, ":", e$message))
})
return(future_data)
}
resultados_futuros_lista <- list()
for (id in productos_ids) {
cat("Integrando modelos para producto:", id, "\n")
resultado <- integrate_with_existing_models(
data = datos,
product_id = id,
price_opt_results = precios_optimos_lista,
arma_model = modelos_arma_lista[[as.character(id)]],
reg_model = modelos_reg_lista[[as.character(id)]],
rf_model = modelos_rf_lista[[as.character(id)]],
xgb_model = modelos_xgb_lista[[as.character(id)]]
)
resultados_futuros_lista[[as.character(id)]] <- resultado
}
## Integrando modelos para producto: 155001
## Integrando modelos para producto: 3929788
## Integrando modelos para producto: 3904152
## Integrando modelos para producto: 155002
## Integrando modelos para producto: 3678055
Pipeline
correcto
corregir_formato_fechas <- function(datos) {
if ("Trx_Fecha" %in% colnames(datos)) {
datos$Trx_Fecha_Original <- datos$Trx_Fecha
if (is.character(datos$Trx_Fecha) &&
any(grepl("^\\d{7}-\\d{2}-\\d{2}$", datos$Trx_Fecha))) {
cat("Corrigiendo formato de fechas extraƱo...\n")
datos$Trx_Fecha <- sapply(datos$Trx_Fecha, function(fecha) {
if (is.na(fecha) || !is.character(fecha)) return(NA)
partes <- strsplit(fecha, "-")[[1]]
if (length(partes) == 3) {
fecha_corregida <- paste("2023", partes[2], partes[3], sep = "-")
return(fecha_corregida)
} else {
return(NA)
}
})
datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
cat("Fechas corregidas exitosamente.\n")
} else if (!inherits(datos$Trx_Fecha, "Date")) {
cat("Intentando convertir fechas a formato Date...\n")
datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
}
}
return(datos)
}
# Aplicar la corrección a tu dataframe antes de usarlo
datos_filtrados <- corregir_formato_fechas(datos_filtrados)
## Intentando convertir fechas a formato Date...
dates_future <- seq.Date(as.Date("2023-01-01"), by = "month", length.out = 6)
precios_optimos_lista <- list()
for (id in productos_ids) {
cat("Estimando precios óptimos para producto:", id, "\n")
modelo_precio <- modelos_precio_lista[[as.character(id)]]
if (!is.null(modelo_precio)) {
precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
data = datos_filtrados,
product_id = id,
price_models = modelo_precio,
future_dates = dates_future
)
}
}
## Estimando precios óptimos para producto: 155001
## Estimando precios óptimos para producto: 3929788
## Estimando precios óptimos para producto: 3904152
## Estimando precios óptimos para producto: 155002
## Estimando precios óptimos para producto: 3678055
for (id in names(precios_optimos_lista)) {
df_optimo <- precios_optimos_lista[[id]]$precios_optimos
if (!inherits(df_optimo$Trx_Fecha, "Date")) {
df_optimo$Trx_Fecha <- as.Date(df_optimo$Trx_Fecha)
}
p <- ggplot(df_optimo, aes(x = Trx_Fecha, y = Precio_Optimal)) +
geom_line(color = "#1f77b4", linewidth = 1.2) +
geom_point(color = "#1f77b4", size = 2) +
labs(
title = paste("Precio Ćptimo por Mes - Producto", id),
x = "Fecha",
y = "Precio Ćptimo"
) +
scale_x_date(date_labels = "%b %Y", date_breaks = "1 month") +
theme_minimal(base_size = 12) +
theme(
plot.title = element_text(face = "bold"),
axis.text.x = element_text(angle = 45, hjust = 1)
)
print(p)
}





# Función para correr optimización de precios para todos los productos
run_price_optimization <- function(data, product_ids, future_dates = NULL, modelos_precio_lista = NULL) {
if (is.null(future_dates)) {
future_dates <- seq.Date(Sys.Date(), by = "month", length.out = 6)
}
precios_optimos_lista <- list()
for (id in product_ids) {
cat("Estimando precios óptimos para producto:", id, "\n")
price_model <- NULL
if (!is.null(modelos_precio_lista)) {
price_model <- modelos_precio_lista[[as.character(id)]]
}
precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
data = data,
product_id = id,
price_models = price_model,
future_dates = future_dates
)
}
return(precios_optimos_lista)
}
# Función principal que integra todo el pipeline
run_complete_analysis <- function(data, top_ids, modelos_arma, modelos_reg, modelos_rf, modelos_xgb, modelos_precio_lista = NULL) {
# 1. Ejecutar optimización de precios para todos los productos
all_results <- run_price_optimization(data, top_ids, modelos_precio_lista = modelos_precio_lista)
# 2. Integrar con modelos existentes para cada producto
integrated_results <- list()
for (i in seq_along(top_ids)) {
pid <- top_ids[i]
pid_str <- as.character(pid)
arma_model <- if(length(modelos_arma) >= i) modelos_arma[[i]] else NULL
reg_model <- if(length(modelos_reg) >= i) modelos_reg[[i]] else NULL
rf_model <- if(length(modelos_rf) >= i) modelos_rf[[i]] else NULL
xgb_model <- if(length(modelos_xgb) >= i) modelos_xgb[[i]] else NULL
future_predictions <- integrate_with_existing_models(
data = data,
product_id = pid,
price_opt_results = all_results,
arma_model = arma_model,
reg_model = reg_model,
rf_model = rf_model,
xgb_model = xgb_model
)
integrated_results[[pid_str]] <- future_predictions
if (nrow(future_predictions) > 0) {
p_sales <- ggplot(future_predictions)
if ("Venta_ARMA_Ajustada" %in% names(future_predictions)) {
p_sales <- p_sales + geom_point(aes(x = Fecha, y = Venta_ARMA_Ajustada, color = "ARMA"), size = 3, na.rm = TRUE)
}
if ("Venta_RegLineal" %in% names(future_predictions)) {
p_sales <- p_sales + geom_point(aes(x = Fecha, y = Venta_RegLineal, color = "Regresión Lineal"), size = 3, na.rm = TRUE)
}
if ("Venta_RandomForest" %in% names(future_predictions)) {
p_sales <- p_sales + geom_point(aes(x = Fecha, y = Venta_RandomForest, color = "Random Forest"), size = 3, na.rm = TRUE)
}
if ("Venta_XGBoost" %in% names(future_predictions)) {
p_sales <- p_sales + geom_point(aes(x = Fecha, y = Venta_XGBoost, color = "XGBoost"), size = 3, na.rm = TRUE)
}
if ("Venta_Consenso" %in% names(future_predictions)) {
p_sales <- p_sales + geom_line(aes(x = Fecha, y = Venta_Consenso, color = "Consenso"), size = 1.5)
}
p_sales <- p_sales +
labs(
title = paste("Predicciones de ventas con precios óptimos - Producto", pid),
x = "Fecha",
y = "Ventas estimadas ($)",
color = "Modelo"
) +
theme_minimal() +
theme(
plot.title = element_text(face = "bold"),
axis.title = element_text(face = "bold"),
legend.position = "bottom"
)
p_margins <- ggplot(future_predictions)
if ("Margen_Consenso" %in% names(future_predictions)) {
p_margins <- p_margins +
geom_col(aes(x = Fecha, y = Margen_Consenso), fill = "steelblue", width = 15) +
geom_text(aes(x = Fecha, y = Margen_Consenso, label = round(Margen_Consenso, 0)),
vjust = -0.5, size = 3.5)
}
p_margins <- p_margins +
labs(
title = paste("Margen esperado con precios óptimos - Producto", pid),
x = "Fecha",
y = "Margen estimado ($)"
) +
theme_minimal() +
theme(
plot.title = element_text(face = "bold"),
axis.title = element_text(face = "bold")
)
all_results[[pid_str]]$integrated_plots <- list(
sales = p_sales,
margins = p_margins
)
}
}
# 3. Visualizar resultados comparativos
all_optimal_prices <- data.frame()
for (pid in top_ids) {
pid_str <- as.character(pid)
if (pid_str %in% names(all_results)) {
opt_prices <- all_results[[pid_str]]$precios_optimos %>%
mutate(ID_Inventario = pid)
all_optimal_prices <- rbind(all_optimal_prices, opt_prices)
}
}
p_comparison <- ggplot(all_optimal_prices,
aes(x = Trx_Fecha, y = Precio_Optimal, color = factor(ID_Inventario))) +
geom_line(size = 1.2) +
geom_point(size = 3) +
labs(
title = "Comparación de Precios Ćptimos por Producto",
x = "Fecha",
y = "Precio Ćptimo",
color = "ID Producto"
) +
theme_minimal() +
theme(
plot.title = element_text(face = "bold"),
axis.title = element_text(face = "bold"),
legend.position = "bottom"
)
metricas_optimas <- data.frame()
for (pid in top_ids) {
pid_str <- as.character(pid)
if (pid_str %in% names(integrated_results)) {
pred_data <- integrated_results[[pid_str]]
if ("Margen_Consenso" %in% names(pred_data)) {
metrics_row <- data.frame(
ID_Inventario = pid,
Precio_Promedio = mean(pred_data$Precio_Final_Unitario, na.rm = TRUE),
Venta_Total = sum(pred_data$Venta_Consenso, na.rm = TRUE),
Margen_Total = sum(pred_data$Margen_Consenso, na.rm = TRUE),
Margen_Porcentual = 100 * sum(pred_data$Margen_Consenso, na.rm = TRUE) /
sum(pred_data$Venta_Consenso, na.rm = TRUE)
)
metricas_optimas <- rbind(metricas_optimas, metrics_row)
}
}
}
return(list(
resultados = all_results,
integracion = integrated_results,
precios_optimos = all_optimal_prices,
metricas_optimas = metricas_optimas,
grafico_comparativo = p_comparison
))
}
# Ejecutar el anƔlisis completo
resultado_completo <- run_complete_analysis(
data = datos,
top_ids = productos_ids,
modelos_arma = modelos_arma_lista,
modelos_reg = modelos_reg_lista,
modelos_rf = modelos_rf_lista,
modelos_xgb = modelos_xgb_lista,
modelos_precio_lista = modelos_precio_lista # Pasa esta lista si la tienes, o NULL
)
## Estimando precios óptimos para producto: 155001
## Estimando precios óptimos para producto: 3929788
## Estimando precios óptimos para producto: 3904152
## Estimando precios óptimos para producto: 155002
## Estimando precios óptimos para producto: 3678055
GrƔfico comparativo
de precios óptimos por producto:
# Mostrar mƩtricas si estƔs en modo interactivo
if (interactive()) View(resultado_completo$metricas_optimas)
cat("GrÔfico comparativo de precios óptimos por producto:\n")
## GrÔfico comparativo de precios óptimos por producto:
print(resultado_completo$grafico_comparativo)

