LIBRERÍAS
# Librerías necesarias
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.1 ✔ tibble 3.2.1
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readxl)
library(purrr)
library(knitr)
#install.packages("kableExtra")
library(kableExtra)
##
## Attaching package: 'kableExtra'
##
## The following object is masked from 'package:dplyr':
##
## group_rows
library(ggplot2)
#install.packages("igraph")
library(igraph)
##
## Attaching package: 'igraph'
##
## The following objects are masked from 'package:lubridate':
##
## %--%, union
##
## The following objects are masked from 'package:dplyr':
##
## as_data_frame, groups, union
##
## The following objects are masked from 'package:purrr':
##
## compose, simplify
##
## The following object is masked from 'package:tidyr':
##
## crossing
##
## The following object is masked from 'package:tibble':
##
## as_data_frame
##
## The following objects are masked from 'package:stats':
##
## decompose, spectrum
##
## The following object is masked from 'package:base':
##
## union
#install.packages("forecast")
#install.packages("lubridate")
library(forecast)
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
library(lubridate)
library(corrplot)
## corrplot 0.95 loaded
library(RColorBrewer)
#install.packages("ggcorrplot")
library(ggcorrplot)
library(caret)
## Loading required package: lattice
##
## Attaching package: 'caret'
##
## The following object is masked from 'package:purrr':
##
## lift
library(car)
## Loading required package: carData
##
## Attaching package: 'car'
##
## The following object is masked from 'package:dplyr':
##
## recode
##
## The following object is masked from 'package:purrr':
##
## some
library(randomForest)
## randomForest 4.7-1.2
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
##
## The following object is masked from 'package:dplyr':
##
## combine
##
## The following object is masked from 'package:ggplot2':
##
## margin
#install.packages("xgboost")
library(xgboost)
##
## Attaching package: 'xgboost'
##
## The following object is masked from 'package:dplyr':
##
## slice
#install.packages("patchwork")
library(patchwork)
library(dplyr)
#install.packages("scales")
library (ggplot2)
RANDOM FOREST
PRODUCTO 155001
# Entrenamiento
set.seed(123)
modelo_rf_155001 <- randomForest(
Venta ~ Precio_Lista_Unitario +
Venta_Semana_Anterior +
Cant_Semana_Anterior +
Descuento_Semana_Anterior +
Costo_Unitario_Semana_Anterior +
Semana,
data = datos_155001,
ntree = 500,
mtry = floor(sqrt(6)), # 6 variables predictoras
importance = TRUE
)
# Predicciones
pred_train_rf_155001 <- predict(modelo_rf_155001, newdata = datos_155001)
pred_test_rf_155001 <- predict(modelo_rf_155001, newdata = test_155001)
# Métricas
mape_train_rf_155001 <- mean(abs((datos_155001$Venta - pred_train_rf_155001) / pmax(datos_155001$Venta, 0.01))) * 100
rmse_train_rf_155001 <- sqrt(mean((datos_155001$Venta - pred_train_rf_155001)^2))
mape_test_rf_155001 <- mean(abs((test_155001$Venta - pred_test_rf_155001) / pmax(test_155001$Venta, 0.01))) * 100
rmse_test_rf_155001 <- sqrt(mean((test_155001$Venta - pred_test_rf_155001)^2))
# Mostrar resultados
cat("Random Forest - Producto 155001\n")
## Random Forest - Producto 155001
cat("Train - MAPE:", round(mape_train_rf_155001, 2), "| RMSE:", round(rmse_train_rf_155001, 2), "\n")
## Train - MAPE: 20.1 | RMSE: 57033.51
cat("Test - MAPE:", round(mape_test_rf_155001, 2), "| RMSE:", round(rmse_test_rf_155001, 2), "\n")
## Test - MAPE: 84.28 | RMSE: 149257.5
# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155001",
Modelo = "Random Forest (Train)",
MAPE = mape_train_rf_155001,
RMSE = rmse_train_rf_155001
))
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155001",
Modelo = "Random Forest (Test)",
MAPE = mape_test_rf_155001,
RMSE = rmse_test_rf_155001
))
# Importancia de variables
varImpPlot(modelo_rf_155001, main = "Importancia de Variables - Producto 155001")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_155001$Venta, Predicho = pred_test_rf_155001),
aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
labs(title = "Observado vs Predicho - Producto 155001 (test data)",
x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

# Análisis de errores (test)
errores_test_155001 <- test_155001$Venta - pred_test_rf_155001
hist(errores_test_155001, main = "Distribución de Errores - Producto 155001 (test data)",
xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_155001), "\n")
## Media error: -80614.77
cat("SD error:", sd(errores_test_155001), "\n")
## SD error: 130743.9
cat("Min error:", min(errores_test_155001), "\n")
## Min error: -226994.8
cat("Max error:", max(errores_test_155001), "\n")
## Max error: 250340.7
cat("Mediana error:", median(errores_test_155001), "\n")
## Mediana error: -117253.6
# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_155001, Error = errores_test_155001),
aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Error vs Predicción - Producto 155001 (test data)",
x = "Venta Predicha", y = "Error") +
theme_minimal()

PRODUCTO 3929788
# Entrenamiento
set.seed(123)
modelo_rf_3929788 <- randomForest(
Venta ~ Precio_Lista_Unitario +
Venta_Semana_Anterior +
Cant_Semana_Anterior +
Descuento_Semana_Anterior +
Costo_Unitario_Semana_Anterior +
Semana,
data = datos_3929788,
ntree = 500,
mtry = floor(sqrt(6)), # 6 variables predictoras
importance = TRUE
)
# Predicciones
pred_train_rf_3929788 <- predict(modelo_rf_3929788, newdata = datos_3929788)
pred_test_rf_3929788 <- predict(modelo_rf_3929788, newdata = test_3929788)
# Métricas
mape_train_rf_3929788 <- mean(abs((datos_3929788$Venta - pred_train_rf_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100
rmse_train_rf_3929788 <- sqrt(mean((datos_3929788$Venta - pred_train_rf_3929788)^2))
mape_test_rf_3929788 <- mean(abs((test_3929788$Venta - pred_test_rf_3929788) / pmax(test_3929788$Venta, 0.01))) * 100
rmse_test_rf_3929788 <- sqrt(mean((test_3929788$Venta - pred_test_rf_3929788)^2))
# Mostrar resultados
cat("Random Forest - Producto 3929788\n")
## Random Forest - Producto 3929788
cat("Train - MAPE:", round(mape_train_rf_3929788, 2), "| RMSE:", round(rmse_train_rf_3929788, 2), "\n")
## Train - MAPE: 10.71 | RMSE: 27422.69
cat("Test - MAPE:", round(mape_test_rf_3929788, 2), "| RMSE:", round(rmse_test_rf_3929788, 2), "\n")
## Test - MAPE: 27.3 | RMSE: 55819.49
# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3929788",
Modelo = "Random Forest (Train)",
MAPE = mape_train_rf_3929788,
RMSE = rmse_train_rf_3929788
))
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3929788",
Modelo = "Random Forest (Test)",
MAPE = mape_test_rf_3929788,
RMSE = rmse_test_rf_3929788
))
# Importancia de variables
varImpPlot(modelo_rf_3929788, main = "Importancia de Variables - Producto 3929788")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3929788$Venta, Predicho = pred_test_rf_3929788),
aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
labs(title = "Observado vs Predicho - Producto 3929788 (test data)",
x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

# Análisis de errores (test)
errores_test_3929788 <- test_3929788$Venta - pred_test_rf_3929788
hist(errores_test_3929788, main = "Distribución de Errores - Producto 3929788 (test data)",
xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3929788), "\n")
## Media error: -17708.08
cat("SD error:", sd(errores_test_3929788), "\n")
## SD error: 55097.72
cat("Min error:", min(errores_test_3929788), "\n")
## Min error: -95314.91
cat("Max error:", max(errores_test_3929788), "\n")
## Max error: 64932.72
cat("Mediana error:", median(errores_test_3929788), "\n")
## Mediana error: -22465.42
# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3929788, Error = errores_test_3929788),
aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Error vs Predicción - Producto 3929788 (test data)",
x = "Venta Predicha", y = "Error") +
theme_minimal()

PRODUCTO 3904152
# Entrenamiento
set.seed(123)
modelo_rf_3904152 <- randomForest(
Venta ~ Precio_Lista_Unitario +
Venta_Semana_Anterior +
Cant_Semana_Anterior +
Descuento_Semana_Anterior +
Costo_Unitario_Semana_Anterior +
Semana,
data = datos_3904152,
ntree = 500,
mtry = floor(sqrt(6)), # 6 variables predictoras
importance = TRUE
)
# Predicciones
pred_train_rf_3904152 <- predict(modelo_rf_3904152, newdata = datos_3904152)
pred_test_rf_3904152 <- predict(modelo_rf_3904152, newdata = test_3904152)
# Métricas
mape_train_rf_3904152 <- mean(abs((datos_3904152$Venta - pred_train_rf_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100
rmse_train_rf_3904152 <- sqrt(mean((datos_3904152$Venta - pred_train_rf_3904152)^2))
mape_test_rf_3904152 <- mean(abs((test_3904152$Venta - pred_test_rf_3904152) / pmax(test_3904152$Venta, 0.01))) * 100
rmse_test_rf_3904152 <- sqrt(mean((test_3904152$Venta - pred_test_rf_3904152)^2))
# Mostrar resultados
cat("Random Forest - Producto 3904152\n")
## Random Forest - Producto 3904152
cat("Train - MAPE:", round(mape_train_rf_3904152, 2), "| RMSE:", round(rmse_train_rf_3904152, 2), "\n")
## Train - MAPE: 21.27 | RMSE: 55972.1
cat("Test - MAPE:", round(mape_test_rf_3904152, 2), "| RMSE:", round(rmse_test_rf_3904152, 2), "\n")
## Test - MAPE: 100.42 | RMSE: 113611.6
# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3904152",
Modelo = "Random Forest (Train)",
MAPE = mape_train_rf_3904152,
RMSE = rmse_train_rf_3904152
))
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3904152",
Modelo = "Random Forest (Test)",
MAPE = mape_test_rf_3904152,
RMSE = rmse_test_rf_3904152
))
# Importancia de variables
varImpPlot(modelo_rf_3904152, main = "Importancia de Variables - Producto 3904152")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3904152$Venta, Predicho = pred_test_rf_3904152),
aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
labs(title = "Observado vs Predicho - Producto 3904152 (test data)",
x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

# Análisis de errores (test)
errores_test_3904152 <- test_3904152$Venta - pred_test_rf_3904152
hist(errores_test_3904152, main = "Distribución de Errores - Producto 3904152 (test data)",
xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3904152), "\n")
## Media error: -79780.87
cat("SD error:", sd(errores_test_3904152), "\n")
## SD error: 84189.19
cat("Min error:", min(errores_test_3904152), "\n")
## Min error: -244974.8
cat("Max error:", max(errores_test_3904152), "\n")
## Max error: 118473.8
cat("Mediana error:", median(errores_test_3904152), "\n")
## Mediana error: -74410.38
# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3904152, Error = errores_test_3904152),
aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Error vs Predicción - Producto 3904152 (test data)",
x = "Venta Predicha", y = "Error") +
theme_minimal()

PRODUCTO 155002
# Entrenamiento
set.seed(123)
modelo_rf_155002 <- randomForest(
Venta ~ Precio_Lista_Unitario +
Venta_Semana_Anterior +
Cant_Semana_Anterior +
Descuento_Semana_Anterior +
Costo_Unitario_Semana_Anterior +
Semana,
data = datos_155002,
ntree = 500,
mtry = floor(sqrt(6)), # 6 variables predictoras
importance = TRUE
)
# Predicciones
pred_train_rf_155002 <- predict(modelo_rf_155002, newdata = datos_155002)
pred_test_rf_155002 <- predict(modelo_rf_155002, newdata = test_155002)
# Métricas
mape_train_rf_155002 <- mean(abs((datos_155002$Venta - pred_train_rf_155002) / pmax(datos_155002$Venta, 0.01))) * 100
rmse_train_rf_155002 <- sqrt(mean((datos_155002$Venta - pred_train_rf_155002)^2))
mape_test_rf_155002 <- mean(abs((test_155002$Venta - pred_test_rf_155002) / pmax(test_155002$Venta, 0.01))) * 100
rmse_test_rf_155002 <- sqrt(mean((test_155002$Venta - pred_test_rf_155002)^2))
# Mostrar resultados
cat("Random Forest - Producto 155002\n")
## Random Forest - Producto 155002
cat("Train - MAPE:", round(mape_train_rf_155002, 2), "| RMSE:", round(rmse_train_rf_155002, 2), "\n")
## Train - MAPE: 25.66 | RMSE: 41348.42
cat("Test - MAPE:", round(mape_test_rf_155002, 2), "| RMSE:", round(rmse_test_rf_155002, 2), "\n")
## Test - MAPE: 98.59 | RMSE: 122127.5
# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155002",
Modelo = "Random Forest (Train)",
MAPE = mape_train_rf_155002,
RMSE = rmse_train_rf_155002
))
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "155002",
Modelo = "Random Forest (Test)",
MAPE = mape_test_rf_155002,
RMSE = rmse_test_rf_155002
))
# Importancia de variables
varImpPlot(modelo_rf_155002, main = "Importancia de Variables - Producto 155002")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_155002$Venta, Predicho = pred_test_rf_155002),
aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
labs(title = "Observado vs Predicho - Producto 155002 (test data)",
x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

# Análisis de errores (test)
errores_test_155002 <- test_155002$Venta - pred_test_rf_155002
hist(errores_test_155002, main = "Distribución de Errores - Producto 155002 (test data)",
xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_155002), "\n")
## Media error: -7257.753
cat("SD error:", sd(errores_test_155002), "\n")
## SD error: 126889.6
cat("Min error:", min(errores_test_155002), "\n")
## Min error: -121491.7
cat("Max error:", max(errores_test_155002), "\n")
## Max error: 230978.1
cat("Mediana error:", median(errores_test_155002), "\n")
## Mediana error: -52340.74
# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_155002, Error = errores_test_155002),
aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Error vs Predicción - Producto 155002 (test data)",
x = "Venta Predicha", y = "Error") +
theme_minimal()

PRODUCTO 3678055
# Entrenamiento
set.seed(123)
modelo_rf_3678055 <- randomForest(
Venta ~ Precio_Lista_Unitario +
Venta_Semana_Anterior +
Cant_Semana_Anterior +
Descuento_Semana_Anterior +
Costo_Unitario_Semana_Anterior +
Semana,
data = datos_3678055,
ntree = 500,
mtry = floor(sqrt(6)), # 6 variables predictoras
importance = TRUE
)
# Predicciones
pred_train_rf_3678055 <- predict(modelo_rf_3678055, newdata = datos_3678055)
pred_test_rf_3678055 <- predict(modelo_rf_3678055, newdata = test_3678055)
# Métricas
mape_train_rf_3678055 <- mean(abs((datos_3678055$Venta - pred_train_rf_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100
rmse_train_rf_3678055 <- sqrt(mean((datos_3678055$Venta - pred_train_rf_3678055)^2))
mape_test_rf_3678055 <- mean(abs((test_3678055$Venta - pred_test_rf_3678055) / pmax(test_3678055$Venta, 0.01))) * 100
rmse_test_rf_3678055 <- sqrt(mean((test_3678055$Venta - pred_test_rf_3678055)^2))
# Mostrar resultados
cat("Random Forest - Producto 3678055\n")
## Random Forest - Producto 3678055
cat("Train - MAPE:", round(mape_train_rf_3678055, 2), "| RMSE:", round(rmse_train_rf_3678055, 2), "\n")
## Train - MAPE: 27.52 | RMSE: 43093.85
cat("Test - MAPE:", round(mape_test_rf_3678055, 2), "| RMSE:", round(rmse_test_rf_3678055, 2), "\n")
## Test - MAPE: 46.34 | RMSE: 104012.2
# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055",
Modelo = "Random Forest (Train)",
MAPE = mape_train_rf_3678055,
RMSE = rmse_train_rf_3678055
))
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
Producto = "3678055",
Modelo = "Random Forest (Test)",
MAPE = mape_test_rf_3678055,
RMSE = rmse_test_rf_3678055
))
# Importancia de variables
varImpPlot(modelo_rf_3678055, main = "Importancia de Variables - Producto 3678055")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3678055$Venta, Predicho = pred_test_rf_3678055),
aes(x = Observado, y = Predicho)) +
geom_point(alpha = 0.5) +
geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
labs(title = "Observado vs Predicho - Producto 3678055 (test data)",
x = "Venta Observada", y = "Venta Predicha") +
theme_minimal()

# Análisis de errores (test)
errores_test_3678055 <- test_3678055$Venta - pred_test_rf_3678055
hist(errores_test_3678055, main = "Distribución de Errores - Producto 3678055 (test data)",
xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3678055), "\n")
## Media error: 5261.388
cat("SD error:", sd(errores_test_3678055), "\n")
## SD error: 108120.8
cat("Min error:", min(errores_test_3678055), "\n")
## Min error: -106177.6
cat("Max error:", max(errores_test_3678055), "\n")
## Max error: 211300.5
cat("Mediana error:", median(errores_test_3678055), "\n")
## Mediana error: -29431.4
# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3678055, Error = errores_test_3678055),
aes(x = Predicho, y = Error)) +
geom_point(alpha = 0.5) +
geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
labs(title = "Error vs Predicción - Producto 3678055 (test data)",
x = "Venta Predicha", y = "Error") +
theme_minimal()

MÉTRICAS ARMA, REG
LINEAL Y RANDOM FOREST
metricas_comparativas %>%
arrange(Producto) %>%
knitr::kable(caption = "Métricas ARMA, Regresion Lineal y Random Forest por producto") %>%
kableExtra::kable_styling(full_width = FALSE)
Métricas ARMA, Regresion Lineal y Random Forest por producto
|
Producto
|
Modelo
|
MAPE
|
RMSE
|
|
155001
|
ARMA
|
37.96077
|
109593.78
|
|
155001
|
ARMA (Test)
|
25.14259
|
67277.26
|
|
155001
|
Regresión Lineal (Train)
|
39.43046
|
110897.56
|
|
155001
|
Regresión Lineal (Test)
|
91.97987
|
157554.70
|
|
155001
|
Random Forest (Train)
|
20.09631
|
57033.51
|
|
155001
|
Random Forest (Test)
|
84.27831
|
149257.49
|
|
155002
|
ARMA
|
51.33213
|
82260.20
|
|
155002
|
ARMA (Test)
|
35.86659
|
87005.41
|
|
155002
|
Regresión Lineal (Train)
|
53.15643
|
81814.80
|
|
155002
|
Regresión Lineal (Test)
|
115.43616
|
140809.84
|
|
155002
|
Random Forest (Train)
|
25.66472
|
41348.42
|
|
155002
|
Random Forest (Test)
|
98.59409
|
122127.47
|
|
3678055
|
ARMA
|
54.27943
|
82835.18
|
|
3678055
|
ARMA (Test)
|
53.77550
|
105823.13
|
|
3678055
|
Regresión Lineal (Train)
|
53.36169
|
80733.94
|
|
3678055
|
Regresión Lineal (Test)
|
63.92659
|
146190.72
|
|
3678055
|
Random Forest (Train)
|
27.51874
|
43093.85
|
|
3678055
|
Random Forest (Test)
|
46.33560
|
104012.22
|
|
3904152
|
ARMA
|
41.54527
|
99993.25
|
|
3904152
|
ARMA (Test)
|
18.70572
|
50062.24
|
|
3904152
|
Regresión Lineal (Train)
|
40.71452
|
105502.91
|
|
3904152
|
Regresión Lineal (Test)
|
172.92634
|
179653.99
|
|
3904152
|
Random Forest (Train)
|
21.27422
|
55972.10
|
|
3904152
|
Random Forest (Test)
|
100.42105
|
113611.58
|
|
3929788
|
ARMA
|
21.74312
|
57634.89
|
|
3929788
|
ARMA (Test)
|
26.25704
|
60053.08
|
|
3929788
|
Regresión Lineal (Train)
|
21.27972
|
54576.64
|
|
3929788
|
Regresión Lineal (Test)
|
31.09822
|
63311.33
|
|
3929788
|
Random Forest (Train)
|
10.71016
|
27422.69
|
|
3929788
|
Random Forest (Test)
|
27.30344
|
55819.49
|
---
title: "<span style='color: brown;'>EVIDENCIA NOVEM</span>"
author: "Equipo 4"
date: "2024-03-04"
output:
  html_document:
    toc: true 
    toc_float: true
    code_download: true
    theme: journal
    number_sections: true
editor_s: 
  chunk_output_type: console
editor_options: 
  chunk_output_type: console
---

# <span style="color: black;">  LIBRERÍAS </span> 
```{r}
# Librerías necesarias
library(tidyverse)
library(readxl)
library(purrr)
library(knitr)
#install.packages("kableExtra")
library(kableExtra)
library(ggplot2)
#install.packages("igraph")
library(igraph)
#install.packages("forecast")
#install.packages("lubridate")
library(forecast)
library(lubridate)
library(corrplot)
library(RColorBrewer)
#install.packages("ggcorrplot")
library(ggcorrplot)
library(caret)
library(car)
library(randomForest)
#install.packages("xgboost")
library(xgboost)
#install.packages("patchwork")
library(patchwork)
library(dplyr)
#install.packages("scales")
library (ggplot2)
```

# <span style="color: black;">  CARGA DE DATOS </span> 
```{r}
# Leer datos
datos <- read_excel("/Users/mariadelbosque/Downloads/novem_data_filtered.xlsx") %>%
  mutate(Trx_Fecha = as.Date(Trx_Fecha))

# Partición temporal
train <- datos %>% filter(Trx_Fecha >= as.Date("2023-01-01") & Trx_Fecha < as.Date("2024-10-01"))
test  <- datos %>% filter(Trx_Fecha >= as.Date("2024-10-01") & Trx_Fecha <= as.Date("2024-12-31"))

# Validación rápida
summary(train$Trx_Fecha)
summary(test$Trx_Fecha)
```

```{r}
# Ver todos los productos ordenados por ventas totales
top_ids <- datos %>%
  group_by(ID_Inventario) %>%
  summarise(Ventas_Totales = sum(Venta, na.rm = TRUE)) %>%
  arrange(desc(Ventas_Totales))

print("Productos ordenados por ventas totales:")
print(top_ids)
```

```{r}
datos_filtrados <- train  # usamos todo el train
# Contar observaciones por producto
conteo <- datos_filtrados %>%
  count(ID_Inventario, sort = TRUE)
print("Número de registros por producto en datos_filtrados:")
print(conteo)
# Validación de que haya datos
if (nrow(datos_filtrados) == 0) {
  stop("No hay datos suficientes en el conjunto de entrenamiento.")}
```

# <span style="color: black;"> PREDICCIONES DE VENTAS
# <span style="color: black;"> ARMA 
## PRODUCTO 155001
### TRAIN
```{r arma-155001}
# Producto 155001
id_prod <- 155001

# Asegurarse de que metricas_comparativas esté inicializada
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

# Filtrar datos del producto (ya están agregados por semana)
ventas_semanales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  arrange(Trx_Fecha) %>%
  select(Trx_Fecha, Venta)

# Crear serie temporal semanal
serie_ts <- ts(ventas_semanales$Venta, frequency = 52,
               start = c(year(min(ventas_semanales$Trx_Fecha)),
                         isoweek(min(ventas_semanales$Trx_Fecha))))

# Ajustar modelo ARMA
modelo_arma_155001 <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo_arma_155001 <- forecast(modelo_arma_155001, h = 4)

# Gráfico del pronóstico
autoplot(forecast_modelo_arma_155001) +
  labs(title = paste("Pronóstico semanal de ventas - ARMA (Producto", id_prod, ")"),
       x = "Semana", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas de desempeño
fitted_arma_155001 <- fitted(modelo_arma_155001)
mape_arma_155001 <- mean(abs((serie_ts - fitted_arma_155001) / pmax(serie_ts, 0.01))) * 100
rmse_arma_155001 <- sqrt(mean((serie_ts - fitted_arma_155001)^2))

# Registrar en tabla general de métricas
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape_arma_155001,
  RMSE = rmse_arma_155001
))
```

### TEST 
```{r}
# Crear conjunto de prueba para producto 155001 (solo columnas necesarias para ARMA)
test_155001 <- test %>%
  filter(ID_Inventario == 155001) %>%
  select(Semana, Venta) %>%
  arrange(Semana) %>%
  na.omit()
```

```{r}
# Evaluar ARMA contra datos reales del test (primeras 4 semanas del test)
ventas_reales_test_155001 <- test_155001 %>%
  slice_head(n = 4) %>%
  pull(Venta)

ventas_predichas_arma_155001 <- as.numeric(forecast_modelo_arma_155001$mean)

# Comparar solo si hay 4 semanas disponibles
if (length(ventas_reales_test_155001) == length(ventas_predichas_arma_155001)) {
  
  mape_arma_test_155001 <- mean(abs((ventas_reales_test_155001 - ventas_predichas_arma_155001) /
                                      pmax(ventas_reales_test_155001, 0.01))) * 100
  
  rmse_arma_test_155001 <- sqrt(mean((ventas_reales_test_155001 - ventas_predichas_arma_155001)^2))
  
  cat("MAPE ARMA (test - producto 155001):", round(mape_arma_test_155001, 2), "\n")
  cat("RMSE ARMA (test - producto 155001):", round(rmse_arma_test_155001, 2), "\n")
  
  # Guardar en tabla de métricas
  metricas_comparativas <- rbind(metricas_comparativas, data.frame(
    Producto = id_prod,
    Modelo = "ARMA (Test)",
    MAPE = mape_arma_test_155001,
    RMSE = rmse_arma_test_155001
  ))
  
} else {
  warning("No hay suficientes semanas en el test para comparar con el forecast de ARMA.")
}
```

## PRODUCTO 3929788
### TRAIN
```{r arma-3929788}
# Producto 3929788
id_prod <- 3929788

# Filtrar datos del producto
ventas_semanales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  arrange(Trx_Fecha) %>%
  select(Trx_Fecha, Venta)

# Crear serie temporal semanal
serie_ts <- ts(ventas_semanales$Venta, frequency = 52,
               start = c(year(min(ventas_semanales$Trx_Fecha)),
                         isoweek(min(ventas_semanales$Trx_Fecha))))

# Ajustar modelo ARMA
modelo_arma_3929788 <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo_arma_3929788 <- forecast(modelo_arma_3929788, h = 4)

# Gráfico del pronóstico
autoplot(forecast_modelo_arma_3929788) +
  labs(title = paste("Pronóstico semanal de ventas - ARMA (Producto", id_prod, ")"),
       x = "Semana", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_arma_3929788 <- fitted(modelo_arma_3929788)
mape_arma_3929788 <- mean(abs((serie_ts - fitted_arma_3929788) / pmax(serie_ts, 0.01))) * 100
rmse_arma_3929788 <- sqrt(mean((serie_ts - fitted_arma_3929788)^2))

# Registrar métricas en la tabla general
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape_arma_3929788,
  RMSE = rmse_arma_3929788
))
```

### TEST 
```{r}
# Crear conjunto de prueba para producto 155001 (solo columnas necesarias para ARMA)
test_3929788 <- test %>%
  filter(ID_Inventario == 3929788) %>%
  select(Semana, Venta) %>%
  arrange(Semana) %>%
  na.omit()
```

```{r}
# Evaluar ARMA contra datos reales del test (primeras 4 semanas del test)
ventas_reales_test_3929788 <- test_3929788 %>%
  slice_head(n = 4) %>%
  pull(Venta)

ventas_predichas_arma_3929788 <- as.numeric(forecast_modelo_arma_3929788$mean)

# Comparar solo si hay 4 semanas disponibles
if (length(ventas_reales_test_3929788) == length(ventas_predichas_arma_3929788)) {
  
  mape_arma_test_3929788 <- mean(abs((ventas_reales_test_3929788 - ventas_predichas_arma_3929788) /
                                      pmax(ventas_reales_test_3929788, 0.01))) * 100
  
  rmse_arma_test_3929788 <- sqrt(mean((ventas_reales_test_3929788 - ventas_predichas_arma_3929788)^2))
  
  cat("MAPE ARMA (test - producto 3929788):", round(mape_arma_test_3929788, 2), "\n")
  cat("RMSE ARMA (test - producto 3929788):", round(rmse_arma_test_3929788, 2), "\n")
  
  # Guardar en tabla de métricas
  metricas_comparativas <- rbind(metricas_comparativas, data.frame(
    Producto = id_prod,
    Modelo = "ARMA (Test)",
    MAPE = mape_arma_test_3929788,
    RMSE = rmse_arma_test_3929788
  ))
  
} else {
  warning("No hay suficientes semanas en el test para comparar con el forecast de ARMA.")
}
```

## PRODUCTO 3904152
### TRAIN
```{r arma-3904152}
# Producto 3904152
id_prod <- 3904152

# Filtrar datos del producto
ventas_semanales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  arrange(Trx_Fecha) %>%
  select(Trx_Fecha, Venta)

# Crear serie temporal semanal
serie_ts <- ts(ventas_semanales$Venta, frequency = 52,
               start = c(year(min(ventas_semanales$Trx_Fecha)),
                         isoweek(min(ventas_semanales$Trx_Fecha))))

# Ajustar modelo ARMA
modelo_arma_3904152 <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo_arma_3904152 <- forecast(modelo_arma_3904152, h = 4)

# Gráfico del pronóstico
autoplot(forecast_modelo_arma_3904152) +
  labs(title = paste("Pronóstico semanal de ventas - ARMA (Producto", id_prod, ")"),
       x = "Semana", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_arma_3904152 <- fitted(modelo_arma_3904152)
mape_arma_3904152 <- mean(abs((serie_ts - fitted_arma_3904152) / pmax(serie_ts, 0.01))) * 100
rmse_arma_3904152 <- sqrt(mean((serie_ts - fitted_arma_3904152)^2))

# Registrar métricas en la tabla general
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape_arma_3904152,
  RMSE = rmse_arma_3904152
))
```

### TEST 
```{r}
# Crear conjunto de prueba para producto 155001 (solo columnas necesarias para ARMA)
test_3904152 <- test %>%
  filter(ID_Inventario == 3904152) %>%
  select(Semana, Venta) %>%
  arrange(Semana) %>%
  na.omit()
```

```{r}
# Evaluar ARMA contra datos reales del test (primeras 4 semanas del test)
ventas_reales_test_3904152 <- test_3904152 %>%
  slice_head(n = 4) %>%
  pull(Venta)

ventas_predichas_arma_3904152 <- as.numeric(forecast_modelo_arma_3904152$mean)

# Comparar solo si hay 4 semanas disponibles
if (length(ventas_reales_test_3904152) == length(ventas_predichas_arma_3904152)) {
  
  mape_arma_test_3904152 <- mean(abs((ventas_reales_test_3904152 - ventas_predichas_arma_3904152) /
                                      pmax(ventas_reales_test_3904152, 0.01))) * 100
  
  rmse_arma_test_3904152 <- sqrt(mean((ventas_reales_test_3904152 - ventas_predichas_arma_3904152)^2))
  
  cat("MAPE ARMA (test - producto 3904152):", round(mape_arma_test_3904152, 2), "\n")
  cat("RMSE ARMA (test - producto 3904152):", round(rmse_arma_test_3904152, 2), "\n")
  
  # Guardar en tabla de métricas
  metricas_comparativas <- rbind(metricas_comparativas, data.frame(
    Producto = id_prod,
    Modelo = "ARMA (Test)",
    MAPE = mape_arma_test_3904152,
    RMSE = rmse_arma_test_3904152
  ))
  
} else {
  warning("No hay suficientes semanas en el test para comparar con el forecast de ARMA.")
}
```

## PRODUCTO 155002
### TRAIN 
```{r arma-155002}
# Producto 155002
id_prod <- 155002

# Filtrar datos del producto
ventas_semanales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  arrange(Trx_Fecha) %>%
  select(Trx_Fecha, Venta)

# Crear serie temporal semanal
serie_ts <- ts(ventas_semanales$Venta, frequency = 52,
               start = c(year(min(ventas_semanales$Trx_Fecha)),
                         isoweek(min(ventas_semanales$Trx_Fecha))))

# Ajustar modelo ARMA
modelo_arma_155002 <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo_arma_155002 <- forecast(modelo_arma_155002, h = 4)

# Gráfico del pronóstico
autoplot(forecast_modelo_arma_155002) +
  labs(title = paste("Pronóstico semanal de ventas - ARMA (Producto", id_prod, ")"),
       x = "Semana", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_arma_155002 <- fitted(modelo_arma_155002)
mape_arma_155002 <- mean(abs((serie_ts - fitted_arma_155002) / pmax(serie_ts, 0.01))) * 100
rmse_arma_155002 <- sqrt(mean((serie_ts - fitted_arma_155002)^2))

# Registrar métricas en la tabla general
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape_arma_155002,
  RMSE = rmse_arma_155002
))
```

### TEST 
```{r}
# Crear conjunto de prueba para producto 155001 (solo columnas necesarias para ARMA)
test_155002 <- test %>%
  filter(ID_Inventario == 155002) %>%
  select(Semana, Venta) %>%
  arrange(Semana) %>%
  na.omit()
```

```{r}
# Evaluar ARMA contra datos reales del test (primeras 4 semanas del test)
ventas_reales_test_155002 <- test_155002 %>%
  slice_head(n = 4) %>%
  pull(Venta)

ventas_predichas_arma_155002 <- as.numeric(forecast_modelo_arma_155002$mean)

# Comparar solo si hay 4 semanas disponibles
if (length(ventas_reales_test_155002) == length(ventas_predichas_arma_155002)) {
  
  mape_arma_test_155002 <- mean(abs((ventas_reales_test_155002 - ventas_predichas_arma_155002) /
                                      pmax(ventas_reales_test_155002, 0.01))) * 100
  
  rmse_arma_test_155002 <- sqrt(mean((ventas_reales_test_155002 - ventas_predichas_arma_155002)^2))
  
  cat("MAPE ARMA (test - producto 155002):", round(mape_arma_test_155002, 2), "\n")
  cat("RMSE ARMA (test - producto 155002):", round(rmse_arma_test_155002, 2), "\n")
  
  # Guardar en tabla de métricas
  metricas_comparativas <- rbind(metricas_comparativas, data.frame(
    Producto = id_prod,
    Modelo = "ARMA (Test)",
    MAPE = mape_arma_test_155002,
    RMSE = rmse_arma_test_155002
  ))
  
} else {
  warning("No hay suficientes semanas en el test para comparar con el forecast de ARMA.")
}
```

## PRODUCTO 3678055
### TRAIN
```{r arma-3678055}
# Producto 3678055
id_prod <- 3678055

# Filtrar datos del producto
ventas_semanales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  arrange(Trx_Fecha) %>%
  select(Trx_Fecha, Venta)

# Crear serie temporal semanal
serie_ts <- ts(ventas_semanales$Venta, frequency = 52,
               start = c(year(min(ventas_semanales$Trx_Fecha)),
                         isoweek(min(ventas_semanales$Trx_Fecha))))

# Ajustar modelo ARMA
modelo_arma_3678055 <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo_arma_3678055 <- forecast(modelo_arma_3678055, h = 4)

# Gráfico del pronóstico
autoplot(forecast_modelo_arma_3678055) +
  labs(title = paste("Pronóstico semanal de ventas - ARMA (Producto", id_prod, ")"),
       x = "Semana", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_arma_3678055 <- fitted(modelo_arma_3678055)
mape_arma_3678055 <- mean(abs((serie_ts - fitted_arma_3678055) / pmax(serie_ts, 0.01))) * 100
rmse_arma_3678055 <- sqrt(mean((serie_ts - fitted_arma_3678055)^2))

# Registrar métricas en la tabla general
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape_arma_3678055,
  RMSE = rmse_arma_3678055
))
```

### TEST 
```{r}
# Crear conjunto de prueba para producto 155001 (solo columnas necesarias para ARMA)
test_3678055 <- test %>%
  filter(ID_Inventario == 3678055) %>%
  select(Semana, Venta) %>%
  arrange(Semana) %>%
  na.omit()
```

```{r}
# Evaluar ARMA contra datos reales del test (primeras 4 semanas del test)
ventas_reales_test_3678055 <- test_3678055 %>%
  slice_head(n = 4) %>%
  pull(Venta)

ventas_predichas_arma_3678055 <- as.numeric(forecast_modelo_arma_3678055$mean)

# Comparar solo si hay 4 semanas disponibles
if (length(ventas_reales_test_3678055) == length(ventas_predichas_arma_3678055)) {
  
  mape_arma_test_3678055 <- mean(abs((ventas_reales_test_3678055 - ventas_predichas_arma_3678055) /
                                      pmax(ventas_reales_test_3678055, 0.01))) * 100
  
  rmse_arma_test_3678055 <- sqrt(mean((ventas_reales_test_3678055 - ventas_predichas_arma_3678055)^2))
  
  cat("MAPE ARMA (test - producto 3678055):", round(mape_arma_test_3678055, 2), "\n")
  cat("RMSE ARMA (test - producto 3678055):", round(rmse_arma_test_3678055, 2), "\n")
  
  # Guardar en tabla de métricas
  metricas_comparativas <- rbind(metricas_comparativas, data.frame(
    Producto = id_prod,
    Modelo = "ARMA (Test)",
    MAPE = mape_arma_test_3678055,
    RMSE = rmse_arma_test_3678055
  ))
  
} else {
  warning("No hay suficientes semanas en el test para comparar con el forecast de ARMA.")
}
```

## MÉTRICAS COMPARATIVAS ARMA
```{r}
metricas_comparativas %>%
  arrange(Producto) %>%
  knitr::kable(caption = "Métricas ARMA por producto") %>%
  kableExtra::kable_styling(full_width = FALSE)
```


# <span style="color: black;"> REGRESION LINEAL
## MAPA DE CALOR
```{r mapa_calor_correlacion, message=FALSE, warning=FALSE}
# Variables numéricas relevantes para el modelo
vars_numericas <- c("Venta", "Precio_Lista_Unitario", "Venta_Semana_Anterior",
                    "Cant_Semana_Anterior", "Descuento_Semana_Anterior",
                    "Costo_Unitario_Semana_Anterior")

# Preparación de los datos
datos_cor <- datos_filtrados %>%
  select(all_of(vars_numericas)) %>%
  na.omit()

# Generar la matriz de correlación
matriz_cor <- cor(datos_cor)

# Mapa de calor de correlaciones
ggcorrplot(matriz_cor,
           method = "square",
           type = "upper",
           lab = TRUE,
           lab_size = 2,
           tl.cex = 10,
           tl.srt = 45,
           colors = c("#6D9EC1", "white", "#E46726"),
           title = "Mapa de Correlación - Variables del Modelo",
           ggtheme = theme_minimal(base_size = 14) +
             theme(
               axis.text.x = element_text(angle = 45, hjust = 1),
               axis.text.y = element_text(angle = 0, hjust = 1))
)
```

## PRODUCTO 155001
### DATOS TRAIN 155001
```{r}
# Datos de entrenamiento
datos_155001 <- datos_filtrados %>%
  filter(ID_Inventario == 155001) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### DATOS TEST 155001
```{r}
# Datos de prueba
test_155001 <- test %>%
  filter(ID_Inventario == 155001) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### MODELO
```{r}
# Ajustar modelo con entrenamiento
modelo_regresion_155001 <- lm(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_155001
)

# Ver resumen
summary(modelo_regresion_155001)

# Predicciones
pred_train <- predict(modelo_regresion_155001, newdata = datos_155001)
pred_test  <- predict(modelo_regresion_155001, newdata = test_155001)

# Métricas - entrenamiento
mape_train <- mean(abs((datos_155001$Venta - pred_train) / pmax(datos_155001$Venta, 0.01))) * 100
rmse_train <- sqrt(mean((datos_155001$Venta - pred_train)^2))

# Métricas - prueba
mape_test <- mean(abs((test_155001$Venta - pred_test) / pmax(test_155001$Venta, 0.01))) * 100
rmse_test <- sqrt(mean((test_155001$Venta - pred_test)^2))

# Mostrar resultados
cat("Train - MAPE:", round(mape_train, 2), "| RMSE:", round(rmse_train, 2), "\n")
cat("Test  - MAPE:", round(mape_test, 2), "| RMSE:", round(rmse_test, 2), "\n")
```

### TABLA DE MÉTRICAS 
```{r}
# Agregar métricas del entrenamiento
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "Regresión Lineal (Train)",
  MAPE = mape_train,
  RMSE = rmse_train,
  stringsAsFactors = FALSE
))

# Agregar métricas del test
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "Regresión Lineal (Test)",
  MAPE = mape_test,
  RMSE = rmse_test,
  stringsAsFactors = FALSE
))
```

## PRODUCTO 3929788
### DATOS TRAIN 
```{r}
# Datos de entrenamiento
datos_3929788 <- datos_filtrados %>%
  filter(ID_Inventario == 3929788) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### DATOS TEST
```{r}
# Datos de prueba
test_3929788 <- test %>%
  filter(ID_Inventario == 3929788) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### MODELO
```{r}
# Ajustar modelo con entrenamiento
modelo_regresion_3929788 <- lm(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3929788
)

# Ver resumen
summary(modelo_regresion_3929788)

# Predicciones
pred_train_3929788 <- predict(modelo_regresion_3929788, newdata = datos_3929788)
pred_test_3929788  <- predict(modelo_regresion_3929788, newdata = test_3929788)

# Métricas - entrenamiento
mape_train_3929788 <- mean(abs((datos_3929788$Venta - pred_train_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100
rmse_train_3929788 <- sqrt(mean((datos_3929788$Venta - pred_train_3929788)^2))

# Métricas - prueba
mape_test_3929788 <- mean(abs((test_3929788$Venta - pred_test_3929788) / pmax(test_3929788$Venta, 0.01))) * 100
rmse_test_3929788 <- sqrt(mean((test_3929788$Venta - pred_test_3929788)^2))

# Mostrar resultados
cat("Train - MAPE:", round(mape_train_3929788, 2), "| RMSE:", round(rmse_train_3929788, 2), "\n")
cat("Test  - MAPE:", round(mape_test_3929788, 2), "| RMSE:", round(rmse_test_3929788, 2), "\n")
```

### TABLA DE MÉTRICAS
```{r}
# Agregar métricas del entrenamiento
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "Regresión Lineal (Train)",
  MAPE = mape_train_3929788,
  RMSE = rmse_train_3929788,
  stringsAsFactors = FALSE
))

# Agregar métricas del test
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "Regresión Lineal (Test)",
  MAPE = mape_test_3929788,
  RMSE = rmse_test_3929788,
  stringsAsFactors = FALSE
))
```

## PRODUCTO 3904152
### DATOS TRAIN 
```{r}
# Datos de entrenamiento
datos_3904152 <- datos_filtrados %>%
  filter(ID_Inventario == 3904152) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### DATOS TEST
```{r}
# Datos de prueba
test_3904152 <- test %>%
  filter(ID_Inventario == 3904152) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### MODELO
```{r}
# Ajustar modelo con entrenamiento
modelo_regresion_3904152 <- lm(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3904152
)

# Ver resumen
summary(modelo_regresion_3904152)

# Predicciones
pred_train_3904152 <- predict(modelo_regresion_3904152, newdata = datos_3904152)
pred_test_3904152  <- predict(modelo_regresion_3904152, newdata = test_3904152)

# Métricas - entrenamiento
mape_train_3904152 <- mean(abs((datos_3904152$Venta - pred_train_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100
rmse_train_3904152 <- sqrt(mean((datos_3904152$Venta - pred_train_3904152)^2))

# Métricas - prueba
mape_test_3904152 <- mean(abs((test_3904152$Venta - pred_test_3904152) / pmax(test_3904152$Venta, 0.01))) * 100
rmse_test_3904152 <- sqrt(mean((test_3904152$Venta - pred_test_3904152)^2))

# Mostrar resultados
cat("Train - MAPE:", round(mape_train_3904152, 2), "| RMSE:", round(rmse_train_3904152, 2), "\n")
cat("Test  - MAPE:", round(mape_test_3904152, 2), "| RMSE:", round(rmse_test_3904152, 2), "\n")
```

### TABLA DE MÉTRICAS
```{r}
# Agregar métricas del entrenamiento
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "Regresión Lineal (Train)",
  MAPE = mape_train_3904152,
  RMSE = rmse_train_3904152,
  stringsAsFactors = FALSE
))

# Agregar métricas del test
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "Regresión Lineal (Test)",
  MAPE = mape_test_3904152,
  RMSE = rmse_test_3904152,
  stringsAsFactors = FALSE
))
```

## PRODUCTO 155002
### DATOS TRAIN
```{r}
# Datos de entrenamiento
datos_155002 <- datos_filtrados %>%
  filter(ID_Inventario == 155002) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### DATOS TEST
```{r}
# Datos de prueba
test_155002 <- test %>%
  filter(ID_Inventario == 155002) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### MODELO
```{r}
# Ajustar modelo con entrenamiento
modelo_regresion_155002 <- lm(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_155002
)

# Ver resumen
summary(modelo_regresion_155002)

# Predicciones
pred_train_155002 <- predict(modelo_regresion_155002, newdata = datos_155002)
pred_test_155002  <- predict(modelo_regresion_155002, newdata = test_155002)

# Métricas - entrenamiento
mape_train_155002 <- mean(abs((datos_155002$Venta - pred_train_155002) / pmax(datos_155002$Venta, 0.01))) * 100
rmse_train_155002 <- sqrt(mean((datos_155002$Venta - pred_train_155002)^2))

# Métricas - prueba
mape_test_155002 <- mean(abs((test_155002$Venta - pred_test_155002) / pmax(test_155002$Venta, 0.01))) * 100
rmse_test_155002 <- sqrt(mean((test_155002$Venta - pred_test_155002)^2))

# Mostrar resultados
cat("Train - MAPE:", round(mape_train_155002, 2), "| RMSE:", round(rmse_train_155002, 2), "\n")
cat("Test  - MAPE:", round(mape_test_155002, 2), "| RMSE:", round(rmse_test_155002, 2), "\n")
```

### TABLA DE MÉTRICAS
```{r}
# Agregar métricas del entrenamiento
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "Regresión Lineal (Train)",
  MAPE = mape_train_155002,
  RMSE = rmse_train_155002,
  stringsAsFactors = FALSE
))

# Agregar métricas del test
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "Regresión Lineal (Test)",
  MAPE = mape_test_155002,
  RMSE = rmse_test_155002,
  stringsAsFactors = FALSE
))
```


## PRODUCTO 3678055
### DATOS TRAIN
```{r}
# Datos de entrenamiento
datos_3678055 <- datos_filtrados %>%
  filter(ID_Inventario == 3678055) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### DATOS TEST
```{r}
# Datos de prueba
test_3678055 <- test %>%
  filter(ID_Inventario == 3678055) %>%
  select(Venta, Precio_Lista_Unitario, Venta_Semana_Anterior,
         Cant_Semana_Anterior, Descuento_Semana_Anterior,
         Costo_Unitario_Semana_Anterior, Semana) %>%
  na.omit()
```

### MODELO
```{r}
# Ajustar modelo con entrenamiento
modelo_regresion_3678055 <- lm(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3678055
)

# Ver resumen
summary(modelo_regresion_3678055)

# Predicciones
pred_train_3678055 <- predict(modelo_regresion_3678055, newdata = datos_3678055)
pred_test_3678055  <- predict(modelo_regresion_3678055, newdata = test_3678055)

# Métricas - entrenamiento
mape_train_3678055 <- mean(abs((datos_3678055$Venta - pred_train_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100
rmse_train_3678055 <- sqrt(mean((datos_3678055$Venta - pred_train_3678055)^2))

# Métricas - prueba
mape_test_3678055 <- mean(abs((test_3678055$Venta - pred_test_3678055) / pmax(test_3678055$Venta, 0.01))) * 100
rmse_test_3678055 <- sqrt(mean((test_3678055$Venta - pred_test_3678055)^2))

# Mostrar resultados
cat("Train - MAPE:", round(mape_train_3678055, 2), "| RMSE:", round(rmse_train_3678055, 2), "\n")
cat("Test  - MAPE:", round(mape_test_3678055, 2), "| RMSE:", round(rmse_test_3678055, 2), "\n")
```

### TABLA DE MÉTRICAS
```{r}
# Agregar métricas del entrenamiento
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "Regresión Lineal (Train)",
  MAPE = mape_train_3678055,
  RMSE = rmse_train_3678055,
  stringsAsFactors = FALSE
))

# Agregar métricas del test
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "Regresión Lineal (Test)",
  MAPE = mape_test_3678055,
  RMSE = rmse_test_3678055,
  stringsAsFactors = FALSE
))
```

## MÉTRICAS ARMA Y REG LINEAL 
```{r}
metricas_comparativas %>%
  arrange(Producto) %>%
  knitr::kable(caption = "Métricas ARMA & Regresion Lineal por producto") %>%
  kableExtra::kable_styling(full_width = FALSE)
```


# <span style="color: black;"> RANDOM FOREST
## PRODUCTO 155001
```{r}
# Entrenamiento
set.seed(123)
modelo_rf_155001 <- randomForest(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_155001,
  ntree = 500,
  mtry = floor(sqrt(6)),  # 6 variables predictoras
  importance = TRUE
)

# Predicciones
pred_train_rf_155001 <- predict(modelo_rf_155001, newdata = datos_155001)
pred_test_rf_155001  <- predict(modelo_rf_155001, newdata = test_155001)

# Métricas
mape_train_rf_155001 <- mean(abs((datos_155001$Venta - pred_train_rf_155001) / pmax(datos_155001$Venta, 0.01))) * 100
rmse_train_rf_155001 <- sqrt(mean((datos_155001$Venta - pred_train_rf_155001)^2))

mape_test_rf_155001 <- mean(abs((test_155001$Venta - pred_test_rf_155001) / pmax(test_155001$Venta, 0.01))) * 100
rmse_test_rf_155001 <- sqrt(mean((test_155001$Venta - pred_test_rf_155001)^2))

# Mostrar resultados
cat("Random Forest - Producto 155001\n")
cat("Train - MAPE:", round(mape_train_rf_155001, 2), "| RMSE:", round(rmse_train_rf_155001, 2), "\n")
cat("Test  - MAPE:", round(mape_test_rf_155001, 2),  "| RMSE:", round(rmse_test_rf_155001, 2),  "\n")

# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "Random Forest (Train)",
  MAPE = mape_train_rf_155001,
  RMSE = rmse_train_rf_155001
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "Random Forest (Test)",
  MAPE = mape_test_rf_155001,
  RMSE = rmse_test_rf_155001
))

# Importancia de variables
varImpPlot(modelo_rf_155001, main = "Importancia de Variables - Producto 155001")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_155001$Venta, Predicho = pred_test_rf_155001),
       aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Observado vs Predicho - Producto 155001 (test data)",
       x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

# Análisis de errores (test)
errores_test_155001 <- test_155001$Venta - pred_test_rf_155001
hist(errores_test_155001, main = "Distribución de Errores - Producto 155001 (test data)",
     xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_155001), "\n")
cat("SD error:", sd(errores_test_155001), "\n")
cat("Min error:", min(errores_test_155001), "\n")
cat("Max error:", max(errores_test_155001), "\n")
cat("Mediana error:", median(errores_test_155001), "\n")

# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_155001, Error = errores_test_155001),
       aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Error vs Predicción - Producto 155001 (test data)",
       x = "Venta Predicha", y = "Error") +
  theme_minimal()
```

## PRODUCTO 3929788
```{r}
# Entrenamiento
set.seed(123)
modelo_rf_3929788 <- randomForest(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3929788,
  ntree = 500,
  mtry = floor(sqrt(6)),  # 6 variables predictoras
  importance = TRUE
)

# Predicciones
pred_train_rf_3929788 <- predict(modelo_rf_3929788, newdata = datos_3929788)
pred_test_rf_3929788  <- predict(modelo_rf_3929788, newdata = test_3929788)

# Métricas
mape_train_rf_3929788 <- mean(abs((datos_3929788$Venta - pred_train_rf_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100
rmse_train_rf_3929788 <- sqrt(mean((datos_3929788$Venta - pred_train_rf_3929788)^2))

mape_test_rf_3929788 <- mean(abs((test_3929788$Venta - pred_test_rf_3929788) / pmax(test_3929788$Venta, 0.01))) * 100
rmse_test_rf_3929788 <- sqrt(mean((test_3929788$Venta - pred_test_rf_3929788)^2))

# Mostrar resultados
cat("Random Forest - Producto 3929788\n")
cat("Train - MAPE:", round(mape_train_rf_3929788, 2), "| RMSE:", round(rmse_train_rf_3929788, 2), "\n")
cat("Test  - MAPE:", round(mape_test_rf_3929788, 2),  "| RMSE:", round(rmse_test_rf_3929788, 2),  "\n")

# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "Random Forest (Train)",
  MAPE = mape_train_rf_3929788,
  RMSE = rmse_train_rf_3929788
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "Random Forest (Test)",
  MAPE = mape_test_rf_3929788,
  RMSE = rmse_test_rf_3929788
))

# Importancia de variables
varImpPlot(modelo_rf_3929788, main = "Importancia de Variables - Producto 3929788")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3929788$Venta, Predicho = pred_test_rf_3929788),
       aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Observado vs Predicho - Producto 3929788 (test data)",
       x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

# Análisis de errores (test)
errores_test_3929788 <- test_3929788$Venta - pred_test_rf_3929788
hist(errores_test_3929788, main = "Distribución de Errores - Producto 3929788 (test data)",
     xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3929788), "\n")
cat("SD error:", sd(errores_test_3929788), "\n")
cat("Min error:", min(errores_test_3929788), "\n")
cat("Max error:", max(errores_test_3929788), "\n")
cat("Mediana error:", median(errores_test_3929788), "\n")

# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3929788, Error = errores_test_3929788),
       aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Error vs Predicción - Producto 3929788 (test data)",
       x = "Venta Predicha", y = "Error") +
  theme_minimal()
```

## PRODUCTO 3904152
```{r}
# Entrenamiento
set.seed(123)
modelo_rf_3904152 <- randomForest(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3904152,
  ntree = 500,
  mtry = floor(sqrt(6)),  # 6 variables predictoras
  importance = TRUE
)

# Predicciones
pred_train_rf_3904152 <- predict(modelo_rf_3904152, newdata = datos_3904152)
pred_test_rf_3904152  <- predict(modelo_rf_3904152, newdata = test_3904152)

# Métricas
mape_train_rf_3904152 <- mean(abs((datos_3904152$Venta - pred_train_rf_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100
rmse_train_rf_3904152 <- sqrt(mean((datos_3904152$Venta - pred_train_rf_3904152)^2))

mape_test_rf_3904152 <- mean(abs((test_3904152$Venta - pred_test_rf_3904152) / pmax(test_3904152$Venta, 0.01))) * 100
rmse_test_rf_3904152 <- sqrt(mean((test_3904152$Venta - pred_test_rf_3904152)^2))

# Mostrar resultados
cat("Random Forest - Producto 3904152\n")
cat("Train - MAPE:", round(mape_train_rf_3904152, 2), "| RMSE:", round(rmse_train_rf_3904152, 2), "\n")
cat("Test  - MAPE:", round(mape_test_rf_3904152, 2),  "| RMSE:", round(rmse_test_rf_3904152, 2),  "\n")

# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "Random Forest (Train)",
  MAPE = mape_train_rf_3904152,
  RMSE = rmse_train_rf_3904152
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "Random Forest (Test)",
  MAPE = mape_test_rf_3904152,
  RMSE = rmse_test_rf_3904152
))

# Importancia de variables
varImpPlot(modelo_rf_3904152, main = "Importancia de Variables - Producto 3904152")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3904152$Venta, Predicho = pred_test_rf_3904152),
       aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Observado vs Predicho - Producto 3904152 (test data)",
       x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

# Análisis de errores (test)
errores_test_3904152 <- test_3904152$Venta - pred_test_rf_3904152
hist(errores_test_3904152, main = "Distribución de Errores - Producto 3904152 (test data)",
     xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3904152), "\n")
cat("SD error:", sd(errores_test_3904152), "\n")
cat("Min error:", min(errores_test_3904152), "\n")
cat("Max error:", max(errores_test_3904152), "\n")
cat("Mediana error:", median(errores_test_3904152), "\n")

# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3904152, Error = errores_test_3904152),
       aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Error vs Predicción - Producto 3904152 (test data)",
       x = "Venta Predicha", y = "Error") +
  theme_minimal()
```

## PRODUCTO 155002
```{r}
# Entrenamiento
set.seed(123)
modelo_rf_155002 <- randomForest(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_155002,
  ntree = 500,
  mtry = floor(sqrt(6)),  # 6 variables predictoras
  importance = TRUE
)

# Predicciones
pred_train_rf_155002 <- predict(modelo_rf_155002, newdata = datos_155002)
pred_test_rf_155002  <- predict(modelo_rf_155002, newdata = test_155002)

# Métricas
mape_train_rf_155002 <- mean(abs((datos_155002$Venta - pred_train_rf_155002) / pmax(datos_155002$Venta, 0.01))) * 100
rmse_train_rf_155002 <- sqrt(mean((datos_155002$Venta - pred_train_rf_155002)^2))

mape_test_rf_155002 <- mean(abs((test_155002$Venta - pred_test_rf_155002) / pmax(test_155002$Venta, 0.01))) * 100
rmse_test_rf_155002 <- sqrt(mean((test_155002$Venta - pred_test_rf_155002)^2))

# Mostrar resultados
cat("Random Forest - Producto 155002\n")
cat("Train - MAPE:", round(mape_train_rf_155002, 2), "| RMSE:", round(rmse_train_rf_155002, 2), "\n")
cat("Test  - MAPE:", round(mape_test_rf_155002, 2),  "| RMSE:", round(rmse_test_rf_155002, 2),  "\n")

# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "Random Forest (Train)",
  MAPE = mape_train_rf_155002,
  RMSE = rmse_train_rf_155002
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "Random Forest (Test)",
  MAPE = mape_test_rf_155002,
  RMSE = rmse_test_rf_155002
))

# Importancia de variables
varImpPlot(modelo_rf_155002, main = "Importancia de Variables - Producto 155002")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_155002$Venta, Predicho = pred_test_rf_155002),
       aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Observado vs Predicho - Producto 155002 (test data)",
       x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

# Análisis de errores (test)
errores_test_155002 <- test_155002$Venta - pred_test_rf_155002
hist(errores_test_155002, main = "Distribución de Errores - Producto 155002 (test data)",
     xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_155002), "\n")
cat("SD error:", sd(errores_test_155002), "\n")
cat("Min error:", min(errores_test_155002), "\n")
cat("Max error:", max(errores_test_155002), "\n")
cat("Mediana error:", median(errores_test_155002), "\n")

# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_155002, Error = errores_test_155002),
       aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Error vs Predicción - Producto 155002 (test data)",
       x = "Venta Predicha", y = "Error") +
  theme_minimal()
```

## PRODUCTO 3678055
```{r}
# Entrenamiento
set.seed(123)
modelo_rf_3678055 <- randomForest(
  Venta ~ Precio_Lista_Unitario +
          Venta_Semana_Anterior +
          Cant_Semana_Anterior +
          Descuento_Semana_Anterior +
          Costo_Unitario_Semana_Anterior +
          Semana,
  data = datos_3678055,
  ntree = 500,
  mtry = floor(sqrt(6)),  # 6 variables predictoras
  importance = TRUE
)

# Predicciones
pred_train_rf_3678055 <- predict(modelo_rf_3678055, newdata = datos_3678055)
pred_test_rf_3678055  <- predict(modelo_rf_3678055, newdata = test_3678055)

# Métricas
mape_train_rf_3678055 <- mean(abs((datos_3678055$Venta - pred_train_rf_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100
rmse_train_rf_3678055 <- sqrt(mean((datos_3678055$Venta - pred_train_rf_3678055)^2))

mape_test_rf_3678055 <- mean(abs((test_3678055$Venta - pred_test_rf_3678055) / pmax(test_3678055$Venta, 0.01))) * 100
rmse_test_rf_3678055 <- sqrt(mean((test_3678055$Venta - pred_test_rf_3678055)^2))

# Mostrar resultados
cat("Random Forest - Producto 3678055\n")
cat("Train - MAPE:", round(mape_train_rf_3678055, 2), "| RMSE:", round(rmse_train_rf_3678055, 2), "\n")
cat("Test  - MAPE:", round(mape_test_rf_3678055, 2),  "| RMSE:", round(rmse_test_rf_3678055, 2),  "\n")

# Guardar métricas en tabla
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "Random Forest (Train)",
  MAPE = mape_train_rf_3678055,
  RMSE = rmse_train_rf_3678055
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "Random Forest (Test)",
  MAPE = mape_test_rf_3678055,
  RMSE = rmse_test_rf_3678055
))

# Importancia de variables
varImpPlot(modelo_rf_3678055, main = "Importancia de Variables - Producto 3678055")

# Observado vs Predicho (test)
ggplot(data.frame(Observado = test_3678055$Venta, Predicho = pred_test_rf_3678055),
       aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Observado vs Predicho - Producto 3678055 (test data)",
       x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

# Análisis de errores (test)
errores_test_3678055 <- test_3678055$Venta - pred_test_rf_3678055
hist(errores_test_3678055, main = "Distribución de Errores - Producto 3678055 (test data)",
     xlab = "Error (Observado - Predicho)", col = "skyblue", breaks = 30)

cat("Media error:", mean(errores_test_3678055), "\n")
cat("SD error:", sd(errores_test_3678055), "\n")
cat("Min error:", min(errores_test_3678055), "\n")
cat("Max error:", max(errores_test_3678055), "\n")
cat("Mediana error:", median(errores_test_3678055), "\n")

# Error vs Predicción (test)
ggplot(data.frame(Predicho = pred_test_rf_3678055, Error = errores_test_3678055),
       aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Error vs Predicción - Producto 3678055 (test data)",
       x = "Venta Predicha", y = "Error") +
  theme_minimal()
```

## MÉTRICAS ARMA, REG LINEAL Y RANDOM FOREST
```{r}
metricas_comparativas %>%
  arrange(Producto) %>%
  knitr::kable(caption = "Métricas ARMA, Regresion Lineal y Random Forest por producto") %>%
  kableExtra::kable_styling(full_width = FALSE)
```



# <span style="color: black;"> XGBOOST
## PRODUCTO 155001
### SPLIT INTERNO
```{r}
# Dividir los datos en entrenamiento (80%) y validación interna (20%)
set.seed(123)  # Para reproducibilidad

indices_train_155001 <- createDataPartition(datos_155001$Venta, p = 0.8, list = FALSE)

# Crear subconjuntos
datos_train_155001 <- datos_155001[indices_train_155001, ]
datos_test_155001  <- datos_155001[-indices_train_155001, ]

# Matrices predictoras y objetivo
X_train_155001 <- as.matrix(datos_train_155001[, colnames(datos_train_155001) != "Venta"])
y_train_155001 <- datos_train_155001$Venta

X_test_155001 <- as.matrix(datos_test_155001[, colnames(datos_test_155001) != "Venta"])
y_test_155001 <- datos_test_155001$Venta

# Convertir a formato DMatrix para XGBoost
dtrain_155001 <- xgb.DMatrix(data = X_train_155001, label = y_train_155001)
dtest_155001  <- xgb.DMatrix(data = X_test_155001, label = y_test_155001)
```

### BUSQUEDA DE HIPERPARAMETROS CON VALIDACIÓN CRUZADA
```{r}
# Crear una rejilla de combinaciones de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1),             # Tasa de aprendizaje
  max_depth = c(3, 5, 7),               # Profundidad del árbol
  subsample = c(0.8, 1.0),              # Proporción de muestras por árbol
  colsample_bytree = c(0.8, 1.0),       # Proporción de columnas por árbol
  min_child_weight = c(1, 3),           # Peso mínimo de nodos hijos
  gamma = c(0, 0.1)                     # Regularización
)

# Reducir combinaciones para eficiencia
set.seed(123)
param_grid_reducida <- param_grid[sample(1:nrow(param_grid), 10), ]

# Función para evaluar cada combinación con validación cruzada
evaluate_params_155001 <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  cv <- xgb.cv(
    params = params,
    data = dtrain_155001,    # <- usa DMatrix con datos_train_155001
    nrounds = 100,
    nfold = 5,
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  list(
    rmse = min(cv$evaluation_log$test_rmse_mean),
    nrounds = which.min(cv$evaluation_log$test_rmse_mean),
    params = params
  )
}
```

```{r}
# Evaluar todas las combinaciones
resultados_grid_155001 <- param_grid_reducida
resultados_grid_155001$nrounds <- NA
resultados_grid_155001$rmse <- NA

cat("Iniciando búsqueda de hiperparámetros para producto 155001...\n")
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  resultado <- evaluate_params_155001(param_grid_reducida[i, ])
  
  resultados_grid_155001$nrounds[i] <- resultado$nrounds
  resultados_grid_155001$rmse[i] <- resultado$rmse
}

# Ordenar por mejor RMSE
resultados_grid_155001 <- resultados_grid_155001[order(resultados_grid_155001$rmse), ]

# Mostrar las 5 mejores combinaciones
cat("\nTop 5 combinaciones de hiperparámetros (Producto 155001):\n")
print(head(resultados_grid_155001, 5))

```

### ENTRENA MODELO CON MEJORES HIPERPARÁMETROS 
```{r}
# Extraer los mejores hiperparámetros del grid
mejores_params_155001 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid_155001$eta[1],
  max_depth = resultados_grid_155001$max_depth[1],
  subsample = resultados_grid_155001$subsample[1],
  colsample_bytree = resultados_grid_155001$colsample_bytree[1],
  min_child_weight = resultados_grid_155001$min_child_weight[1],
  gamma = resultados_grid_155001$gamma[1]
)

# Número óptimo de rondas
mejor_nrounds_155001 <- resultados_grid_155001$nrounds[1]

cat("Entrenando modelo con mejores hiperparámetros...\n")
print(mejores_params_155001)
cat("Número óptimo de rondas:", mejor_nrounds_155001, "\n")

# Entrenar el modelo con los datos de split interno
modelo_xgb_155001_split <- xgb.train(
  params = mejores_params_155001,
  data = dtrain_155001,
  nrounds = mejor_nrounds_155001,
  watchlist = list(train = dtrain_155001, test = dtest_155001),
  verbose = 0
)
```

### MÉTRICAS INTERNAS
```{r}
# Métricas sobre datos_train (80%)
pred_train_split_155001 <- predict(modelo_xgb_155001_split, dtrain_155001)
mape_train_split_155001 <- mean(abs((y_train_155001 - pred_train_split_155001) / pmax(y_train_155001, 0.01))) * 100
rmse_train_split_155001 <- sqrt(mean((y_train_155001 - pred_train_split_155001)^2))

# Métricas sobre datos_test (20%)
pred_test_split_155001 <- predict(modelo_xgb_155001_split, dtest_155001)
mape_test_split_155001 <- mean(abs((y_test_155001 - pred_test_split_155001) / pmax(y_test_155001, 0.01))) * 100
rmse_test_split_155001 <- sqrt(mean((y_test_155001 - pred_test_split_155001)^2))

cat("Split Interno - Producto 155001\n")
cat("Train Split - MAPE:", round(mape_train_split_155001, 2), "| RMSE:", round(rmse_train_split_155001, 2), "\n")
cat("Test  Split - MAPE:", round(mape_test_split_155001, 2),  "| RMSE:", round(rmse_test_split_155001, 2), "\n")
```

### ENTRENAMIENTO CON DATOS COMPLETOS 
```{r}
# Preparar matrices con todos los datos
X_entero_155001 <- as.matrix(datos_155001[, colnames(datos_155001) != "Venta"])
y_entero_155001 <- datos_155001$Venta
dtrain_final_155001 <- xgb.DMatrix(data = X_entero_155001, label = y_entero_155001)

# Entrenar el modelo final
modelo_xgb_final_155001 <- xgb.train(
  params = mejores_params_155001,
  data = dtrain_final_155001,
  nrounds = mejor_nrounds_155001,
  verbose = 0
)

# Evaluación en datos_155001
pred_final_train_155001 <- predict(modelo_xgb_final_155001, X_entero_155001)
mape_final_train_155001 <- mean(abs((y_entero_155001 - pred_final_train_155001) / pmax(y_entero_155001, 0.01))) * 100
rmse_final_train_155001 <- sqrt(mean((y_entero_155001 - pred_final_train_155001)^2))

# Evaluación en test_155001
X_test_real_155001 <- as.matrix(test_155001[, colnames(test_155001) != "Venta"])
y_test_real_155001 <- test_155001$Venta
pred_final_test_155001 <- predict(modelo_xgb_final_155001, X_test_real_155001)
mape_final_test_155001 <- mean(abs((y_test_real_155001 - pred_final_test_155001) / pmax(y_test_real_155001, 0.01))) * 100
rmse_final_test_155001 <- sqrt(mean((y_test_real_155001 - pred_final_test_155001)^2))

cat("Modelo Final - Producto 155001\n")
cat("Train - MAPE:", round(mape_final_train_155001, 2), "| RMSE:", round(rmse_final_train_155001, 2), "\n")
cat("Test  - MAPE:", round(mape_final_test_155001, 2),  "| RMSE:", round(rmse_final_test_155001, 2), "\n")

```

### TABLA DE MÉTRICAS
```{r}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "XGBoost (Train)",
  MAPE = mape_final_train_155001,
  RMSE = rmse_final_train_155001
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",
  Modelo = "XGBoost (Test)",
  MAPE = mape_final_test_155001,
  RMSE = rmse_final_test_155001
))
```

## PRODUCTO 3929788
### SPLIT INTERNO
```{r}
# Dividir los datos en entrenamiento (80%) y validación interna (20%)
set.seed(123)  # Para reproducibilidad

indices_train_3929788 <- createDataPartition(datos_3929788$Venta, p = 0.8, list = FALSE)

# Crear subconjuntos
datos_train_3929788 <- datos_3929788[indices_train_3929788, ]
datos_test_3929788  <- datos_3929788[-indices_train_3929788, ]

# Matrices predictoras y objetivo
X_train_3929788 <- as.matrix(datos_train_3929788[, colnames(datos_train_3929788) != "Venta"])
y_train_3929788 <- datos_train_3929788$Venta

X_test_3929788 <- as.matrix(datos_test_3929788[, colnames(datos_test_3929788) != "Venta"])
y_test_3929788 <- datos_test_3929788$Venta

# Convertir a formato DMatrix para XGBoost
dtrain_3929788 <- xgb.DMatrix(data = X_train_3929788, label = y_train_3929788)
dtest_3929788  <- xgb.DMatrix(data = X_test_3929788, label = y_test_3929788)
```

### BUSQUEDA DE HIPERPARAMETROS CON VALIDACIÓN CRUZADA
```{r}
# Crear una rejilla de combinaciones de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1),             # Tasa de aprendizaje
  max_depth = c(3, 5, 7),               # Profundidad del árbol
  subsample = c(0.8, 1.0),              # Proporción de muestras por árbol
  colsample_bytree = c(0.8, 1.0),       # Proporción de columnas por árbol
  min_child_weight = c(1, 3),           # Peso mínimo de nodos hijos
  gamma = c(0, 0.1)                     # Regularización
)

# Reducir combinaciones para eficiencia
set.seed(123)
param_grid_reducida <- param_grid[sample(1:nrow(param_grid), 10), ]

# Función para evaluar cada combinación con validación cruzada
evaluate_params_3929788 <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  cv <- xgb.cv(
    params = params,
    data = dtrain_3929788,    # <- usa DMatrix con datos_train_155001
    nrounds = 100,
    nfold = 5,
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  list(
    rmse = min(cv$evaluation_log$test_rmse_mean),
    nrounds = which.min(cv$evaluation_log$test_rmse_mean),
    params = params
  )
}
```

```{r}
# Evaluar todas las combinaciones
resultados_grid_3929788 <- param_grid_reducida
resultados_grid_3929788$nrounds <- NA
resultados_grid_3929788$rmse <- NA

cat("Iniciando búsqueda de hiperparámetros para producto 3929788...\n")
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  resultado <- evaluate_params_3929788(param_grid_reducida[i, ])
  
  resultados_grid_3929788$nrounds[i] <- resultado$nrounds
  resultados_grid_3929788$rmse[i] <- resultado$rmse
}

# Ordenar por mejor RMSE
resultados_grid_3929788 <- resultados_grid_3929788[order(resultados_grid_3929788$rmse), ]

# Mostrar las 5 mejores combinaciones
cat("\nTop 5 combinaciones de hiperparámetros (Producto 3929788):\n")
print(head(resultados_grid_3929788, 5))

```

### ENTRENA MODELO CON MEJORES HIPERPARÁMETROS 
```{r}
# Extraer los mejores hiperparámetros del grid
mejores_params_3929788 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid_3929788$eta[1],
  max_depth = resultados_grid_3929788$max_depth[1],
  subsample = resultados_grid_3929788$subsample[1],
  colsample_bytree = resultados_grid_3929788$colsample_bytree[1],
  min_child_weight = resultados_grid_3929788$min_child_weight[1],
  gamma = resultados_grid_3929788$gamma[1]
)

# Número óptimo de rondas
mejor_nrounds_3929788 <- resultados_grid_3929788$nrounds[1]

cat("Entrenando modelo con mejores hiperparámetros...\n")
print(mejores_params_3929788)
cat("Número óptimo de rondas:", mejor_nrounds_3929788, "\n")

# Entrenar el modelo con los datos de split interno
modelo_xgb_3929788_split <- xgb.train(
  params = mejores_params_3929788,
  data = dtrain_3929788,
  nrounds = mejor_nrounds_3929788,
  watchlist = list(train = dtrain_3929788, test = dtest_3929788),
  verbose = 0
)
```

### MÉTRICAS INTERNAS
```{r}
# Métricas sobre datos_train (80%)
pred_train_split_3929788 <- predict(modelo_xgb_3929788_split, dtrain_3929788)
mape_train_split_3929788 <- mean(abs((y_train_3929788 - pred_train_split_3929788) / pmax(y_train_3929788, 0.01))) * 100
rmse_train_split_3929788 <- sqrt(mean((y_train_3929788 - pred_train_split_3929788)^2))

# Métricas sobre datos_test (20%)
pred_test_split_3929788 <- predict(modelo_xgb_3929788_split, dtest_3929788)
mape_test_split_3929788 <- mean(abs((y_test_3929788 - pred_test_split_3929788) / pmax(y_test_3929788, 0.01))) * 100
rmse_test_split_3929788 <- sqrt(mean((y_test_3929788 - pred_test_split_3929788)^2))

cat("Split Interno - Producto 3929788\n")
cat("Train Split - MAPE:", round(mape_train_split_3929788, 2), "| RMSE:", round(rmse_train_split_3929788, 2), "\n")
cat("Test  Split - MAPE:", round(mape_test_split_3929788, 2),  "| RMSE:", round(rmse_test_split_3929788, 2), "\n")
```

### ENTRENAMIENTO CON DATOS COMPLETOS 
```{r}
# Preparar matrices con todos los datos
X_entero_3929788 <- as.matrix(datos_3929788[, colnames(datos_3929788) != "Venta"])
y_entero_3929788 <- datos_3929788$Venta
dtrain_final_3929788 <- xgb.DMatrix(data = X_entero_3929788, label = y_entero_3929788)

# Entrenar el modelo final
modelo_xgb_final_3929788 <- xgb.train(
  params = mejores_params_3929788,
  data = dtrain_final_3929788,
  nrounds = mejor_nrounds_3929788,
  verbose = 0
)

# Evaluación en datos_3929788
pred_final_train_3929788 <- predict(modelo_xgb_final_3929788, X_entero_3929788)
mape_final_train_3929788 <- mean(abs((y_entero_3929788 - pred_final_train_3929788) / pmax(y_entero_3929788, 0.01))) * 100
rmse_final_train_3929788 <- sqrt(mean((y_entero_3929788 - pred_final_train_3929788)^2))

# Evaluación en test_3929788
X_test_real_3929788 <- as.matrix(test_3929788[, colnames(test_3929788) != "Venta"])
y_test_real_3929788 <- test_3929788$Venta
pred_final_test_3929788 <- predict(modelo_xgb_final_3929788, X_test_real_3929788)
mape_final_test_3929788 <- mean(abs((y_test_real_3929788 - pred_final_test_3929788) / pmax(y_test_real_3929788, 0.01))) * 100
rmse_final_test_3929788 <- sqrt(mean((y_test_real_3929788 - pred_final_test_3929788)^2))

cat("Modelo Final - Producto 3929788\n")
cat("Train - MAPE:", round(mape_final_train_3929788, 2), "| RMSE:", round(rmse_final_train_3929788, 2), "\n")
cat("Test  - MAPE:", round(mape_final_test_3929788, 2),  "| RMSE:", round(rmse_final_test_3929788, 2), "\n")

```

### TABLA DE MÉTRICAS
```{r}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "XGBoost (Train)",
  MAPE = mape_final_train_3929788,
  RMSE = rmse_final_train_3929788
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "XGBoost (Test)",
  MAPE = mape_final_test_3929788,
  RMSE = rmse_final_test_3929788
))
```

## PRODUCTO 3904152
### SPLIT INTERNO
```{r}
# Dividir los datos en entrenamiento (80%) y validación interna (20%)
set.seed(123)  # Para reproducibilidad

indices_train_3904152 <- createDataPartition(datos_3904152$Venta, p = 0.8, list = FALSE)

# Crear subconjuntos
datos_train_3904152 <- datos_3904152[indices_train_3904152, ]
datos_test_3904152  <- datos_3904152[-indices_train_3904152, ]

# Matrices predictoras y objetivo
X_train_3904152 <- as.matrix(datos_train_3904152[, colnames(datos_train_3904152) != "Venta"])
y_train_3904152 <- datos_train_3904152$Venta

X_test_3904152 <- as.matrix(datos_test_3904152[, colnames(datos_test_3904152) != "Venta"])
y_test_3904152 <- datos_test_3904152$Venta

# Convertir a formato DMatrix para XGBoost
dtrain_3904152 <- xgb.DMatrix(data = X_train_3904152, label = y_train_3904152)
dtest_3904152  <- xgb.DMatrix(data = X_test_3904152, label = y_test_3904152)
```

### BUSQUEDA DE HIPERPARAMETROS CON VALIDACIÓN CRUZADA
```{r}
# Crear una rejilla de combinaciones de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1),             # Tasa de aprendizaje
  max_depth = c(3, 5, 7),               # Profundidad del árbol
  subsample = c(0.8, 1.0),              # Proporción de muestras por árbol
  colsample_bytree = c(0.8, 1.0),       # Proporción de columnas por árbol
  min_child_weight = c(1, 3),           # Peso mínimo de nodos hijos
  gamma = c(0, 0.1)                     # Regularización
)

# Reducir combinaciones para eficiencia
set.seed(123)
param_grid_reducida <- param_grid[sample(1:nrow(param_grid), 10), ]

# Función para evaluar cada combinación con validación cruzada
evaluate_params_3904152 <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  cv <- xgb.cv(
    params = params,
    data = dtrain_3904152,    # <- usa DMatrix con datos_train_155001
    nrounds = 100,
    nfold = 5,
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  list(
    rmse = min(cv$evaluation_log$test_rmse_mean),
    nrounds = which.min(cv$evaluation_log$test_rmse_mean),
    params = params
  )
}
```

```{r}
# Evaluar todas las combinaciones
resultados_grid_3904152 <- param_grid_reducida
resultados_grid_3904152$nrounds <- NA
resultados_grid_3904152$rmse <- NA

cat("Iniciando búsqueda de hiperparámetros para producto 3904152...\n")
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  resultado <- evaluate_params_3904152(param_grid_reducida[i, ])
  
  resultados_grid_3904152$nrounds[i] <- resultado$nrounds
  resultados_grid_3904152$rmse[i] <- resultado$rmse
}

# Ordenar por mejor RMSE
resultados_grid_3904152 <- resultados_grid_3904152[order(resultados_grid_3904152$rmse), ]

# Mostrar las 5 mejores combinaciones
cat("\nTop 5 combinaciones de hiperparámetros (Producto 3904152):\n")
print(head(resultados_grid_3904152, 5))

```

### ENTRENA MODELO CON MEJORES HIPERPARÁMETROS 
```{r}
# Extraer los mejores hiperparámetros del grid
mejores_params_3904152 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid_3904152$eta[1],
  max_depth = resultados_grid_3904152$max_depth[1],
  subsample = resultados_grid_3904152$subsample[1],
  colsample_bytree = resultados_grid_3904152$colsample_bytree[1],
  min_child_weight = resultados_grid_3904152$min_child_weight[1],
  gamma = resultados_grid_3904152$gamma[1]
)

# Número óptimo de rondas
mejor_nrounds_3904152 <- resultados_grid_3904152$nrounds[1]

cat("Entrenando modelo con mejores hiperparámetros...\n")
print(mejores_params_3904152)
cat("Número óptimo de rondas:", mejor_nrounds_3904152, "\n")

# Entrenar el modelo con los datos de split interno
modelo_xgb_3904152_split <- xgb.train(
  params = mejores_params_3904152,
  data = dtrain_3904152,
  nrounds = mejor_nrounds_3904152,
  watchlist = list(train = dtrain_3904152, test = dtest_3904152),
  verbose = 0
)
```

### MÉTRICAS INTERNAS
```{r}
# Métricas sobre datos_train (80%)
pred_train_split_3904152 <- predict(modelo_xgb_3904152_split, dtrain_3904152)
mape_train_split_3904152 <- mean(abs((y_train_3904152 - pred_train_split_3904152) / pmax(y_train_3904152, 0.01))) * 100
rmse_train_split_3904152 <- sqrt(mean((y_train_3904152 - pred_train_split_3904152)^2))

# Métricas sobre datos_test (20%)
pred_test_split_3904152 <- predict(modelo_xgb_3904152_split, dtest_3904152)
mape_test_split_3904152 <- mean(abs((y_test_3904152 - pred_test_split_3904152) / pmax(y_test_3904152, 0.01))) * 100
rmse_test_split_3904152 <- sqrt(mean((y_test_3904152 - pred_test_split_3904152)^2))

cat("Split Interno - Producto 3904152\n")
cat("Train Split - MAPE:", round(mape_train_split_3904152, 2), "| RMSE:", round(rmse_train_split_3904152, 2), "\n")
cat("Test  Split - MAPE:", round(mape_test_split_3904152, 2),  "| RMSE:", round(rmse_test_split_3904152, 2), "\n")
```

### ENTRENAMIENTO CON DATOS COMPLETOS 
```{r}
# Preparar matrices con todos los datos
X_entero_3904152 <- as.matrix(datos_3904152[, colnames(datos_3904152) != "Venta"])
y_entero_3904152 <- datos_3904152$Venta
dtrain_final_3904152 <- xgb.DMatrix(data = X_entero_3904152, label = y_entero_3904152)

# Entrenar el modelo final
modelo_xgb_final_3904152 <- xgb.train(
  params = mejores_params_3904152,
  data = dtrain_final_3904152,
  nrounds = mejor_nrounds_3904152,
  verbose = 0
)

# Evaluación en datos_3904152
pred_final_train_3904152 <- predict(modelo_xgb_final_3904152, X_entero_3904152)
mape_final_train_3904152 <- mean(abs((y_entero_3904152 - pred_final_train_3904152) / pmax(y_entero_3904152, 0.01))) * 100
rmse_final_train_3904152 <- sqrt(mean((y_entero_3904152 - pred_final_train_3904152)^2))

# Evaluación en test_3904152
X_test_real_3904152 <- as.matrix(test_3904152[, colnames(test_3904152) != "Venta"])
y_test_real_3904152 <- test_3904152$Venta
pred_final_test_3904152 <- predict(modelo_xgb_final_3904152, X_test_real_3904152)
mape_final_test_3904152 <- mean(abs((y_test_real_3904152 - pred_final_test_3904152) / pmax(y_test_real_3904152, 0.01))) * 100
rmse_final_test_3904152 <- sqrt(mean((y_test_real_3904152 - pred_final_test_3904152)^2))

cat("Modelo Final - Producto 3904152\n")
cat("Train - MAPE:", round(mape_final_train_3904152, 2), "| RMSE:", round(rmse_final_train_3904152, 2), "\n")
cat("Test  - MAPE:", round(mape_final_test_3904152, 2),  "| RMSE:", round(rmse_final_test_3904152, 2), "\n")

```

### TABLA DE MÉTRICAS
```{r}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "XGBoost (Train)",
  MAPE = mape_final_train_3904152,
  RMSE = rmse_final_train_3904152
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "XGBoost (Test)",
  MAPE = mape_final_test_3904152,
  RMSE = rmse_final_test_3904152
))
```

## PRODUCTO 155002
### SPLIT INTERNO
```{r}
# Dividir los datos en entrenamiento (80%) y validación interna (20%)
set.seed(123)  # Para reproducibilidad

indices_train_155002 <- createDataPartition(datos_155002$Venta, p = 0.8, list = FALSE)

# Crear subconjuntos
datos_train_155002 <- datos_155002[indices_train_155002, ]
datos_test_155002  <- datos_155002[-indices_train_155002, ]

# Matrices predictoras y objetivo
X_train_155002 <- as.matrix(datos_train_155002[, colnames(datos_train_155002) != "Venta"])
y_train_155002 <- datos_train_155002$Venta

X_test_155002 <- as.matrix(datos_test_155002[, colnames(datos_test_155002) != "Venta"])
y_test_155002 <- datos_test_155002$Venta

# Convertir a formato DMatrix para XGBoost
dtrain_155002 <- xgb.DMatrix(data = X_train_155002, label = y_train_155002)
dtest_155002  <- xgb.DMatrix(data = X_test_155002, label = y_test_155002)
```

### BUSQUEDA DE HIPERPARAMETROS CON VALIDACIÓN CRUZADA
```{r}
# Crear una rejilla de combinaciones de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1),             # Tasa de aprendizaje
  max_depth = c(3, 5, 7),               # Profundidad del árbol
  subsample = c(0.8, 1.0),              # Proporción de muestras por árbol
  colsample_bytree = c(0.8, 1.0),       # Proporción de columnas por árbol
  min_child_weight = c(1, 3),           # Peso mínimo de nodos hijos
  gamma = c(0, 0.1)                     # Regularización
)

# Reducir combinaciones para eficiencia
set.seed(123)
param_grid_reducida <- param_grid[sample(1:nrow(param_grid), 10), ]

# Función para evaluar cada combinación con validación cruzada
evaluate_params_155002 <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  cv <- xgb.cv(
    params = params,
    data = dtrain_155002,    # <- usa DMatrix con datos_train_155001
    nrounds = 100,
    nfold = 5,
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  list(
    rmse = min(cv$evaluation_log$test_rmse_mean),
    nrounds = which.min(cv$evaluation_log$test_rmse_mean),
    params = params
  )
}
```

```{r}
# Evaluar todas las combinaciones
resultados_grid_155002 <- param_grid_reducida
resultados_grid_155002$nrounds <- NA
resultados_grid_155002$rmse <- NA

cat("Iniciando búsqueda de hiperparámetros para producto 155002...\n")
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  resultado <- evaluate_params_155002(param_grid_reducida[i, ])
  
  resultados_grid_155002$nrounds[i] <- resultado$nrounds
  resultados_grid_155002$rmse[i] <- resultado$rmse
}

# Ordenar por mejor RMSE
resultados_grid_155002 <- resultados_grid_155002[order(resultados_grid_155002$rmse), ]

# Mostrar las 5 mejores combinaciones
cat("\nTop 5 combinaciones de hiperparámetros (Producto 155002):\n")
print(head(resultados_grid_155002, 5))

```

### ENTRENA MODELO CON MEJORES HIPERPARÁMETROS 
```{r}
# Extraer los mejores hiperparámetros del grid
mejores_params_155002 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid_155002$eta[1],
  max_depth = resultados_grid_155002$max_depth[1],
  subsample = resultados_grid_155002$subsample[1],
  colsample_bytree = resultados_grid_155002$colsample_bytree[1],
  min_child_weight = resultados_grid_155002$min_child_weight[1],
  gamma = resultados_grid_155002$gamma[1]
)

# Número óptimo de rondas
mejor_nrounds_155002 <- resultados_grid_155002$nrounds[1]

cat("Entrenando modelo con mejores hiperparámetros...\n")
print(mejores_params_155002)
cat("Número óptimo de rondas:", mejor_nrounds_155002, "\n")

# Entrenar el modelo con los datos de split interno
modelo_xgb_155002_split <- xgb.train(
  params = mejores_params_155002,
  data = dtrain_155002,
  nrounds = mejor_nrounds_155002,
  watchlist = list(train = dtrain_155002, test = dtest_155002),
  verbose = 0
)
```

### MÉTRICAS INTERNAS
```{r}
# Métricas sobre datos_train (80%)
pred_train_split_155002 <- predict(modelo_xgb_155002_split, dtrain_155002)
mape_train_split_155002 <- mean(abs((y_train_155002 - pred_train_split_155002) / pmax(y_train_155002, 0.01))) * 100
rmse_train_split_155002 <- sqrt(mean((y_train_155002 - pred_train_split_155002)^2))

# Métricas sobre datos_test (20%)
pred_test_split_155002 <- predict(modelo_xgb_155002_split, dtest_155002)
mape_test_split_155002 <- mean(abs((y_test_155002 - pred_test_split_155002) / pmax(y_test_155002, 0.01))) * 100
rmse_test_split_155002 <- sqrt(mean((y_test_155002 - pred_test_split_155002)^2))

cat("Split Interno - Producto 155002\n")
cat("Train Split - MAPE:", round(mape_train_split_155002, 2), "| RMSE:", round(rmse_train_split_155002, 2), "\n")
cat("Test  Split - MAPE:", round(mape_test_split_155002, 2),  "| RMSE:", round(rmse_test_split_155002, 2), "\n")
```

### ENTRENAMIENTO CON DATOS COMPLETOS 
```{r}
# Preparar matrices con todos los datos
X_entero_155002 <- as.matrix(datos_155002[, colnames(datos_155002) != "Venta"])
y_entero_155002 <- datos_155002$Venta
dtrain_final_155002 <- xgb.DMatrix(data = X_entero_155002, label = y_entero_155002)

# Entrenar el modelo final
modelo_xgb_final_155002 <- xgb.train(
  params = mejores_params_155002,
  data = dtrain_final_155002,
  nrounds = mejor_nrounds_155002,
  verbose = 0
)

# Evaluación en datos_155002
pred_final_train_155002 <- predict(modelo_xgb_final_155002, X_entero_155002)
mape_final_train_155002 <- mean(abs((y_entero_155002 - pred_final_train_155002) / pmax(y_entero_155002, 0.01))) * 100
rmse_final_train_155002 <- sqrt(mean((y_entero_155002 - pred_final_train_155002)^2))

# Evaluación en test_155002
X_test_real_155002 <- as.matrix(test_155002[, colnames(test_155002) != "Venta"])
y_test_real_155002 <- test_155002$Venta
pred_final_test_155002 <- predict(modelo_xgb_final_155002, X_test_real_155002)
mape_final_test_155002 <- mean(abs((y_test_real_155002 - pred_final_test_155002) / pmax(y_test_real_155002, 0.01))) * 100
rmse_final_test_155002 <- sqrt(mean((y_test_real_155002 - pred_final_test_155002)^2))

cat("Modelo Final - Producto 155002\n")
cat("Train - MAPE:", round(mape_final_train_155002, 2), "| RMSE:", round(rmse_final_train_155002, 2), "\n")
cat("Test  - MAPE:", round(mape_final_test_155002, 2),  "| RMSE:", round(rmse_final_test_155002, 2), "\n")

```

### TABLA DE MÉTRICAS
```{r}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "XGBoost (Train)",
  MAPE = mape_final_train_155002,
  RMSE = rmse_final_train_155002
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "XGBoost (Test)",
  MAPE = mape_final_test_155002,
  RMSE = rmse_final_test_155002
))
```

## PRODUCTO 3678055
### SPLIT INTERNO
```{r}
# Dividir los datos en entrenamiento (80%) y validación interna (20%)
set.seed(123)  # Para reproducibilidad

indices_train_3678055 <- createDataPartition(datos_3678055$Venta, p = 0.8, list = FALSE)

# Crear subconjuntos
datos_train_3678055 <- datos_3678055[indices_train_3678055, ]
datos_test_3678055  <- datos_3678055[-indices_train_3678055, ]

# Matrices predictoras y objetivo
X_train_3678055 <- as.matrix(datos_train_3678055[, colnames(datos_train_3678055) != "Venta"])
y_train_3678055 <- datos_train_3678055$Venta

X_test_3678055 <- as.matrix(datos_test_3678055[, colnames(datos_test_3678055) != "Venta"])
y_test_3678055 <- datos_test_3678055$Venta

# Convertir a formato DMatrix para XGBoost
dtrain_3678055 <- xgb.DMatrix(data = X_train_3678055, label = y_train_3678055)
dtest_3678055  <- xgb.DMatrix(data = X_test_3678055, label = y_test_3678055)
```

### BUSQUEDA DE HIPERPARAMETROS CON VALIDACIÓN CRUZADA
```{r}
# Crear una rejilla de combinaciones de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1),             # Tasa de aprendizaje
  max_depth = c(3, 5, 7),               # Profundidad del árbol
  subsample = c(0.8, 1.0),              # Proporción de muestras por árbol
  colsample_bytree = c(0.8, 1.0),       # Proporción de columnas por árbol
  min_child_weight = c(1, 3),           # Peso mínimo de nodos hijos
  gamma = c(0, 0.1)                     # Regularización
)

# Reducir combinaciones para eficiencia
set.seed(123)
param_grid_reducida <- param_grid[sample(1:nrow(param_grid), 10), ]

# Función para evaluar cada combinación con validación cruzada
evaluate_params_3678055 <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  cv <- xgb.cv(
    params = params,
    data = dtrain_3678055,    # <- usa DMatrix con datos_train_155001
    nrounds = 100,
    nfold = 5,
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  list(
    rmse = min(cv$evaluation_log$test_rmse_mean),
    nrounds = which.min(cv$evaluation_log$test_rmse_mean),
    params = params
  )
}
```

```{r}
# Evaluar todas las combinaciones
resultados_grid_3678055 <- param_grid_reducida
resultados_grid_3678055$nrounds <- NA
resultados_grid_3678055$rmse <- NA

cat("Iniciando búsqueda de hiperparámetros para producto 3678055...\n")
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  resultado <- evaluate_params_3678055(param_grid_reducida[i, ])
  
  resultados_grid_3678055$nrounds[i] <- resultado$nrounds
  resultados_grid_3678055$rmse[i] <- resultado$rmse
}

# Ordenar por mejor RMSE
resultados_grid_3678055 <- resultados_grid_3678055[order(resultados_grid_3678055$rmse), ]

# Mostrar las 5 mejores combinaciones
cat("\nTop 5 combinaciones de hiperparámetros (Producto 3678055):\n")
print(head(resultados_grid_3678055, 5))

```

### ENTRENA MODELO CON MEJORES HIPERPARÁMETROS 
```{r}
# Extraer los mejores hiperparámetros del grid
mejores_params_3678055 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid_3678055$eta[1],
  max_depth = resultados_grid_3678055$max_depth[1],
  subsample = resultados_grid_3678055$subsample[1],
  colsample_bytree = resultados_grid_3678055$colsample_bytree[1],
  min_child_weight = resultados_grid_3678055$min_child_weight[1],
  gamma = resultados_grid_3678055$gamma[1]
)

# Número óptimo de rondas
mejor_nrounds_3678055 <- resultados_grid_3678055$nrounds[1]

cat("Entrenando modelo con mejores hiperparámetros...\n")
print(mejores_params_3678055)
cat("Número óptimo de rondas:", mejor_nrounds_3678055, "\n")

# Entrenar el modelo con los datos de split interno
modelo_xgb_3678055_split <- xgb.train(
  params = mejores_params_3678055,
  data = dtrain_3678055,
  nrounds = mejor_nrounds_3678055,
  watchlist = list(train = dtrain_3678055, test = dtest_3678055),
  verbose = 0
)
```

### MÉTRICAS INTERNAS
```{r}
# Métricas sobre datos_train (80%)
pred_train_split_3678055 <- predict(modelo_xgb_3678055_split, dtrain_3678055)
mape_train_split_3678055 <- mean(abs((y_train_3678055 - pred_train_split_3678055) / pmax(y_train_3678055, 0.01))) * 100
rmse_train_split_3678055 <- sqrt(mean((y_train_3678055 - pred_train_split_3678055)^2))

# Métricas sobre datos_test (20%)
pred_test_split_3678055 <- predict(modelo_xgb_3678055_split, dtest_3678055)
mape_test_split_3678055 <- mean(abs((y_test_3678055 - pred_test_split_3678055) / pmax(y_test_3678055, 0.01))) * 100
rmse_test_split_3678055 <- sqrt(mean((y_test_3678055 - pred_test_split_3678055)^2))

cat("Split Interno - Producto 3678055\n")
cat("Train Split - MAPE:", round(mape_train_split_3678055, 2), "| RMSE:", round(rmse_train_split_3678055, 2), "\n")
cat("Test  Split - MAPE:", round(mape_test_split_3678055, 2),  "| RMSE:", round(rmse_test_split_3678055, 2), "\n")
```

### ENTRENAMIENTO CON DATOS COMPLETOS 
```{r}
# Preparar matrices con todos los datos
X_entero_3678055 <- as.matrix(datos_3678055[, colnames(datos_3678055) != "Venta"])
y_entero_3678055 <- datos_3678055$Venta
dtrain_final_3678055 <- xgb.DMatrix(data = X_entero_3678055, label = y_entero_3678055)

# Entrenar el modelo final
modelo_xgb_final_3678055 <- xgb.train(
  params = mejores_params_3678055,
  data = dtrain_final_3678055,
  nrounds = mejor_nrounds_3678055,
  verbose = 0
)

# Evaluación en datos_3678055
pred_final_train_3678055 <- predict(modelo_xgb_final_3678055, X_entero_3678055)
mape_final_train_3678055 <- mean(abs((y_entero_3678055 - pred_final_train_3678055) / pmax(y_entero_3678055, 0.01))) * 100
rmse_final_train_3678055 <- sqrt(mean((y_entero_3678055 - pred_final_train_3678055)^2))

# Evaluación en test_3678055
X_test_real_3678055 <- as.matrix(test_3678055[, colnames(test_3678055) != "Venta"])
y_test_real_3678055 <- test_3678055$Venta
pred_final_test_3678055 <- predict(modelo_xgb_final_3678055, X_test_real_3678055)
mape_final_test_3678055 <- mean(abs((y_test_real_3678055 - pred_final_test_3678055) / pmax(y_test_real_3678055, 0.01))) * 100
rmse_final_test_3678055 <- sqrt(mean((y_test_real_3678055 - pred_final_test_3678055)^2))

cat("Modelo Final - Producto 3678055\n")
cat("Train - MAPE:", round(mape_final_train_3678055, 2), "| RMSE:", round(rmse_final_train_3678055, 2), "\n")
cat("Test  - MAPE:", round(mape_final_test_3678055, 2),  "| RMSE:", round(rmse_final_test_3678055, 2), "\n")

```

### TABLA DE MÉTRICAS
```{r}
metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "XGBoost (Train)",
  MAPE = mape_final_train_3678055,
  RMSE = rmse_final_train_3678055
))

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "XGBoost (Test)",
  MAPE = mape_final_test_3678055,
  RMSE = rmse_final_test_3678055
))
```

## MÉTRICAS ARMA, REG LINEAL, RANDOM FOREST Y XGBOOST
```{r}
metricas_comparativas %>%
  arrange(Producto) %>%
  knitr::kable(caption = "Métricas ARMA, Regresion Lineal, Random Forest y XGBoost por producto") %>%
  kableExtra::kable_styling(full_width = FALSE)
```


# <span style="color: black;"> VISUALIZACIÓN DE MÉTRICAS
```{r}
# Colores personalizados por tipo de modelo base
colores_modelos <- c(
  "ARMA" = "#1f77b4",
  "ARMA (Test)" = "#aec7e8",
  "Regresión Lineal (Train)" = "#ff7f0e",
  "Regresión Lineal (Test)" = "#ffbb78",
  "Random Forest (Train)" = "#2ca02c",
  "Random Forest (Test)" = "#98df8a",
  "XGBoost (Train)" = "#d62728",
  "XGBoost (Test)" = "#ff9896"
)
```
```{r}
# Obtener todos los productos únicos
productos <- unique(metricas_comparativas$Producto)

# Crear gráficos por producto
for (prod in productos) {
  datos_prod <- metricas_comparativas %>% filter(Producto == prod)
  
  # Gráfico de MAPE
  print(
    ggplot(datos_prod, aes(x = Modelo, y = MAPE, fill = Modelo)) +
      geom_bar(stat = "identity", width = 0.6) +
      geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
      scale_fill_manual(values = colores_modelos) +
      labs(
        title = paste("MAPE por modelo - Producto", prod),
        x = "", y = "MAPE (%)"
      ) +
      theme_minimal() +
      theme(
        legend.position = "none",
        axis.text.x = element_text(angle = 45, hjust = 1)
      ) +
      ylim(0, max(datos_prod$MAPE, na.rm = TRUE) * 1.1)
  )
  
  # Gráfico de RMSE
  print(
    ggplot(datos_prod, aes(x = Modelo, y = RMSE, fill = Modelo)) +
      geom_bar(stat = "identity", width = 0.6) +
      geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
      scale_fill_manual(values = colores_modelos) +
      labs(
        title = paste("RMSE por modelo - Producto", prod),
        x = "", y = "RMSE"
      ) +
      theme_minimal() +
      theme(
        legend.position = "none",
        axis.text.x = element_text(angle = 45, hjust = 1)
      ) +
      ylim(0, max(datos_prod$RMSE, na.rm = TRUE) * 1.1)
  )
}
```


# <span style="color: black;"> ESTIMACIÓN DE PRECIOS
## PREPARACIÓN DE DATOS
```{r}
prepare_price_data <- function(df, product_id) {
  product_data <- df %>%
    filter(ID_Inventario == product_id) %>%
    arrange(Trx_Fecha) %>%
    select(
      Semana,
      Precio_Lista_Unitario,
      Venta_Semana_Anterior,
      Cant_Semana_Anterior,
      Descuento_Semana_Anterior,
      Costo_Unitario_Semana_Anterior
    )

  return(product_data)
}

# Aplicar la función a todos los productos
ids <- unique(datos$ID_Inventario)

productos_preparados <- map_df(ids, function(id) {
  prepare_price_data(datos, id)
})

head(productos_preparados)
```

## PRECIOS SIMULADOS
```{r}
simular_escenarios_precio <- function(df, product_id, n = 20, semanas_a_simular = 8) {
  # Filtrar datos del producto
  data_producto <- df %>% filter(ID_Inventario == product_id)

  # Calcular rango histórico de precios (percentil 5% a 95%)
  precio_min <- quantile(data_producto$Precio_Lista_Unitario, 0.05, na.rm = TRUE)
  precio_max <- quantile(data_producto$Precio_Lista_Unitario, 0.95, na.rm = TRUE)

  # Crear vector de precios simulados
  precios_simulados <- seq(precio_min, precio_max, length.out = n)

  # Obtener última semana y fecha
  ultima_fila <- data_producto %>% arrange(desc(Semana)) %>% .[1, ]
  ultima_semana <- ultima_fila$Semana
  ultima_fecha <- ultima_fila$Trx_Fecha

  # Expandir combinaciones: semanas futuras × precios simulados
  simulacion <- expand.grid(
    Semana = ultima_semana + 1:semanas_a_simular,
    Precio_Lista_Unitario = precios_simulados
  ) %>%
    mutate(
      ID_Inventario = product_id,
      Venta_Semana_Anterior = ultima_fila$Venta_Semana_Anterior,
      Cant_Semana_Anterior = ultima_fila$Cant_Semana_Anterior,
      Descuento_Semana_Anterior = ultima_fila$Descuento_Semana_Anterior,
      Costo_Unitario_Semana_Anterior = ultima_fila$Costo_Unitario_Semana_Anterior,
      Trx_Fecha = ultima_fecha + 7 * (Semana - ultima_semana)
    )

  return(simulacion)
}

```

### APLICAR SIMULACIONES A TODOS LOS PRODUCTOS
```{r}
productos_ids <- unique(datos$ID_Inventario)  # o usa top_ids si ya los definiste

simulaciones_precio_lista <- setNames(
  lapply(productos_ids, function(id) simular_escenarios_precio(datos, id)),
  productos_ids
)
```

### ESTIMAR PRECIO ÓPTIMO POR PRODUCTO
```{r}
# Variables del modelo
columnas_modelo <- c(
  "Precio_Lista_Unitario", 
  "Venta_Semana_Anterior", 
  "Cant_Semana_Anterior", 
  "Descuento_Semana_Anterior", 
  "Costo_Unitario_Semana_Anterior", 
  "Semana"
)

# Lista de modelos entrenados
modelos_xgb_final <- list(
  "155001" = modelo_xgb_final_155001,
  "3929788" = modelo_xgb_final_3929788,
  "3904152" = modelo_xgb_final_3904152,
  "155002" = modelo_xgb_final_155002,
  "3678055" = modelo_xgb_final_3678055
)

# Inicializar listas
resultados_simulacion_completa <- list()
tabla_resumen_optimos <- list()

# Función para estimar precio óptimo para SOLO la siguiente semana
encontrar_precio_optimo <- function(product_id) {
  # Filtrar datos históricos del producto
  data_producto <- datos %>% filter(ID_Inventario == product_id)

  # Obtener última semana y última fecha
  ultima_fila <- data_producto %>% arrange(desc(Semana)) %>% slice_head(n = 1)
  ultima_semana <- ultima_fila$Semana
  ultima_fecha <- ultima_fila$Trx_Fecha

  # Simular rango de precios posibles (percentil 5% - 95%)
  precio_min <- quantile(data_producto$Precio_Lista_Unitario, 0.05, na.rm = TRUE)
  precio_max <- quantile(data_producto$Precio_Lista_Unitario, 0.95, na.rm = TRUE)
  precios_simulados <- seq(precio_min, precio_max, length.out = 20)

  # Crear tabla simulada (1 semana + 20 precios)
  simulacion <- data.frame(
    Producto = product_id,
    Semana = ultima_semana + 1,
    Precio_Lista_Unitario = precios_simulados,
    Venta_Semana_Anterior = ultima_fila$Venta_Semana_Anterior,
    Cant_Semana_Anterior = ultima_fila$Cant_Semana_Anterior,
    Descuento_Semana_Anterior = ultima_fila$Descuento_Semana_Anterior,
    Costo_Unitario_Semana_Anterior = ultima_fila$Costo_Unitario_Semana_Anterior,
    Trx_Fecha = ultima_fecha + 7
  )

  # Predecir ventas con el modelo
  X_sim <- simulacion %>% select(all_of(columnas_modelo)) %>% as.matrix()
  modelo <- modelos_xgb_final[[as.character(product_id)]]
  simulacion$Venta_Predicha <- predict(modelo, newdata = X_sim)

  # Calcular margen
  simulacion$Margen_Esperado <- simulacion$Venta_Predicha - 
    simulacion$Costo_Unitario_Semana_Anterior * simulacion$Cant_Semana_Anterior

  # Guardar simulación completa
  resultados_simulacion_completa[[as.character(product_id)]] <<- simulacion

  # Obtener precio con mayor venta esperada
  mejor_fila <- simulacion %>% filter(Venta_Predicha == max(Venta_Predicha, na.rm = TRUE)) %>% slice_head(n = 1)
  tabla_resumen_optimos[[as.character(product_id)]] <<- mejor_fila %>%
    select(Producto, Trx_Fecha, Precio_Lista_Unitario, Venta_Predicha, Margen_Esperado) %>%
    rename(
      Fecha_Simulada = Trx_Fecha,
      Precio_Optimo = Precio_Lista_Unitario,
      Venta_Esperada = Venta_Predicha
    )

  # Mostrar en consola
  cat("Producto:", product_id, "\n")
  cat("Precio óptimo:", round(mejor_fila$Precio_Lista_Unitario, 2), "\n")
  cat("Venta esperada:", round(mejor_fila$Venta_Predicha, 2), "\n")
  cat("Margen esperado:", round(mejor_fila$Margen_Esperado, 2), "\n")
  cat("Fecha simulada:", as.character(mejor_fila$Trx_Fecha), "\n\n")
}

# Ejecutar simulación para todos los productos
for (id in names(modelos_xgb_final)) {
  encontrar_precio_optimo(id)
}

# Tablas finales
tabla_simulacion_completa <- bind_rows(resultados_simulacion_completa)
tabla_precios_optimos <- bind_rows(tabla_resumen_optimos)

# Mostrar tabla resumen
print(tabla_precios_optimos)
```
### EXPORTAR A CSV
```{r}
# Exportar a CSV si deseas
write.csv(tabla_simulacion_completa, "simulaciones_todas.csv", row.names = FALSE)
write.csv(tabla_precios_optimos, "precios_optimos_resumen.csv", row.names = FALSE)
```

## SIMULACIÓN DE DIFERENTES DESCUENTOS
### ENCONTRAR DESCUENTOS RECURRENTES
```{r}
rangos_descuento <- datos %>%
  group_by(ID_Inventario) %>%
  summarise(
    Desc_min = quantile(Descuento_Semana_Anterior, 0.05, na.rm = TRUE),
    Desc_max = quantile(Descuento_Semana_Anterior, 0.95, na.rm = TRUE)
  )
```

### SIMULAR DIFERENTES DESCUENTOS A LOS PRECIOS ÓPTIMOS
```{r}
# Crear lista con simulaciones por producto
simular_descuentos <- function(product_id, modelo, precio_optimo, datos_base, n_sim = 10) {
  datos_producto <- datos_base %>% filter(ID_Inventario == as.numeric(product_id))
  
  # Última fila observada (corregido sin slice)
  ultima_fila <- datos_producto %>%
    arrange(desc(Semana)) %>%
    head(1)
  
  # Rango de descuentos históricos
  r <- rangos_descuento %>% filter(ID_Inventario == as.numeric(product_id))
  descuentos_simulados <- seq(r$Desc_min, r$Desc_max, length.out = n_sim)
  
  # Datos simulados
  simulacion <- data.frame(
    Producto = product_id,
    Precio_Lista_Unitario = precio_optimo,
    Descuento_Semana_Anterior = descuentos_simulados
  ) %>%
    mutate(
      Semana = ultima_fila$Semana + 1,
      Trx_Fecha = max(datos_producto$Trx_Fecha, na.rm = TRUE) + 7,
      Precio_Final_Unitario = Precio_Lista_Unitario * (1 - Descuento_Semana_Anterior),
      Venta_Semana_Anterior = ultima_fila$Venta_Semana_Anterior,
      Cant_Semana_Anterior = ultima_fila$Cant_Semana_Anterior,
      Costo_Unitario_Semana_Anterior = ultima_fila$Costo_Unitario_Semana_Anterior
    )
  
  # Variables usadas en el modelo
  columnas_modelo <- c(
    "Precio_Lista_Unitario",
    "Venta_Semana_Anterior",
    "Cant_Semana_Anterior",
    "Descuento_Semana_Anterior",
    "Costo_Unitario_Semana_Anterior",
    "Semana"
  )
  
  # Predicción y margen
  X_sim <- simulacion %>% select(all_of(columnas_modelo)) %>% as.matrix()
  simulacion$Venta_Predicha <- predict(modelo, newdata = X_sim)
  simulacion$Margen_Esperado <- simulacion$Venta_Predicha -
    simulacion$Costo_Unitario_Semana_Anterior * simulacion$Cant_Semana_Anterior
  
  return(simulacion)
}

```

### PREDECIR VENTA PARA CADA DESCUENTO CON MODELO DE XGBOOST
```{r}
# Generar simulaciones de descuentos para todos los productos con modelo XGBoost
simulaciones_descuentos <- bind_rows(
  lapply(names(modelos_xgb_final), function(id) {
    precio_optimo <- tabla_precios_optimos %>%
      filter(Producto == id) %>%
      pull(Precio_Optimo)

    simular_descuentos(
      product_id = id,
      modelo = modelos_xgb_final[[id]],
      precio_optimo = precio_optimo,
      datos_base = datos
    )
  })
)

# Crear tabla final para análisis o Power BI
tabla_descuentos_final <- simulaciones_descuentos %>%
  select(
    Producto,
    Precio_Lista_Unitario,
    Descuento_Semana_Anterior,
    Precio_Final_Unitario,
    Venta_Predicha,
    Margen_Esperado,
    Semana_Simulada = Semana,
    Trx_Fecha
  )

# Mostrar
print(tabla_descuentos_final)
```

### EXPORTAR A CSV
```{r}
# Exportar la tabla final de descuentos simulados
write.csv(tabla_descuentos_final, "tabla_descuentos_simulados.csv", row.names = FALSE)

cat("Archivo 'tabla_descuentos_simulados.csv' guardado exitosamente en el directorio de trabajo.\n")

```


