1 Librerias

# Librerías necesarias
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readxl)
library(purrr)
library(knitr)
#install.packages("kableExtra")
library(kableExtra)
## 
## Attaching package: 'kableExtra'
## 
## The following object is masked from 'package:dplyr':
## 
##     group_rows
library(ggplot2)
#install.packages("igraph")
library(igraph)
## 
## Attaching package: 'igraph'
## 
## The following objects are masked from 'package:lubridate':
## 
##     %--%, union
## 
## The following objects are masked from 'package:dplyr':
## 
##     as_data_frame, groups, union
## 
## The following objects are masked from 'package:purrr':
## 
##     compose, simplify
## 
## The following object is masked from 'package:tidyr':
## 
##     crossing
## 
## The following object is masked from 'package:tibble':
## 
##     as_data_frame
## 
## The following objects are masked from 'package:stats':
## 
##     decompose, spectrum
## 
## The following object is masked from 'package:base':
## 
##     union
#install.packages("forecast")
#install.packages("lubridate")
library(forecast)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(lubridate)
library(corrplot)
## corrplot 0.95 loaded
library(RColorBrewer)
#install.packages("ggcorrplot")
library(ggcorrplot)
library(caret)
## Loading required package: lattice
## 
## Attaching package: 'caret'
## 
## The following object is masked from 'package:purrr':
## 
##     lift
library(car)
## Loading required package: carData
## 
## Attaching package: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
library(randomForest)
## randomForest 4.7-1.2
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attaching package: 'randomForest'
## 
## The following object is masked from 'package:dplyr':
## 
##     combine
## 
## The following object is masked from 'package:ggplot2':
## 
##     margin
#install.packages("xgboost")
library(xgboost)
## 
## Attaching package: 'xgboost'
## 
## The following object is masked from 'package:dplyr':
## 
##     slice
#install.packages("patchwork")
library(patchwork)

2 Carga de datos

library(readxl)
library(dplyr)
library(lubridate)

# Leer datos
datos <- read_excel("/Users/oscarcastanedagarcia/Downloads/IA con impacto empresarial/filtered_data.xlsx") %>%
  mutate(Trx_Fecha = as.Date(Trx_Fecha))

# Partición temporal
train <- datos %>% filter(Trx_Fecha >= as.Date("2023-01-01") & Trx_Fecha < as.Date("2024-10-01"))
test  <- datos %>% filter(Trx_Fecha >= as.Date("2024-10-01") & Trx_Fecha <= as.Date("2024-12-31"))

# Validación rápida
summary(train$Trx_Fecha)
##         Min.      1st Qu.       Median         Mean      3rd Qu.         Max. 
## "2023-01-02" "2023-06-21" "2023-11-30" "2023-12-01" "2024-05-16" "2024-09-30"
summary(test$Trx_Fecha)
##         Min.      1st Qu.       Median         Mean      3rd Qu.         Max. 
## "2024-10-02" "2024-10-23" "2024-11-13" "2024-11-13" "2024-12-04" "2024-12-31"
# Obtener los 5 productos más vendidos (por valor)
top_ids <- datos %>%
  group_by(ID_Inventario) %>%
  summarise(Ventas_Totales = sum(Venta, na.rm = TRUE)) %>%
  arrange(desc(Ventas_Totales)) %>%
  slice_head(n = 5) %>%
  pull(ID_Inventario)

print("Top 5 productos más vendidos (ID_Inventario):")
## [1] "Top 5 productos más vendidos (ID_Inventario):"
print(top_ids)
## [1]  155001 3929788 3904152  155002 3678055
# Filtrar datos válidos
datos_filtrados <- train %>%
  filter(ID_Inventario %in% top_ids) %>%
  filter(!is.na(Precio_Final_Unitario))

# Contar observaciones por producto
conteo <- datos_filtrados %>%
  count(ID_Inventario, sort = TRUE)

print("Número de registros por producto en datos_filtrados:")
## [1] "Número de registros por producto en datos_filtrados:"
print(conteo)
## # A tibble: 5 × 2
##   ID_Inventario     n
##           <dbl> <int>
## 1       3929788 11997
## 2        155001  7669
## 3        155002  5146
## 4       3904152  2275
## 5       3678055  1442
# Verifica si hay suficientes datos
if (nrow(datos_filtrados) == 0) {
  stop("No hay datos suficientes luego de filtrar por top_ids y precios válidos.")
}
# Combinaciones de pares
productos <- unique(datos_filtrados$ID_Inventario)
pares_productos <- combn(productos, 2, simplify = FALSE)

# Inicializar resultados
resultados_ks <- map_df(pares_productos, function(par) {
  prod1 <- par[1]
  prod2 <- par[2]
  
  precios1 <- datos_filtrados %>%
    filter(ID_Inventario == prod1) %>%
    pull(Precio_Final_Unitario)
  
  precios2 <- datos_filtrados %>%
    filter(ID_Inventario == prod2) %>%
    pull(Precio_Final_Unitario)
  
  print(paste("Comparando productos", prod1, "vs", prod2))
  print(paste("Cantidad de precios:", length(precios1), "y", length(precios2)))
  
  if (length(precios1) >= 5 & length(precios2) >= 5) {
    prueba <- suppressWarnings(ks.test(precios1, precios2))
    data.frame(
      Producto_1 = prod1,
      Producto_2 = prod2,
      D = round(prueba$statistic, 4),
      p_value = round(prueba$p.value, 4),
      Conclusion = ifelse(prueba$p.value > 0.05, "Distribuciones similares", "Distribuciones diferentes")
    )
  } else {
    data.frame(
      Producto_1 = prod1,
      Producto_2 = prod2,
      D = NA,
      p_value = NA,
      Conclusion = "Datos insuficientes"
    )
  }
})
## [1] "Comparando productos 155001 vs 3929788"
## [1] "Cantidad de precios: 7669 y 11997"
## [1] "Comparando productos 155001 vs 155002"
## [1] "Cantidad de precios: 7669 y 5146"
## [1] "Comparando productos 155001 vs 3904152"
## [1] "Cantidad de precios: 7669 y 2275"
## [1] "Comparando productos 155001 vs 3678055"
## [1] "Cantidad de precios: 7669 y 1442"
## [1] "Comparando productos 3929788 vs 155002"
## [1] "Cantidad de precios: 11997 y 5146"
## [1] "Comparando productos 3929788 vs 3904152"
## [1] "Cantidad de precios: 11997 y 2275"
## [1] "Comparando productos 3929788 vs 3678055"
## [1] "Cantidad de precios: 11997 y 1442"
## [1] "Comparando productos 155002 vs 3904152"
## [1] "Cantidad de precios: 5146 y 2275"
## [1] "Comparando productos 155002 vs 3678055"
## [1] "Cantidad de precios: 5146 y 1442"
## [1] "Comparando productos 3904152 vs 3678055"
## [1] "Cantidad de precios: 2275 y 1442"
print("Resultados de la prueba KS:")
## [1] "Resultados de la prueba KS:"
print(resultados_ks)
##        Producto_1 Producto_2      D p_value                Conclusion
## D...1      155001    3929788 1.0000       0 Distribuciones diferentes
## D...2      155001     155002 0.0488       0 Distribuciones diferentes
## D...3      155001    3904152 1.0000       0 Distribuciones diferentes
## D...4      155001    3678055 1.0000       0 Distribuciones diferentes
## D...5     3929788     155002 1.0000       0 Distribuciones diferentes
## D...6     3929788    3904152 1.0000       0 Distribuciones diferentes
## D...7     3929788    3678055 1.0000       0 Distribuciones diferentes
## D...8      155002    3904152 1.0000       0 Distribuciones diferentes
## D...9      155002    3678055 1.0000       0 Distribuciones diferentes
## D...10    3904152    3678055 1.0000       0 Distribuciones diferentes
try(dev.off(), silent = TRUE)
## null device 
##           1
# Filtrar los productos
df_155001 <- datos_filtrados %>%
  filter(ID_Inventario == 155001) %>%
  select(Precio_Final_Unitario) %>%
  mutate(Producto = "155001")

df_155002 <- datos_filtrados %>%
  filter(ID_Inventario == 155002) %>%
  select(Precio_Final_Unitario) %>%
  mutate(Producto = "155002")

# Unir en un solo dataframe
df_ecdf <- bind_rows(df_155001, df_155002)

# Graficar ECDF
ggplot(df_ecdf, aes(x = Precio_Final_Unitario, color = Producto)) +
  stat_ecdf(geom = "step", size = 1) +
  labs(title = "ECDF de Precio Final Unitario: Productos 155001 vs 155002",
       x = "Precio Final Unitario",
       y = "Función de Distribución Acumulada (ECDF)",
       color = "Producto") +
  theme_minimal(base_size = 14)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

3 ARMA

4 PREDICCIONES DE VENTAS

4.1 PRODUCTO 155001

# Producto 155001
id_prod <- 155001

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 155001
Producto Modelo MAPE RMSE
155001 ARMA 19.23659 253085.2

4.2 PRODUCTO 3929788

# Producto 3929788

id_prod <- 3929788

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
mse <- mean((serie_ts - fitted_values)^2)

# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE  = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3929788
Producto Modelo MAPE RMSE
2 3929788 ARMA 12.3378 253085.2

4.3 PRODUCTO 3904152

# Producto 3904152
id_prod <- 3904152

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3904152
Producto Modelo MAPE RMSE
3 3904152 ARMA 14.91903 155842.3

4.4 PRODUCTO 155002

# Producto 155002
id_prod <- 155002

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 155002
Producto Modelo MAPE RMSE
4 155002 ARMA 33.55621 235419.9

4.5 PRODUCTO 3678055

# Producto 3678055
id_prod <- 3678055

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))

# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3678055
Producto Modelo MAPE RMSE
5 3678055 ARMA 22.32809 175375.1

5 REGRESION LINEAL

5.1 MAPA DE CALOR

# Variables numéricas relevantes
vars_numericas <- c("Cant", "Venta", "Costo_Venta",
                    "Precio_Final_Unitario", "Descuento_Porcentaje")

# Preparación de los datos
datos_cor <- datos_filtrados %>%
  select(all_of(vars_numericas)) %>%
  na.omit()

# Generar la matriz de correlación
matriz_cor <- cor(datos_cor)

# Ajuste del gráfico sin mar
ggcorrplot(matriz_cor,
           method = "square",
           type = "upper",
           lab = TRUE, 
           lab_size = 2,                   # Mejor tamaño de los coeficientes
           tl.cex = 10,                    # Tamaño de etiquetas más grande
           tl.srt = 45,                    # Rotación de 45° de etiquetas
           colors = c("#6D9EC1", "white", "#E46726"),
           title = "Mapa de Correlación - Variables Numéricas",
           ggtheme = theme_minimal(base_size = 14) +
             theme(
               axis.text.x = element_text(angle = 45, hjust = 1),
               axis.text.y = element_text(angle = 0, hjust = 1))
)

5.2 PRODUCTO 155001

# Filtrar solo los datos para el producto 155001
datos_155001 <- datos_filtrados %>%
  filter(ID_Inventario == 155001) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_155001 <- datos_155001 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_155001)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  1187.     2       1194.                  594.                 85.8 2023-02-09
## 2 21280     40      23874.                  532                  87.3 2023-02-09
## 3 15960     30      17906.                  532                  87.3 2023-02-16
## 4 31920     60      35811.                  532                  87.3 2023-02-16
## 5  2968      5       2570.                  594.                 85.8 2023-02-20
## 6  1187.     2        958.                  594.                 85.8 2023-02-25
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Filtrar solo los datos para el producto 155001
test_155001 <- test %>%
  filter(ID_Inventario == 155001) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit() %>%
  mutate(
    Fecha = as.Date(floor_date(Trx_Fecha, "month")),
    Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)
  )

# Verificar
head(test_155001)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  4536     9       3801.                   504                 91   2024-10-08
## 2 17640    35      14782.                   504                 91   2024-10-08
## 3  9240    20       8447.                   462                 91.8 2024-10-08
## 4  4032     8       3379.                   504                 91   2024-10-08
## 5  7350    15       6336.                   490                 91.2 2024-10-10
## 6  1008     2        845.                   504                 91   2024-10-10
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155001)

# Ver resumen del modelo
summary(modelo_regresion_155001)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_155001)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11512.1   -107.6     38.0     86.6  26600.8 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -3.647e+03  1.362e+03  -2.677  0.00745 ** 
## Cant                   1.813e+02  3.469e+00  52.255  < 2e-16 ***
## Costo_Venta            6.035e-01  9.413e-03  64.120  < 2e-16 ***
## Precio_Final_Unitario  2.880e+00  3.082e-01   9.346  < 2e-16 ***
## Descuento_Porcentaje   2.786e+01  1.390e+01   2.004  0.04510 *  
## Tiempo                -4.150e+05  1.973e+05  -2.104  0.03543 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 750.7 on 7663 degrees of freedom
## Multiple R-squared:  0.9868, Adjusted R-squared:  0.9868 
## F-statistic: 1.143e+05 on 5 and 7663 DF,  p-value: < 2.2e-16
# Ajustar el modelo de regresión lineal
modelo_regresion_155001_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_155001)

# Ver resumen del modelo
summary(modelo_regresion_155001_test)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = test_155001)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1160.96   -88.67   -40.17    32.41  1402.28 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -1.544e+04  1.011e+04  -1.527 0.127159    
## Cant                   6.952e+02  3.124e+01  22.256  < 2e-16 ***
## Costo_Venta           -5.240e-01  7.440e-02  -7.043 3.79e-12 ***
## Precio_Final_Unitario  6.658e+00  1.755e+00   3.795 0.000158 ***
## Descuento_Porcentaje   1.338e+02  1.017e+02   1.316 0.188645    
## Tiempo                -1.810e+06  1.276e+06  -1.419 0.156281    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 193.4 on 884 degrees of freedom
## Multiple R-squared:  0.9995, Adjusted R-squared:  0.9995 
## F-statistic: 3.328e+05 on 5 and 884 DF,  p-value: < 2.2e-16
# Ajuste del modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155001)

# Predicciones usando el modelo ajustado
predicciones_155001 <- predict(modelo_regresion_155001, newdata = datos_155001)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_155001 <- mean(abs((datos_155001$Venta - predicciones_155001) / datos_155001$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_155001 <- sqrt(mean((datos_155001$Venta - predicciones_155001)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155001 (train data): ", mape_155001, "\n")
## MAPE del modelo de regresión lineal para 155001 (train data):  13.66606
cat("RMSE del modelo de regresión lineal para 155001 (train data): ", rmse_155001, "\n")
## RMSE del modelo de regresión lineal para 155001 (train data):  750.419
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155001)

# Ajuste del modelo de regresión lineal
modelo_regresion_155001_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_155001)

# Predicciones usando el modelo ajustado
predicciones_155001_test <- predict(modelo_regresion_155001_test, newdata = test_155001)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_155001_test <- mean(abs((test_155001$Venta - predicciones_155001_test) / test_155001$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_155001_test <- sqrt(mean((test_155001$Venta - predicciones_155001_test)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155001 (test data): ", mape_155001_test, "\n")
## MAPE del modelo de regresión lineal para 155001 (test data):  8.668306
cat("RMSE del modelo de regresión lineal para 155001 (test data): ", rmse_155001_test, "\n")
## RMSE del modelo de regresión lineal para 155001 (test data):  192.789
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155001_test)

# Inicializar el data.frame correctamente con todas las columnas esperadas
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

# Asegúrate de que las métricas existen y son numéricas
print(mape_155001_test)
## [1] 8.668306
print(rmse_155001_test)
## [1] 192.789
# Crear la nueva fila
nueva_fila <- data.frame(
  Producto = "155001",
  Modelo = "Regresión Lineal",
  MAPE = mape_155001_test,
  RMSE = rmse_155001_test,
  stringsAsFactors = FALSE
)

# Confirmar que las columnas coinciden
print(names(metricas_comparativas))
## [1] "Producto" "Modelo"   "MAPE"     "RMSE"
print(names(nueva_fila))
## [1] "Producto" "Modelo"   "MAPE"     "RMSE"
# Agregar la nueva fila
metricas_comparativas <- rbind(metricas_comparativas, nueva_fila)

# Verificar resultado
print(metricas_comparativas)
##   Producto           Modelo      MAPE       RMSE
## 1   155001             ARMA 19.236587 253085.203
## 2  3929788             ARMA 12.337802 253085.203
## 3  3904152             ARMA 14.919034 155842.280
## 4   155002             ARMA 33.556214 235419.911
## 5  3678055             ARMA 22.328087 175375.134
## 6   155001 Regresión Lineal  8.668306    192.789

5.3 PRODUCTO 3929788

# Filtrar solo los datos para el producto 3929788
datos_3929788 <- datos_filtrados %>%
  filter(ID_Inventario == 3929788) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_3929788 <- datos_3929788 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3929788)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1   364     10        254.                  36.4                 60   2023-02-03
## 2   242.     6        167.                  40.3                 60   2023-02-23
## 3   697.    15        506.                  46.5                 48.9 2023-02-01
## 4 13020    300      10110.                  43.4                 52.3 2023-02-03
## 5  2170     50       1685.                  43.4                 52.3 2023-02-07
## 6   434     10        337.                  43.4                 52.3 2023-02-08
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Filtrar solo los datos para el producto 155001
test_3929788 <- test %>%
  filter(ID_Inventario == 3929788) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit() %>%
  mutate(
    Fecha = as.Date(floor_date(Trx_Fecha, "month")),
    Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)
  )

# Verificar
head(test_3929788)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  697.    16        484.                  43.6                 60   2024-10-04
## 2 3116.    70       2119.                  44.5                 59.1 2024-10-12
## 3 1307.    30        908.                  43.6                 60   2024-10-14
## 4  436.    10        303.                  43.6                 60   2024-10-21
## 5 1736     40       1211.                  43.4                 60.2 2024-10-29
## 6 1862     35       1522.                  53.2                 51.2 2024-10-02
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3929788 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                              data = datos_3929788)

# Ver resumen del modelo
summary(modelo_regresion_3929788)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3929788)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4293.6   -78.7   -45.5    25.8  3411.6 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            5.875e+01  1.792e+02   0.328  0.74311    
## Cant                   3.342e+00  2.676e-01  12.489  < 2e-16 ***
## Costo_Venta            1.070e+00  8.920e-03 119.985  < 2e-16 ***
## Precio_Final_Unitario  5.819e+00  1.783e+00   3.263  0.00111 ** 
## Descuento_Porcentaje  -2.972e+00  1.859e+00  -1.599  0.10987    
## Tiempo                 1.520e+04  5.306e+04   0.287  0.77445    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 217.7 on 11991 degrees of freedom
## Multiple R-squared:  0.9952, Adjusted R-squared:  0.9952 
## F-statistic: 4.974e+05 on 5 and 11991 DF,  p-value: < 2.2e-16
# Ajustar el modelo de regresión lineal
modelo_regresion_3929788_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3929788)

# Ver resumen del modelo
summary(modelo_regresion_3929788_test)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = test_3929788)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2961.66   -58.44   -42.50    19.43  1815.57 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            7.604e+04  2.351e+04   3.234  0.00124 ** 
## Cant                   5.662e+00  5.792e-01   9.776  < 2e-16 ***
## Costo_Venta            1.072e+00  1.840e-02  58.281  < 2e-16 ***
## Precio_Final_Unitario -6.925e+02  2.159e+02  -3.208  0.00136 ** 
## Descuento_Porcentaje  -7.631e+02  2.351e+02  -3.246  0.00119 ** 
## Tiempo                 3.006e+05  4.245e+05   0.708  0.47894    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 167.7 on 1714 degrees of freedom
## Multiple R-squared:  0.9958, Adjusted R-squared:  0.9958 
## F-statistic: 8.078e+04 on 5 and 1714 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3929788 <- predict(modelo_regresion_3929788, newdata = datos_3929788)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3929788 <- mean(abs((datos_3929788$Venta - predicciones_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100

# Calcular MSE (Mean Squared Error)
rmse_3929788 <- sqrt(mean((datos_3929788$Venta - predicciones_3929788)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3929788 (train data): ", mape_3929788, "\n")
## MAPE del modelo de regresión lineal para 3929788 (train data):  22.76398
cat("RMSE del modelo de regresión lineal para 3929788 (train data): ", rmse_3929788, "\n")
## RMSE del modelo de regresión lineal para 3929788 (train data):  217.6829
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3929788)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3929788,
  RMSE = rmse_3929788
))
# Ajuste del modelo de regresión lineal
modelo_regresion_3929788_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3929788)

# Predicciones usando el modelo ajustado
predicciones_3929788_test <- predict(modelo_regresion_3929788_test, newdata = test_3929788)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_3929788_test <- mean(abs((test_3929788$Venta - predicciones_3929788_test) / test_3929788$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_3929788_test <- sqrt(mean((test_3929788$Venta - predicciones_3929788_test)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3929788 (test data): ", mape_3929788_test, "\n")
## MAPE del modelo de regresión lineal para 3929788 (test data):  16.03039
cat("RMSE del modelo de regresión lineal para 3929788 (test data): ", rmse_3929788_test, "\n")
## RMSE del modelo de regresión lineal para 3929788 (test data):  167.3956
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3929788_test)

5.4 PRODUCTO 3904152

# Filtrar solo los datos para el producto 3904152
datos_3904152 <- datos_filtrados %>%
  filter(ID_Inventario == 3904152) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_3904152 <- datos_3904152 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3904152)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  3402     1       2462.                  3402                 62.4 2023-02-02
## 2  9240     3       7382.                  3080                 66.0 2023-02-13
## 3  3402     1       2461.                  3402                 62.4 2023-02-14
## 4  3402     1       2462.                  3402                 62.4 2023-02-22
## 5  3402     1       2462.                  3402                 62.4 2023-02-27
## 6 30800    10      24563.                  3080                 66.0 2023-02-10
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Filtrar solo los datos para el producto 155001
test_3904152 <- test %>%
  filter(ID_Inventario == 3904152) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit() %>%
  mutate(
    Fecha = as.Date(floor_date(Trx_Fecha, "month")),
    Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)
  )

# Verificar
head(test_3904152)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  3556     1       2389.                  3556                 64.7 2024-10-03
## 2  3556     1       2389.                  3556                 64.7 2024-10-03
## 3  3556     1       2476.                  3556                 64.7 2024-10-10
## 4  6720     2       4947.                  3360                 66.6 2024-10-09
## 5  3556     1       2473.                  3556                 64.7 2024-10-11
## 6  3556     1       2473.                  3556                 64.7 2024-10-14
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3904152 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_3904152)

# Ver resumen del modelo
summary(modelo_regresion_3904152)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3904152)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6959.8  -130.9    -6.0   120.4  3001.7 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            4.936e+03  1.379e+03   3.579 0.000352 ***
## Cant                  -7.447e+01  8.108e+01  -0.918 0.358496    
## Costo_Venta            1.316e+00  3.454e-02  38.102  < 2e-16 ***
## Precio_Final_Unitario  6.564e-01  1.438e-01   4.565 5.26e-06 ***
## Descuento_Porcentaje  -1.090e+02  1.460e+01  -7.464 1.19e-13 ***
## Tiempo                 2.523e+06  1.528e+05  16.511  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 371.5 on 2269 degrees of freedom
## Multiple R-squared:  0.9988, Adjusted R-squared:  0.9988 
## F-statistic: 3.895e+05 on 5 and 2269 DF,  p-value: < 2.2e-16
# Ajustar el modelo de regresión lineal
modelo_regresion_3904152_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3904152)

# Ver resumen del modelo
summary(modelo_regresion_3904152_test)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = test_3904152)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1103.33  -116.88     6.33    99.88  1029.64 
## 
## Coefficients: (1 not defined because of singularities)
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -5.552e+03  3.387e+02 -16.395   <2e-16 ***
## Cant                   3.681e+03  1.761e+02  20.901   <2e-16 ***
## Costo_Venta           -1.521e-01  6.865e-02  -2.216   0.0275 *  
## Precio_Final_Unitario  1.654e+00  9.659e-02  17.124   <2e-16 ***
## Descuento_Porcentaje          NA         NA      NA       NA    
## Tiempo                 3.435e+06  1.509e+06   2.277   0.0236 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 211.1 on 276 degrees of freedom
## Multiple R-squared:  0.9994, Adjusted R-squared:  0.9994 
## F-statistic: 1.096e+05 on 4 and 276 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3904152 <- predict(modelo_regresion_3904152, newdata = datos_3904152)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3904152 <- mean(abs((datos_3904152$Venta - predicciones_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100

# Calcular MSE (Mean Squared Error)
rmse_3904152 <- sqrt(mean((datos_3904152$Venta - predicciones_3904152)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3904152 (train data): ", mape_3904152, "\n")
## MAPE del modelo de regresión lineal para 3904152 (train data):  3.298787
cat("RMSE del modelo de regresión lineal para 3904152 (train data): ", rmse_3904152, "\n")
## RMSE del modelo de regresión lineal para 3904152 (train data):  371.0529
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3904152)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3904152,
  RMSE = rmse_3904152
))
# Ajuste del modelo de regresión lineal
modelo_regresion_3904152_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3904152)

# Predicciones usando el modelo ajustado
predicciones_3904152_test <- predict(modelo_regresion_3904152_test, newdata = test_3904152)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_3904152_test <- mean(abs((test_3904152$Venta - predicciones_3904152_test) / test_3904152$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_3904152_test <- sqrt(mean((test_3904152$Venta - predicciones_3904152_test)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3904152 (test data): ", mape_3904152_test, "\n")
## MAPE del modelo de regresión lineal para 3904152 (test data):  2.097418
cat("RMSE del modelo de regresión lineal para 3904152 (test data): ", rmse_3904152_test, "\n")
## RMSE del modelo de regresión lineal para 3904152 (test data):  209.1719
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3904152_test)

5.5 PRODUCTO 155002

# Filtrar solo los datos para el producto 155002
datos_155002 <- datos_filtrados %>%
  filter(ID_Inventario == 155002) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_155002 <- datos_155002 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_155002)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1 5320     10       8247.                  532                  87.3 2023-02-09
## 2 5320     10       8247.                  532                  87.3 2023-02-20
## 3 2660      5       4124.                  532                  87.3 2023-02-28
## 4  630      1        519.                  630                  85.0 2023-02-02
## 5 1120      2       1037.                  560                  86.6 2023-02-03
## 6 1537.     3       1556.                  512.                 87.8 2023-02-07
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Filtrar solo los datos para el producto 155001
test_155002 <- test %>%
  filter(ID_Inventario == 155002) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit() %>%
  mutate(
    Fecha = as.Date(floor_date(Trx_Fecha, "month")),
    Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)
  )

# Verificar
head(test_155002)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  1008     2        830.                   504                 91   2024-10-04
## 2  2310     5       2076.                   462                 91.8 2024-10-08
## 3  2450     5       2076.                   490                 91.2 2024-10-16
## 4  2310     5       2086.                   462                 91.8 2024-10-21
## 5  4900    10       4167.                   490                 91.2 2024-10-31
## 6 13860    30      12656.                   462                 91.8 2024-10-02
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155002 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155002)

# Ver resumen del modelo
summary(modelo_regresion_155002)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_155002)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##  -8478   -135     51    120  46880 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.353e+03  2.248e+03   0.602   0.5473    
## Cant                   3.044e+02  3.951e+00  77.061  < 2e-16 ***
## Costo_Venta            2.602e-01  9.988e-03  26.049  < 2e-16 ***
## Precio_Final_Unitario  3.432e+00  4.934e-01   6.956 3.93e-12 ***
## Descuento_Porcentaje  -3.166e+01  2.300e+01  -1.376   0.1688    
## Tiempo                 5.214e+05  3.018e+05   1.727   0.0842 .  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 890.3 on 5140 degrees of freedom
## Multiple R-squared:  0.9675, Adjusted R-squared:  0.9675 
## F-statistic: 3.064e+04 on 5 and 5140 DF,  p-value: < 2.2e-16
# Ajustar el modelo de regresión lineal
modelo_regresion_155002_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_155002)

# Ver resumen del modelo
summary(modelo_regresion_155002_test)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = test_155002)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -568.05  -67.17  -20.80   49.31  749.84 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.855e+04  8.751e+03   2.120 0.034394 *  
## Cant                   5.730e+02  2.938e+01  19.504  < 2e-16 ***
## Costo_Venta           -2.398e-01  6.955e-02  -3.448 0.000605 ***
## Precio_Final_Unitario  1.195e-01  1.507e+00   0.079 0.936853    
## Descuento_Porcentaje  -2.038e+02  8.809e+01  -2.313 0.021061 *  
## Tiempo                 3.313e+06  1.092e+06   3.034 0.002515 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 142.5 on 600 degrees of freedom
## Multiple R-squared:  0.9997, Adjusted R-squared:  0.9997 
## F-statistic: 3.841e+05 on 5 and 600 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_155002 <- predict(modelo_regresion_155002, newdata = datos_155002)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_155002 <- mean(abs((datos_155002$Venta - predicciones_155002) / pmax(datos_155002$Venta, 0.01))) * 100

# Calcular RMSE (Root Mean Squared Error)
rmse_155002 <- sqrt(mean((datos_155002$Venta - predicciones_155002)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155002 (train data): ", mape_155002, "\n")
## MAPE del modelo de regresión lineal para 155002 (train data):  18.14239
cat("RMSE del modelo de regresión lineal para 155002 (train data): ", rmse_155002, "\n")
## RMSE del modelo de regresión lineal para 155002 (train data):  889.8286
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155002)

# Ajuste del modelo de regresión lineal
modelo_regresion_155002_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_155002)

# Predicciones usando el modelo ajustado
predicciones_155002_test <- predict(modelo_regresion_155002_test, newdata = test_155002)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_155002_test <- mean(abs((test_155002$Venta - predicciones_155002_test) / test_155002$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_155002_test <- sqrt(mean((test_155002$Venta - predicciones_155002_test)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155002 (test data): ", mape_155002_test, "\n")
## MAPE del modelo de regresión lineal para 155002 (test data):  6.503138
cat("RMSE del modelo de regresión lineal para 155002 (test data): ", rmse_155002_test, "\n")
## RMSE del modelo de regresión lineal para 155002 (test data):  141.8191
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155002_test)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_155002,
  RMSE = rmse_155002
  ))

5.6 PRODUCTO 3678055

# Filtrar solo los datos para el producto 3678055
datos_3678055 <- datos_filtrados %>%
  filter(ID_Inventario == 3678055) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_3678055 <- datos_3678055 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3678055)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1 36358      7      28807.                 5194                  65.9 2023-02-13
## 2  5670      1       4213.                 5670                  62.8 2023-02-22
## 3 10773      2       8232.                 5386.                 64.7 2023-02-08
## 4  5670      1       4116.                 5670                  62.8 2023-02-09
## 5  5386.     1       4156.                 5386.                 64.7 2023-02-16
## 6  5386.     1       4213.                 5386.                 64.7 2023-02-22
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Filtrar solo los datos para el producto 155001
test_3678055 <- test %>%
  filter(ID_Inventario == 3678055) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit() %>%
  mutate(
    Fecha = as.Date(floor_date(Trx_Fecha, "month")),
    Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60)
  )

# Verificar
head(test_3678055)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje Trx_Fecha 
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl> <date>    
## 1  5936     1       3943.                  5936                 65.0 2024-10-03
## 2 11872     2       8374.                  5936                 65.0 2024-10-09
## 3 11872     2       8374.                  5936                 65.0 2024-10-15
## 4  5936     1       3854.                  5936                 65.0 2024-10-11
## 5  5936     1       3854.                  5936                 65.0 2024-10-23
## 6 20608     4      15415.                  5152                 69.6 2024-10-31
## # ℹ 2 more variables: Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3678055 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_3678055)

# Ver resumen del modelo
summary(modelo_regresion_3678055)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3678055)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3691.7  -164.8    -9.3   173.9  3792.6 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            3.089e+03  1.934e+03   1.597     0.11    
## Cant                   1.007e+03  1.979e+02   5.090 4.06e-07 ***
## Costo_Venta            1.046e+00  5.040e-02  20.764  < 2e-16 ***
## Precio_Final_Unitario  8.544e-01  1.242e-01   6.881 8.85e-12 ***
## Descuento_Porcentaje  -1.169e+02  2.017e+01  -5.797 8.31e-09 ***
## Tiempo                 2.283e+06  2.130e+05  10.718  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 449 on 1436 degrees of freedom
## Multiple R-squared:  0.9977, Adjusted R-squared:  0.9977 
## F-statistic: 1.234e+05 on 5 and 1436 DF,  p-value: < 2.2e-16
# Ajustar el modelo de regresión lineal
modelo_regresion_3678055_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3678055)

# Ver resumen del modelo
summary(modelo_regresion_3678055_test)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = test_3678055)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1028.08  -177.32    23.09   138.07  2130.24 
## 
## Coefficients: (1 not defined because of singularities)
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -9.649e+03  5.265e+02 -18.327  < 2e-16 ***
## Cant                   4.509e+03  2.864e+02  15.744  < 2e-16 ***
## Costo_Venta            2.701e-01  6.394e-02   4.225 3.54e-05 ***
## Precio_Final_Unitario  1.699e+00  9.070e-02  18.729  < 2e-16 ***
## Descuento_Porcentaje          NA         NA      NA       NA    
## Tiempo                -6.787e+06  2.856e+06  -2.376   0.0184 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 323.2 on 213 degrees of freedom
## Multiple R-squared:  0.999,  Adjusted R-squared:  0.999 
## F-statistic: 5.217e+04 on 4 and 213 DF,  p-value: < 2.2e-16
#Predicciones usando el modelo ajustado
predicciones_3678055 <- predict(modelo_regresion_3678055, newdata = datos_3678055)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3678055 <- mean(abs((datos_3678055$Venta - predicciones_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100

# Calcular RMSE (Root Mean Squared Error)

rmse_3678055 <- mean((datos_3678055$Venta - predicciones_3678055)^2)

# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3678055 (train data): ", mape_3678055, "\n")
## MAPE del modelo de regresión lineal para 3678055 (train data):  2.899461
cat("RMSE del modelo de regresión lineal para 3678055 (train data): ", rmse_3678055, "\n")
## RMSE del modelo de regresión lineal para 3678055 (train data):  200797.3
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3678055)

# Ajuste del modelo de regresión lineal
modelo_regresion_3678055_test <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = test_3678055)

# Predicciones usando el modelo ajustado
predicciones_3678055_test <- predict(modelo_regresion_3678055_test, newdata = test_3678055)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_3678055_test <- mean(abs((test_3678055$Venta - predicciones_3678055_test) / test_3678055$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_3678055_test <- sqrt(mean((test_3678055$Venta - predicciones_3678055_test)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3678055 (test data): ", mape_3678055_test, "\n")
## MAPE del modelo de regresión lineal para 3678055 (test data):  2.159551
cat("RMSE del modelo de regresión lineal para 3678055 (test data): ", rmse_3678055_test, "\n")
## RMSE del modelo de regresión lineal para 3678055 (test data):  319.427
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3678055_test)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3678055,
  RMSE = rmse_3678055
))

5.7 ANALISIS DE VARIABLES IMPORTANTES

# Función simplificada para analizar coeficientes
analizar_coeficientes <- function(modelo, nombre_producto) {
  resumen <- summary(modelo)
  coef_df <- as.data.frame(resumen$coefficients)
  colnames(coef_df) <- c("Estimate", "Std.Error", "t.value", "p.value")
  coef_df$Variable <- rownames(coef_df)
  coef_df$Producto <- nombre_producto
  coef_df$Significativo <- ifelse(coef_df$p.value < 0.05, "Sí", "No")
  
  return(coef_df %>%
           select(Producto, Variable, Estimate, p.value, Significativo) %>%
           arrange(desc(abs(Estimate))))
}

# Aplicar a cada modelo
coef_155001 <- analizar_coeficientes(modelo_regresion_155001, "155001")
coef_155002 <- analizar_coeficientes(modelo_regresion_155002, "155002")
coef_3678055 <- analizar_coeficientes(modelo_regresion_3678055, "3678055")
coef_3904152 <- analizar_coeficientes(modelo_regresion_3904152, "3904152")
coef_3929788 <- analizar_coeficientes(modelo_regresion_3929788, "3929788")

# Combinar todos los coeficientes
todos_coeficientes <- bind_rows(coef_155001, coef_155002, coef_3678055, coef_3904152, coef_3929788)

# Tabla con variables importantes incluyendo significancia
variables_importantes <- todos_coeficientes %>%
  filter(Variable != "(Intercept)") %>%
  group_by(Producto) %>%
  arrange(Producto, desc(abs(Estimate))) %>%
  mutate(Impacto = ifelse(Estimate > 0, "Positivo", "Negativo"))

# Tabla completa con todas las variables importantes
kable(variables_importantes %>% 
        select(Producto, Variable, Estimate, p.value, Significativo, Impacto),
      caption = "Variables importantes por producto",
      col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
      digits = c(0, 0, 4, 4, 0, 0)) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Variables importantes por producto
Producto Variable Coeficiente p-value Significativo Impacto
155001 Tiempo -415043.4262 0.0354 Negativo
155001 Cant 181.2904 0.0000 Positivo
155001 Descuento_Porcentaje 27.8634 0.0451 Positivo
155001 Precio_Final_Unitario 2.8801 0.0000 Positivo
155001 Costo_Venta 0.6035 0.0000 Positivo
155002 Tiempo 521359.6070 0.0842 No Positivo
155002 Cant 304.4423 0.0000 Positivo
155002 Descuento_Porcentaje -31.6568 0.1688 No Negativo
155002 Precio_Final_Unitario 3.4319 0.0000 Positivo
155002 Costo_Venta 0.2602 0.0000 Positivo
3678055 Tiempo 2283221.4176 0.0000 Positivo
3678055 Cant 1007.0933 0.0000 Positivo
3678055 Descuento_Porcentaje -116.9320 0.0000 Negativo
3678055 Costo_Venta 1.0465 0.0000 Positivo
3678055 Precio_Final_Unitario 0.8544 0.0000 Positivo
3904152 Tiempo 2522894.4915 0.0000 Positivo
3904152 Descuento_Porcentaje -108.9532 0.0000 Negativo
3904152 Cant -74.4699 0.3585 No Negativo
3904152 Costo_Venta 1.3162 0.0000 Positivo
3904152 Precio_Final_Unitario 0.6564 0.0000 Positivo
3929788 Tiempo 15204.6827 0.7744 No Positivo
3929788 Precio_Final_Unitario 5.8190 0.0011 Positivo
3929788 Cant 3.3425 0.0000 Positivo
3929788 Descuento_Porcentaje -2.9717 0.1099 No Negativo
3929788 Costo_Venta 1.0702 0.0000 Positivo
# Tabla resumen con top 3 por producto
top_por_producto <- variables_importantes %>%
  group_by(Producto) %>%
  slice_head(n = 3) %>%
  select(Producto, Variable, Estimate, p.value, Significativo, Impacto)

kable(top_por_producto,
      caption = "Top 3 variables más importantes por producto",
      col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
      digits = c(0, 0, 4, 4, 0, 0)) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Top 3 variables más importantes por producto
Producto Variable Coeficiente p-value Significativo Impacto
155001 Tiempo -415043.4262 0.0354 Negativo
155001 Cant 181.2904 0.0000 Positivo
155001 Descuento_Porcentaje 27.8634 0.0451 Positivo
155002 Tiempo 521359.6070 0.0842 No Positivo
155002 Cant 304.4423 0.0000 Positivo
155002 Descuento_Porcentaje -31.6568 0.1688 No Negativo
3678055 Tiempo 2283221.4176 0.0000 Positivo
3678055 Cant 1007.0933 0.0000 Positivo
3678055 Descuento_Porcentaje -116.9320 0.0000 Negativo
3904152 Tiempo 2522894.4915 0.0000 Positivo
3904152 Descuento_Porcentaje -108.9532 0.0000 Negativo
3904152 Cant -74.4699 0.3585 No Negativo
3929788 Tiempo 15204.6827 0.7744 No Positivo
3929788 Precio_Final_Unitario 5.8190 0.0011 Positivo
3929788 Cant 3.3425 0.0000 Positivo

6 RANDOM FOREST

6.1 PRODUCTO 155001

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
  select(-Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155001 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155001)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 2132474
##                     % Var explained: 94.99
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_155001, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (train data) 155001\n")
## Modelo Random Forest para producto (train data) 155001
cat("MAPE del modelo Random Forest (train data) :", mape_rf, "\n")
## MAPE del modelo Random Forest (train data) : 0.701904
cat("RMSE del modelo Random Forest (train data):", rmse_rf, "\n\n")
## RMSE del modelo Random Forest (train data): 527761.9
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155001)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  32.049700  142609614365
## Costo_Venta           32.806424  155679567124
## Precio_Final_Unitario  3.320283    5492277697
## Descuento_Porcentaje   3.444756    8703102472
## Trx_Fecha              4.332390    6840504795
## Tiempo                 2.631392    2908631295
# Graficar importancia de variables
varImpPlot(modelo_rf_155001, main = "Importancia de Variables - Producto 155001 (train data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155001 (train data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155001 (train data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (train data):\n")
## Estadísticas descriptivas de los errores (train data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 12.21121
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 726.4169
cat("Mínimo:", min(errores), "\n")
## Mínimo: -3411.861
cat("Máximo:", max(errores), "\n")
## Máximo: 51561.52
cat("Mediana:", median(errores), "\n")
## Mediana: -0.2979223
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155001 (train data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo_test_155001 <- test_155001

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155001_test <- randomForest(
  Venta ~ ., 
  data = datos_modelo_test_155001,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo_test_155001) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155001_test)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo_test_155001,      ntree = 500, mtry = floor(sqrt(ncol(datos_modelo_test_155001) -          1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 4283536
##                     % Var explained: 93.88
# Obtener predicciones
predicciones_rf_test_155001 <- predict(modelo_rf_155001_test, newdata = datos_modelo_test_155001)

# Calcular métricas
# MAPE
mape_rf_test_155001 <- mean(abs((datos_modelo_test_155001$Venta - predicciones_rf_test_155001) / pmax(datos_modelo_test_155001$Venta, 0.01))) * 100

# RMSE
rmse_rf_test_155001 <- mean((datos_modelo_test_155001$Venta - predicciones_rf_test_155001)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (test data) 155001\n")
## Modelo Random Forest para producto (test data) 155001
cat("MAPE del modelo Random Forest (test data):", mape_rf_test_155001, "\n")
## MAPE del modelo Random Forest (test data): 6.752892
cat("RMSE del modelo Random Forest (test data):", rmse_rf_test_155001, "\n\n")
## RMSE del modelo Random Forest (test data): 1504360
# Mostrar importancia de variables
importancia_vars_test_155001 <- importance(modelo_rf_155001_test)
print(importancia_vars_test_155001)
##                         %IncMSE IncNodePurity
## Cant                  24.884496   25265243000
## Costo_Venta           23.487860   23491898884
## Precio_Final_Unitario  7.505503    3655275964
## Descuento_Porcentaje  10.537405    5173846466
## Trx_Fecha              5.822356    1702459467
## Fecha                  4.647490     654964906
## Tiempo                 5.252892     717457809
# Graficar importancia de variables
varImpPlot(modelo_rf_155001_test, main = "Importancia de Variables - Producto 155001 (test data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico_test_155001 <- data.frame(
  Observado = datos_modelo_test_155001$Venta,
  Predicho = predicciones_rf_test_155001
)

ggplot(datos_grafico_test_155001, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155001 (test data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores_test_155001 <- datos_grafico_test_155001$Observado - datos_grafico_test_155001$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155001 (test data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (test data):\n")
## Estadísticas descriptivas de los errores (test data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 12.21121
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 726.4169
cat("Mínimo:", min(errores), "\n")
## Mínimo: -3411.861
cat("Máximo:", max(errores), "\n")
## Máximo: 51561.52
cat("Mediana:", median(errores), "\n")
## Mediana: -0.2979223
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_test_155001, Error = errores_test_155001), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155001 (test data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf
))

6.2 PRODUCTO 3929788

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
  select(-Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3929788 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3929788)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 39829.87
##                     % Var explained: 99.6
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3929788, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE

rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3929788\n")
## Modelo Random Forest para producto 3929788
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.9817282
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 94.54023
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3929788)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  34.565424   56405206014
## Costo_Venta           33.824097   54221433004
## Precio_Final_Unitario  3.120182    1650599061
## Descuento_Porcentaje   8.901095    4380202612
## Trx_Fecha              2.128393     785310884
## Tiempo                 4.468018     345594151
# Graficar importancia de variables
varImpPlot(modelo_rf_3929788, main = "Importancia de Variables - Producto 3929788")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3929788",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3929788",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3929788",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo_test_3929788 <- test_3929788

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3929788_test <- randomForest(
  Venta ~ ., 
  data = datos_modelo_test_3929788,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo_test_3929788) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3929788_test)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo_test_3929788,      ntree = 500, mtry = floor(sqrt(ncol(datos_modelo_test_3929788) -          1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 877596.5
##                     % Var explained: 86.77
# Obtener predicciones
predicciones_rf_test_3929788 <- predict(modelo_rf_3929788_test, newdata = datos_modelo_test_3929788)

# Calcular métricas
# MAPE
mape_rf_test_3929788 <- mean(abs((datos_modelo_test_3929788$Venta - predicciones_rf_test_3929788) / pmax(datos_modelo_test_3929788$Venta, 0.01))) * 100

# RMSE
rmse_rf_test_3929788 <- mean((datos_modelo_test_3929788$Venta - predicciones_rf_test_3929788)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (test data) 3929788\n")
## Modelo Random Forest para producto (test data) 3929788
cat("MAPE del modelo Random Forest (test data):", mape_rf_test_3929788, "\n")
## MAPE del modelo Random Forest (test data): 8.976429
cat("RMSE del modelo Random Forest (test data):", rmse_rf_test_3929788, "\n\n")
## RMSE del modelo Random Forest (test data): 158673
# Mostrar importancia de variables
importancia_vars_test_3929788 <- importance(modelo_rf_3929788_test)
print(importancia_vars_test_3929788)
##                         %IncMSE IncNodePurity
## Cant                  30.794654    4614065401
## Costo_Venta           34.166523    5188019152
## Precio_Final_Unitario  5.479426     393910118
## Descuento_Porcentaje   5.175467     544306760
## Trx_Fecha              1.968545     155625591
## Fecha                  2.613152      43299897
## Tiempo                 1.924918      45550324
# Graficar importancia de variables
varImpPlot(modelo_rf_3929788_test, main = "Importancia de Variables - Producto 3929788 (test data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico_test_3929788 <- data.frame(
  Observado = datos_modelo_test_3929788$Venta,
  Predicho = predicciones_rf_test_3929788
)

ggplot(datos_grafico_test_3929788, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3929788 (test data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores_test_3929788 <- datos_grafico_test_3929788$Observado - datos_grafico_test_3929788$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3929788 (test data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (test data):\n")
## Estadísticas descriptivas de los errores (test data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 1.599261
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 94.53064
cat("Mínimo:", min(errores), "\n")
## Mínimo: -2370.319
cat("Máximo:", max(errores), "\n")
## Máximo: 4297.056
cat("Mediana:", median(errores), "\n")
## Mediana: -0.1006844
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_test_3929788, Error = errores_test_3929788), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3929788 (test data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),

    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.3 PRODUCTO 3904152

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3904152 %>%
  select(-Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3904152 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3904152)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 1578218
##                     % Var explained: 98.67
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3904152, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3904152\n")
## Modelo Random Forest para producto 3904152
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.5437703
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 629.1225
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3904152)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  29.924235  124309165376
## Costo_Venta           30.983250  128110656598
## Precio_Final_Unitario  3.806059    4793475902
## Descuento_Porcentaje   4.101713    6809288283
## Trx_Fecha              5.740053    2814351997
## Tiempo                 6.736106    1284898509
# Graficar importancia de variables
varImpPlot(modelo_rf_3904152, main = "Importancia de Variables - Producto 3904152")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3904152",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3904152",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo_test_3904152 <- test_3904152

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3904152_test <- randomForest(
  Venta ~ ., 
  data = datos_modelo_test_3904152,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo_test_3904152) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3904152_test)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo_test_3904152,      ntree = 500, mtry = floor(sqrt(ncol(datos_modelo_test_3904152) -          1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 6427763
##                     % Var explained: 90.75
# Obtener predicciones
predicciones_rf_test_3904152 <- predict(modelo_rf_3904152_test, newdata = datos_modelo_test_3904152)

# Calcular métricas
# MAPE
mape_rf_test_3904152 <- mean(abs((datos_modelo_test_3904152$Venta - predicciones_rf_test_3904152) / pmax(datos_modelo_test_3904152$Venta, 0.01))) * 100

# RMSE
rmse_rf_test_3904152 <- mean((datos_modelo_test_3904152$Venta - predicciones_rf_test_3904152)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (test data) 3904152\n")
## Modelo Random Forest para producto (test data) 3904152
cat("MAPE del modelo Random Forest (test data):", mape_rf_test_3904152, "\n")
## MAPE del modelo Random Forest (test data): 2.735045
cat("RMSE del modelo Random Forest (test data):", rmse_rf_test_3904152, "\n\n")
## RMSE del modelo Random Forest (test data): 1458227
# Mostrar importancia de variables
importancia_vars_test_3904152 <- importance(modelo_rf_3904152_test)
print(importancia_vars_test_3904152)
##                         %IncMSE IncNodePurity
## Cant                  26.293581    7714057450
## Costo_Venta           27.344374    7726767513
## Precio_Final_Unitario  5.102386    1204434919
## Descuento_Porcentaje   4.775149    1488830133
## Trx_Fecha              4.482390     544654133
## Fecha                  3.454133     105678549
## Tiempo                 3.154488      81959045
# Graficar importancia de variables
varImpPlot(modelo_rf_3904152_test, main = "Importancia de Variables - Producto 3904152 (test data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico_test_3904152 <- data.frame(
  Observado = datos_modelo_test_3904152$Venta,
  Predicho = predicciones_rf_test_3904152
)

ggplot(datos_grafico_test_3904152, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3904152 (test data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores_test_3904152 <- datos_grafico_test_3904152$Observado - datos_grafico_test_3904152$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3904152 (test data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (test data):\n")
## Estadísticas descriptivas de los errores (test data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 16.49376
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 629.0445
cat("Mínimo:", min(errores), "\n")
## Mínimo: -14109.35
cat("Máximo:", max(errores), "\n")
## Máximo: 13054.65
cat("Mediana:", median(errores), "\n")
## Mediana: -2.867313
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_test_3904152, Error = errores_test_3904152), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152 (test data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),

    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))
# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),

    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.4 PRODUCTO 155002

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155002 %>%
  select(-Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155002 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155002)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 716053.3
##                     % Var explained: 97.06
# Obtener predicciones
predicciones_rf_155002 <- predict(modelo_rf_155002, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf_155002) / pmax(datos_modelo$Venta, 0.01))) * 100

# MSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf_155002)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 155002\n")
## Modelo Random Forest para producto 155002
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.9725775
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 361.6748
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155002)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  35.801353   60291286951
## Costo_Venta           31.171652   55323271976
## Precio_Final_Unitario  6.171213    2709627912
## Descuento_Porcentaje   6.037915    4341557629
## Trx_Fecha              5.018121    1517973856
## Tiempo                 2.846029     620446866
# Graficar importancia de variables
varImpPlot(modelo_rf_155002, main = "Importancia de Variables - Producto 155002")

# Crear gráfico de valores observados vs predicciones
datos_grafico_155002 <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf_155002
)

ggplot(datos_grafico_155002, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores_155002 <- datos_grafico_155002$Observado - datos_grafico_155002$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155002",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_155002, Error = errores_155002), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155002",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo_test_155002 <- test_155002

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155002_test <- randomForest(
  Venta ~ ., 
  data = datos_modelo_test_155002,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo_test_155002) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155002_test)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo_test_155002,      ntree = 500, mtry = floor(sqrt(ncol(datos_modelo_test_155002) -          1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 5361660
##                     % Var explained: 91.67
# Obtener predicciones
predicciones_rf_test_155002 <- predict(modelo_rf_155002_test, newdata = datos_modelo_test_155002)

# Calcular métricas
# MAPE
mape_rf_test_155002 <- mean(abs((datos_modelo_test_155002$Venta - predicciones_rf_test_155002) / pmax(datos_modelo_test_155002$Venta, 0.01))) * 100

# RMSE
rmse_rf_test_155002 <- mean((datos_modelo_test_155002$Venta - predicciones_rf_test_155002)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (test data) 155002\n")
## Modelo Random Forest para producto (test data) 155002
cat("MAPE del modelo Random Forest (test data):", mape_rf_test_155002, "\n")
## MAPE del modelo Random Forest (test data): 6.83582
cat("RMSE del modelo Random Forest (test data):", rmse_rf_test_155002, "\n\n")
## RMSE del modelo Random Forest (test data): 1150814
# Mostrar importancia de variables
importancia_vars_test_155002 <- importance(modelo_rf_155002_test)
print(importancia_vars_test_155002)
##                         %IncMSE IncNodePurity
## Cant                  19.711191   13818251523
## Costo_Venta           20.955367   15476170247
## Precio_Final_Unitario 10.526501    2850184809
## Descuento_Porcentaje  13.230897    4090345702
## Trx_Fecha              6.048552    1151039268
## Fecha                  3.537532     191735335
## Tiempo                 3.249559     249388442
# Graficar importancia de variables
varImpPlot(modelo_rf_155002_test, main = "Importancia de Variables - Producto 155002 (test data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico_test_155002 <- data.frame(
  Observado = datos_modelo_test_155002$Venta,
  Predicho = predicciones_rf_test_155002
)

ggplot(datos_grafico_test_155002, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002 (test data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores_test_155002 <- datos_grafico_test_155002$Observado - datos_grafico_test_155002$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155002 (test data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (test data):\n")
## Estadísticas descriptivas de los errores (test data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 16.49376
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 629.0445
cat("Mínimo:", min(errores), "\n")
## Mínimo: -14109.35
cat("Máximo:", max(errores), "\n")
## Máximo: 13054.65
cat("Mediana:", median(errores), "\n")
## Mediana: -2.867313
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_test_155002, Error = errores_test_155002), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152 (test data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155002
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.5 PRODUCTO 3678055

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3678055 %>%
  select(-Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3678055 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3678055)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 1475556
##                     % Var explained: 98.29
# Obtener predicciones
predicciones_rf_3678055 <- predict(modelo_rf_3678055, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf_3678055) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf_3678055)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3678055\n")
## Modelo Random Forest para producto 3678055
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.4065828
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 577.2374
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3678055)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  32.842295   58196243223
## Costo_Venta           32.920184   59308904779
## Precio_Final_Unitario  3.539369    1414924238
## Descuento_Porcentaje   3.885702    2121109333
## Trx_Fecha              4.718997    2136228519
## Tiempo                 4.865764    1056056197
# Graficar importancia de variables
varImpPlot(modelo_rf_3678055, main = "Importancia de Variables - Producto 3678055")

# Crear gráfico de valores observados vs predicciones
datos_grafico_3678055 <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf_3678055
)

ggplot(datos_grafico_3678055, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3678055",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores_3678055 <- datos_grafico_3678055$Observado - datos_grafico_3678055$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3678055",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_3678055, Error = errores_3678055), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3678055",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf
))
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo_test_3678055 <- test_3678055

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3678055_test <- randomForest(
  Venta ~ ., 
  data = datos_modelo_test_3678055,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo_test_3678055) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3678055_test)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo_test_3678055,      ntree = 500, mtry = floor(sqrt(ncol(datos_modelo_test_3678055) -          1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 2890691
##                     % Var explained: 97.11
# Obtener predicciones
predicciones_rf_test_3678055 <- predict(modelo_rf_3678055_test, newdata = datos_modelo_test_3678055)

# Calcular métricas
# MAPE
mape_rf_test_3678055 <- mean(abs((datos_modelo_test_3678055$Venta - predicciones_rf_test_3678055) / pmax(datos_modelo_test_3678055$Venta, 0.01))) * 100

# RMSE
rmse_rf_test_3678055 <- mean((datos_modelo_test_3678055$Venta - predicciones_rf_test_3678055)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto (test data) 3678055\n")
## Modelo Random Forest para producto (test data) 3678055
cat("MAPE del modelo Random Forest (test data):", mape_rf_test_3678055, "\n")
## MAPE del modelo Random Forest (test data): 2.418527
cat("RMSE del modelo Random Forest (test data):", rmse_rf_test_3678055, "\n\n")
## RMSE del modelo Random Forest (test data): 834319.4
# Mostrar importancia de variables
importancia_vars_test_3678055 <- importance(modelo_rf_3678055_test)
print(importancia_vars_test_3678055)
##                         %IncMSE IncNodePurity
## Cant                  25.475995    9197163081
## Costo_Venta           26.561093    9644126047
## Precio_Final_Unitario  5.935788     627250059
## Descuento_Porcentaje   5.339095     582778911
## Trx_Fecha              6.973089     703148145
## Fecha                  2.953230     111547021
## Tiempo                 3.757128     110131277
# Graficar importancia de variables
varImpPlot(modelo_rf_3678055_test, main = "Importancia de Variables - Producto 3678055 (test data)")

# Crear gráfico de valores observados vs predicciones
datos_grafico_test_3678055 <- data.frame(
  Observado = datos_modelo_test_3678055$Venta,
  Predicho = predicciones_rf_test_3678055
)

ggplot(datos_grafico_test_3678055, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002 (test data)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores_test_3678055 <- datos_grafico_test_3678055$Observado - datos_grafico_test_3678055$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3678055 (test data)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores (test data):\n")
## Estadísticas descriptivas de los errores (test data):
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 16.49376
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 629.0445
cat("Mínimo:", min(errores), "\n")
## Mínimo: -14109.35
cat("Máximo:", max(errores), "\n")
## Máximo: 13054.65
cat("Mediana:", median(errores), "\n")
## Mediana: -2.867313
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf_test_3678055, Error = errores_test_3678055), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3678055 (test data)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

7 XGBOOST

7.1 PRODUCTO 155001

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
  select(-Trx_Fecha, -Fecha)

# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
indices_train <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
datos_train <- datos_modelo[indices_train, ]
datos_test <- datos_modelo[-indices_train, ]

# Separar variables predictoras y variable objetivo
X_train <- as.matrix(datos_train[, colnames(datos_train) != "Venta"])
y_train <- datos_train$Venta

X_test <- as.matrix(datos_test[, colnames(datos_test) != "Venta"])
y_test <- datos_test$Venta

# Crear matrices DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest <- xgb.DMatrix(data = X_test, label = y_test)

# Definir una rejilla completa de hiperparámetros para búsqueda
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),         # Learning rate
  max_depth = c(3, 5, 7, 9),             # Profundidad máxima
  subsample = c(0.6, 0.8, 1.0),          # Submuestra de observaciones
  colsample_bytree = c(0.6, 0.8, 1.0),   # Submuestra de variables
  min_child_weight = c(1, 3, 5),         # Peso mínimo en nodos hijos
  gamma = c(0, 0.1, 0.3)                 # Regularización gamma
)

# Mostrar cuántas combinaciones tenemos
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n")
## Número total de combinaciones de hiperparámetros: 1296
# Para este ejemplo, vamos a limitar el número de combinaciones
# Seleccionando un subconjunto aleatorio de combinaciones (20 combinaciones)
set.seed(123)
if (nrow(param_grid) > 20) {
  muestra_indices <- sample(1:nrow(param_grid), 20)
  param_grid_reducida <- param_grid[muestra_indices, ]
} else {
  param_grid_reducida <- param_grid
}

cat("Número de combinaciones a evaluar:", nrow(param_grid_reducida), "\n")
## Número de combinaciones a evaluar: 20
# Función para evaluar un conjunto de hiperparámetros con validación cruzada
evaluate_params <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  # Realizar validación cruzada
  cv_results <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 100,
    nfold = 5,  # 5-fold validación cruzada
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  # Extraer el mejor RMSE y el número óptimo de rondas
  best_rmse <- min(cv_results$evaluation_log$test_rmse_mean)
  best_nrounds <- which.min(cv_results$evaluation_log$test_rmse_mean)
  
  return(list(rmse = best_rmse, nrounds = best_nrounds, params = params))
}

# Inicializar tabla para almacenar resultados
resultados_grid <- data.frame(
  eta = numeric(nrow(param_grid_reducida)),
  max_depth = numeric(nrow(param_grid_reducida)),
  subsample = numeric(nrow(param_grid_reducida)),
  colsample_bytree = numeric(nrow(param_grid_reducida)),
  min_child_weight = numeric(nrow(param_grid_reducida)),
  gamma = numeric(nrow(param_grid_reducida)),
  nrounds = numeric(nrow(param_grid_reducida)),
  rmse = numeric(nrow(param_grid_reducida))
)

# Realizar la búsqueda en cuadrícula (esto puede tardar varios minutos)
cat("Iniciando búsqueda en cuadrícula...\n")
## Iniciando búsqueda en cuadrícula...
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  # Obtener fila de parámetros actual
  params_row <- param_grid_reducida[i, ]
  
  # Evaluar combinación actual
  result <- evaluate_params(params_row)
  
  # Guardar resultados
  resultados_grid$eta[i] <- params_row$eta
  resultados_grid$max_depth[i] <- params_row$max_depth
  resultados_grid$subsample[i] <- params_row$subsample
  resultados_grid$colsample_bytree[i] <- params_row$colsample_bytree
  resultados_grid$min_child_weight[i] <- params_row$min_child_weight
  resultados_grid$gamma[i] <- params_row$gamma
  resultados_grid$nrounds[i] <- result$nrounds
  resultados_grid$rmse[i] <- result$rmse
}
## Evaluando combinación 1 de 20
## Evaluando combinación 2 de 20
## Evaluando combinación 3 de 20
## Evaluando combinación 4 de 20
## Evaluando combinación 5 de 20
## Evaluando combinación 6 de 20
## Evaluando combinación 7 de 20
## Evaluando combinación 8 de 20
## Evaluando combinación 9 de 20
## Evaluando combinación 10 de 20
## Evaluando combinación 11 de 20
## Evaluando combinación 12 de 20
## Evaluando combinación 13 de 20
## Evaluando combinación 14 de 20
## Evaluando combinación 15 de 20
## Evaluando combinación 16 de 20
## Evaluando combinación 17 de 20
## Evaluando combinación 18 de 20
## Evaluando combinación 19 de 20
## Evaluando combinación 20 de 20
# Ordenar resultados por RMSE (de menor a mayor)
resultados_grid <- resultados_grid[order(resultados_grid$rmse), ]

# Mostrar los 5 mejores conjuntos de hiperparámetros
cat("\nLos 5 mejores conjuntos de hiperparámetros:\n")
## 
## Los 5 mejores conjuntos de hiperparámetros:
print(head(resultados_grid, 5))
##     eta max_depth subsample colsample_bytree min_child_weight gamma nrounds
## 2  0.10         9       0.8              0.6                1   0.1     100
## 6  0.05         7       0.8              0.8                1   0.3     100
## 20 0.05         7       0.8              0.6                1   0.0     100
## 4  0.05         9       1.0              0.8                1   0.1     100
## 10 0.05         9       0.8              0.6                3   0.3     100
##        rmse
## 2  1032.425
## 6  1144.109
## 20 1200.149
## 4  1204.508
## 10 1238.920
# Obtener los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid$eta[1],
  max_depth = resultados_grid$max_depth[1],
  subsample = resultados_grid$subsample[1],
  colsample_bytree = resultados_grid$colsample_bytree[1],
  min_child_weight = resultados_grid$min_child_weight[1],
  gamma = resultados_grid$gamma[1]
)

mejor_nrounds <- resultados_grid$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.1
## 
## $max_depth
## [1] 9
## 
## $subsample
## [1] 0.8
## 
## $colsample_bytree
## [1] 0.6
## 
## $min_child_weight
## [1] 1
## 
## $gamma
## [1] 0.1
cat("Número óptimo de rondas:", mejor_nrounds, "\n")
## Número óptimo de rondas: 100
cat("RMSE en validación cruzada:", resultados_grid$rmse[1], "\n\n")
## RMSE en validación cruzada: 1032.425
# Entrenar el modelo final con los mejores hiperparámetros
modelo_xgb_155001 <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

# Hacer predicciones en el conjunto de prueba
predicciones_test_155001 <- predict(modelo_xgb_155001, dtest)

# Calcular métricas en el conjunto de prueba
# MAPE
mape_test_155001 <- mean(abs((y_test - predicciones_test_155001) / pmax(y_test, 0.01))) * 100

# RMSE
rmse_test_155001 <- sqrt(mean((y_test - predicciones_test_155001)^2))


# Mostrar las métricas en el conjunto de prueba
cat("Métricas en el conjunto de prueba:\n")
## Métricas en el conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test_155001, "\n")
## MAPE del modelo XGBoost: 3.305494
cat("RMSE del modelo XGBoost:", rmse_test_155001, "\n\n")
## RMSE del modelo XGBoost: 320.9938
# Ahora hacer predicciones en el conjunto completo para comparabilidad con otros modelos
X_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completas_155001 <- predict(modelo_xgb_155001, X_completo)
# Calcular métricas en el conjunto completo
# MAPE
mape_completo_155001 <- mean(abs((datos_modelo$Venta - predicciones_completas_155001) / pmax(datos_modelo$Venta, 0.01))) * 100

# MSE
rmse_completo_155001 <- sqrt(mean((datos_modelo$Venta - predicciones_completas_155001)^2))



# Mostrar las métricas en el conjunto completo
cat("Métricas en el conjunto completo:\n")
## Métricas en el conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo_155001, "\n")
## MAPE del modelo XGBoost: 2.272554
cat("RMSE del modelo XGBoost:", rmse_completo_155001, "\n\n")
## RMSE del modelo XGBoost: 159.1664
# Importancia de variables
importancia <- xgb.importance(
  feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
  model = modelo_xgb_155001
)
print(importancia)
##                  Feature        Gain      Cover Frequency
##                   <char>       <num>      <num>     <num>
## 1:                  Cant 0.643088769 0.25864707 0.1777807
## 2:           Costo_Venta 0.341281261 0.32864829 0.2788744
## 3: Precio_Final_Unitario 0.006372213 0.15682701 0.2129901
## 4:  Descuento_Porcentaje 0.005465607 0.15812397 0.1789811
## 5:                Tiempo 0.003792151 0.09775366 0.1513737
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia, 
                   main = "Importancia de Variables - Producto 155001 (XGBoost)")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_completas_155001
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155001 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155001 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_completas_155001, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155001 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo_155001,
  RMSE = rmse_completo_155001

))

7.2 PRODUCTO 3929788

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
  select(-Trx_Fecha, -Fecha)

# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]

# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta

test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta

# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)

# Definir la rejilla de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),
  max_depth = c(3, 6, 9),
  min_child_weight = c(1, 3, 5),
  subsample = c(0.7, 0.9),
  colsample_bytree = c(0.7, 0.9),
  gamma = c(0, 0.1, 0.3)
)

cat("Grid Search para XGBoost - Producto 3929788\n")
## Grid Search para XGBoost - Producto 3929788
cat("Número total de combinaciones:", nrow(param_grid), "\n\n")
## Número total de combinaciones: 432
# Limitar a 12 combinaciones aleatorias
set.seed(456)
if (nrow(param_grid) > 12) {
  selected_indices <- sample(1:nrow(param_grid), 12)
  param_grid <- param_grid[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Implementar Grid Search
resultados <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = param_grid$eta[i],
    max_depth = param_grid$max_depth[i],
    min_child_weight = param_grid$min_child_weight[i],
    subsample = param_grid$subsample[i],
    colsample_bytree = param_grid$colsample_bytree[i],
    gamma = param_grid$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid), "\n")
  
  cv_model <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 200,
    nfold = 5,
    early_stopping_rounds = 20,
    verbose = 0
  )
  
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  resultado_actual <- data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  )
  
  resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 
## Evaluando combinación 2 de 12 
## Evaluando combinación 3 de 12 
## Evaluando combinación 4 de 12 
## Evaluando combinación 5 de 12 
## Evaluando combinación 6 de 12 
## Evaluando combinación 7 de 12 
## Evaluando combinación 8 de 12 
## Evaluando combinación 9 de 12 
## Evaluando combinación 10 de 12 
## Evaluando combinación 11 de 12 
## Evaluando combinación 12 de 12
# Ordenar por menor RMSE
resultados <- resultados[order(resultados$rmse_cv), ]

# Mostrar top resultados
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 2  0.10         9                3       0.9              0.9   0.3     194
## 5  0.10         6                5       0.9              0.9   0.1     199
## 10 0.10         9                1       0.9              0.7   0.3     200
## 9  0.05         6                3       0.7              0.9   0.3     200
## 4  0.30         9                5       0.7              0.9   0.1     200
## 11 0.05         6                3       0.7              0.9   0.0     200
## 12 0.10         3                3       0.9              0.7   0.3     200
## 8  0.10         3                3       0.7              0.7   0.1     200
## 7  0.05         3                5       0.9              0.7   0.1     200
## 3  0.05         3                1       0.9              0.7   0.0     200
## 6  0.01         6                5       0.9              0.9   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
##     rmse_cv
## 2  122.6098
## 5  124.9375
## 10 127.9715
## 9  128.0007
## 4  132.5968
## 11 135.6303
## 12 142.0943
## 8  147.5475
## 7  164.1518
## 3  168.5773
## 6  555.0874
## 1  576.2904
# Graficar resultados
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 3929788",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Seleccionar mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados$eta[1],
  max_depth = resultados$max_depth[1],
  min_child_weight = resultados$min_child_weight[1],
  subsample = resultados$subsample[1],
  colsample_bytree = resultados$colsample_bytree[1],
  gamma = resultados$gamma[1]
)

mejor_nrounds <- resultados$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.1
## 
## $max_depth
## [1] 9
## 
## $min_child_weight
## [1] 3
## 
## $subsample
## [1] 0.9
## 
## $colsample_bytree
## [1] 0.9
## 
## $gamma
## [1] 0.3
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 194
# Entrenar modelo final
cat("Entrenando modelo final con los mejores hiperparámetros...\n")
## Entrenando modelo final con los mejores hiperparámetros...
modelo_final <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

# Evaluar en datos completos
X_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
dcompleto <- xgb.DMatrix(data = X_completo)
predicciones_completas <- predict(modelo_final, newdata = dcompleto)

# Métricas finales
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completas) / pmax(datos_modelo$Venta, 0.01))) * 100
rmse_completo <- sqrt(mean((datos_modelo$Venta - predicciones_completas)^2))

cat("Evaluación final en todo el conjunto:\n")
## Evaluación final en todo el conjunto:
cat("MAPE:", mape_completo, "\n")
## MAPE: 0.8136359
cat("RMSE:", rmse_completo, "\n\n")
## RMSE: 46.33887
# Graficar resultados
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_completas
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3929788 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis de errores
errores <- datos_modelo$Venta - predicciones_completas

# Histograma de errores
hist(errores, 
     main = "Distribución de Errores - Producto 3929788 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Error vs predicción
ggplot(data.frame(Predicho = predicciones_completas, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3929788 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

7.3 PRODUCTO 3904152

# Paso 1: Preparar datos
datos_modelo_3904152 <- datos_3904152 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: Dividir en entrenamiento y prueba (80/20)
set.seed(123)
train_index_3904152 <- createDataPartition(datos_modelo_3904152$Venta, p = 0.8, list = FALSE)
train_data_3904152 <- datos_modelo_3904152[train_index_3904152, ]
test_data_3904152 <- datos_modelo_3904152[-train_index_3904152, ]

# Paso 3: Preparar matrices
train_x_3904152 <- as.matrix(train_data_3904152[, colnames(train_data_3904152) != "Venta"])
train_y_3904152 <- train_data_3904152$Venta
test_x_3904152 <- as.matrix(test_data_3904152[, colnames(test_data_3904152) != "Venta"])
test_y_3904152 <- test_data_3904152$Venta

dtrain_3904152 <- xgb.DMatrix(data = train_x_3904152, label = train_y_3904152)
dtest_3904152 <- xgb.DMatrix(data = test_x_3904152, label = test_y_3904152)

# Paso 4: Hiperparámetros
param_grid_3904152 <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),
  max_depth = c(3, 6, 9),
  min_child_weight = c(1, 3, 5),
  subsample = c(0.7, 0.9),
  colsample_bytree = c(0.7, 0.9),
  gamma = c(0, 0.1, 0.3)
)

cat("Grid Search para XGBoost - Producto 3904152\n")
## Grid Search para XGBoost - Producto 3904152
cat("Número total de combinaciones:", nrow(param_grid_3904152), "\n\n")
## Número total de combinaciones: 432
# Paso 5: Limitar combinaciones
set.seed(456)
if (nrow(param_grid_3904152) > 12) {
  selected_indices_3904152 <- sample(1:nrow(param_grid_3904152), 12)
  param_grid_3904152 <- param_grid_3904152[selected_indices_3904152, ]
}

# Paso 6: Grid Search
resultados_3904152 <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid_3904152)) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = param_grid_3904152$eta[i],
    max_depth = param_grid_3904152$max_depth[i],
    min_child_weight = param_grid_3904152$min_child_weight[i],
    subsample = param_grid_3904152$subsample[i],
    colsample_bytree = param_grid_3904152$colsample_bytree[i],
    gamma = param_grid_3904152$gamma[i]
  )
  
  cv_model <- xgb.cv(
    params = params,
    data = dtrain_3904152,
    nrounds = 200,
    nfold = 5,
    early_stopping_rounds = 20,
    verbose = 0
  )
  
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  resultados_3904152 <- rbind(resultados_3904152, data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  ))
}

resultados_3904152 <- resultados_3904152[order(resultados_3904152$rmse_cv), ]

cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados_3904152)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3  0.05         3                1       0.9              0.7   0.0     200
## 10 0.10         9                1       0.9              0.7   0.3     198
## 8  0.10         3                3       0.7              0.7   0.1      89
## 9  0.05         6                3       0.7              0.9   0.3      87
## 12 0.10         3                3       0.9              0.7   0.3     200
## 11 0.05         6                3       0.7              0.9   0.0     105
## 2  0.10         9                3       0.9              0.9   0.3      39
## 5  0.10         6                5       0.9              0.9   0.1     116
## 4  0.30         9                5       0.7              0.9   0.1      42
## 7  0.05         3                5       0.9              0.7   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
## 6  0.01         6                5       0.9              0.9   0.1     200
##      rmse_cv
## 3   586.1932
## 10  764.3933
## 8  1028.1565
## 9  1028.2188
## 12 1049.4183
## 11 1131.8182
## 2  1190.5265
## 5  1190.6046
## 4  2095.0464
## 7  2440.8901
## 1  2578.7707
## 6  3218.2390
# Visualizar resultados
ggplot(resultados_3904152, aes(x = reorder(paste("Comb", 1:nrow(resultados_3904152)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 3904152",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 7: Entrenamiento final
mejores_params_3904152 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_3904152$eta[1],
  max_depth = resultados_3904152$max_depth[1],
  min_child_weight = resultados_3904152$min_child_weight[1],
  subsample = resultados_3904152$subsample[1],
  colsample_bytree = resultados_3904152$colsample_bytree[1],
  gamma = resultados_3904152$gamma[1]
)

mejor_nrounds_3904152 <- resultados_3904152$nrounds[1]

modelo_xgb_3904152 <- xgb.train(
  params = mejores_params_3904152,
  data = dtrain_3904152,
  nrounds = mejor_nrounds_3904152,
  watchlist = list(train = dtrain_3904152, test = dtest_3904152),
  verbose = 0
)

# Paso 8: Evaluación en test
predicciones_test_3904152 <- predict(modelo_xgb_3904152, dtest_3904152)

mape_test_3904152 <- mean(abs((test_y_3904152 - predicciones_test_3904152) / pmax(test_y_3904152, 0.01))) * 100
rmse_test_3904152 <- sqrt(mean((test_y_3904152 - predicciones_test_3904152)^2))

cat("\nMétricas en conjunto de prueba:\n")
## 
## Métricas en conjunto de prueba:
cat("MAPE:", mape_test_3904152, "\n")
## MAPE: 1.53285
cat("RMSE:", rmse_test_3904152, "\n\n")
## RMSE: 778.3901
# Paso 9: Evaluación en conjunto completo
x_completo_3904152 <- as.matrix(datos_modelo_3904152[, colnames(datos_modelo_3904152) != "Venta"])
predicciones_completo_3904152 <- predict(modelo_xgb_3904152, x_completo_3904152)

mape_completo_3904152 <- mean(abs((datos_modelo_3904152$Venta - predicciones_completo_3904152) /
                                  pmax(datos_modelo_3904152$Venta, 0.01))) * 100
rmse_completo_3904152 <- sqrt(mean((datos_modelo_3904152$Venta - predicciones_completo_3904152)^2))

cat("Métricas en conjunto completo:\n")
## Métricas en conjunto completo:
cat("MAPE:", mape_completo_3904152, "\n")
## MAPE: 1.363134
cat("RMSE:", rmse_completo_3904152, "\n\n")
## RMSE: 388.0705
# Paso 10: Importancia de variables
importancia_3904152 <- xgb.importance(
  feature_names = colnames(datos_modelo_3904152)[colnames(datos_modelo_3904152) != "Venta"],
  model = modelo_xgb_3904152
)

cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia_3904152)
##                  Feature         Gain      Cover  Frequency
##                   <char>        <num>      <num>      <num>
## 1:           Costo_Venta 0.5462442713 0.35773001 0.34397528
## 2:                  Cant 0.4468336656 0.38482232 0.35942327
## 3: Precio_Final_Unitario 0.0045837219 0.12539919 0.15653965
## 4:  Descuento_Porcentaje 0.0019549300 0.07185305 0.07415036
## 5:                Tiempo 0.0003834112 0.06019543 0.06591143
xgb.plot.importance(importance_matrix = importancia_3904152, 
                    main = "Importancia de Variables - Producto 3904152 (XGBoost)")

# Paso 11: Visualizaciones
datos_grafico_3904152 <- data.frame(
  Observado = datos_modelo_3904152$Venta,
  Predicho = predicciones_completo_3904152
)

# Observado vs Predicho
ggplot(datos_grafico_3904152, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3904152 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Distribución de errores
errores_3904152 <- datos_modelo_3904152$Venta - predicciones_completo_3904152

hist(errores_3904152, 
     main = "Distribución de Errores - Producto 3904152 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Error vs Predicción
ggplot(data.frame(Predicho = predicciones_completo_3904152, Error = errores_3904152), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Paso 12: Guardar métricas
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",
  Modelo = "XGBoost",
  MAPE = mape_completo_3904152,
  RMSE = rmse_completo_3904152
))

7.4 PRODUCTO 155002

library(dplyr)
library(xgboost)
library(caret)
library(ggplot2)

# Paso 1: Preparar datos
datos_modelo_155002 <- datos_155002 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: División en entrenamiento y prueba
set.seed(123)
train_index_155002 <- createDataPartition(datos_modelo_155002$Venta, p = 0.8, list = FALSE)
train_data_155002 <- datos_modelo_155002[train_index_155002, ]
test_data_155002 <- datos_modelo_155002[-train_index_155002, ]

# Paso 3: Matrices para XGBoost
train_x_155002 <- as.matrix(train_data_155002[, colnames(train_data_155002) != "Venta"])
train_y_155002 <- train_data_155002$Venta
test_x_155002 <- as.matrix(test_data_155002[, colnames(test_data_155002) != "Venta"])
test_y_155002 <- test_data_155002$Venta

dtrain_155002 <- xgb.DMatrix(data = train_x_155002, label = train_y_155002)
dtest_155002 <- xgb.DMatrix(data = test_x_155002, label = test_y_155002)

# Paso 4: Definir grid
param_grid_155002 <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),
  max_depth = c(3, 6, 9),
  min_child_weight = c(1, 3, 5),
  subsample = c(0.7, 0.9),
  colsample_bytree = c(0.7, 0.9),
  gamma = c(0, 0.1, 0.3)
)

cat("Grid Search para XGBoost - Producto 155002\n")
## Grid Search para XGBoost - Producto 155002
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid_155002), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Limitar combinaciones
set.seed(456)
if (nrow(param_grid_155002) > 12) {
  selected_indices <- sample(1:nrow(param_grid_155002), 12)
  param_grid_155002 <- param_grid_155002[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 5: Grid Search
resultados_155002 <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid_155002)) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = param_grid_155002$eta[i],
    max_depth = param_grid_155002$max_depth[i],
    min_child_weight = param_grid_155002$min_child_weight[i],
    subsample = param_grid_155002$subsample[i],
    colsample_bytree = param_grid_155002$colsample_bytree[i],
    gamma = param_grid_155002$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid_155002), ":\n")
  cat("  eta =", params$eta, 
      ", max_depth =", params$max_depth, 
      ", min_child_weight =", params$min_child_weight, 
      ", subsample =", params$subsample, 
      ", colsample_bytree =", params$colsample_bytree,
      ", gamma =", params$gamma, "\n")
  
  cv_model <- xgb.cv(
    params = params,
    data = dtrain_155002,
    nrounds = 200,
    nfold = 5,
    early_stopping_rounds = 20,
    verbose = 0
  )
  
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  cat("  Mejor iteración:", best_iteration, "\n")
  cat("  RMSE en validación cruzada:", best_rmse, "\n\n")
  
  resultados_155002 <- rbind(resultados_155002, data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  ))
}
## Evaluando combinación 1 de 12 :
##   eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 1260.823 
## 
## Evaluando combinación 2 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 65 
##   RMSE en validación cruzada: 717.1348 
## 
## Evaluando combinación 3 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 704.4149 
## 
## Evaluando combinación 4 de 12 :
##   eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 55 
##   RMSE en validación cruzada: 705.3839 
## 
## Evaluando combinación 5 de 12 :
##   eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 135 
##   RMSE en validación cruzada: 710.5157 
## 
## Evaluando combinación 6 de 12 :
##   eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 1235.378 
## 
## Evaluando combinación 7 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 747.3757 
## 
## Evaluando combinación 8 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 121 
##   RMSE en validación cruzada: 690.5727 
## 
## Evaluando combinación 9 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 160 
##   RMSE en validación cruzada: 699.2501 
## 
## Evaluando combinación 10 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 689.4535 
## 
## Evaluando combinación 11 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0 
##   Mejor iteración: 127 
##   RMSE en validación cruzada: 652.4376 
## 
## Evaluando combinación 12 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 675.3904
# Paso 6: Ordenar y mostrar resultados
resultados_155002 <- resultados_155002[order(resultados_155002$rmse_cv), ]
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados_155002)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 11 0.05         6                3       0.7              0.9   0.0     127
## 12 0.10         3                3       0.9              0.7   0.3     200
## 10 0.10         9                1       0.9              0.7   0.3     200
## 8  0.10         3                3       0.7              0.7   0.1     121
## 9  0.05         6                3       0.7              0.9   0.3     160
## 3  0.05         3                1       0.9              0.7   0.0     200
## 4  0.30         9                5       0.7              0.9   0.1      55
## 5  0.10         6                5       0.9              0.9   0.1     135
## 2  0.10         9                3       0.9              0.9   0.3      65
## 7  0.05         3                5       0.9              0.7   0.1     200
## 6  0.01         6                5       0.9              0.9   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
##      rmse_cv
## 11  652.4376
## 12  675.3904
## 10  689.4535
## 8   690.5727
## 9   699.2501
## 3   704.4149
## 4   705.3839
## 5   710.5157
## 2   717.1348
## 7   747.3757
## 6  1235.3782
## 1  1260.8228
# Visualización
ggplot(resultados_155002, aes(x = reorder(paste("Comb", 1:nrow(resultados_155002)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 155002",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 7: Entrenamiento final
mejores_params_155002 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_155002$eta[1],
  max_depth = resultados_155002$max_depth[1],
  min_child_weight = resultados_155002$min_child_weight[1],
  subsample = resultados_155002$subsample[1],
  colsample_bytree = resultados_155002$colsample_bytree[1],
  gamma = resultados_155002$gamma[1]
)

mejor_nrounds_155002 <- resultados_155002$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params_155002)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.05
## 
## $max_depth
## [1] 6
## 
## $min_child_weight
## [1] 3
## 
## $subsample
## [1] 0.7
## 
## $colsample_bytree
## [1] 0.9
## 
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds_155002, "\n\n")
## Número óptimo de rondas: 127
modelo_xgb_155002 <- xgb.train(
  params = mejores_params_155002,
  data = dtrain_155002,
  nrounds = mejor_nrounds_155002,
  watchlist = list(train = dtrain_155002, test = dtest_155002),
  verbose = 0
)

# Paso 8: Evaluación en conjunto de prueba
predicciones_test_155002 <- predict(modelo_xgb_155002, dtest_155002)
mape_test_155002 <- mean(abs((test_y_155002 - predicciones_test_155002) / pmax(test_y_155002, 0.01))) * 100
rmse_test_155002 <- sqrt(mean((test_y_155002 - predicciones_test_155002)^2))

cat("\nMétricas en conjunto de prueba:\n")
## 
## Métricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test_155002, "\n")
## MAPE del modelo XGBoost: 2.940774
cat("RMSE del modelo XGBoost:", rmse_test_155002, "\n\n")
## RMSE del modelo XGBoost: 417.2237
# Paso 9: Predicciones en el conjunto completo
x_completo_155002 <- as.matrix(datos_modelo_155002[, colnames(datos_modelo_155002) != "Venta"])
predicciones_completo_155002 <- predict(modelo_xgb_155002, x_completo_155002)
mape_completo_155002 <- mean(abs((datos_modelo_155002$Venta - predicciones_completo_155002) / 
                                 pmax(datos_modelo_155002$Venta, 0.01))) * 100
rmse_completo_155002 <- sqrt(mean((datos_modelo_155002$Venta - predicciones_completo_155002)^2))

cat("Métricas en conjunto completo:\n")
## Métricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo_155002, "\n")
## MAPE del modelo XGBoost: 2.671758
cat("RMSE del modelo XGBoost:", rmse_completo_155002, "\n\n")
## RMSE del modelo XGBoost: 406.7509
# Paso 10: Importancia de variables
importancia_155002 <- xgb.importance(
  feature_names = colnames(datos_modelo_155002)[colnames(datos_modelo_155002) != "Venta"],
  model = modelo_xgb_155002
)
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia_155002)
##                  Feature        Gain      Cover  Frequency
##                   <char>       <num>      <num>      <num>
## 1:                  Cant 0.609804436 0.45159665 0.28820656
## 2:           Costo_Venta 0.364060010 0.24522640 0.22889044
## 3: Precio_Final_Unitario 0.019895535 0.23101579 0.32728542
## 4:  Descuento_Porcentaje 0.004647796 0.05118654 0.09595255
## 5:                Tiempo 0.001592222 0.02097463 0.05966504
xgb.plot.importance(importance_matrix = importancia_155002, 
                    main = "Importancia de Variables - Producto 155002 (XGBoost)")

# Paso 11: Visualizaciones
datos_grafico_155002 <- data.frame(
  Observado = datos_modelo_155002$Venta,
  Predicho = predicciones_completo_155002
)

ggplot(datos_grafico_155002, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

errores_155002 <- datos_modelo_155002$Venta - predicciones_completo_155002

hist(errores_155002, 
     main = "Distribución de Errores - Producto 155002 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

ggplot(data.frame(Predicho = predicciones_completo_155002, Error = errores_155002), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155002 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Paso 12: Guardar métricas
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",
  Modelo = "XGBoost",
  MAPE = mape_completo_155002,
  RMSE = rmse_completo_155002
))

7.5 PRODUCTO 3678055

# Paso 1: Preparar datos
datos_modelo_3678055 <- datos_3678055 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: División en entrenamiento y prueba
set.seed(123)
train_index_3678055 <- createDataPartition(datos_modelo_3678055$Venta, p = 0.8, list = FALSE)
train_data_3678055 <- datos_modelo_3678055[train_index_3678055, ]
test_data_3678055 <- datos_modelo_3678055[-train_index_3678055, ]

# Paso 3: Matrices para XGBoost
train_x_3678055 <- as.matrix(train_data_3678055[, colnames(train_data_3678055) != "Venta"])
train_y_3678055 <- train_data_3678055$Venta
test_x_3678055 <- as.matrix(test_data_3678055[, colnames(test_data_3678055) != "Venta"])
test_y_3678055 <- test_data_3678055$Venta

dtrain_3678055 <- xgb.DMatrix(data = train_x_3678055, label = train_y_3678055)
dtest_3678055 <- xgb.DMatrix(data = test_x_3678055, label = test_y_3678055)

# Paso 4: Definir grid
param_grid_3678055 <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),
  max_depth = c(3, 6, 9),
  min_child_weight = c(1, 3, 5),
  subsample = c(0.7, 0.9),
  colsample_bytree = c(0.7, 0.9),
  gamma = c(0, 0.1, 0.3)
)

cat("Grid Search para XGBoost - Producto 3678055\n")
## Grid Search para XGBoost - Producto 3678055
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid_3678055), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Limitar combinaciones
set.seed(456)
if (nrow(param_grid_3678055) > 12) {
  selected_indices <- sample(1:nrow(param_grid_3678055), 12)
  param_grid_3678055 <- param_grid_3678055[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 5: Grid Search
resultados_3678055 <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid_3678055)) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = param_grid_3678055$eta[i],
    max_depth = param_grid_3678055$max_depth[i],
    min_child_weight = param_grid_3678055$min_child_weight[i],
    subsample = param_grid_3678055$subsample[i],
    colsample_bytree = param_grid_3678055$colsample_bytree[i],
    gamma = param_grid_3678055$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid_3678055), ":\n")
  cat("  eta =", params$eta, 
      ", max_depth =", params$max_depth, 
      ", min_child_weight =", params$min_child_weight, 
      ", subsample =", params$subsample, 
      ", colsample_bytree =", params$colsample_bytree,
      ", gamma =", params$gamma, "\n")
  
  cv_model <- xgb.cv(
    params = params,
    data = dtrain_3678055,
    nrounds = 200,
    nfold = 5,
    early_stopping_rounds = 20,
    verbose = 0
  )
  
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  cat("  Mejor iteración:", best_iteration, "\n")
  cat("  RMSE en validación cruzada:", best_rmse, "\n\n")
  
  resultados_3678055 <- rbind(resultados_3678055, data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  ))
}
## Evaluando combinación 1 de 12 :
##   eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 2390.195 
## 
## Evaluando combinación 2 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 91 
##   RMSE en validación cruzada: 1055.863 
## 
## Evaluando combinación 3 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 832.0375 
## 
## Evaluando combinación 4 de 12 :
##   eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 24 
##   RMSE en validación cruzada: 1206.289 
## 
## Evaluando combinación 5 de 12 :
##   eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 98 
##   RMSE en validación cruzada: 1010.817 
## 
## Evaluando combinación 6 de 12 :
##   eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 2454.596 
## 
## Evaluando combinación 7 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 166 
##   RMSE en validación cruzada: 1201.99 
## 
## Evaluando combinación 8 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 140 
##   RMSE en validación cruzada: 1041.128 
## 
## Evaluando combinación 9 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 171 
##   RMSE en validación cruzada: 943.3198 
## 
## Evaluando combinación 10 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 1031.93 
## 
## Evaluando combinación 11 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0 
##   Mejor iteración: 157 
##   RMSE en validación cruzada: 837.9873 
## 
## Evaluando combinación 12 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 55 
##   RMSE en validación cruzada: 929.559
# Paso 6: Selección y entrenamiento final
resultados_3678055 <- resultados_3678055[order(resultados_3678055$rmse_cv), ]

mejores_params_3678055 <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_3678055$eta[1],
  max_depth = resultados_3678055$max_depth[1],
  min_child_weight = resultados_3678055$min_child_weight[1],
  subsample = resultados_3678055$subsample[1],
  colsample_bytree = resultados_3678055$colsample_bytree[1],
  gamma = resultados_3678055$gamma[1]
)

mejor_nrounds_3678055 <- resultados_3678055$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params_3678055)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.05
## 
## $max_depth
## [1] 3
## 
## $min_child_weight
## [1] 1
## 
## $subsample
## [1] 0.9
## 
## $colsample_bytree
## [1] 0.7
## 
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds_3678055, "\n\n")
## Número óptimo de rondas: 200
modelo_xgb_3678055 <- xgb.train(
  params = mejores_params_3678055,
  data = dtrain_3678055,
  nrounds = mejor_nrounds_3678055,
  watchlist = list(train = dtrain_3678055, test = dtest_3678055),
  verbose = 0
)

# Paso 7: Evaluación en test
predicciones_test_3678055 <- predict(modelo_xgb_3678055, dtest_3678055)
mape_test_3678055 <- mean(abs((test_y_3678055 - predicciones_test_3678055) / pmax(test_y_3678055, 0.01))) * 100
rmse_test_3678055 <- sqrt(mean((test_y_3678055 - predicciones_test_3678055)^2))

cat("\nMétricas en conjunto de prueba:\n")
## 
## Métricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test_3678055, "\n")
## MAPE del modelo XGBoost: 1.326412
cat("RMSE del modelo XGBoost:", rmse_test_3678055, "\n\n")
## RMSE del modelo XGBoost: 430.9164
# Paso 8: Evaluación en conjunto completo
x_completo_3678055 <- as.matrix(datos_modelo_3678055[, colnames(datos_modelo_3678055) != "Venta"])
predicciones_completo_3678055 <- predict(modelo_xgb_3678055, x_completo_3678055)

mape_completo_3678055 <- mean(abs((datos_modelo_3678055$Venta - predicciones_completo_3678055) / 
                                  pmax(datos_modelo_3678055$Venta, 0.01))) * 100
rmse_completo_3678055 <- sqrt(mean((datos_modelo_3678055$Venta - predicciones_completo_3678055)^2))

cat("Métricas en conjunto completo:\n")
## Métricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo_3678055, "\n")
## MAPE del modelo XGBoost: 1.167788
cat("RMSE del modelo XGBoost:", rmse_completo_3678055, "\n\n")
## RMSE del modelo XGBoost: 282.4049
# Paso 9: Importancia de variables
importancia_3678055 <- xgb.importance(
  feature_names = colnames(datos_modelo_3678055)[colnames(datos_modelo_3678055) != "Venta"],
  model = modelo_xgb_3678055
)

cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia_3678055)
##                  Feature         Gain      Cover  Frequency
##                   <char>        <num>      <num>      <num>
## 1:                  Cant 0.5396883195 0.29827593 0.29791099
## 2:           Costo_Venta 0.4512038328 0.38143789 0.36330609
## 3:  Descuento_Porcentaje 0.0056748631 0.07157271 0.08174387
## 4: Precio_Final_Unitario 0.0028615777 0.18066485 0.17711172
## 5:                Tiempo 0.0005714069 0.06804862 0.07992734
xgb.plot.importance(importance_matrix = importancia_3678055, 
                    main = "Importancia de Variables - Producto 3678055 (XGBoost)")

# Paso 10: Visualizaciones
datos_grafico_3678055 <- data.frame(
  Observado = datos_modelo_3678055$Venta,
  Predicho = predicciones_completo_3678055
)

ggplot(datos_grafico_3678055, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3678055 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

errores_3678055 <- datos_modelo_3678055$Venta - predicciones_completo_3678055

hist(errores_3678055, 
     main = "Distribución de Errores - Producto 3678055 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

ggplot(data.frame(Predicho = predicciones_completo_3678055, Error = errores_3678055), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3678055 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Paso 11: Guardar métricas
if (!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",
  Modelo = "XGBoost",
  MAPE = mape_completo_3678055,
  RMSE = rmse_completo_3678055
))
# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

8 Visualización de Métricas

# Definir los colores para cada modelo
colores_modelos <- c(
  "ARMA/SARIMA" = "#1f77b4",    # Azul
  "Regresión Lineal" = "#ff7f0e", # Naranja
  "Random Forest" = "#2ca02c",   # Verde
  "XGBoost" = "#d62728"         # Rojo
)

8.1 PRODUCTO 155001

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 155001:")
## [1] "Datos actuales para el producto 155001:"
print(metricas_comparativas %>% filter(Producto == "155001"))
##   Producto           Modelo      MAPE        RMSE
## 1   155001             ARMA 19.236587 253085.2030
## 2   155001 Regresión Lineal  8.668306    192.7890
## 3   155001    Random Forest  0.701904 527761.8868
## 4   155001          XGBoost  2.272554    159.1664
# Crear un dataframe manualmente con los 4 modelos para el producto 155001
# (con valores de ejemplo si es necesario)
datos_155001_completo <- data.frame(
  Producto = rep("155001", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_155001_completo <- left_join(
  datos_155001_completo,
  metricas_comparativas %>% filter(Producto == "155001"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Si tienes los valores, reemplaza los 0 con los valores correctos
# O toma nota de cuáles son NA para reemplazarlos con los valores reales

# Valores para Regresión Lineal (reemplaza estos con los valores reales)
if (is.na(datos_155001_completo$MAPE[2])) {
  datos_155001_completo$MAPE[2] <- mape_155001  # O el valor correcto
}
if (is.na(datos_155001_completo$RMSE[2])) {
  datos_155001_completo$RMSE[2] <- rmse_155001  # Ya no MSE
}




# Valores para Random Forest (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de Random Forest para el producto 155001,
# usa las variables r2_rf, rmse_rf, etc.
if (is.na(datos_155001_completo$MAPE[3]) && exists("mape_rf")) {
  datos_155001_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_155001_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_155001_completo$RMSE[3] <- rmse_rf
}






# Valores para XGBoost (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de XGBoost para el producto 155001,
# usa las variables r2_completo, rmse_completo, etc.
if (is.na(datos_155001_completo$MAPE[4]) && exists("mape_completo")) {
  datos_155001_completo$MAPE[4] <- mape_completo
}

if (is.na(datos_155001_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_155001_completo$RMSE[4] <- rmse_completo
}


# Ver los datos completos
print("Datos completos para el producto 155001:")
## [1] "Datos completos para el producto 155001:"
print(datos_155001_completo)
##   Producto           Modelo     MAPE        RMSE
## 1   155001      ARMA/SARIMA       NA          NA
## 2   155001 Regresión Lineal 8.668306    192.7890
## 3   155001    Random Forest 0.701904 527761.8868
## 4   155001          XGBoost 2.272554    159.1664
# Gráfico para MAPE
ggplot(datos_155001_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155001",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) 
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para RMSE
ggplot(datos_155001_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155001",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155001_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.2 PRODUCTO 3929788

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3929788:")
## [1] "Datos actuales para el producto 3929788:"
print(metricas_comparativas %>% filter(Producto == "3929788"))
##   Producto           Modelo       MAPE         RMSE
## 1  3929788             ARMA 12.3378022 253085.20298
## 2  3929788 Regresión Lineal 22.7639768    217.68292
## 3  3929788    Random Forest  0.9817282     94.54023
## 4  3929788    Random Forest  0.5437703    629.12246
## 5  3929788          XGBoost  0.8136359     46.33887
# Crear un dataframe manualmente con los 4 modelos para el producto 3929788
datos_3929788_completo <- data.frame(
  Producto = rep("3929788", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3929788_completo <- left_join(
  datos_3929788_completo,
  metricas_comparativas %>% filter(Producto == "3929788"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3929788_completo$MAPE[2])) {
  datos_3929788_completo$MAPE[2] <- mape_3929788
}

if (is.na(datos_3929788_completo$RMSE[2])) {
  datos_3929788_completo$RMSE[2] <- rmse_3929788
}

# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3929788
if (is.na(datos_3929788_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3929788_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_3929788_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3929788_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_3929788_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3929788_completo$MAPE[4] <- mape_completo
}


if (is.na(datos_3929788_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3929788_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 3929788:")
## [1] "Datos completos para el producto 3929788:"
print(datos_3929788_completo)
##   Producto           Modelo       MAPE      RMSE
## 1  3929788      ARMA/SARIMA         NA        NA
## 2  3929788 Regresión Lineal 22.7639768 217.68292
## 3  3929788    Random Forest  0.9817282  94.54023
## 4  3929788    Random Forest  0.5437703 629.12246
## 5  3929788          XGBoost  0.8136359  46.33887
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para RMSE
ggplot(datos_3929788_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3929788",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3929788_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 2 rows containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3929788_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3929788",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3929788_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.3 PRODUCTO 3904152

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3904152:")
## [1] "Datos actuales para el producto 3904152:"
print(metricas_comparativas %>% filter(Producto == "3904152"))
##   Producto           Modelo       MAPE        RMSE
## 1  3904152             ARMA 14.9190340 155842.2797
## 2  3904152 Regresión Lineal  3.2987873    371.0529
## 3  3904152    Random Forest  0.5437703    629.1225
## 4  3904152          XGBoost  1.3631340    388.0705
# Crear un dataframe manualmente con los 4 modelos para el producto 3904152
datos_3904152_completo <- data.frame(
  Producto = rep("3904152", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3904152_completo <- left_join(
  datos_3904152_completo,
  metricas_comparativas %>% filter(Producto == "3904152"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3904152_completo$MAPE[2])) {
  datos_3904152_completo$MAPE[2] <- mape_3904152
}
if (is.na(datos_3904152_completo$RMSE[2])) {
  datos_3904152_completo$RMSE[2] <- rmse_3904152
}

# Valores para Random Forest
if (is.na(datos_3904152_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3904152_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_3904152_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3904152_completo$RMSE[3] <- rmse_rf
}


# Valores para XGBoost
if (is.na(datos_3904152_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3904152_completo$MAPE[4] <- mape_completo
}


if (is.na(datos_3904152_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3904152_completo$RMSE[4] <- rmse_completo
}


# Ver los datos completos
print("Datos completos para el producto 3904152:")
## [1] "Datos completos para el producto 3904152:"
print(datos_3904152_completo)
##   Producto           Modelo      MAPE     RMSE
## 1  3904152      ARMA/SARIMA        NA       NA
## 2  3904152 Regresión Lineal 3.2987873 371.0529
## 3  3904152    Random Forest 0.5437703 629.1225
## 4  3904152          XGBoost 1.3631340 388.0705
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para MSE
ggplot(datos_3904152_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3904152",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3904152_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3904152_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3904152",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3904152_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.4 PRODUCTO 155002

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 155002:")
## [1] "Datos actuales para el producto 155002:"
print(metricas_comparativas %>% filter(Producto == "155002"))
##   Producto           Modelo       MAPE        RMSE
## 1   155002             ARMA 33.5562137 235419.9113
## 2   155002 Regresión Lineal 18.1423912    889.8286
## 3   155002    Random Forest  0.9725775    361.6748
## 4   155002          XGBoost  2.6717585    406.7509
# Crear un dataframe manualmente con los 4 modelos para el producto 155002
datos_155002_completo <- data.frame(
  Producto = rep("155002", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_155002_completo <- left_join(
  datos_155002_completo,
  metricas_comparativas %>% filter(Producto == "155002"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_155002_completo$MAPE[2])) {
  datos_155002_completo$MAPE[2] <- mape_155002
}

if (is.na(datos_155002_completo$RMSE[2])) {
  datos_155002_completo$RMSE[2] <- rmse_155002
}



# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 155002
if (is.na(datos_155002_completo$MAPE[3]) && exists("mape_rf")) {
  datos_155002_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_155002_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_155002_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_155002_completo$MAPE[4]) && exists("mape_completo")) {
  datos_155002_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_155002_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_155002_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 155002:")
## [1] "Datos completos para el producto 155002:"
print(datos_155002_completo)
##   Producto           Modelo       MAPE     RMSE
## 1   155002      ARMA/SARIMA         NA       NA
## 2   155002 Regresión Lineal 18.1423912 889.8286
## 3   155002    Random Forest  0.9725775 361.6748
## 4   155002          XGBoost  2.6717585 406.7509
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para MSE
ggplot(datos_155002_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155002",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155002_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_155002_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155002",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155002_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.5 PRODUCTO 3678055

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3678055:")
## [1] "Datos actuales para el producto 3678055:"
print(metricas_comparativas %>% filter(Producto == "3678055"))
##   Producto           Modelo       MAPE         RMSE
## 1  3678055             ARMA 22.3280866 175375.13435
## 2  3678055 Regresión Lineal  2.8994611 200797.25481
## 3  3678055    Random Forest  0.4065828    577.23739
## 4  3678055          XGBoost  1.1677885    282.40488
## 5  3678055          XGBoost  0.8136359     46.33887
# Crear un dataframe manualmente con los 4 modelos para el producto 3678055
datos_3678055_completo <- data.frame(
  Producto = rep("3678055", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3678055_completo <- left_join(
  datos_3678055_completo,
  metricas_comparativas %>% filter(Producto == "3678055"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3678055_completo$MAPE[2])) {
  datos_3678055_completo$MAPE[2] <- mape_3678055
}
if (is.na(datos_3678055_completo$RMSE[2])) {
  datos_3678055_completo$RMSE[2] <- rmse_3678055
}

# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3678055
if (is.na(datos_3678055_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3678055_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_3678055_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3678055_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_3678055_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3678055_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_3678055_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3678055_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 3678055:")
## [1] "Datos completos para el producto 3678055:"
print(datos_3678055_completo)
##   Producto           Modelo      MAPE         RMSE
## 1  3678055      ARMA/SARIMA        NA           NA
## 2  3678055 Regresión Lineal 2.8994611 200797.25481
## 3  3678055    Random Forest 0.4065828    577.23739
## 4  3678055          XGBoost 1.1677885    282.40488
## 5  3678055          XGBoost 0.8136359     46.33887
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")
# Gráfico para MSE
ggplot(datos_3678055_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3678055",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3678055_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3678055_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3678055",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3678055_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

9 ESTIMACIÓN DE PRECIOS

9.0.1 Preparación de datos

# Función para preparar datos de un producto
prepare_price_data <- function(df, product_id) {
  product_data <- df %>%
    filter(ID_Inventario == product_id) %>%
    arrange(Trx_Fecha) %>%
    select(
      Trx_Fecha, Precio_Final_Unitario, Cant, Venta, 
      Costo_Venta, Descuento_Porcentaje, Semana, Mes
    ) %>%
    mutate(
      Dia_Semana = wday(Trx_Fecha),
      Mes_Num = month(Trx_Fecha),
      Anio = year(Trx_Fecha),
      Dias_Desde_Inicio = as.numeric(difftime(Trx_Fecha, min(Trx_Fecha), units = "days")),
      Margen_Unitario = (Venta / Cant) - (Costo_Venta / Cant),
      Precio_Unitario_Calc = Venta / Cant,
      ID_Inventario = product_id
    )
  
  return(product_data)
}

# Asegúrate de que 'datos' sea tu data.frame cargado correctamente
# Por ejemplo, si vienes de un archivo .csv:
# datos <- read.csv("archivo.csv")

# Aplicar la función a todos los productos
ids <- unique(datos$ID_Inventario)

productos_preparados <- map_df(ids, function(id) {
  prepare_price_data(datos, id)
})

# Mostrar una parte del resultado
head(productos_preparados)
## # A tibble: 6 × 15
##   Trx_Fecha  Precio_Final_Unitario  Cant Venta Costo_Venta Descuento_Porcentaje
##   <date>                     <dbl> <dbl> <dbl>       <dbl>                <dbl>
## 1 2023-01-02                   980     1   980        727.                 76.6
## 2 2023-01-03                   728     1   728        905.                 82.6
## 3 2023-01-03                   840     6  5040       3598.                 80.0
## 4 2023-01-04                  1120     1  1120        577.                 73.3
## 5 2023-01-04                   728     8  5824       6619.                 82.6
## 6 2023-01-04                   980    10  9800       7273.                 76.6
## # ℹ 9 more variables: Semana <dbl>, Mes <dbl>, Dia_Semana <dbl>, Mes_Num <dbl>,
## #   Anio <dbl>, Dias_Desde_Inicio <dbl>, Margen_Unitario <dbl>,
## #   Precio_Unitario_Calc <dbl>, ID_Inventario <dbl>
# Vector con productos (debe ir primero)
productos_ids <- top_ids

# Función para entrenar modelo ARMA por producto
train_arma_model <- function(data, product_id) {
  library(forecast)  # Asegúrate de cargar forecast si no está cargado aún
  product_data <- data %>% filter(ID_Inventario == product_id)
  serie_ts <- ts(product_data$Venta, frequency = 12)
  modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
  return(modelo_arma)
}

# Crear lista de modelos ARMA por producto
modelos_arma_lista <- setNames(
  lapply(productos_ids, function(id) train_arma_model(datos, id)),
  as.character(productos_ids)
)

# Función para modelo regresión lineal
train_reg_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  modelo_reg <- lm(Venta ~ Precio_Final_Unitario, data = product_data)
  return(modelo_reg)
}

# Función para modelo Random Forest
train_rf_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
  rf_data <- product_data %>% select(all_of(predictors), Venta)
  modelo_rf <- randomForest(Venta ~ ., data = rf_data, ntree = 100)
  return(modelo_rf)
}

# Función para modelo XGBoost
train_xgb_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
  train_matrix <- xgb.DMatrix(data = as.matrix(product_data[, predictors]), label = product_data$Venta)
  params <- list(objective = "reg:squarederror")
  modelo_xgb <- xgb.train(params = params, data = train_matrix, nrounds = 50, verbose = 0)
  return(modelo_xgb)
}

# Crear listas de modelos
modelos_reg_lista <- setNames(lapply(productos_ids, function(id) train_reg_model(datos, id)), as.character(productos_ids))
modelos_rf_lista <- setNames(lapply(productos_ids, function(id) train_rf_model(datos, id)), as.character(productos_ids))
modelos_xgb_lista <- setNames(lapply(productos_ids, function(id) train_xgb_model(datos, id)), as.character(productos_ids))

9.0.2 Entrenar modelos de predicción de precios

# Función para entrenar modelos de predicción de precios
train_price_models <- function(data, product_id, test_size = 0.2) {
  price_data <- prepare_price_data(data, product_id) %>%
    drop_na() %>%
    select(
      Precio_Final_Unitario,
      Cant, Costo_Venta, Descuento_Porcentaje,
      Dia_Semana, Mes_Num, Anio, Dias_Desde_Inicio,
      Margen_Unitario
    )

  # Evitar fallos si hay muy pocos datos
  if (nrow(price_data) < 10) {
    warning(paste("Producto", product_id, "tiene menos de 10 registros. Se omite."))
    return(NULL)
  }

  set.seed(123)
  train_index <- createDataPartition(price_data$Precio_Final_Unitario, p = 1 - test_size, list = FALSE)
  train_data <- price_data[train_index, ]
  test_data <- price_data[-train_index, ]

  # 1. Regresión Lineal
  lm_model <- lm(Precio_Final_Unitario ~ ., data = train_data)

  # 2. Random Forest
  rf_model <- randomForest(
    Precio_Final_Unitario ~ .,
    data = train_data,
    ntree = 500,
    importance = TRUE
  )

  # 3. XGBoost
  features <- setdiff(names(train_data), "Precio_Final_Unitario")
  x_train <- as.matrix(train_data[, features])
  y_train <- train_data$Precio_Final_Unitario
  x_test <- as.matrix(test_data[, features])
  y_test <- test_data$Precio_Final_Unitario
  dtrain <- xgb.DMatrix(data = x_train, label = y_train)
  dtest <- xgb.DMatrix(data = x_test, label = y_test)

  xgb_params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = 0.1,
    max_depth = 6,
    min_child_weight = 3,
    subsample = 0.8,
    colsample_bytree = 0.8
  )

  xgb_model <- xgb.train(
    params = xgb_params,
    data = dtrain,
    nrounds = 100,
    watchlist = list(train = dtrain, test = dtest),
    early_stopping_rounds = 10,
    verbose = 0
  )

  # Evaluación
  lm_pred <- predict(lm_model, newdata = test_data)
  rf_pred <- predict(rf_model, newdata = test_data)
  xgb_pred <- predict(xgb_model, x_test)

  lm_rmse <- sqrt(mean((lm_pred - test_data$Precio_Final_Unitario)^2))
  rf_rmse <- sqrt(mean((rf_pred - test_data$Precio_Final_Unitario)^2))
  xgb_rmse <- sqrt(mean((xgb_pred - test_data$Precio_Final_Unitario)^2))

  lm_r2 <- 1 - sum((test_data$Precio_Final_Unitario - lm_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
  rf_r2 <- 1 - sum((test_data$Precio_Final_Unitario - rf_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
  xgb_r2 <- 1 - sum((test_data$Precio_Final_Unitario - xgb_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)

  metrics <- data.frame(
    Model = c("Linear Regression", "Random Forest", "XGBoost"),
    RMSE = c(lm_rmse, rf_rmse, xgb_rmse),
    R2 = c(lm_r2, rf_r2, xgb_r2)
  )

  return(list(metrics = metrics))
}

# IDs de los 5 productos a modelar
productos_ids <- c(155001, 3929788, 3904152, 155002, 3678055)

# Aplicar modelo a cada producto
resultados_modelos <- map(productos_ids, function(id) {
  resultado <- train_price_models(datos, product_id = id)
  if (!is.null(resultado)) {
    resultado$metrics %>% mutate(ID_Inventario = id)
  } else {
    NULL
  }
}) %>% compact() %>% bind_rows()

# Mostrar resultados
resultados_modelos
##                Model        RMSE        R2 ID_Inventario
## 1  Linear Regression  30.2314808 0.9301839        155001
## 2      Random Forest  20.4235912 0.9681360        155001
## 3            XGBoost  10.4223865 0.9917020        155001
## 4  Linear Regression   0.9961090 0.9745183       3929788
## 5      Random Forest   0.7372416 0.9860417       3929788
## 6            XGBoost   0.3352396 0.9971138       3929788
## 7  Linear Regression  63.2610620 0.8980785       3904152
## 8      Random Forest  12.2140718 0.9962006       3904152
## 9            XGBoost  11.1592529 0.9968285       3904152
## 10 Linear Regression  25.7977520 0.9226069        155002
## 11     Random Forest  10.3007416 0.9876611        155002
## 12           XGBoost   5.1695872 0.9968922        155002
## 13 Linear Regression 110.6053375 0.8924438       3678055
## 14     Random Forest  30.7411253 0.9916915       3678055
## 15           XGBoost  18.7278222 0.9969164       3678055
# Lista con los IDs de productos (puedes usar top_ids que ya definiste)
productos_ids <- top_ids

# Entrenar modelos para cada producto y guardar en lista
modelos_precio_lista <- setNames(
  lapply(productos_ids, function(id) train_price_models(datos, id)),
  as.character(productos_ids)
)

9.0.3 Estimar precios óptimos

estimate_optimal_prices <- function(data, product_id, price_models, demand_models = NULL, future_dates = NULL) {
  price_steps <- 20

  # Selección del mejor modelo de precio
  best_price_model_idx <- which.max(price_models$metrics$R2)
  best_price_model_name <- price_models$metrics$Model[best_price_model_idx]

  # Datos del producto
  product_data <- data %>% filter(ID_Inventario == product_id)

  # Rango de precios restringido a percentiles 5% - 95% y limitado a 1.5x la mediana
  min_price <- quantile(product_data$Precio_Final_Unitario, 0.05, na.rm = TRUE)
  max_price <- quantile(product_data$Precio_Final_Unitario, 0.95, na.rm = TRUE)
  price_range <- seq(min_price, max_price, length.out = price_steps)
  price_range <- pmin(price_range, 1.5 * median(product_data$Precio_Final_Unitario, na.rm = TRUE))

  # Inicializar escenarios futuros
  future_scenarios <- data.frame()

  for (future_date in future_dates) {
    future_date <- as.Date(future_date)
    mes_actual <- lubridate::month(future_date)

    mes_data <- product_data %>% filter(lubridate::month(Trx_Fecha) == mes_actual)
    if (nrow(mes_data) < 5) mes_data <- product_data

    costo_mes <- median(mes_data$Costo_Venta, na.rm = TRUE)
    cant_mes <- median(mes_data$Cant, na.rm = TRUE)
    desc_mes <- median(mes_data$Descuento_Porcentaje, na.rm = TRUE)

    if (is.na(costo_mes)) costo_mes <- median(product_data$Costo_Venta, na.rm = TRUE)
    if (is.na(cant_mes) || cant_mes == 0) cant_mes <- median(product_data$Cant, na.rm = TRUE)
    if (is.na(desc_mes)) desc_mes <- median(product_data$Descuento_Porcentaje, na.rm = TRUE)

    date_df <- data.frame(
      Trx_Fecha = rep(future_date, price_steps),
      Precio_Final_Unitario = price_range,
      Cant = cant_mes,
      Costo_Venta = costo_mes,
      Descuento_Porcentaje = desc_mes,
      Dia_Semana = lubridate::wday(future_date),
      Mes_Num = mes_actual,
      Anio = lubridate::year(future_date),
      Dias_Desde_Inicio = as.numeric(difftime(future_date, min(product_data$Trx_Fecha), units = "days")),
      Margen_Unitario = NA
    )

    future_scenarios <- rbind(future_scenarios, date_df)
  }

  # Calcular margen unitario simulado
  future_scenarios$Margen_Unitario <- future_scenarios$Precio_Final_Unitario -
    (future_scenarios$Costo_Venta / future_scenarios$Cant)

  # Estimar elasticidad histórica (con mínimo 15 puntos válidos)
  product_data <- product_data %>% arrange(Trx_Fecha)
  elasticity_df <- product_data %>%
    filter(!is.na(Cant) & !is.na(Precio_Final_Unitario)) %>%
    mutate(
      P_lag = lag(Precio_Final_Unitario),
      Q_lag = lag(Cant),
      dP = Precio_Final_Unitario - P_lag,
      dQ = Cant - Q_lag,
      elasticity_point = (dQ / Q_lag) / (dP / P_lag)
    ) %>%
    filter(!is.na(elasticity_point), is.finite(elasticity_point))

  elasticity <- median(elasticity_df$elasticity_point, na.rm = TRUE)
  if (nrow(elasticity_df) < 15 || is.na(elasticity) || !is.finite(elasticity)) {
    elasticity <- 1
  }

  # Estimar ventas y márgenes
  results <- future_scenarios %>%
    mutate(Venta_Esperada = 0, Margen_Total = 0)

  # Precio base sin descuentos (más robusto)
  baseline_price <- median(product_data %>% filter(Descuento_Porcentaje == 0) %>%
                             pull(Precio_Final_Unitario), na.rm = TRUE)
  if (is.na(baseline_price)) {
    baseline_price <- median(product_data$Precio_Final_Unitario, na.rm = TRUE)
  }

  for (i in 1:nrow(results)) {
    price_ratio <- baseline_price / results$Precio_Final_Unitario[i]
    adjusted_quantity <- results$Cant[i] * (price_ratio ^ elasticity)
    results$Venta_Esperada[i] <- results$Precio_Final_Unitario[i] * adjusted_quantity
    results$Margen_Total[i] <- adjusted_quantity * results$Margen_Unitario[i]
  }

  # Seleccionar precios óptimos (por fecha)
  optimal_prices <- results %>%
    group_by(Trx_Fecha) %>%
    slice_max(Venta_Esperada, n = 1) %>%
    select(Trx_Fecha, Precio_Optimal = Precio_Final_Unitario, Venta_Esperada, Margen_Total)

  # Validación de precios extremos
  precio_median <- median(product_data$Precio_Final_Unitario, na.rm = TRUE)
  if (any(optimal_prices$Precio_Optimal > 2 * precio_median)) {
    warning(paste(" Precio óptimo muy alto detectado para producto", product_id))
  }

  return(list(
    resultados = results,
    precios_optimos = optimal_prices,
    elasticidad = elasticity
  ))
}

9.0.4 Visualizar resultados

# Fechas futuras para simulación
dates_future <- seq(as.Date("2025-01-01"), by = "month", length.out = 6)

# Lista para guardar resultados por producto
precios_optimos_lista <- list()

# Iterar por productos
for (pid in productos_ids) {
  cat("PRODUCTO:", pid, "\n")
  
  modelo_precio <- modelos_precio_lista[[as.character(pid)]]
  
  if (!is.null(modelo_precio)) {
    resultado <- estimate_optimal_prices(
      data = datos,
      product_id = pid,
      price_models = modelo_precio,
      future_dates = dates_future
    )
    
    precios_optimos_lista[[as.character(pid)]] <- resultado
    
    cat("Elasticidad estimada:", round(resultado$elasticidad, 2), "\n\n")
    
    # Mostrar tabla manualmente fila por fila
    print(resultado$precios_optimos)
    
  } else {
    cat("No hay modelo de precios para el producto", pid, "\n")
  }
}
## PRODUCTO: 155001 
## Elasticidad estimada: -2.91 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01            630          3397.         606.
## 2 2025-02-01            630          3397.         637.
## 3 2025-03-01            630          3397.         733.
## 4 2025-04-01            630          3397.        1004.
## 5 2025-05-01            630          3397.        1094.
## 6 2025-06-01            630          3397.         911.
## PRODUCTO: 3929788 
## Elasticidad estimada: -3.1 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           51.6           162.         74.9
## 2 2025-02-01           51.6           130.         53.7
## 3 2025-03-01           51.6           130.         42.0
## 4 2025-04-01           51.6           130.         53.6
## 5 2025-05-01           51.6           130.         42.2
## 6 2025-06-01           51.6           130.         42.6
## PRODUCTO: 3904152 
## Elasticidad estimada: 0 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           3556           3556        1089.
## 2 2025-02-01           3556           3556        1088.
## 3 2025-03-01           3556           3556        1092.
## 4 2025-04-01           3556           3556        1092.
## 5 2025-05-01           3556           3556        1092.
## 6 2025-06-01           3556           3556        1113.
## PRODUCTO: 155002 
## Elasticidad estimada: -4.19 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           594.          6619.        1630.
## 2 2025-02-01           594.          4413.        -391.
## 3 2025-03-01           594.          6619.        1740.
## 4 2025-04-01           594.          6619.        2980.
## 5 2025-05-01           594.          6619.        2825.
## 6 2025-06-01           594.          6619.        2436.
## PRODUCTO: 3678055 
## Elasticidad estimada: 0 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           5908           5908        1794.
## 2 2025-02-01           5908           5908        1722.
## 3 2025-03-01           5908           5908        1695.
## 4 2025-04-01           5908           5908        1841.
## 5 2025-05-01           5908           5908        1807.
## 6 2025-06-01           5908           5908        1983.

9.0.5 Integración de precios óptimos y modelos

integrate_with_existing_models <- function(data, product_id, price_opt_results, xgb_model) {
  optimal_prices <- price_opt_results[[as.character(product_id)]]$precios_optimos
  
  if (is.null(optimal_prices) || nrow(optimal_prices) == 0) {
    warning(paste("No se encontraron precios óptimos para el producto", product_id))
    return(data.frame())
  }
  
  hist_data <- data %>%
    filter(ID_Inventario == product_id) %>%
    arrange(Trx_Fecha)
  
  future_features <- data.frame()
  
  for (i in 1:nrow(optimal_prices)) {
    future_date <- optimal_prices$Trx_Fecha[i]
    future_price <- optimal_prices$Precio_Optimal[i]
    
    mes_data <- hist_data %>%
      filter(lubridate::month(Trx_Fecha) == lubridate::month(future_date))
    
    if (nrow(mes_data) < 5) mes_data <- hist_data
    
    avg_features <- mes_data %>%
      summarise(
        Cant = median(Cant, na.rm = TRUE),
        Costo_Venta = median(Costo_Venta, na.rm = TRUE),
        Costo_Devolucion = median(Costo_Devolucion, na.rm = TRUE),
        Precio_Lista_Unitario = median(Precio_Lista_Unitario, na.rm = TRUE),
        Descuento_Porcentaje = median(Descuento_Porcentaje, na.rm = TRUE),
        Tiempo = as.numeric(difftime(future_date, min(hist_data$Trx_Fecha), units = "days")) / 30
      )
    
    # Variables de tendencia:
    avg_features$Precio_Final_Unitario <- future_price
    avg_features$Trx_Fecha <- future_date
    avg_features$Mes_Num <- lubridate::month(future_date)
    avg_features$Anio <- lubridate::year(future_date)
    avg_features$Mes_Desde_Inicio <- as.numeric(difftime(future_date, min(hist_data$Trx_Fecha), units = "days")) %/% 30
    
    future_features <- rbind(future_features, avg_features)
  }
  
  future_data <- data.frame(
    Fecha = future_features$Trx_Fecha,
    Precio_Final_Unitario = future_features$Precio_Final_Unitario
  )
  
  # === PREDICCIÓN CON XGBoost ===
  tryCatch({
    features <- xgb_model$feature_names
    if (is.null(features)) {
      features <- setdiff(names(future_features), "Venta")
    }
    xgb_matrix <- as.matrix(future_features[, features, drop = FALSE])
    future_data$Venta_XGBoost <- predict(xgb_model, xgb_matrix)
  }, error = function(e) {
    warning(paste("Error al predecir con XGBoost para producto", product_id, ":", e$message))
    future_data$Venta_XGBoost <- NA
  })
  
  # === MÉTRICAS ===
  avg_cost_per_unit <- median(hist_data$Costo_Venta / hist_data$Cant, na.rm = TRUE)
  
  future_data$Unidades_XGBoost <- future_data$Venta_XGBoost / future_data$Precio_Final_Unitario
  future_data$Costo_XGBoost <- future_data$Unidades_XGBoost * avg_cost_per_unit
  future_data$Margen_XGBoost <- future_data$Venta_XGBoost - future_data$Costo_XGBoost
  
  return(future_data)
}

9.0.6 Pipeline correcto

corregir_formato_fechas <- function(datos) {
  if ("Trx_Fecha" %in% colnames(datos)) {
    datos$Trx_Fecha_Original <- datos$Trx_Fecha

    if (is.character(datos$Trx_Fecha) &&
        any(grepl("^\\d{7}-\\d{2}-\\d{2}$", datos$Trx_Fecha))) {

      cat("Corrigiendo formato de fechas extraño...\n")

      datos$Trx_Fecha <- sapply(datos$Trx_Fecha, function(fecha) {
        if (is.na(fecha) || !is.character(fecha)) return(NA)

        partes <- strsplit(fecha, "-")[[1]]
        if (length(partes) == 3) {
          fecha_corregida <- paste("2023", partes[2], partes[3], sep = "-")
          return(fecha_corregida)
        } else {
          return(NA)
        }
      })

      datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
      cat("Fechas corregidas exitosamente.\n")
    } else if (!inherits(datos$Trx_Fecha, "Date")) {
      cat("Intentando convertir fechas a formato Date...\n")
      datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
    }
  }
  return(datos)
}

# Aplicar la corrección a tu dataframe antes de usarlo
datos_filtrados <- corregir_formato_fechas(datos_filtrados)
dates_future <- seq.Date(as.Date("2023-01-01"), by = "month", length.out = 6)
precios_optimos_lista <- list()

for (id in productos_ids) {
  cat("Estimando precios óptimos para producto:", id, "\n")

  modelo_precio <- modelos_precio_lista[[as.character(id)]]

  if (!is.null(modelo_precio)) {
    precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
      data = datos_filtrados,
      product_id = id,
      price_models = modelo_precio,
      future_dates = dates_future
    )
  }
}
## Estimando precios óptimos para producto: 155001 
## Estimando precios óptimos para producto: 3929788 
## Estimando precios óptimos para producto: 3904152 
## Estimando precios óptimos para producto: 155002 
## Estimando precios óptimos para producto: 3678055
for (id in names(precios_optimos_lista)) {
  df_optimo <- precios_optimos_lista[[id]]$precios_optimos

  if (!inherits(df_optimo$Trx_Fecha, "Date")) {
    df_optimo$Trx_Fecha <- as.Date(df_optimo$Trx_Fecha)
  }

  cat(paste0("\n### Producto: ", id, "\n"))

  print(
    ggplot(df_optimo, aes(x = Trx_Fecha, y = Precio_Optimal)) +
      geom_line(color = "#1f77b4", linewidth = 1.2) +
      geom_point(color = "#1f77b4", size = 2) +
      labs(
        title = paste("Precio Óptimo por Mes - Producto", id),
        x = "Fecha",
        y = "Precio Óptimo"
      ) +
      scale_x_date(date_labels = "%b %Y", date_breaks = "1 month") +
      theme_minimal(base_size = 12) +
      theme(
        plot.title = element_text(face = "bold"),
        axis.text.x = element_text(angle = 45, hjust = 1)
      )
  )
}
## 
## ### Producto: 155001

## 
## ### Producto: 3929788

## 
## ### Producto: 3904152

## 
## ### Producto: 155002

## 
## ### Producto: 3678055

run_price_optimization <- function(data, product_ids, future_dates = NULL, modelos_precio_lista = NULL) {
  if (is.null(future_dates)) {
    future_dates <- seq.Date(Sys.Date(), by = "month", length.out = 6)
  }

  precios_optimos_lista <- list()

  for (id in product_ids) {
    cat("Estimando precios óptimos para producto:", id, "\n")

    price_model <- NULL
    if (!is.null(modelos_precio_lista)) {
      price_model <- modelos_precio_lista[[as.character(id)]]
    }

    precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
      data = data,
      product_id = id,
      price_models = price_model,
      future_dates = future_dates
    )
  }

  return(precios_optimos_lista)
}
# Función principal que integra todo el pipeline con solo XGBoost
run_complete_analysis <- function(data, top_ids, modelos_xgb, modelos_precio_lista = NULL) {
  # 1. Estimar precios óptimos
  all_results <- run_price_optimization(data, top_ids, modelos_precio_lista = modelos_precio_lista)

  # 2. Integrar con modelo XGBoost
  integrated_results <- list()

  for (i in seq_along(top_ids)) {
    pid <- top_ids[i]
    pid_str <- as.character(pid)

    xgb_model <- if (length(modelos_xgb) >= i) modelos_xgb[[i]] else NULL

    future_predictions <- integrate_with_existing_models(
      data = data,
      product_id = pid,
      price_opt_results = all_results,
      xgb_model = xgb_model
    )

    integrated_results[[pid_str]] <- future_predictions

    if (nrow(future_predictions) > 0) {
      p_sales <- ggplot(future_predictions, aes(x = Fecha, y = Venta_XGBoost)) +
        geom_line(color = "#1f77b4", linewidth = 1.2) +
        geom_point(size = 2) +
        labs(
          title = paste("Predicciones de ventas con precios óptimos - Producto", pid),
          x = "Fecha",
          y = "Ventas estimadas ($)"
        ) +
        theme_minimal()

      p_margins <- ggplot(future_predictions, aes(x = Fecha, y = Margen_XGBoost)) +
        geom_col(fill = "steelblue", width = 15) +
        geom_text(aes(label = round(Margen_XGBoost, 0)), vjust = -0.5, size = 3.5) +
        labs(
          title = paste("Margen esperado con precios óptimos - Producto", pid),
          x = "Fecha",
          y = "Margen estimado ($)"
        ) +
        theme_minimal()

      all_results[[pid_str]]$integrated_plots <- list(
        sales = p_sales,
        margins = p_margins
      )
    }
  }

  # 3. Visualización de precios óptimos
  all_optimal_prices <- data.frame()

  for (pid in top_ids) {
    pid_str <- as.character(pid)
    if (pid_str %in% names(all_results)) {
      opt_prices <- all_results[[pid_str]]$precios_optimos %>%
        mutate(ID_Inventario = pid)

      all_optimal_prices <- rbind(all_optimal_prices, opt_prices)
    }
  }

  p_comparison <- ggplot(all_optimal_prices,
                         aes(x = Trx_Fecha, y = Precio_Optimal, color = factor(ID_Inventario))) +
    geom_line(size = 1.2) +
    geom_point(size = 3) +
    labs(
      title = "Comparación de Precios Óptimos por Producto",
      x = "Fecha",
      y = "Precio Óptimo",
      color = "ID Producto"
    ) +
    theme_minimal()

  # 4. Métricas finales
  metricas_optimas <- data.frame()

  for (pid in top_ids) {
    pid_str <- as.character(pid)
    if (pid_str %in% names(integrated_results)) {
      pred_data <- integrated_results[[pid_str]]

      if ("Margen_XGBoost" %in% names(pred_data)) {
        metrics_row <- data.frame(
          ID_Inventario = pid,
          Precio_Promedio = mean(pred_data$Precio_Final_Unitario, na.rm = TRUE),
          Venta_Total = sum(pred_data$Venta_XGBoost, na.rm = TRUE),
          Margen_Total = sum(pred_data$Margen_XGBoost, na.rm = TRUE),
          Margen_Porcentual = 100 * sum(pred_data$Margen_XGBoost, na.rm = TRUE) /
            sum(pred_data$Venta_XGBoost, na.rm = TRUE)
        )
        metricas_optimas <- rbind(metricas_optimas, metrics_row)
      }
    }
  }

  return(list(
    resultados = all_results,
    integracion = integrated_results,
    precios_optimos = all_optimal_prices,
    metricas_optimas = metricas_optimas,
    grafico_comparativo = p_comparison
  ))
}
resultado_completo <- run_complete_analysis(
  data = datos,
  top_ids = productos_ids,
  modelos_xgb = modelos_xgb_lista,
  modelos_precio_lista = modelos_precio_lista
)
## Estimando precios óptimos para producto: 155001 
## Estimando precios óptimos para producto: 3929788 
## Estimando precios óptimos para producto: 3904152 
## Estimando precios óptimos para producto: 155002 
## Estimando precios óptimos para producto: 3678055

9.0.7 Gráfico comparativo de precios óptimos por producto:

# Mostrar métricas si estás en modo interactivo
if (interactive()) View(resultado_completo$metricas_optimas)

cat("Gráfico comparativo de precios óptimos por producto:\n")
## Gráfico comparativo de precios óptimos por producto:
print(resultado_completo$grafico_comparativo)

10 Predicción de ventas con precios optimos por producto

cat("Gráficos individuales por producto:\n")
## Gráficos individuales por producto:
for (pid in names(resultado_completo$resultados)) {
  plots <- resultado_completo$resultados[[pid]]$integrated_plots
  if (!is.null(plots)) {
    cat(paste0("## Producto: ", pid, "\n\n"))
    print(plots$sales)   # solo usa Venta_XGBoost internamente
    print(plots$margins) # solo usa Margen_XGBoost internamente
    
    cat("\n---\n\n")
  }
}
## ## Producto: 155001

## 
## ---
## 
## ## Producto: 3929788

## 
## ---
## 
## ## Producto: 3904152

## 
## ---
## 
## ## Producto: 155002

## 
## ---
## 
## ## Producto: 3678055

## 
## ---

10.0.1 TABLA FINAL

tabla_final <- data.frame()

for (pid in productos_ids) {
  pred <- resultado_completo$integracion[[as.character(pid)]]
  real <- datos_filtrados %>% filter(ID_Inventario == pid)

  if (!is.null(pred) && nrow(pred) > 0) {
    precio_promedio <- mean(real$Precio_Final_Unitario, na.rm = TRUE)
    margen_historico_promedio <- mean(real$Venta - real$Costo_Venta, na.rm = TRUE)

    # Extraer mes de las fechas futuras simuladas
    pred$Mes_Simulado <- lubridate::month(pred$Fecha)

    # Calcular venta promedio histórica por mes
    venta_historica_por_mes <- real %>%
      mutate(Mes = lubridate::month(Trx_Fecha)) %>%
      group_by(Mes) %>%
      summarise(Venta_Historica_Promedio = mean(Venta, na.rm = TRUE), .groups = "drop")

    # Agregar columna de venta esperada histórica al df de predicción
    pred <- pred %>%
      left_join(venta_historica_por_mes, by = c("Mes_Simulado" = "Mes"))

    tabla_producto <- pred %>%
      select(Fecha, Precio_Final_Unitario, Venta_XGBoost, Margen_XGBoost, Venta_Historica_Promedio) %>%
      rename(
        Precio_Optimo = Precio_Final_Unitario,
        Venta_Esperada_XGBoost = Venta_XGBoost,
        Margen_XGBoost = Margen_XGBoost,
        Venta_Esperada_Historica = Venta_Historica_Promedio
      ) %>%
      mutate(
        ID_Inventario = pid,
        Precio_Promedio_Historico = round(precio_promedio, 2),
        Margen_Historico_Promedio = round(margen_historico_promedio, 2)
      ) %>%
      select(ID_Inventario, Fecha, Precio_Promedio_Historico, Precio_Optimo,
             Venta_Esperada_Historica, Venta_Esperada_XGBoost,
             Margen_Historico_Promedio, Margen_XGBoost)

    tabla_final <- bind_rows(tabla_final, tabla_producto)
  }
}

print(tabla_final)
##    ID_Inventario      Fecha Precio_Promedio_Historico Precio_Optimo
## 1         155001 2025-06-06                    462.67      630.0000
## 2         155001 2025-07-06                    462.67      630.0000
## 3         155001 2025-08-06                    462.67      630.0000
## 4         155001 2025-09-06                    462.67      630.0000
## 5         155001 2025-10-06                    462.67      630.0000
## 6         155001 2025-11-06                    462.67      630.0000
## 7        3929788 2025-06-06                     40.46       51.5872
## 8        3929788 2025-07-06                     40.46       51.5872
## 9        3929788 2025-08-06                     40.46       51.5872
## 10       3929788 2025-09-06                     40.46       51.5872
## 11       3929788 2025-10-06                     40.46       51.5872
## 12       3929788 2025-11-06                     40.46       51.5872
## 13       3904152 2025-06-06                   3124.61     3556.0000
## 14       3904152 2025-07-06                   3124.61     3556.0000
## 15       3904152 2025-08-06                   3124.61     3556.0000
## 16       3904152 2025-09-06                   3124.61     3556.0000
## 17       3904152 2025-10-06                   3124.61     3556.0000
## 18       3904152 2025-11-06                   3124.61     3556.0000
## 19        155002 2025-06-06                    452.59      593.6000
## 20        155002 2025-07-06                    452.59      593.6000
## 21        155002 2025-08-06                    452.59      593.6000
## 22        155002 2025-09-06                    452.59      593.6000
## 23        155002 2025-10-06                    452.59      593.6000
## 24        155002 2025-11-06                    452.59      593.6000
## 25       3678055 2025-06-06                   5248.73     5908.0000
## 26       3678055 2025-07-06                   5248.73     5908.0000
## 27       3678055 2025-08-06                   5248.73     5908.0000
## 28       3678055 2025-09-06                   5248.73     5908.0000
## 29       3678055 2025-10-06                   5248.73     5908.0000
## 30       3678055 2025-11-06                   5248.73     5908.0000
##    Venta_Esperada_Historica Venta_Esperada_XGBoost Margen_Historico_Promedio
## 1                  2773.289               1253.110                    337.87
## 2                  3824.150               1255.131                    337.87
## 3                  3309.438               1793.815                    337.87
## 4                  2906.493               1255.131                    337.87
## 5                  2740.059               1255.131                    337.87
## 6                  2445.293               1255.131                    337.87
## 7                  1658.104               1044.346                    352.34
## 8                  1796.298               1044.346                    352.34
## 9                  1715.712               1044.775                    352.34
## 10                 1568.125               1044.346                    352.34
## 11                 1728.707               1274.590                    352.34
## 12                 1398.353               1044.346                    352.34
## 13                 7427.639               3551.571                   1761.58
## 14                 6116.994               3554.225                   1761.58
## 15                 7902.450               3558.141                   1761.58
## 16                 7601.677               7108.436                   1761.58
## 17                 7545.842               3538.695                   1761.58
## 18                11175.169               3558.141                   1761.58
## 19                 3240.199               1703.100                    260.63
## 20                 3341.957               1703.100                    260.63
## 21                 2821.299               1703.100                    260.63
## 22                 2747.125               1099.524                    260.63
## 23                 2609.795               1099.524                    260.63
## 24                 2170.307               1099.524                    260.63
## 25                10800.705               5894.670                   2405.74
## 26                10692.688               5894.670                   2405.74
## 27                10281.788               5894.670                   2405.74
## 28                10671.964               5924.096                   2405.74
## 29                 9014.365               5915.545                   2405.74
## 30                 7998.486               5897.285                   2405.74
##    Margen_XGBoost
## 1        551.2630
## 2        552.1520
## 3        789.1277
## 4        552.1520
## 5        552.1520
## 6        552.1520
## 7        431.6053
## 8        431.6053
## 9        431.7824
## 10       431.6053
## 11       526.7599
## 12       431.6053
## 13      1212.4252
## 14      1213.3312
## 15      1214.6681
## 16      2426.6575
## 17      1208.0296
## 18      1214.6681
## 19       669.6821
## 20       669.6821
## 21       669.6821
## 22       432.3477
## 23       432.3477
## 24       432.3477
## 25      1991.6554
## 26      1991.6554
## 27      1991.6554
## 28      2001.5978
## 29      1998.7085
## 30      1992.5389
