1 Librerias

# Librerías necesarias
library(tidyverse)
## Warning: package 'lubridate' was built under R version 4.4.3
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.1     ✔ tibble    3.2.1
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(readxl)
library(purrr)
library(knitr)
#install.packages("kableExtra")
library(kableExtra)
## Warning: package 'kableExtra' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'kableExtra'
## 
## The following object is masked from 'package:dplyr':
## 
##     group_rows
library(ggplot2)
#install.packages("igraph")
library(igraph)
## Warning: package 'igraph' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'igraph'
## 
## The following objects are masked from 'package:lubridate':
## 
##     %--%, union
## 
## The following objects are masked from 'package:dplyr':
## 
##     as_data_frame, groups, union
## 
## The following objects are masked from 'package:purrr':
## 
##     compose, simplify
## 
## The following object is masked from 'package:tidyr':
## 
##     crossing
## 
## The following object is masked from 'package:tibble':
## 
##     as_data_frame
## 
## The following objects are masked from 'package:stats':
## 
##     decompose, spectrum
## 
## The following object is masked from 'package:base':
## 
##     union
#install.packages("forecast")
#install.packages("lubridate")
library(forecast)
## Warning: package 'forecast' was built under R version 4.4.3
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
library(lubridate)
library(corrplot)
## corrplot 0.95 loaded
library(RColorBrewer)
#install.packages("ggcorrplot")
library(ggcorrplot)
## Warning: package 'ggcorrplot' was built under R version 4.4.3
library(caret)
## Cargando paquete requerido: lattice
## 
## Adjuntando el paquete: 'caret'
## 
## The following object is masked from 'package:purrr':
## 
##     lift
library(car)
## Cargando paquete requerido: carData
## 
## Adjuntando el paquete: 'car'
## 
## The following object is masked from 'package:dplyr':
## 
##     recode
## 
## The following object is masked from 'package:purrr':
## 
##     some
library(randomForest)
## randomForest 4.7-1.2
## Type rfNews() to see new features/changes/bug fixes.
## 
## Adjuntando el paquete: 'randomForest'
## 
## The following object is masked from 'package:dplyr':
## 
##     combine
## 
## The following object is masked from 'package:ggplot2':
## 
##     margin
#install.packages("xgboost")
library(xgboost)
## Warning: package 'xgboost' was built under R version 4.4.3
## 
## Adjuntando el paquete: 'xgboost'
## 
## The following object is masked from 'package:dplyr':
## 
##     slice
#install.packages("patchwork")
library(patchwork)
## Warning: package 'patchwork' was built under R version 4.4.3

2 Carga de datos

# Cargar archivo Excel desde ruta local
ruta <- "C:\\Users\\almai\\Downloads\\filtered_data.xlsx"

datos <- read_excel(ruta)

# Vista genera
head(datos)
## # A tibble: 6 × 25
##   Trx_Num Trx_Fecha           Origen    Sucursal Num_Cliente ID_Inventario  Cant
##     <dbl> <dttm>              <chr>     <chr>          <dbl>         <dbl> <dbl>
## 1   46453 2023-02-09 00:00:00 FACTURAS… ACA             1049        155001     2
## 2   46455 2023-02-09 00:00:00 FACTURAS… ACA             7455        155001    40
## 3   46476 2023-02-16 00:00:00 FACTURAS… ACA             4981        155001    30
## 4   46480 2023-02-16 00:00:00 FACTURAS… ACA             7455        155001    60
## 5   46501 2023-02-20 00:00:00 FACTURAS… ACA             2925        155001     5
## 6   46528 2023-02-25 00:00:00 FACTURAS… ACA             1049        155001     2
## # ℹ 18 more variables: Linea <chr>, Especifico <chr>, Canal_Venta <chr>,
## #   Tipo_Precio <dbl>, Tipo_Modificador <chr>, Venta <dbl>, Costo_Venta <dbl>,
## #   Costo_Devolucion <dbl>, Ajus_Sistema <dbl>, Precio_Lista_Unitario <dbl>,
## #   Precio_Final_Unitario <dbl>, Semana <dbl>, Mes <dbl>, Ciudad <chr>,
## #   Zona <chr>, Devoluciones <dbl>, Diferencia_Precio <dbl>,
## #   Descuento_Porcentaje <dbl>
str(datos)
## tibble [32,244 × 25] (S3: tbl_df/tbl/data.frame)
##  $ Trx_Num              : num [1:32244] 46453 46455 46476 46480 46501 ...
##  $ Trx_Fecha            : POSIXct[1:32244], format: "2023-02-09" "2023-02-09" ...
##  $ Origen               : chr [1:32244] "FACTURAS IMPORTADAS" "FACTURAS IMPORTADAS" "FACTURAS IMPORTADAS" "FACTURAS IMPORTADAS" ...
##  $ Sucursal             : chr [1:32244] "ACA" "ACA" "ACA" "ACA" ...
##  $ Num_Cliente          : num [1:32244] 1049 7455 4981 7455 2925 ...
##  $ ID_Inventario        : num [1:32244] 155001 155001 155001 155001 155001 ...
##  $ Cant                 : num [1:32244] 2 40 30 60 5 2 1 4 1 1 ...
##  $ Linea                : chr [1:32244] "PQU" "PQU" "PQU" "PQU" ...
##  $ Especifico           : chr [1:32244] "TCG" "TCG" "TCG" "TCG" ...
##  $ Canal_Venta          : chr [1:32244] "Sucursal" "Sucursal" "Sucursal" "Sucursal" ...
##  $ Tipo_Precio          : num [1:32244] 1 1 1 1 1 1 1 1 1 1 ...
##  $ Tipo_Modificador     : chr [1:32244] "CARTA DESCUENTO" "CARTA DESCUENTO" "CARTA DESCUENTO" "CARTA DESCUENTO" ...
##  $ Venta                : num [1:32244] 1187 21280 15960 31920 2968 ...
##  $ Costo_Venta          : num [1:32244] 1194 23874 17906 35811 2570 ...
##  $ Costo_Devolucion     : num [1:32244] 0 0 0 0 0 0 0 0 0 0 ...
##  $ Ajus_Sistema         : num [1:32244] -2515 -2515 -2515 -2515 -2515 ...
##  $ Precio_Lista_Unitario: num [1:32244] 4192 4192 4192 4192 4192 ...
##  $ Precio_Final_Unitario: num [1:32244] 594 532 532 532 594 ...
##  $ Semana               : num [1:32244] 6 6 7 7 8 8 5 5 5 5 ...
##  $ Mes                  : num [1:32244] 2 2 2 2 2 2 2 2 2 2 ...
##  $ Ciudad               : chr [1:32244] "Acapulco" "Acapulco" "Acapulco" "Acapulco" ...
##  $ Zona                 : chr [1:32244] "Sur" "Sur" "Sur" "Sur" ...
##  $ Devoluciones         : num [1:32244] 0 0 0 0 0 0 0 0 0 0 ...
##  $ Diferencia_Precio    : num [1:32244] 3598 3660 3660 3660 3598 ...
##  $ Descuento_Porcentaje : num [1:32244] 85.8 87.3 87.3 87.3 85.8 ...
# Obtener los 5 productos más vendidos (por valor)
top_ids <- datos %>%
  group_by(ID_Inventario) %>%
  summarise(Ventas_Totales = sum(Venta, na.rm = TRUE)) %>%
  arrange(desc(Ventas_Totales)) %>%
  slice_head(n = 5) %>%
  pull(ID_Inventario)

print("Top 5 productos más vendidos (ID_Inventario):")
## [1] "Top 5 productos más vendidos (ID_Inventario):"
print(top_ids)
## [1]  155001 3929788 3904152  155002 3678055
# Filtrar datos válidos
datos_filtrados <- datos %>%
  filter(ID_Inventario %in% top_ids) %>%
  filter(!is.na(Precio_Final_Unitario))

# Contar observaciones por producto
conteo <- datos_filtrados %>%
  count(ID_Inventario, sort = TRUE)

print("Número de registros por producto en datos_filtrados:")
## [1] "Número de registros por producto en datos_filtrados:"
print(conteo)
## # A tibble: 5 × 2
##   ID_Inventario     n
##           <dbl> <int>
## 1       3929788 13717
## 2        155001  8559
## 3        155002  5752
## 4       3904152  2556
## 5       3678055  1660
# Verifica si hay suficientes datos
if (nrow(datos_filtrados) == 0) {
  stop("No hay datos suficientes luego de filtrar por top_ids y precios válidos.")
}
# Combinaciones de pares
productos <- unique(datos_filtrados$ID_Inventario)
pares_productos <- combn(productos, 2, simplify = FALSE)

# Inicializar resultados
resultados_ks <- map_df(pares_productos, function(par) {
  prod1 <- par[1]
  prod2 <- par[2]
  
  precios1 <- datos_filtrados %>%
    filter(ID_Inventario == prod1) %>%
    pull(Precio_Final_Unitario)
  
  precios2 <- datos_filtrados %>%
    filter(ID_Inventario == prod2) %>%
    pull(Precio_Final_Unitario)
  
  print(paste("Comparando productos", prod1, "vs", prod2))
  print(paste("Cantidad de precios:", length(precios1), "y", length(precios2)))
  
  if (length(precios1) >= 5 & length(precios2) >= 5) {
    prueba <- suppressWarnings(ks.test(precios1, precios2))
    data.frame(
      Producto_1 = prod1,
      Producto_2 = prod2,
      D = round(prueba$statistic, 4),
      p_value = round(prueba$p.value, 4),
      Conclusion = ifelse(prueba$p.value > 0.05, "Distribuciones similares", "Distribuciones diferentes")
    )
  } else {
    data.frame(
      Producto_1 = prod1,
      Producto_2 = prod2,
      D = NA,
      p_value = NA,
      Conclusion = "Datos insuficientes"
    )
  }
})
## [1] "Comparando productos 155001 vs 3929788"
## [1] "Cantidad de precios: 8559 y 13717"
## [1] "Comparando productos 155001 vs 155002"
## [1] "Cantidad de precios: 8559 y 5752"
## [1] "Comparando productos 155001 vs 3904152"
## [1] "Cantidad de precios: 8559 y 2556"
## [1] "Comparando productos 155001 vs 3678055"
## [1] "Cantidad de precios: 8559 y 1660"
## [1] "Comparando productos 3929788 vs 155002"
## [1] "Cantidad de precios: 13717 y 5752"
## [1] "Comparando productos 3929788 vs 3904152"
## [1] "Cantidad de precios: 13717 y 2556"
## [1] "Comparando productos 3929788 vs 3678055"
## [1] "Cantidad de precios: 13717 y 1660"
## [1] "Comparando productos 155002 vs 3904152"
## [1] "Cantidad de precios: 5752 y 2556"
## [1] "Comparando productos 155002 vs 3678055"
## [1] "Cantidad de precios: 5752 y 1660"
## [1] "Comparando productos 3904152 vs 3678055"
## [1] "Cantidad de precios: 2556 y 1660"
print("Resultados de la prueba KS:")
## [1] "Resultados de la prueba KS:"
print(resultados_ks)
##        Producto_1 Producto_2     D p_value                Conclusion
## D...1      155001    3929788 1.000       0 Distribuciones diferentes
## D...2      155001     155002 0.043       0 Distribuciones diferentes
## D...3      155001    3904152 1.000       0 Distribuciones diferentes
## D...4      155001    3678055 1.000       0 Distribuciones diferentes
## D...5     3929788     155002 1.000       0 Distribuciones diferentes
## D...6     3929788    3904152 1.000       0 Distribuciones diferentes
## D...7     3929788    3678055 1.000       0 Distribuciones diferentes
## D...8      155002    3904152 1.000       0 Distribuciones diferentes
## D...9      155002    3678055 1.000       0 Distribuciones diferentes
## D...10    3904152    3678055 1.000       0 Distribuciones diferentes
try(dev.off(), silent = TRUE)
## null device 
##           1
# Filtrar los productos
df_155001 <- datos_filtrados %>%
  filter(ID_Inventario == 155001) %>%
  select(Precio_Final_Unitario) %>%
  mutate(Producto = "155001")

df_155002 <- datos_filtrados %>%
  filter(ID_Inventario == 155002) %>%
  select(Precio_Final_Unitario) %>%
  mutate(Producto = "155002")

# Unir en un solo dataframe
df_ecdf <- bind_rows(df_155001, df_155002)

# Graficar ECDF
ggplot(df_ecdf, aes(x = Precio_Final_Unitario, color = Producto)) +
  stat_ecdf(geom = "step", size = 1) +
  labs(title = "ECDF de Precio Final Unitario: Productos 155001 vs 155002",
       x = "Precio Final Unitario",
       y = "Función de Distribución Acumulada (ECDF)",
       color = "Producto") +
  theme_minimal(base_size = 14)
## Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
## ℹ Please use `linewidth` instead.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was
## generated.

3 ARMA

4 PREDICCIONES DE VENTAS

4.1 PRODUCTO 155001

# Producto 155001
id_prod <- 155001

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 155001
Producto Modelo MAPE RMSE
155001 ARMA 17.68164 224023.2

4.2 PRODUCTO 3929788

# Producto 3929788

id_prod <- 3929788

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
mse <- mean((serie_ts - fitted_values)^2)

# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE  = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3929788
Producto Modelo MAPE RMSE
2 3929788 ARMA 12.83705 224023.2

4.3 PRODUCTO 3904152

# Producto 3904152
id_prod <- 3904152

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3904152
Producto Modelo MAPE RMSE
3 3904152 ARMA 15.35679 156981.2

4.4 PRODUCTO 155002

# Producto 155002
id_prod <- 155002

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))


# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 155002
Producto Modelo MAPE RMSE
4 155002 ARMA 25.83303 192121.8

4.5 PRODUCTO 3678055

# Producto 3678055
id_prod <- 3678055

# Crear la serie de tiempo mensual
ventas_mensuales <- datos_filtrados %>%
  filter(ID_Inventario == id_prod) %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month"))) %>%
  group_by(Fecha) %>%
  summarise(Venta = sum(Venta, na.rm = TRUE)) %>%
  arrange(Fecha)

serie_ts <- ts(ventas_mensuales$Venta, frequency = 12,
               start = c(year(min(ventas_mensuales$Fecha)), 
                         month(min(ventas_mensuales$Fecha))))

# Modelo ARMA
modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
forecast_modelo <- forecast(modelo_arma, h = 3)

# Gráfico del pronóstico
autoplot(forecast_modelo) +
  labs(title = paste("Pronóstico mensual de ventas - ARMA (Producto", id_prod, ")"),
       x = "Mes", y = "Ventas ($)") +
  theme_minimal()

# Calcular métricas
fitted_values <- fitted(modelo_arma)
mape <- mean(abs((serie_ts - fitted_values) / pmax(serie_ts, 0.01))) * 100
rmse <- sqrt(mean((serie_ts - fitted_values)^2))

# Crear tabla de métricas
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = id_prod,
  Modelo = "ARMA",
  MAPE = mape,
  RMSE = rmse
))

# Mostrar tabla para este producto
tail(metricas_comparativas, 1) %>%
  knitr::kable(caption = paste("Métricas del modelo ARMA para Producto", id_prod)) %>%
  kableExtra::kable_styling(full_width = FALSE)
Métricas del modelo ARMA para Producto 3678055
Producto Modelo MAPE RMSE
5 3678055 ARMA 22.73775 177040.5

5 REGRESION LINEAL

5.1 MAPA DE CALOR

# Variables numéricas relevantes
vars_numericas <- c("Cant", "Venta", "Costo_Venta",
                    "Precio_Final_Unitario", "Descuento_Porcentaje")

# Preparación de los datos
datos_cor <- datos_filtrados %>%
  select(all_of(vars_numericas)) %>%
  na.omit()

# Generar la matriz de correlación
matriz_cor <- cor(datos_cor)

# Ajuste del gráfico sin mar
ggcorrplot(matriz_cor,
           method = "square",
           type = "upper",
           lab = TRUE, 
           lab_size = 2,                   # Mejor tamaño de los coeficientes
           tl.cex = 10,                    # Tamaño de etiquetas más grande
           tl.srt = 45,                    # Rotación de 45° de etiquetas
           colors = c("#6D9EC1", "white", "#E46726"),
           title = "Mapa de Correlación - Variables Numéricas",
           ggtheme = theme_minimal(base_size = 14) +
             theme(
               axis.text.x = element_text(angle = 45, hjust = 1),
               axis.text.y = element_text(angle = 0, hjust = 1))
)

5.2 PRODUCTO 155001

# Filtrar solo los datos para el producto 155001
datos_155001 <- datos_filtrados %>%
  filter(ID_Inventario == 155001) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_155001 <- datos_155001 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_155001)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl>
## 1  1187.     2       1194.                  594.                 85.8
## 2 21280     40      23874.                  532                  87.3
## 3 15960     30      17906.                  532                  87.3
## 4 31920     60      35811.                  532                  87.3
## 5  2968      5       2570.                  594.                 85.8
## 6  1187.     2        958.                  594.                 85.8
## # ℹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155001)

# Ver resumen del modelo
summary(modelo_regresion_155001)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_155001)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -12228.9   -128.0     35.3    100.1  24517.4 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           -3.319e+03  1.165e+03  -2.849   0.0044 ** 
## Cant                   1.578e+02  3.300e+00  47.839   <2e-16 ***
## Costo_Venta            6.802e-01  8.789e-03  77.388   <2e-16 ***
## Precio_Final_Unitario  2.859e+00  2.544e-01  11.241   <2e-16 ***
## Descuento_Porcentaje   2.326e+01  1.199e+01   1.939   0.0525 .  
## Tiempo                 8.990e+04  1.940e+05   0.463   0.6431    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 742.9 on 8553 degrees of freedom
## Multiple R-squared:  0.9879, Adjusted R-squared:  0.9879 
## F-statistic: 1.393e+05 on 5 and 8553 DF,  p-value: < 2.2e-16
# Ajuste del modelo de regresión lineal
modelo_regresion_155001 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155001)

# Predicciones usando el modelo ajustado
predicciones_155001 <- predict(modelo_regresion_155001, newdata = datos_155001)

# Calcular MAPE (Mean Absolute Percentage Error)
mape_155001 <- mean(abs((datos_155001$Venta - predicciones_155001) / datos_155001$Venta)) * 100


# Calcular RMSE (Root Mean Squared Error)
rmse_155001 <- sqrt(mean((datos_155001$Venta - predicciones_155001)^2))



# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155001: ", mape_155001, "\n")
## MAPE del modelo de regresión lineal para 155001:  14.49668
cat("RMSE del modelo de regresión lineal para 155001: ", rmse_155001, "\n")
## RMSE del modelo de regresión lineal para 155001:  742.6409
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155001)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_155001,
  RMSE = rmse_155001

))

5.3 PRODUCTO 3929788

# Filtrar solo los datos para el producto 3929788
datos_3929788 <- datos_filtrados %>%
  filter(ID_Inventario == 3929788) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_3929788 <- datos_3929788 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3929788)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl>
## 1   364     10        254.                  36.4                 60  
## 2   242.     6        167.                  40.3                 60  
## 3   697.    15        506.                  46.5                 48.9
## 4 13020    300      10110.                  43.4                 52.3
## 5  2170     50       1685.                  43.4                 52.3
## 6   434     10        337.                  43.4                 52.3
## # ℹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3929788 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                              data = datos_3929788)

# Ver resumen del modelo
summary(modelo_regresion_3929788)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3929788)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4348.4   -81.8   -45.4    27.9  3441.5 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            5.154e+02  1.690e+02   3.049   0.0023 ** 
## Cant                   2.552e+00  2.503e-01  10.193  < 2e-16 ***
## Costo_Venta            1.102e+00  8.312e-03 132.603  < 2e-16 ***
## Precio_Final_Unitario  8.877e-01  1.674e+00   0.530   0.5960    
## Descuento_Porcentaje  -7.636e+00  1.750e+00  -4.364 1.29e-05 ***
## Tiempo                 2.082e+05  4.365e+04   4.771 1.85e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 218.9 on 13711 degrees of freedom
## Multiple R-squared:  0.9949, Adjusted R-squared:  0.9949 
## F-statistic: 5.393e+05 on 5 and 13711 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3929788 <- predict(modelo_regresion_3929788, newdata = datos_3929788)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3929788 <- mean(abs((datos_3929788$Venta - predicciones_3929788) / pmax(datos_3929788$Venta, 0.01))) * 100

# Calcular MSE (Mean Squared Error)
rmse_3929788 <- sqrt(mean((datos_3929788$Venta - predicciones_3929788)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3929788: ", mape_3929788, "\n")
## MAPE del modelo de regresión lineal para 3929788:  22.37678
cat("RMSE del modelo de regresión lineal para 3929788: ", rmse_3929788, "\n")
## RMSE del modelo de regresión lineal para 3929788:  218.8655
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3929788)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3929788,
  RMSE = rmse_3929788
))

5.4 PRODUCTO 3904152

# Filtrar solo los datos para el producto 3904152
datos_3904152 <- datos_filtrados %>%
  filter(ID_Inventario == 3904152) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA
# Crear una variable de tiempo continua basada en la fecha
datos_3904152 <- datos_3904152 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3904152)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl>
## 1  3402     1       2462.                  3402                 62.4
## 2  9240     3       7382.                  3080                 66.0
## 3  3402     1       2461.                  3402                 62.4
## 4  3402     1       2462.                  3402                 62.4
## 5  3402     1       2462.                  3402                 62.4
## 6 30800    10      24563.                  3080                 66.0
## # ℹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3904152 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_3904152)

# Ver resumen del modelo
summary(modelo_regresion_3904152)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3904152)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7591.2  -149.6   -11.9   114.8  3142.7 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.279e+04  1.005e+03  12.720  < 2e-16 ***
## Cant                   2.651e+02  5.929e+01   4.470 8.16e-06 ***
## Costo_Venta            1.172e+00  2.513e-02  46.650  < 2e-16 ***
## Precio_Final_Unitario -1.734e-01  9.940e-02  -1.744   0.0812 .  
## Descuento_Porcentaje  -1.888e+02  1.108e+01 -17.049  < 2e-16 ***
## Tiempo                 2.313e+06  1.487e+05  15.561  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 376.9 on 2550 degrees of freedom
## Multiple R-squared:  0.9987, Adjusted R-squared:  0.9987 
## F-statistic: 4.059e+05 on 5 and 2550 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_3904152 <- predict(modelo_regresion_3904152, newdata = datos_3904152)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3904152 <- mean(abs((datos_3904152$Venta - predicciones_3904152) / pmax(datos_3904152$Venta, 0.01))) * 100

# Calcular MSE (Mean Squared Error)
rmse_3904152 <- sqrt(mean((datos_3904152$Venta - predicciones_3904152)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3904152: ", mape_3904152, "\n")
## MAPE del modelo de regresión lineal para 3904152:  3.343441
cat("RMSE del modelo de regresión lineal para 3904152: ", rmse_3904152, "\n")
## RMSE del modelo de regresión lineal para 3904152:  376.4854
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3904152)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3904152,
  RMSE = rmse_3904152
))

5.5 PRODUCTO 155002

# Filtrar solo los datos para el producto 155002
datos_155002 <- datos_filtrados %>%
  filter(ID_Inventario == 155002) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_155002 <- datos_155002 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_155002)
## # A tibble: 6 × 8
##   Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
##   <dbl> <dbl>       <dbl>                 <dbl>                <dbl>
## 1 5320     10       8247.                  532                  87.3
## 2 5320     10       8247.                  532                  87.3
## 3 2660      5       4124.                  532                  87.3
## 4  630      1        519.                  630                  85.0
## 5 1120      2       1037.                  560                  86.6
## 6 1537.     3       1556.                  512.                 87.8
## # ℹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_155002 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_155002)

# Ver resumen del modelo
summary(modelo_regresion_155002)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_155002)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -11980   -167     55    154  46301 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            8.521e+02  1.894e+03   0.450 0.652854    
## Cant                   2.992e+02  3.945e+00  75.856  < 2e-16 ***
## Costo_Venta            3.025e-01  9.834e-03  30.758  < 2e-16 ***
## Precio_Final_Unitario  3.681e+00  3.980e-01   9.250  < 2e-16 ***
## Descuento_Porcentaje  -2.875e+01  1.957e+01  -1.469 0.141855    
## Tiempo                 9.982e+05  3.004e+05   3.323 0.000896 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 890.7 on 5746 degrees of freedom
## Multiple R-squared:  0.9723, Adjusted R-squared:  0.9723 
## F-statistic: 4.039e+04 on 5 and 5746 DF,  p-value: < 2.2e-16
# Predicciones usando el modelo ajustado
predicciones_155002 <- predict(modelo_regresion_155002, newdata = datos_155002)

# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_155002 <- mean(abs((datos_155002$Venta - predicciones_155002) / pmax(datos_155002$Venta, 0.01))) * 100

# Calcular RMSE (Root Mean Squared Error)
rmse_155002 <- sqrt(mean((datos_155002$Venta - predicciones_155002)^2))


# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 155002: ", mape_155002, "\n")
## MAPE del modelo de regresión lineal para 155002:  19.918
cat("RMSE del modelo de regresión lineal para 155002: ", rmse_155002, "\n")
## RMSE del modelo de regresión lineal para 155002:  890.2337
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_155002)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_155002,
  RMSE = rmse_155002
  ))

5.6 PRODUCTO 3678055

# Filtrar solo los datos para el producto 3678055
datos_3678055 <- datos_filtrados %>%
  filter(ID_Inventario == 3678055) %>%
  select(Venta, Cant, Costo_Venta,
         Precio_Final_Unitario, Descuento_Porcentaje, Trx_Fecha) %>%
  na.omit()  # Eliminar filas con valores NA

# Crear una variable de tiempo continua basada en la fecha
datos_3678055 <- datos_3678055 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")),   # Asegúrate de que la fecha esté en formato Date
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses (ajustado por días)

# Verificar las primeras filas para asegurarnos de que la variable de tiempo esté bien creada
head(datos_3678055)
## # A tibble: 6 × 8
##    Venta  Cant Costo_Venta Precio_Final_Unitario Descuento_Porcentaje
##    <dbl> <dbl>       <dbl>                 <dbl>                <dbl>
## 1 36358      7      28807.                 5194                  65.9
## 2  5670      1       4213.                 5670                  62.8
## 3 10773      2       8232.                 5386.                 64.7
## 4  5670      1       4116.                 5670                  62.8
## 5  5386.     1       4156.                 5386.                 64.7
## 6  5386.     1       4213.                 5386.                 64.7
## # ℹ 3 more variables: Trx_Fecha <dttm>, Fecha <date>, Tiempo <dbl>
# Ajustar el modelo de regresión lineal
modelo_regresion_3678055 <- lm(Venta ~ Cant + Costo_Venta +
                              Precio_Final_Unitario + Descuento_Porcentaje + Tiempo,
                             data = datos_3678055)

# Ver resumen del modelo
summary(modelo_regresion_3678055)
## 
## Call:
## lm(formula = Venta ~ Cant + Costo_Venta + Precio_Final_Unitario + 
##     Descuento_Porcentaje + Tiempo, data = datos_3678055)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3921.4  -165.9    -7.8   170.0  3631.6 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)            1.260e+04  1.396e+03   9.024  < 2e-16 ***
## Cant                   1.570e+03  1.017e+02  15.439  < 2e-16 ***
## Costo_Venta            9.057e-01  2.541e-02  35.648  < 2e-16 ***
## Precio_Final_Unitario  2.424e-01  8.578e-02   2.826  0.00477 ** 
## Descuento_Porcentaje  -2.127e+02  1.512e+01 -14.061  < 2e-16 ***
## Tiempo                 2.034e+06  2.032e+05  10.009  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 461.5 on 1654 degrees of freedom
## Multiple R-squared:  0.9976, Adjusted R-squared:  0.9976 
## F-statistic: 1.376e+05 on 5 and 1654 DF,  p-value: < 2.2e-16
#Predicciones usando el modelo ajustado
predicciones_3678055 <- predict(modelo_regresion_3678055, newdata = datos_3678055)
# Calcular MAPE (Mean Absolute Percentage Error)
# Añadimos protección contra división por cero
mape_3678055 <- mean(abs((datos_3678055$Venta - predicciones_3678055) / pmax(datos_3678055$Venta, 0.01))) * 100

# Calcular RMSE (Root Mean Squared Error)

rmse_3678055 <- mean((datos_3678055$Venta - predicciones_3678055)^2)

# Mostrar las métricas
cat("MAPE del modelo de regresión lineal para 3678055: ", mape_3678055, "\n")
## MAPE del modelo de regresión lineal para 3678055:  2.900802
cat("RMSE del modelo de regresión lineal para 3678055: ", rmse_3678055, "\n")
## RMSE del modelo de regresión lineal para 3678055:  212205.3
# Diagnóstico de residuos del modelo
par(mfrow = c(2, 2))
plot(modelo_regresion_3678055)

# Guardar métricas de Regresión Lineal para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "Regresión Lineal",
  MAPE = mape_3678055,
  RMSE = rmse_3678055
))

5.7 ANALISIS DE VARIABLES IMPORTANTES

# Función simplificada para analizar coeficientes
analizar_coeficientes <- function(modelo, nombre_producto) {
  resumen <- summary(modelo)
  coef_df <- as.data.frame(resumen$coefficients)
  colnames(coef_df) <- c("Estimate", "Std.Error", "t.value", "p.value")
  coef_df$Variable <- rownames(coef_df)
  coef_df$Producto <- nombre_producto
  coef_df$Significativo <- ifelse(coef_df$p.value < 0.05, "Sí", "No")
  
  return(coef_df %>%
           select(Producto, Variable, Estimate, p.value, Significativo) %>%
           arrange(desc(abs(Estimate))))
}

# Aplicar a cada modelo
coef_155001 <- analizar_coeficientes(modelo_regresion_155001, "155001")
coef_155002 <- analizar_coeficientes(modelo_regresion_155002, "155002")
coef_3678055 <- analizar_coeficientes(modelo_regresion_3678055, "3678055")
coef_3904152 <- analizar_coeficientes(modelo_regresion_3904152, "3904152")
coef_3929788 <- analizar_coeficientes(modelo_regresion_3929788, "3929788")

# Combinar todos los coeficientes
todos_coeficientes <- bind_rows(coef_155001, coef_155002, coef_3678055, coef_3904152, coef_3929788)

# Tabla con variables importantes incluyendo significancia
variables_importantes <- todos_coeficientes %>%
  filter(Variable != "(Intercept)") %>%
  group_by(Producto) %>%
  arrange(Producto, desc(abs(Estimate))) %>%
  mutate(Impacto = ifelse(Estimate > 0, "Positivo", "Negativo"))

# Tabla completa con todas las variables importantes
kable(variables_importantes %>% 
        select(Producto, Variable, Estimate, p.value, Significativo, Impacto),
      caption = "Variables importantes por producto",
      col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
      digits = c(0, 0, 4, 4, 0, 0)) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Variables importantes por producto
Producto Variable Coeficiente p-value Significativo Impacto
155001 Tiempo 89900.3830 0.6431 No Positivo
155001 Cant 157.8442 0.0000 Positivo
155001 Descuento_Porcentaje 23.2560 0.0525 No Positivo
155001 Precio_Final_Unitario 2.8592 0.0000 Positivo
155001 Costo_Venta 0.6802 0.0000 Positivo
155002 Tiempo 998207.9076 0.0009 Positivo
155002 Cant 299.2286 0.0000 Positivo
155002 Descuento_Porcentaje -28.7504 0.1419 No Negativo
155002 Precio_Final_Unitario 3.6812 0.0000 Positivo
155002 Costo_Venta 0.3025 0.0000 Positivo
3678055 Tiempo 2034282.2796 0.0000 Positivo
3678055 Cant 1570.0692 0.0000 Positivo
3678055 Descuento_Porcentaje -212.6746 0.0000 Negativo
3678055 Costo_Venta 0.9057 0.0000 Positivo
3678055 Precio_Final_Unitario 0.2425 0.0048 Positivo
3904152 Tiempo 2313419.2297 0.0000 Positivo
3904152 Cant 265.0523 0.0000 Positivo
3904152 Descuento_Porcentaje -188.8303 0.0000 Negativo
3904152 Costo_Venta 1.1722 0.0000 Positivo
3904152 Precio_Final_Unitario -0.1734 0.0812 No Negativo
3929788 Tiempo 208247.8173 0.0000 Positivo
3929788 Descuento_Porcentaje -7.6365 0.0000 Negativo
3929788 Cant 2.5517 0.0000 Positivo
3929788 Costo_Venta 1.1022 0.0000 Positivo
3929788 Precio_Final_Unitario 0.8877 0.5960 No Positivo
# Tabla resumen con top 3 por producto
top_por_producto <- variables_importantes %>%
  group_by(Producto) %>%
  slice_head(n = 3) %>%
  select(Producto, Variable, Estimate, p.value, Significativo, Impacto)

kable(top_por_producto,
      caption = "Top 3 variables más importantes por producto",
      col.names = c("Producto", "Variable", "Coeficiente", "p-value", "Significativo", "Impacto"),
      digits = c(0, 0, 4, 4, 0, 0)) %>%
  kable_styling(bootstrap_options = c("striped", "hover", "condensed"))
Top 3 variables más importantes por producto
Producto Variable Coeficiente p-value Significativo Impacto
155001 Tiempo 89900.3830 0.6431 No Positivo
155001 Cant 157.8442 0.0000 Positivo
155001 Descuento_Porcentaje 23.2560 0.0525 No Positivo
155002 Tiempo 998207.9076 0.0009 Positivo
155002 Cant 299.2286 0.0000 Positivo
155002 Descuento_Porcentaje -28.7504 0.1419 No Negativo
3678055 Tiempo 2034282.2796 0.0000 Positivo
3678055 Cant 1570.0692 0.0000 Positivo
3678055 Descuento_Porcentaje -212.6746 0.0000 Negativo
3904152 Tiempo 2313419.2297 0.0000 Positivo
3904152 Cant 265.0523 0.0000 Positivo
3904152 Descuento_Porcentaje -188.8303 0.0000 Negativo
3929788 Tiempo 208247.8173 0.0000 Positivo
3929788 Descuento_Porcentaje -7.6365 0.0000 Negativo
3929788 Cant 2.5517 0.0000 Positivo

6 RANDOM FOREST

6.1 PRODUCTO 155001

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
  select(-Trx_Fecha, -Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155001 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155001)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 1637507
##                     % Var explained: 96.4
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_155001, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- mean((datos_modelo$Venta - predicciones_rf)^2)

# Mostrar las métricas
cat("Modelo Random Forest para producto 155001\n")
## Modelo Random Forest para producto 155001
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.436948
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 434537.4
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155001)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  30.698487  164401541874
## Costo_Venta           35.945409  201329490141
## Precio_Final_Unitario  2.777111    5275172729
## Descuento_Porcentaje   3.271347    9916142883
## Tiempo                 3.694441    5432163340
# Graficar importancia de variables
varImpPlot(modelo_rf_155001, main = "Importancia de Variables - Producto 155001")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155001",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# NUEVOS ANÁLISIS AÑADIDOS

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155001",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Estadísticas descriptivas de los errores
cat("Estadísticas descriptivas de los errores:\n")
## Estadísticas descriptivas de los errores:
cat("Media de errores:", mean(errores), "\n")
## Media de errores: 9.281218
cat("Desviación estándar de errores:", sd(errores), "\n")
## Desviación estándar de errores: 659.1677
cat("Mínimo:", min(errores), "\n")
## Mínimo: -5614.309
cat("Máximo:", max(errores), "\n")
## Máximo: 49375.13
cat("Mediana:", median(errores), "\n")
## Mediana: -0.06176243
# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155001",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf
))

6.2 PRODUCTO 3929788

# Crear una variable de tiempo continua basada en la fecha
datos_3929788 <- datos_3929788 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), 
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses

# Mostrar un resumen de los datos
summary(datos_3929788)
##      Venta               Cant          Costo_Venta       Precio_Final_Unitario
##  Min.   :   30.52   Min.   :   1.00   Min.   :   25.36   Min.   : 28.00       
##  1st Qu.:  403.20   1st Qu.:  10.00   1st Qu.:  280.17   1st Qu.: 36.40       
##  Median :  873.60   Median :  20.00   Median :  623.38   Median : 40.32       
##  Mean   : 1660.11   Mean   :  42.99   Mean   : 1301.82   Mean   : 40.83       
##  3rd Qu.: 2016.00   3rd Qu.:  50.00   3rd Qu.: 1513.40   3rd Qu.: 43.57       
##  Max.   :53096.40   Max.   :1540.00   Max.   :46610.46   Max.   :108.92       
##  Descuento_Porcentaje   Trx_Fecha                          Fecha           
##  Min.   : 0.00        Min.   :2023-01-02 00:00:00.00   Min.   :2023-01-01  
##  1st Qu.:60.00        1st Qu.:2023-07-05 00:00:00.00   1st Qu.:2023-07-01  
##  Median :60.19        Median :2024-01-15 00:00:00.00   Median :2024-01-01  
##  Mean   :60.84        Mean   :2024-01-06 20:09:02.74   Mean   :2023-12-21  
##  3rd Qu.:65.28        3rd Qu.:2024-07-09 00:00:00.00   3rd Qu.:2024-07-01  
##  Max.   :71.72        Max.   :2024-12-31 00:00:00.00   Max.   :2024-12-01  
##      Tiempo         
##  Min.   :0.000e+00  
##  1st Qu.:6.983e-05  
##  Median :1.408e-04  
##  Mean   :1.370e-04  
##  3rd Qu.:2.110e-04  
##  Max.   :2.701e-04
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
  select(-Trx_Fecha, -Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3929788 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3929788)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 20761.86
##                     % Var explained: 99.78
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3929788, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE

rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3929788\n")
## Modelo Random Forest para producto 3929788
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.5359169
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 66.13281
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3929788)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  31.762370   57074339573
## Costo_Venta           36.919426   65771486623
## Precio_Final_Unitario  2.159695    1150762357
## Descuento_Porcentaje   8.032237    4227679643
## Tiempo                 1.838465     467935533
# Graficar importancia de variables
varImpPlot(modelo_rf_3929788, main = "Importancia de Variables - Producto 3929788")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3929788",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3929788",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3929788",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),

    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.3 PRODUCTO 3904152

# Crear una variable de tiempo continua basada en la fecha
datos_3904152 <- datos_3904152 %>%
  mutate(Fecha = as.Date(floor_date(Trx_Fecha, "month")), 
         Tiempo = as.numeric(Fecha - min(Fecha)) / (30 * 24 * 60 * 60))  # Tiempo en meses

# Mostrar un resumen de los datos
summary(datos_3904152)
##      Venta             Cant         Costo_Venta     Precio_Final_Unitario
##  Min.   :  2677   Min.   : 1.000   Min.   :  2250   Min.   :2677         
##  1st Qu.:  3108   1st Qu.: 1.000   1st Qu.:  2331   1st Qu.:3051         
##  Median :  3402   Median : 1.000   Median :  2472   Median :3108         
##  Mean   :  7495   Mean   : 2.413   Mean   :  5724   Mean   :3158         
##  3rd Qu.:  7140   3rd Qu.: 2.000   3rd Qu.:  5194   3rd Qu.:3318         
##  Max.   :169344   Max.   :56.000   Max.   :131032   Max.   :3639         
##  Descuento_Porcentaje   Trx_Fecha                          Fecha           
##  Min.   :60.00        Min.   :2023-01-02 00:00:00.00   Min.   :2023-01-01  
##  1st Qu.:64.43        1st Qu.:2023-07-12 00:00:00.00   1st Qu.:2023-07-01  
##  Median :65.90        Median :2024-01-16 00:00:00.00   Median :2024-01-01  
##  Mean   :65.72        Mean   :2024-01-06 20:44:30.42   Mean   :2023-12-21  
##  3rd Qu.:66.60        3rd Qu.:2024-06-28 00:00:00.00   3rd Qu.:2024-06-01  
##  Max.   :70.43        Max.   :2024-12-31 00:00:00.00   Max.   :2024-12-01  
##      Tiempo         
##  Min.   :0.000e+00  
##  1st Qu.:6.983e-05  
##  Median :1.408e-04  
##  Mean   :1.366e-04  
##  3rd Qu.:1.995e-04  
##  Max.   :2.701e-04
# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3904152 %>%
  select(-Trx_Fecha, -Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3904152 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3904152)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 912601.7
##                     % Var explained: 99.19
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3904152, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3904152\n")
## Modelo Random Forest para producto 3904152
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.2195905
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 483.3678
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3904152)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  27.857528  127827976697
## Costo_Venta           33.273998  150734822975
## Precio_Final_Unitario  3.859049    3595343640
## Descuento_Porcentaje   4.653136    5848187484
## Tiempo                 2.155004    1653911972
# Graficar importancia de variables
varImpPlot(modelo_rf_3904152, main = "Importancia de Variables - Producto 3904152")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3904152",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3904152",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),

    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.4 PRODUCTO 155002

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155002 %>%
  select(-Trx_Fecha, -Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_155002 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_155002)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 974009.6
##                     % Var explained: 96.6
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_155002, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# MSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 155002\n")
## Modelo Random Forest para producto 155002
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.5501504
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 424.4274
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_155002)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  36.613264   83857376373
## Costo_Venta           28.749389   69607996778
## Precio_Final_Unitario  6.394198    3516723253
## Descuento_Porcentaje   5.570749    5564986313
## Tiempo                 7.237416    1576644713
# Graficar importancia de variables
varImpPlot(modelo_rf_155002, main = "Importancia de Variables - Producto 155002")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155002",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155002",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 3678055
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf

))

6.5 PRODUCTO 3678055

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3678055 %>%
  select(-Trx_Fecha, -Fecha)

# Ajustar el modelo Random Forest
set.seed(123)  # Para reproducibilidad
modelo_rf_3678055 <- randomForest(
  Venta ~ ., 
  data = datos_modelo,
  ntree = 500,          # Número de árboles
  mtry = floor(sqrt(ncol(datos_modelo) - 1)),  # Número de variables a considerar en cada split
  importance = TRUE     # Calcular importancia de variables
)

# Ver resumen del modelo
print(modelo_rf_3678055)
## 
## Call:
##  randomForest(formula = Venta ~ ., data = datos_modelo, ntree = 500,      mtry = floor(sqrt(ncol(datos_modelo) - 1)), importance = TRUE) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 824301.4
##                     % Var explained: 99.07
# Obtener predicciones
predicciones_rf <- predict(modelo_rf_3678055, newdata = datos_modelo)

# Calcular métricas
# MAPE
mape_rf <- mean(abs((datos_modelo$Venta - predicciones_rf) / pmax(datos_modelo$Venta, 0.01))) * 100

# RMSE
rmse_rf <- sqrt(mean((datos_modelo$Venta - predicciones_rf)^2))


# Mostrar las métricas
cat("Modelo Random Forest para producto 3678055\n")
## Modelo Random Forest para producto 3678055
cat("MAPE del modelo Random Forest:", mape_rf, "\n")
## MAPE del modelo Random Forest: 0.2187988
cat("RMSE del modelo Random Forest:", rmse_rf, "\n\n")
## RMSE del modelo Random Forest: 454.4609
# Mostrar importancia de variables
importancia_vars <- importance(modelo_rf_3678055)
print(importancia_vars)
##                         %IncMSE IncNodePurity
## Cant                  28.895897   64016596017
## Costo_Venta           34.510616   77510803343
## Precio_Final_Unitario  4.162788    1376111301
## Descuento_Porcentaje   4.373664    1850346083
## Tiempo                 2.942522    1167999995
# Graficar importancia de variables
varImpPlot(modelo_rf_3678055, main = "Importancia de Variables - Producto 3678055")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_rf
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3678055",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 3678055",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_rf, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3678055",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de Random Forest para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "Random Forest",
  MAPE = mape_rf,
  RMSE = rmse_rf
))

7 XGBOOST

7.1 PRODUCTO 155001

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155001 %>%
  select(-Trx_Fecha, -Fecha)

# Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
indices_train <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
datos_train <- datos_modelo[indices_train, ]
datos_test <- datos_modelo[-indices_train, ]

# Separar variables predictoras y variable objetivo
X_train <- as.matrix(datos_train[, colnames(datos_train) != "Venta"])
y_train <- datos_train$Venta

X_test <- as.matrix(datos_test[, colnames(datos_test) != "Venta"])
y_test <- datos_test$Venta

# Crear matrices DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = X_train, label = y_train)
dtest <- xgb.DMatrix(data = X_test, label = y_test)

# Definir una rejilla completa de hiperparámetros para búsqueda
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),         # Learning rate
  max_depth = c(3, 5, 7, 9),             # Profundidad máxima
  subsample = c(0.6, 0.8, 1.0),          # Submuestra de observaciones
  colsample_bytree = c(0.6, 0.8, 1.0),   # Submuestra de variables
  min_child_weight = c(1, 3, 5),         # Peso mínimo en nodos hijos
  gamma = c(0, 0.1, 0.3)                 # Regularización gamma
)

# Mostrar cuántas combinaciones tenemos
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n")
## Número total de combinaciones de hiperparámetros: 1296
# Para este ejemplo, vamos a limitar el número de combinaciones
# Seleccionando un subconjunto aleatorio de combinaciones (20 combinaciones)
set.seed(123)
if (nrow(param_grid) > 20) {
  muestra_indices <- sample(1:nrow(param_grid), 20)
  param_grid_reducida <- param_grid[muestra_indices, ]
} else {
  param_grid_reducida <- param_grid
}

cat("Número de combinaciones a evaluar:", nrow(param_grid_reducida), "\n")
## Número de combinaciones a evaluar: 20
# Función para evaluar un conjunto de hiperparámetros con validación cruzada
evaluate_params <- function(params_row) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = params_row$eta,
    max_depth = params_row$max_depth,
    subsample = params_row$subsample,
    colsample_bytree = params_row$colsample_bytree,
    min_child_weight = params_row$min_child_weight,
    gamma = params_row$gamma
  )
  
  # Realizar validación cruzada
  cv_results <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 100,
    nfold = 5,  # 5-fold validación cruzada
    early_stopping_rounds = 10,
    verbose = 0
  )
  
  # Extraer el mejor RMSE y el número óptimo de rondas
  best_rmse <- min(cv_results$evaluation_log$test_rmse_mean)
  best_nrounds <- which.min(cv_results$evaluation_log$test_rmse_mean)
  
  return(list(rmse = best_rmse, nrounds = best_nrounds, params = params))
}

# Inicializar tabla para almacenar resultados
resultados_grid <- data.frame(
  eta = numeric(nrow(param_grid_reducida)),
  max_depth = numeric(nrow(param_grid_reducida)),
  subsample = numeric(nrow(param_grid_reducida)),
  colsample_bytree = numeric(nrow(param_grid_reducida)),
  min_child_weight = numeric(nrow(param_grid_reducida)),
  gamma = numeric(nrow(param_grid_reducida)),
  nrounds = numeric(nrow(param_grid_reducida)),
  rmse = numeric(nrow(param_grid_reducida))
)





# Realizar la búsqueda en cuadrícula (esto puede tardar varios minutos)
cat("Iniciando búsqueda en cuadrícula...\n")
## Iniciando búsqueda en cuadrícula...
for (i in 1:nrow(param_grid_reducida)) {
  cat(sprintf("Evaluando combinación %d de %d\n", i, nrow(param_grid_reducida)))
  
  # Obtener fila de parámetros actual
  params_row <- param_grid_reducida[i, ]
  
  # Evaluar combinación actual
  result <- evaluate_params(params_row)
  
  # Guardar resultados
  resultados_grid$eta[i] <- params_row$eta
  resultados_grid$max_depth[i] <- params_row$max_depth
  resultados_grid$subsample[i] <- params_row$subsample
  resultados_grid$colsample_bytree[i] <- params_row$colsample_bytree
  resultados_grid$min_child_weight[i] <- params_row$min_child_weight
  resultados_grid$gamma[i] <- params_row$gamma
  resultados_grid$nrounds[i] <- result$nrounds
  resultados_grid$rmse[i] <- result$rmse
}
## Evaluando combinación 1 de 20
## Evaluando combinación 2 de 20
## Evaluando combinación 3 de 20
## Evaluando combinación 4 de 20
## Evaluando combinación 5 de 20
## Evaluando combinación 6 de 20
## Evaluando combinación 7 de 20
## Evaluando combinación 8 de 20
## Evaluando combinación 9 de 20
## Evaluando combinación 10 de 20
## Evaluando combinación 11 de 20
## Evaluando combinación 12 de 20
## Evaluando combinación 13 de 20
## Evaluando combinación 14 de 20
## Evaluando combinación 15 de 20
## Evaluando combinación 16 de 20
## Evaluando combinación 17 de 20
## Evaluando combinación 18 de 20
## Evaluando combinación 19 de 20
## Evaluando combinación 20 de 20
# Ordenar resultados por RMSE (de menor a mayor)
resultados_grid <- resultados_grid[order(resultados_grid$rmse), ]

# Mostrar los 5 mejores conjuntos de hiperparámetros
cat("\nLos 5 mejores conjuntos de hiperparámetros:\n")
## 
## Los 5 mejores conjuntos de hiperparámetros:
print(head(resultados_grid, 5))
##     eta max_depth subsample colsample_bytree min_child_weight gamma nrounds
## 2  0.10         9       0.8              0.6                1   0.1     100
## 4  0.05         9       1.0              0.8                1   0.1     100
## 10 0.05         9       0.8              0.6                3   0.3     100
## 14 0.10         3       0.6              0.6                3   0.3      92
## 7  0.05         5       1.0              1.0                3   0.3     100
##         rmse
## 2   848.7171
## 4   950.4798
## 10 1014.0598
## 14 1024.6858
## 7  1025.5960
# Obtener los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados_grid$eta[1],
  max_depth = resultados_grid$max_depth[1],
  subsample = resultados_grid$subsample[1],
  colsample_bytree = resultados_grid$colsample_bytree[1],
  min_child_weight = resultados_grid$min_child_weight[1],
  gamma = resultados_grid$gamma[1]
)

mejor_nrounds <- resultados_grid$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.1
## 
## $max_depth
## [1] 9
## 
## $subsample
## [1] 0.8
## 
## $colsample_bytree
## [1] 0.6
## 
## $min_child_weight
## [1] 1
## 
## $gamma
## [1] 0.1
cat("Número óptimo de rondas:", mejor_nrounds, "\n")
## Número óptimo de rondas: 100
cat("RMSE en validación cruzada:", resultados_grid$rmse[1], "\n\n")
## RMSE en validación cruzada: 848.7171
# Entrenar el modelo final con los mejores hiperparámetros
modelo_xgb_155001 <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

# Hacer predicciones en el conjunto de prueba
predicciones_test <- predict(modelo_xgb_155001, dtest)

# Calcular métricas en el conjunto de prueba
# MAPE
mape_test <- mean(abs((y_test - predicciones_test) / pmax(y_test, 0.01))) * 100

# RMSE
rmse_test <- sqrt(mean((y_test - predicciones_test)^2))


# Mostrar las métricas en el conjunto de prueba
cat("Métricas en el conjunto de prueba:\n")
## Métricas en el conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 5.169695
cat("RMSE del modelo XGBoost:", rmse_test, "\n\n")
## RMSE del modelo XGBoost: 524.871
# Ahora hacer predicciones en el conjunto completo para comparabilidad con otros modelos
X_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completas <- predict(modelo_xgb_155001, X_completo)







# Calcular métricas en el conjunto completo
# MAPE
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completas) / pmax(datos_modelo$Venta, 0.01))) * 100

# MSE
rmse_completo <- sqrt(mean((datos_modelo$Venta - predicciones_completas)^2))



# Mostrar las métricas en el conjunto completo
cat("Métricas en el conjunto completo:\n")
## Métricas en el conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 3.700244
cat("RMSE del modelo XGBoost:", rmse_completo, "\n\n")
## RMSE del modelo XGBoost: 252.753
# Importancia de variables
importancia <- xgb.importance(
  feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
  model = modelo_xgb_155001
)
print(importancia)
##                  Feature       Gain     Cover Frequency
##                   <char>      <num>     <num>     <num>
## 1:           Costo_Venta 0.51898958 0.3205537 0.2603270
## 2:                  Cant 0.41669639 0.2572725 0.1700986
## 3:                Tiempo 0.02556506 0.1063427 0.1522526
## 4:  Descuento_Porcentaje 0.01944186 0.1279960 0.1556221
## 5: Precio_Final_Unitario 0.01930711 0.1878350 0.2616997
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia, 
                   main = "Importancia de Variables - Producto 155001 (XGBoost)")

# Crear gráfico de valores observados vs predicciones
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_completas
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155001 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Análisis del error
errores <- datos_grafico$Observado - datos_grafico$Predicho
hist(errores, 
     main = "Distribución de Errores - Producto 155001 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico del error vs predicción
ggplot(data.frame(Predicho = predicciones_completas, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155001 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155001",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo

))

7.2 PRODUCTO 3929788

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3929788 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]

# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta

test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta

# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)

# Paso 3: Definir la rejilla de hiperparámetros para Grid Search
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),          # Learning rate
  max_depth = c(3, 6, 9),                 # Profundidad máxima
  min_child_weight = c(1, 3, 5),          # Peso mínimo de nodo hijo
  subsample = c(0.7, 0.9),                # Proporción de observaciones
  colsample_bytree = c(0.7, 0.9),         # Proporción de variables
  gamma = c(0, 0.1, 0.3)                  # Regularización gamma
)

# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 3929788\n")
## Grid Search para XGBoost - Producto 3929788
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrías evaluar todas o usar una estrategia más eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
  selected_indices <- sample(1:nrow(param_grid), 12)
  param_grid <- param_grid[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
  # Extraer parámetros de la combinación actual
  params <- list(
    objective = "reg:squarederror",      # Objetivo de regresión
    eval_metric = "rmse",               # Métrica de evaluación
    eta = param_grid$eta[i],
    max_depth = param_grid$max_depth[i],
    min_child_weight = param_grid$min_child_weight[i],
    subsample = param_grid$subsample[i],
    colsample_bytree = param_grid$colsample_bytree[i],
    gamma = param_grid$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
  cat("  eta =", params$eta, 
      ", max_depth =", params$max_depth, 
      ", min_child_weight =", params$min_child_weight, 
      ", subsample =", params$subsample, 
      ", colsample_bytree =", params$colsample_bytree,
      ", gamma =", params$gamma, "\n")
  
  # Validación cruzada para encontrar el número óptimo de iteraciones
  cv_model <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 200,                    # Máximo número de iteraciones
    nfold = 5,                        # 5-fold validación cruzada
    early_stopping_rounds = 20,       # Detener si no hay mejora en 20 rondas
    verbose = 0                       # Suprimir mensajes
  )
  
  # Extraer mejor iteración y su RMSE
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  cat("  Mejor iteración:", best_iteration, "\n")
  cat("  RMSE en validación cruzada:", best_rmse, "\n\n")
  
  # Guardar resultados
  resultado_actual <- data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  )
  
  resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
##   eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 581.031 
## 
## Evaluando combinación 2 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 126.5033 
## 
## Evaluando combinación 3 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 157.9687 
## 
## Evaluando combinación 4 de 12 :
##   eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 124.4965 
## 
## Evaluando combinación 5 de 12 :
##   eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 198 
##   RMSE en validación cruzada: 118.6207 
## 
## Evaluando combinación 6 de 12 :
##   eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 566.3366 
## 
## Evaluando combinación 7 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 144.8686 
## 
## Evaluando combinación 8 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 125.288 
## 
## Evaluando combinación 9 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 113.7886 
## 
## Evaluando combinación 10 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 163.1105 
## 
## Evaluando combinación 11 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 115.0487 
## 
## Evaluando combinación 12 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 142.9083
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]

# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 9  0.05         6                3       0.7              0.9   0.3     200
## 11 0.05         6                3       0.7              0.9   0.0     200
## 5  0.10         6                5       0.9              0.9   0.1     198
## 4  0.30         9                5       0.7              0.9   0.1     200
## 8  0.10         3                3       0.7              0.7   0.1     200
## 2  0.10         9                3       0.9              0.9   0.3     200
## 12 0.10         3                3       0.9              0.7   0.3     200
## 7  0.05         3                5       0.9              0.7   0.1     200
## 3  0.05         3                1       0.9              0.7   0.0     200
## 10 0.10         9                1       0.9              0.7   0.3     200
## 6  0.01         6                5       0.9              0.9   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
##     rmse_cv
## 9  113.7886
## 11 115.0487
## 5  118.6207
## 4  124.4965
## 8  125.2880
## 2  126.5033
## 12 142.9083
## 7  144.8686
## 3  157.9687
## 10 163.1105
## 6  566.3366
## 1  581.0310
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 3929788",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados$eta[1],
  max_depth = resultados$max_depth[1],
  min_child_weight = resultados$min_child_weight[1],
  subsample = resultados$subsample[1],
  colsample_bytree = resultados$colsample_bytree[1],
  gamma = resultados$gamma[1]
)

mejor_nrounds <- resultados$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.05
## 
## $max_depth
## [1] 6
## 
## $min_child_weight
## [1] 3
## 
## $subsample
## [1] 0.7
## 
## $colsample_bytree
## [1] 0.9
## 
## $gamma
## [1] 0.3
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparámetros
cat("Entrenando modelo final con los mejores hiperparámetros...\n")
## Entrenando modelo final con los mejores hiperparámetros...
modelo_final <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)
# Generar predicciones sobre TODO el conjunto de datos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
dcompleto <- xgb.DMatrix(data = x_completo)
predicciones_completo <- predict(modelo_final, newdata = dcompleto)


ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3929788 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Gráfico 2: Análisis de residuos
errores <- datos_modelo$Venta - predicciones_completo

# Histograma de errores
hist(errores, 
     main = "Distribución de Errores - Producto 3929788 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3929788 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3929788",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

7.3 PRODUCTO 3904152

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3904152 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]

# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta

test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta

# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)

# Paso 3: Definir la rejilla de hiperparámetros para Grid Search
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),          # Learning rate
  max_depth = c(3, 6, 9),                 # Profundidad máxima
  min_child_weight = c(1, 3, 5),          # Peso mínimo de nodo hijo
  subsample = c(0.7, 0.9),                # Proporción de observaciones
  colsample_bytree = c(0.7, 0.9),         # Proporción de variables
  gamma = c(0, 0.1, 0.3)                  # Regularización gamma
)

# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 3904152\n")
## Grid Search para XGBoost - Producto 3904152
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrías evaluar todas o usar una estrategia más eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
  selected_indices <- sample(1:nrow(param_grid), 12)
  param_grid <- param_grid[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
  # Extraer parámetros de la combinación actual
  params <- list(
    objective = "reg:squarederror",      # Objetivo de regresión
    eval_metric = "rmse",               # Métrica de evaluación
    eta = param_grid$eta[i],
    max_depth = param_grid$max_depth[i],
    min_child_weight = param_grid$min_child_weight[i],
    subsample = param_grid$subsample[i],
    colsample_bytree = param_grid$colsample_bytree[i],
    gamma = param_grid$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
  cat("  eta =", params$eta, 
      ", max_depth =", params$max_depth, 
      ", min_child_weight =", params$min_child_weight, 
      ", subsample =", params$subsample, 
      ", colsample_bytree =", params$colsample_bytree,
      ", gamma =", params$gamma, "\n")
  
  # Validación cruzada para encontrar el número óptimo de iteraciones
  cv_model <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 200,                    # Máximo número de iteraciones
    nfold = 5,                        # 5-fold validación cruzada
    early_stopping_rounds = 20,       # Detener si no hay mejora en 20 rondas
    verbose = 0                       # Suprimir mensajes
  )
  
  # Extraer mejor iteración y su RMSE
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  cat("  Mejor iteración:", best_iteration, "\n")
  cat("  RMSE en validación cruzada:", best_rmse, "\n\n")
  
  # Guardar resultados
  resultado_actual <- data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  )
  
  resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
##   eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 2598.527 
## 
## Evaluando combinación 2 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 81 
##   RMSE en validación cruzada: 855.4766 
## 
## Evaluando combinación 3 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 632.2493 
## 
## Evaluando combinación 4 de 12 :
##   eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 111 
##   RMSE en validación cruzada: 1094.701 
## 
## Evaluando combinación 5 de 12 :
##   eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 35 
##   RMSE en validación cruzada: 1725.775 
## 
## Evaluando combinación 6 de 12 :
##   eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 3008.817 
## 
## Evaluando combinación 7 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 120 
##   RMSE en validación cruzada: 1765.138 
## 
## Evaluando combinación 8 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 153 
##   RMSE en validación cruzada: 932.4027 
## 
## Evaluando combinación 9 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 198 
##   RMSE en validación cruzada: 764.2976 
## 
## Evaluando combinación 10 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 801.357 
## 
## Evaluando combinación 11 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 743.391 
## 
## Evaluando combinación 12 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 128 
##   RMSE en validación cruzada: 863.9891
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]

# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3  0.05         3                1       0.9              0.7   0.0     200
## 11 0.05         6                3       0.7              0.9   0.0     200
## 9  0.05         6                3       0.7              0.9   0.3     198
## 10 0.10         9                1       0.9              0.7   0.3     200
## 2  0.10         9                3       0.9              0.9   0.3      81
## 12 0.10         3                3       0.9              0.7   0.3     128
## 8  0.10         3                3       0.7              0.7   0.1     153
## 4  0.30         9                5       0.7              0.9   0.1     111
## 5  0.10         6                5       0.9              0.9   0.1      35
## 7  0.05         3                5       0.9              0.7   0.1     120
## 1  0.01         9                3       0.7              0.9   0.1     200
## 6  0.01         6                5       0.9              0.9   0.1     200
##      rmse_cv
## 3   632.2493
## 11  743.3910
## 9   764.2976
## 10  801.3570
## 2   855.4766
## 12  863.9891
## 8   932.4027
## 4  1094.7013
## 5  1725.7754
## 7  1765.1378
## 1  2598.5266
## 6  3008.8172
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 3904152",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados$eta[1],
  max_depth = resultados$max_depth[1],
  min_child_weight = resultados$min_child_weight[1],
  subsample = resultados$subsample[1],
  colsample_bytree = resultados$colsample_bytree[1],
  gamma = resultados$gamma[1]
)

mejor_nrounds <- resultados$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.05
## 
## $max_depth
## [1] 3
## 
## $min_child_weight
## [1] 1
## 
## $subsample
## [1] 0.9
## 
## $colsample_bytree
## [1] 0.7
## 
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparámetros
cat("Entrenando modelo final con los mejores hiperparámetros...\n")
## Entrenando modelo final con los mejores hiperparámetros...
modelo_final <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

modelo_xgb_3904152 <- modelo_final


# Paso 8: Evaluar el modelo
# Predicciones en conjunto de prueba
predicciones_test <- predict(modelo_final, dtest)

# Calcular métricas
# MAPE
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100

# RMSE
rmse_test <- sqrt(mean((test_y - predicciones_test)^2))


# Mostrar métricas en conjunto de prueba
cat("\nMétricas en conjunto de prueba:\n")
## 
## Métricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 1.802047
cat("RMSE del modelo XGBoost:", rmse_test, "\n\n")
## RMSE del modelo XGBoost: 525.6254
# Paso 9: Predicciones en el conjunto completo
# Hacer predicciones en todo el conjunto de datos para comparación con otros modelos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)

# Calcular métricas en conjunto completo
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) / 
                        pmax(datos_modelo$Venta, 0.01))) * 100

mse_completo <- mean((datos_modelo$Venta - predicciones_completo)^2)

# Mostrar métricas en conjunto completo
cat("Métricas en conjunto completo:\n")
## Métricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 1.599453
cat("RMSE del modelo XGBoost:", rmse_completo, "\n\n")
## RMSE del modelo XGBoost: 252.753
# Paso 10: Análisis de importancia de variables
# Calcular importancia de variables
importancia <- xgb.importance(
  feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
  model = modelo_final
)

# Mostrar importancia de variables
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia)
##                  Feature         Gain      Cover  Frequency
##                   <char>        <num>      <num>      <num>
## 1:           Costo_Venta 0.5477063005 0.34762755 0.32088123
## 2:                  Cant 0.4429396314 0.35591065 0.32662835
## 3: Precio_Final_Unitario 0.0049318239 0.09313008 0.11781609
## 4:  Descuento_Porcentaje 0.0038652717 0.13943792 0.15804598
## 5:                Tiempo 0.0005569725 0.06389380 0.07662835
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia, 
                   main = "Importancia de Variables - Producto 3904152 (XGBoost)")

# Paso 11: Visualizaciones para evaluación
# Gráfico 1: Valores observados vs predichos
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_completo
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 3904152 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Gráfico 2: Análisis de residuos
errores <- datos_modelo$Venta - predicciones_completo

# Histograma de errores
hist(errores, 
     main = "Distribución de Errores - Producto 3904152 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 3904152 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de XGBoost para producto 
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3904152",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

7.4 PRODUCTO 155002

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_155002 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]

# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta

test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta

# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)

# Paso 3: Definir la rejilla de hiperparámetros para Grid Search
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),          # Learning rate
  max_depth = c(3, 6, 9),                 # Profundidad máxima
  min_child_weight = c(1, 3, 5),          # Peso mínimo de nodo hijo
  subsample = c(0.7, 0.9),                # Proporción de observaciones
  colsample_bytree = c(0.7, 0.9),         # Proporción de variables
  gamma = c(0, 0.1, 0.3)                  # Regularización gamma
)

# Mostrar dimensiones de la rejilla
cat("Grid Search para XGBoost - Producto 155002\n")
## Grid Search para XGBoost - Producto 155002
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Para este ejemplo, limitar a 12 combinaciones para ahorrar tiempo
# En un escenario real, podrías evaluar todas o usar una estrategia más eficiente
set.seed(456)
if (nrow(param_grid) > 12) {
  selected_indices <- sample(1:nrow(param_grid), 12)
  param_grid <- param_grid[selected_indices, ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()

cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
  # Extraer parámetros de la combinación actual
  params <- list(
    objective = "reg:squarederror",      # Objetivo de regresión
    eval_metric = "rmse",               # Métrica de evaluación
    eta = param_grid$eta[i],
    max_depth = param_grid$max_depth[i],
    min_child_weight = param_grid$min_child_weight[i],
    subsample = param_grid$subsample[i],
    colsample_bytree = param_grid$colsample_bytree[i],
    gamma = param_grid$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid), ":\n")
  cat("  eta =", params$eta, 
      ", max_depth =", params$max_depth, 
      ", min_child_weight =", params$min_child_weight, 
      ", subsample =", params$subsample, 
      ", colsample_bytree =", params$colsample_bytree,
      ", gamma =", params$gamma, "\n")
  
  # Validación cruzada para encontrar el número óptimo de iteraciones
  cv_model <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 200,                    # Máximo número de iteraciones
    nfold = 5,                        # 5-fold validación cruzada
    early_stopping_rounds = 20,       # Detener si no hay mejora en 20 rondas
    verbose = 0                       # Suprimir mensajes
  )
  
  # Extraer mejor iteración y su RMSE
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  cat("  Mejor iteración:", best_iteration, "\n")
  cat("  RMSE en validación cruzada:", best_rmse, "\n\n")
  
  # Guardar resultados
  resultado_actual <- data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  )
  
  resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 :
##   eta = 0.01 , max_depth = 9 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 1373.535 
## 
## Evaluando combinación 2 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 91 
##   RMSE en validación cruzada: 915.5984 
## 
## Evaluando combinación 3 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 840.4357 
## 
## Evaluando combinación 4 de 12 :
##   eta = 0.3 , max_depth = 9 , min_child_weight = 5 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 65 
##   RMSE en validación cruzada: 981.4425 
## 
## Evaluando combinación 5 de 12 :
##   eta = 0.1 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 60 
##   RMSE en validación cruzada: 938.5359 
## 
## Evaluando combinación 6 de 12 :
##   eta = 0.01 , max_depth = 6 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.9 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 1270.417 
## 
## Evaluando combinación 7 de 12 :
##   eta = 0.05 , max_depth = 3 , min_child_weight = 5 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 958.5418 
## 
## Evaluando combinación 8 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.7 , gamma = 0.1 
##   Mejor iteración: 107 
##   RMSE en validación cruzada: 923.5338 
## 
## Evaluando combinación 9 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0.3 
##   Mejor iteración: 114 
##   RMSE en validación cruzada: 897.544 
## 
## Evaluando combinación 10 de 12 :
##   eta = 0.1 , max_depth = 9 , min_child_weight = 1 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 200 
##   RMSE en validación cruzada: 930.1425 
## 
## Evaluando combinación 11 de 12 :
##   eta = 0.05 , max_depth = 6 , min_child_weight = 3 , subsample = 0.7 , colsample_bytree = 0.9 , gamma = 0 
##   Mejor iteración: 78 
##   RMSE en validación cruzada: 937.0212 
## 
## Evaluando combinación 12 de 12 :
##   eta = 0.1 , max_depth = 3 , min_child_weight = 3 , subsample = 0.9 , colsample_bytree = 0.7 , gamma = 0.3 
##   Mejor iteración: 199 
##   RMSE en validación cruzada: 890.997
# Ordenar resultados por RMSE (de menor a mayor)
resultados <- resultados[order(resultados$rmse_cv), ]

# Paso 5: Mostrar resultados del Grid Search
cat("Resultados del Grid Search ordenados por RMSE:\n")
## Resultados del Grid Search ordenados por RMSE:
print(resultados)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3  0.05         3                1       0.9              0.7   0.0     200
## 12 0.10         3                3       0.9              0.7   0.3     199
## 9  0.05         6                3       0.7              0.9   0.3     114
## 2  0.10         9                3       0.9              0.9   0.3      91
## 8  0.10         3                3       0.7              0.7   0.1     107
## 10 0.10         9                1       0.9              0.7   0.3     200
## 11 0.05         6                3       0.7              0.9   0.0      78
## 5  0.10         6                5       0.9              0.9   0.1      60
## 7  0.05         3                5       0.9              0.7   0.1     200
## 4  0.30         9                5       0.7              0.9   0.1      65
## 6  0.01         6                5       0.9              0.9   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
##      rmse_cv
## 3   840.4357
## 12  890.9970
## 9   897.5440
## 2   915.5984
## 8   923.5338
## 10  930.1425
## 11  937.0212
## 5   938.5359
## 7   958.5418
## 4   981.4425
## 6  1270.4174
## 1  1373.5351
# Visualizar resultados del Grid Search
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 155002",
    x = "Combinación de Hiperparámetros",
    y = "RMSE en Validación Cruzada"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados$eta[1],
  max_depth = resultados$max_depth[1],
  min_child_weight = resultados$min_child_weight[1],
  subsample = resultados$subsample[1],
  colsample_bytree = resultados$colsample_bytree[1],
  gamma = resultados$gamma[1]
)

mejor_nrounds <- resultados$nrounds[1]

cat("\nMejores hiperparámetros encontrados:\n")
## 
## Mejores hiperparámetros encontrados:
print(mejores_params)
## $objective
## [1] "reg:squarederror"
## 
## $eval_metric
## [1] "rmse"
## 
## $eta
## [1] 0.05
## 
## $max_depth
## [1] 3
## 
## $min_child_weight
## [1] 1
## 
## $subsample
## [1] 0.9
## 
## $colsample_bytree
## [1] 0.7
## 
## $gamma
## [1] 0
cat("Número óptimo de rondas:", mejor_nrounds, "\n\n")
## Número óptimo de rondas: 200
# Paso 7: Entrenar el modelo final con los mejores hiperparámetros
cat("Entrenando modelo final con los mejores hiperparámetros...\n")
## Entrenando modelo final con los mejores hiperparámetros...
modelo_final <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

modelo_xgb_155002 <- modelo_final

# Paso 8: Evaluar el modelo
# Predicciones en conjunto de prueba
predicciones_test <- predict(modelo_final, dtest)

# Calcular métricas
# MAPE
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100

# RMSE
rmse_test <- sqrt(mean((test_y - predicciones_test)^2))



# Mostrar métricas en conjunto de prueba
cat("\nMétricas en conjunto de prueba:\n")
## 
## Métricas en conjunto de prueba:
cat("MAPE del modelo XGBoost:", mape_test, "\n")
## MAPE del modelo XGBoost: 7.13874
cat("RMSE del modelo XGBoost:", rmse_test, "\n\n")
## RMSE del modelo XGBoost: 751.2073
# Paso 9: Predicciones en el conjunto completo
# Hacer predicciones en todo el conjunto de datos para comparación con otros modelos
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)

# Calcular métricas en conjunto completo
mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) / 
                        pmax(datos_modelo$Venta, 0.01))) * 100

rmse_completo <- sqrt(mean((datos_modelo$Venta - predicciones_completo)^2))


# Mostrar métricas en conjunto completo
cat("Métricas en conjunto completo:\n")
## Métricas en conjunto completo:
cat("MAPE del modelo XGBoost:", mape_completo, "\n")
## MAPE del modelo XGBoost: 6.835722
cat("RMSE del modelo XGBoost:", rmse_completo, "\n\n")
## RMSE del modelo XGBoost: 417.9467
# Paso 10: Análisis de importancia de variables
# Calcular importancia de variables
importancia <- xgb.importance(
  feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
  model = modelo_final
)

# Mostrar importancia de variables
cat("Importancia de variables:\n")
## Importancia de variables:
print(importancia)
##                  Feature        Gain      Cover  Frequency
##                   <char>       <num>      <num>      <num>
## 1:           Costo_Venta 0.533136299 0.26895646 0.27553648
## 2:                  Cant 0.429482575 0.42288315 0.35622318
## 3:  Descuento_Porcentaje 0.017905273 0.08692447 0.11673820
## 4: Precio_Final_Unitario 0.016551713 0.17326591 0.18798283
## 5:                Tiempo 0.002924141 0.04797001 0.06351931
# Graficar importancia de variables
xgb.plot.importance(importance_matrix = importancia, 
                   main = "Importancia de Variables - Producto 155002 (XGBoost)")

# Paso 11: Visualizaciones para evaluación
# Gráfico 1: Valores observados vs predichos
datos_grafico <- data.frame(
  Observado = datos_modelo$Venta,
  Predicho = predicciones_completo
)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(
    title = "Valores Observados vs Predicciones - Producto 155002 (XGBoost)",
    x = "Ventas Observadas",
    y = "Ventas Predichas"
  ) +
  theme_minimal()

# Gráfico 2: Análisis de residuos
errores <- datos_modelo$Venta - predicciones_completo

# Histograma de errores
hist(errores, 
     main = "Distribución de Errores - Producto 155002 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue",
     breaks = 30)

# Gráfico 3: Errores vs Predicciones
ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(
    title = "Error vs Predicción - Producto 155002 (XGBoost)",
    x = "Ventas Predichas",
    y = "Error (Observado - Predicho)"
  ) +
  theme_minimal()

# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "155002",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

7.5 PRODUCTO 3678055

# Preparar datos para el modelo (eliminar columnas no necesarias)
datos_modelo <- datos_3678055 %>%
  select(-Trx_Fecha, -Fecha)

# Paso 2: Dividir los datos en conjuntos de entrenamiento (80%) y prueba (20%)
set.seed(123)  # Para reproducibilidad
train_index <- createDataPartition(datos_modelo$Venta, p = 0.8, list = FALSE)
train_data <- datos_modelo[train_index, ]
test_data <- datos_modelo[-train_index, ]

# Preparar matrices para XGBoost
train_x <- as.matrix(train_data[, colnames(train_data) != "Venta"])
train_y <- train_data$Venta

test_x <- as.matrix(test_data[, colnames(test_data) != "Venta"])
test_y <- test_data$Venta

# Crear DMatrix para XGBoost
dtrain <- xgb.DMatrix(data = train_x, label = train_y)
dtest <- xgb.DMatrix(data = test_x, label = test_y)

# Paso 3: Definir la rejilla de hiperparámetros
param_grid <- expand.grid(
  eta = c(0.01, 0.05, 0.1, 0.3),
  max_depth = c(3, 6, 9),
  min_child_weight = c(1, 3, 5),
  subsample = c(0.7, 0.9),
  colsample_bytree = c(0.7, 0.9),
  gamma = c(0, 0.1, 0.3)
)

cat("Grid Search para XGBoost - Producto 3678055\n")
## Grid Search para XGBoost - Producto 3678055
cat("Número total de combinaciones de hiperparámetros:", nrow(param_grid), "\n\n")
## Número total de combinaciones de hiperparámetros: 432
# Selección aleatoria de 12 combinaciones (si se desea limitar)
set.seed(456)
if (nrow(param_grid) > 12) {
  param_grid <- param_grid[sample(1:nrow(param_grid), 12), ]
  cat("Seleccionando 12 combinaciones aleatorias para evaluación.\n\n")
}
## Seleccionando 12 combinaciones aleatorias para evaluación.
# Paso 4: Implementar Grid Search
resultados <- data.frame()
cat("Iniciando Grid Search...\n")
## Iniciando Grid Search...
for (i in 1:nrow(param_grid)) {
  params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = param_grid$eta[i],
    max_depth = param_grid$max_depth[i],
    min_child_weight = param_grid$min_child_weight[i],
    subsample = param_grid$subsample[i],
    colsample_bytree = param_grid$colsample_bytree[i],
    gamma = param_grid$gamma[i]
  )
  
  cat("Evaluando combinación", i, "de", nrow(param_grid), "...\n")
  
  cv_model <- xgb.cv(
    params = params,
    data = dtrain,
    nrounds = 200,
    nfold = 5,
    early_stopping_rounds = 20,
    verbose = 0
  )
  
  best_iteration <- cv_model$best_iteration
  best_rmse <- min(cv_model$evaluation_log$test_rmse_mean)
  
  resultado_actual <- data.frame(
    eta = params$eta,
    max_depth = params$max_depth,
    min_child_weight = params$min_child_weight,
    subsample = params$subsample,
    colsample_bytree = params$colsample_bytree,
    gamma = params$gamma,
    nrounds = best_iteration,
    rmse_cv = best_rmse
  )
  
  resultados <- rbind(resultados, resultado_actual)
}
## Evaluando combinación 1 de 12 ...
## Evaluando combinación 2 de 12 ...
## Evaluando combinación 3 de 12 ...
## Evaluando combinación 4 de 12 ...
## Evaluando combinación 5 de 12 ...
## Evaluando combinación 6 de 12 ...
## Evaluando combinación 7 de 12 ...
## Evaluando combinación 8 de 12 ...
## Evaluando combinación 9 de 12 ...
## Evaluando combinación 10 de 12 ...
## Evaluando combinación 11 de 12 ...
## Evaluando combinación 12 de 12 ...
resultados <- resultados[order(resultados$rmse_cv), ]

# Paso 5: Mostrar resultados
print(resultados)
##     eta max_depth min_child_weight subsample colsample_bytree gamma nrounds
## 3  0.05         3                1       0.9              0.7   0.0     200
## 5  0.10         6                5       0.9              0.9   0.1     116
## 11 0.05         6                3       0.7              0.9   0.0     185
## 9  0.05         6                3       0.7              0.9   0.3     112
## 12 0.10         3                3       0.9              0.7   0.3     105
## 2  0.10         9                3       0.9              0.9   0.3     111
## 4  0.30         9                5       0.7              0.9   0.1      31
## 10 0.10         9                1       0.9              0.7   0.3     200
## 7  0.05         3                5       0.9              0.7   0.1     200
## 8  0.10         3                3       0.7              0.7   0.1     200
## 6  0.01         6                5       0.9              0.9   0.1     200
## 1  0.01         9                3       0.7              0.9   0.1     200
##      rmse_cv
## 3   679.8778
## 5   692.5683
## 11  699.5892
## 9   731.9505
## 12  746.3491
## 2   805.6540
## 4   818.3057
## 10  834.9787
## 7   947.5520
## 8   973.0962
## 6  2407.9225
## 1  2456.9115
# Visualización
ggplot(resultados, aes(x = reorder(paste("Comb", 1:nrow(resultados)), rmse_cv), y = rmse_cv)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  labs(
    title = "Resultados del Grid Search - Producto 3678055",
    x = "Combinación de Hiperparámetros",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

# Paso 6: Seleccionar los mejores hiperparámetros
mejores_params <- list(
  objective = "reg:squarederror",
  eval_metric = "rmse",
  eta = resultados$eta[1],
  max_depth = resultados$max_depth[1],
  min_child_weight = resultados$min_child_weight[1],
  subsample = resultados$subsample[1],
  colsample_bytree = resultados$colsample_bytree[1],
  gamma = resultados$gamma[1]
)

mejor_nrounds <- resultados$nrounds[1]

# Paso 7: Entrenar modelo final
modelo_final <- xgb.train(
  params = mejores_params,
  data = dtrain,
  nrounds = mejor_nrounds,
  watchlist = list(train = dtrain, test = dtest),
  verbose = 0
)

modelo_xgb_3678055 <- modelo_final


# Paso 8: Evaluar modelo
predicciones_test <- predict(modelo_final, dtest)
mape_test <- mean(abs((test_y - predicciones_test) / pmax(test_y, 0.01))) * 100
rmse_test <- sqrt(mean((test_y - predicciones_test)^2))



# Paso 9: Predicción en todo el conjunto
x_completo <- as.matrix(datos_modelo[, colnames(datos_modelo) != "Venta"])
predicciones_completo <- predict(modelo_final, x_completo)

mape_completo <- mean(abs((datos_modelo$Venta - predicciones_completo) / pmax(datos_modelo$Venta, 0.01))) * 100
rmse_completo <- sqrt(mean((datos_modelo$Venta - predicciones_completo)^2))




# Paso 10: Importancia de variables
importancia <- xgb.importance(
  feature_names = colnames(datos_modelo)[colnames(datos_modelo) != "Venta"],
  model = modelo_final
)
xgb.plot.importance(importancia, 
                    main = "Importancia de Variables - Producto 3678055 (XGBoost)")

# Paso 11: Gráficos de evaluación
datos_grafico <- data.frame(Observado = datos_modelo$Venta, Predicho = predicciones_completo)

ggplot(datos_grafico, aes(x = Observado, y = Predicho)) +
  geom_point(alpha = 0.5) +
  geom_abline(slope = 1, intercept = 0, linetype = "dashed", color = "red") +
  labs(title = "Observado vs Predicho - Producto 3678055", x = "Venta Observada", y = "Venta Predicha") +
  theme_minimal()

errores <- datos_modelo$Venta - predicciones_completo

hist(errores, 
     main = "Distribución de Errores - Producto 3678055 (XGBoost)",
     xlab = "Error (Observado - Predicho)",
     col = "skyblue", breaks = 30)

ggplot(data.frame(Predicho = predicciones_completo, Error = errores), aes(x = Predicho, y = Error)) +
  geom_point(alpha = 0.5) +
  geom_hline(yintercept = 0, color = "red", linetype = "dashed") +
  labs(title = "Errores vs Predicción - Producto 3678055", x = "Venta Predicha", y = "Error") +
  theme_minimal()

# Guardar métricas de XGBoost para producto 155001
if(!exists("metricas_comparativas")) {
  metricas_comparativas <- data.frame(
    Producto = character(),
    Modelo = character(),
    MAPE = numeric(),
    RMSE = numeric(),
    stringsAsFactors = FALSE
  )
}

metricas_comparativas <- rbind(metricas_comparativas, data.frame(
  Producto = "3678055",  # Cambia este ID para cada producto
  Modelo = "XGBoost",
  MAPE = mape_completo,
  RMSE = rmse_completo
))

8 Visualización de Métricas

# Definir los colores para cada modelo
colores_modelos <- c(
  "ARMA/SARIMA" = "#1f77b4",    # Azul
  "Regresión Lineal" = "#ff7f0e", # Naranja
  "Random Forest" = "#2ca02c",   # Verde
  "XGBoost" = "#d62728"         # Rojo
)

8.1 PRODUCTO 155001

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 155001:")
## [1] "Datos actuales para el producto 155001:"
print(metricas_comparativas %>% filter(Producto == "155001"))
##   Producto           Modelo      MAPE        RMSE
## 1   155001             ARMA 17.681643 224023.2444
## 2   155001 Regresión Lineal 14.496676    742.6409
## 3   155001    Random Forest  0.436948 434537.3986
## 4   155001          XGBoost  3.700244    252.7530
# Crear un dataframe manualmente con los 4 modelos para el producto 155001
# (con valores de ejemplo si es necesario)
datos_155001_completo <- data.frame(
  Producto = rep("155001", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_155001_completo <- left_join(
  datos_155001_completo,
  metricas_comparativas %>% filter(Producto == "155001"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Si tienes los valores, reemplaza los 0 con los valores correctos
# O toma nota de cuáles son NA para reemplazarlos con los valores reales

# Valores para Regresión Lineal (reemplaza estos con los valores reales)
if (is.na(datos_155001_completo$MAPE[2])) {
  datos_155001_completo$MAPE[2] <- mape_155001  # O el valor correcto
}
if (is.na(datos_155001_completo$RMSE[2])) {
  datos_155001_completo$RMSE[2] <- rmse_155001  # Ya no MSE
}




# Valores para Random Forest (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de Random Forest para el producto 155001,
# usa las variables r2_rf, rmse_rf, etc.
if (is.na(datos_155001_completo$MAPE[3]) && exists("mape_rf")) {
  datos_155001_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_155001_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_155001_completo$RMSE[3] <- rmse_rf
}






# Valores para XGBoost (reemplaza estos con los valores reales)
# Si ya ejecutaste la sección de XGBoost para el producto 155001,
# usa las variables r2_completo, rmse_completo, etc.
if (is.na(datos_155001_completo$MAPE[4]) && exists("mape_completo")) {
  datos_155001_completo$MAPE[4] <- mape_completo
}

if (is.na(datos_155001_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_155001_completo$RMSE[4] <- rmse_completo
}


# Ver los datos completos
print("Datos completos para el producto 155001:")
## [1] "Datos completos para el producto 155001:"
print(datos_155001_completo)
##   Producto           Modelo      MAPE        RMSE
## 1   155001      ARMA/SARIMA        NA          NA
## 2   155001 Regresión Lineal 14.496676    742.6409
## 3   155001    Random Forest  0.436948 434537.3986
## 4   155001          XGBoost  3.700244    252.7530
# Gráfico para MAPE
ggplot(datos_155001_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155001",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) 
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para RMSE
ggplot(datos_155001_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155001",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155001_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.2 PRODUCTO 3929788

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3929788:")
## [1] "Datos actuales para el producto 3929788:"
print(metricas_comparativas %>% filter(Producto == "3929788"))
##   Producto           Modelo       MAPE         RMSE
## 1  3929788             ARMA 12.8370507 224023.24439
## 2  3929788 Regresión Lineal 22.3767801    218.86553
## 3  3929788    Random Forest  0.5359169     66.13281
## 4  3929788          XGBoost  3.7002444    252.75302
# Crear un dataframe manualmente con los 4 modelos para el producto 3929788
datos_3929788_completo <- data.frame(
  Producto = rep("3929788", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3929788_completo <- left_join(
  datos_3929788_completo,
  metricas_comparativas %>% filter(Producto == "3929788"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3929788_completo$MAPE[2])) {
  datos_3929788_completo$MAPE[2] <- mape_3929788
}

if (is.na(datos_3929788_completo$RMSE[2])) {
  datos_3929788_completo$RMSE[2] <- rmse_3929788
}

# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3929788
if (is.na(datos_3929788_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3929788_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_3929788_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3929788_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_3929788_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3929788_completo$MAPE[4] <- mape_completo
}


if (is.na(datos_3929788_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3929788_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 3929788:")
## [1] "Datos completos para el producto 3929788:"
print(datos_3929788_completo)
##   Producto           Modelo       MAPE      RMSE
## 1  3929788      ARMA/SARIMA         NA        NA
## 2  3929788 Regresión Lineal 22.3767801 218.86553
## 3  3929788    Random Forest  0.5359169  66.13281
## 4  3929788          XGBoost  3.7002444 252.75302
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para RMSE
ggplot(datos_3929788_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3929788",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3929788_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3929788_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3929788",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3929788_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.3 PRODUCTO 3904152

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3904152:")
## [1] "Datos actuales para el producto 3904152:"
print(metricas_comparativas %>% filter(Producto == "3904152"))
##   Producto           Modelo       MAPE        RMSE
## 1  3904152             ARMA 15.3567919 156981.1976
## 2  3904152 Regresión Lineal  3.3434409    376.4854
## 3  3904152    Random Forest  0.2195905    483.3678
## 4  3904152          XGBoost  1.5994533    252.7530
# Crear un dataframe manualmente con los 4 modelos para el producto 3904152
datos_3904152_completo <- data.frame(
  Producto = rep("3904152", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3904152_completo <- left_join(
  datos_3904152_completo,
  metricas_comparativas %>% filter(Producto == "3904152"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3904152_completo$MAPE[2])) {
  datos_3904152_completo$MAPE[2] <- mape_3904152
}
if (is.na(datos_3904152_completo$RMSE[2])) {
  datos_3904152_completo$RMSE[2] <- rmse_3904152
}

# Valores para Random Forest
if (is.na(datos_3904152_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3904152_completo$MAPE[3] <- mape_rf
}

if (is.na(datos_3904152_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3904152_completo$RMSE[3] <- rmse_rf
}


# Valores para XGBoost
if (is.na(datos_3904152_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3904152_completo$MAPE[4] <- mape_completo
}


if (is.na(datos_3904152_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3904152_completo$RMSE[4] <- rmse_completo
}


# Ver los datos completos
print("Datos completos para el producto 3904152:")
## [1] "Datos completos para el producto 3904152:"
print(datos_3904152_completo)
##   Producto           Modelo      MAPE     RMSE
## 1  3904152      ARMA/SARIMA        NA       NA
## 2  3904152 Regresión Lineal 3.3434409 376.4854
## 3  3904152    Random Forest 0.2195905 483.3678
## 4  3904152          XGBoost 1.5994533 252.7530
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para MSE
ggplot(datos_3904152_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3904152",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3904152_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3904152_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3904152",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3904152_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.4 PRODUCTO 155002

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 155002:")
## [1] "Datos actuales para el producto 155002:"
print(metricas_comparativas %>% filter(Producto == "155002"))
##   Producto           Modelo      MAPE        RMSE
## 1   155002             ARMA 25.833028 192121.8307
## 2   155002 Regresión Lineal 19.918004    890.2337
## 3   155002          XGBoost  6.835722    417.9467
# Crear un dataframe manualmente con los 4 modelos para el producto 155002
datos_155002_completo <- data.frame(
  Producto = rep("155002", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_155002_completo <- left_join(
  datos_155002_completo,
  metricas_comparativas %>% filter(Producto == "155002"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_155002_completo$MAPE[2])) {
  datos_155002_completo$MAPE[2] <- mape_155002
}

if (is.na(datos_155002_completo$RMSE[2])) {
  datos_155002_completo$RMSE[2] <- rmse_155002
}



# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 155002
if (is.na(datos_155002_completo$MAPE[3]) && exists("mape_rf")) {
  datos_155002_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_155002_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_155002_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_155002_completo$MAPE[4]) && exists("mape_completo")) {
  datos_155002_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_155002_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_155002_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 155002:")
## [1] "Datos completos para el producto 155002:"
print(datos_155002_completo)
##   Producto           Modelo       MAPE     RMSE
## 1   155002      ARMA/SARIMA         NA       NA
## 2   155002 Regresión Lineal 19.9180037 890.2337
## 3   155002    Random Forest  0.2187988 454.4609
## 4   155002          XGBoost  6.8357217 417.9467
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")

# Gráfico para MSE
ggplot(datos_155002_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155002",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155002_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_155002_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 155002",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_155002_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

8.5 PRODUCTO 3678055

# Primero, veamos qué datos tenemos realmente
print("Datos actuales para el producto 3678055:")
## [1] "Datos actuales para el producto 3678055:"
print(metricas_comparativas %>% filter(Producto == "3678055"))
##   Producto           Modelo       MAPE        RMSE
## 1  3678055             ARMA 22.7377450 177040.4724
## 2  3678055 Regresión Lineal  2.9008020 212205.2519
## 3  3678055    Random Forest  0.5501504    424.4274
## 4  3678055    Random Forest  0.2187988    454.4609
## 5  3678055          XGBoost  1.1898882    283.8719
# Crear un dataframe manualmente con los 4 modelos para el producto 3678055
datos_3678055_completo <- data.frame(
  Producto = rep("3678055", 4),
  Modelo = c("ARMA/SARIMA", "Regresión Lineal", "Random Forest", "XGBoost"),
  stringsAsFactors = FALSE
)

# Unir con los datos existentes
datos_3678055_completo <- left_join(
  datos_3678055_completo,
  metricas_comparativas %>% filter(Producto == "3678055"),
  by = c("Producto", "Modelo")
)

# Ahora asigna valores para las métricas de los modelos faltantes
# Valores para Regresión Lineal
if (is.na(datos_3678055_completo$MAPE[2])) {
  datos_3678055_completo$MAPE[2] <- mape_3678055
}
if (is.na(datos_3678055_completo$RMSE[2])) {
  datos_3678055_completo$RMSE[2] <- rmse_3678055
}

# Valores para Random Forest
# Si ya ejecutaste la sección de Random Forest para el producto 3678055
if (is.na(datos_3678055_completo$MAPE[3]) && exists("mape_rf")) {
  datos_3678055_completo$MAPE[3] <- mape_rf
}
if (is.na(datos_3678055_completo$RMSE[3]) && exists("rmse_rf")) {
  datos_3678055_completo$RMSE[3] <- rmse_rf
}

# Valores para XGBoost
if (is.na(datos_3678055_completo$MAPE[4]) && exists("mape_completo")) {
  datos_3678055_completo$MAPE[4] <- mape_completo
}
if (is.na(datos_3678055_completo$RMSE[4]) && exists("rmse_completo")) {
  datos_3678055_completo$RMSE[4] <- rmse_completo
}

# Ver los datos completos
print("Datos completos para el producto 3678055:")
## [1] "Datos completos para el producto 3678055:"
print(datos_3678055_completo)
##   Producto           Modelo      MAPE        RMSE
## 1  3678055      ARMA/SARIMA        NA          NA
## 2  3678055 Regresión Lineal 2.9008020 212205.2519
## 3  3678055    Random Forest 0.5501504    424.4274
## 4  3678055    Random Forest 0.2187988    454.4609
## 5  3678055          XGBoost 1.1898882    283.8719
# Definir colores para los modelos
colores_modelos <- c("ARMA/SARIMA" = "#1f77b4", 
                     "Regresión Lineal" = "#ff7f0e", 
                     "Random Forest" = "#2ca02c", 
                     "XGBoost" = "#d62728")
# Gráfico para MSE
ggplot(datos_3678055_completo, aes(x = Modelo, y = RMSE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(RMSE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3678055",
    subtitle = "Métrica: RMSE (valores más bajos indican mejor precisión)",
    x = "",
    y = "RMSE"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3678055_completo$RMSE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

# Gráfico para MAPE
ggplot(datos_3678055_completo, aes(x = Modelo, y = MAPE, fill = Modelo)) +
  geom_bar(stat = "identity", width = 0.6) +
  geom_text(aes(label = round(MAPE, 1)), vjust = -0.5, size = 3.5) +
  scale_fill_manual(values = colores_modelos) +
  labs(
    title = "Comparación de modelos para Producto 3678055",
    subtitle = "Métrica: MAPE (valores más bajos indican mejor precisión)",
    x = "",
    y = "MAPE (%)"
  ) +
  theme_minimal() +
  theme(
    legend.position = "none",
    plot.title = element_text(size = 12, face = "bold"),
    plot.subtitle = element_text(size = 10),
    axis.text.x = element_text(angle = 45, hjust = 1)
  ) +
  ylim(0, max(datos_3678055_completo$MAPE, na.rm = TRUE) * 1.1)  # Ajustar el límite Y
## Warning: Removed 1 row containing missing values or values outside the scale range
## (`geom_bar()`).
## Removed 1 row containing missing values or values outside the scale range
## (`geom_text()`).

9 ESTIMACIÓN DE PRECIOS

9.0.1 Preparación de datos

# Función para preparar datos de un producto
prepare_price_data <- function(df, product_id) {
  product_data <- df %>%
    filter(ID_Inventario == product_id) %>%
    arrange(Trx_Fecha) %>%
    select(
      Trx_Fecha, Precio_Final_Unitario, Cant, Venta, 
      Costo_Venta, Descuento_Porcentaje, Semana, Mes
    ) %>%
    mutate(
      Dia_Semana = wday(Trx_Fecha),
      Mes_Num = month(Trx_Fecha),
      Anio = year(Trx_Fecha),
      Dias_Desde_Inicio = as.numeric(difftime(Trx_Fecha, min(Trx_Fecha), units = "days")),
      Margen_Unitario = (Venta / Cant) - (Costo_Venta / Cant),
      Precio_Unitario_Calc = Venta / Cant,
      ID_Inventario = product_id
    )
  
  return(product_data)
}

# Asegúrate de que 'datos' sea tu data.frame cargado correctamente
# Por ejemplo, si vienes de un archivo .csv:
# datos <- read.csv("archivo.csv")

# Aplicar la función a todos los productos
ids <- unique(datos$ID_Inventario)

productos_preparados <- map_df(ids, function(id) {
  prepare_price_data(datos, id)
})

# Mostrar una parte del resultado
head(productos_preparados)
## # A tibble: 6 × 15
##   Trx_Fecha           Precio_Final_Unitario  Cant Venta Costo_Venta
##   <dttm>                              <dbl> <dbl> <dbl>       <dbl>
## 1 2023-01-02 00:00:00                   980     1   980        727.
## 2 2023-01-03 00:00:00                   728     1   728        905.
## 3 2023-01-03 00:00:00                   840     6  5040       3598.
## 4 2023-01-04 00:00:00                  1120     1  1120        577.
## 5 2023-01-04 00:00:00                   728     8  5824       6619.
## 6 2023-01-04 00:00:00                   980    10  9800       7273.
## # ℹ 10 more variables: Descuento_Porcentaje <dbl>, Semana <dbl>, Mes <dbl>,
## #   Dia_Semana <dbl>, Mes_Num <dbl>, Anio <dbl>, Dias_Desde_Inicio <dbl>,
## #   Margen_Unitario <dbl>, Precio_Unitario_Calc <dbl>, ID_Inventario <dbl>
# Vector con productos (debe ir primero)
productos_ids <- top_ids

# Función para entrenar modelo ARMA por producto
train_arma_model <- function(data, product_id) {
  library(forecast)  # Asegúrate de cargar forecast si no está cargado aún
  product_data <- data %>% filter(ID_Inventario == product_id)
  serie_ts <- ts(product_data$Venta, frequency = 12)
  modelo_arma <- auto.arima(serie_ts, seasonal = FALSE, stepwise = FALSE, approximation = FALSE)
  return(modelo_arma)
}

# Crear lista de modelos ARMA por producto
modelos_arma_lista <- setNames(
  lapply(productos_ids, function(id) train_arma_model(datos, id)),
  as.character(productos_ids)
)

# Función para modelo regresión lineal
train_reg_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  modelo_reg <- lm(Venta ~ Precio_Final_Unitario, data = product_data)
  return(modelo_reg)
}

# Función para modelo Random Forest
train_rf_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
  rf_data <- product_data %>% select(all_of(predictors), Venta)
  modelo_rf <- randomForest(Venta ~ ., data = rf_data, ntree = 100)
  return(modelo_rf)
}

# Función para modelo XGBoost
train_xgb_model <- function(data, product_id) {
  product_data <- data %>% filter(ID_Inventario == product_id)
  predictors <- c("Precio_Final_Unitario", "Cant", "Descuento_Porcentaje")
  train_matrix <- xgb.DMatrix(data = as.matrix(product_data[, predictors]), label = product_data$Venta)
  params <- list(objective = "reg:squarederror")
  modelo_xgb <- xgb.train(params = params, data = train_matrix, nrounds = 50, verbose = 0)
  return(modelo_xgb)
}

# Crear listas de modelos
modelos_reg_lista <- setNames(lapply(productos_ids, function(id) train_reg_model(datos, id)), as.character(productos_ids))
modelos_rf_lista <- setNames(lapply(productos_ids, function(id) train_rf_model(datos, id)), as.character(productos_ids))
modelos_xgb_lista <- setNames(lapply(productos_ids, function(id) train_xgb_model(datos, id)), as.character(productos_ids))

9.0.2 Entrenar modelos de predicción de precios

# Función para entrenar modelos de predicción de precios
train_price_models <- function(data, product_id, test_size = 0.2) {
  price_data <- prepare_price_data(data, product_id) %>%
    drop_na() %>%
    select(
      Precio_Final_Unitario,
      Cant, Costo_Venta, Descuento_Porcentaje,
      Dia_Semana, Mes_Num, Anio, Dias_Desde_Inicio,
      Margen_Unitario
    )

  # Evitar fallos si hay muy pocos datos
  if (nrow(price_data) < 10) {
    warning(paste("Producto", product_id, "tiene menos de 10 registros. Se omite."))
    return(NULL)
  }

  set.seed(123)
  train_index <- createDataPartition(price_data$Precio_Final_Unitario, p = 1 - test_size, list = FALSE)
  train_data <- price_data[train_index, ]
  test_data <- price_data[-train_index, ]

  # 1. Regresión Lineal
  lm_model <- lm(Precio_Final_Unitario ~ ., data = train_data)

  # 2. Random Forest
  rf_model <- randomForest(
    Precio_Final_Unitario ~ .,
    data = train_data,
    ntree = 500,
    importance = TRUE
  )

  # 3. XGBoost
  features <- setdiff(names(train_data), "Precio_Final_Unitario")
  x_train <- as.matrix(train_data[, features])
  y_train <- train_data$Precio_Final_Unitario
  x_test <- as.matrix(test_data[, features])
  y_test <- test_data$Precio_Final_Unitario
  dtrain <- xgb.DMatrix(data = x_train, label = y_train)
  dtest <- xgb.DMatrix(data = x_test, label = y_test)

  xgb_params <- list(
    objective = "reg:squarederror",
    eval_metric = "rmse",
    eta = 0.1,
    max_depth = 6,
    min_child_weight = 3,
    subsample = 0.8,
    colsample_bytree = 0.8
  )

  xgb_model <- xgb.train(
    params = xgb_params,
    data = dtrain,
    nrounds = 100,
    watchlist = list(train = dtrain, test = dtest),
    early_stopping_rounds = 10,
    verbose = 0
  )

  # Evaluación
  lm_pred <- predict(lm_model, newdata = test_data)
  rf_pred <- predict(rf_model, newdata = test_data)
  xgb_pred <- predict(xgb_model, x_test)

  lm_rmse <- sqrt(mean((lm_pred - test_data$Precio_Final_Unitario)^2))
  rf_rmse <- sqrt(mean((rf_pred - test_data$Precio_Final_Unitario)^2))
  xgb_rmse <- sqrt(mean((xgb_pred - test_data$Precio_Final_Unitario)^2))

  lm_r2 <- 1 - sum((test_data$Precio_Final_Unitario - lm_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
  rf_r2 <- 1 - sum((test_data$Precio_Final_Unitario - rf_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)
  xgb_r2 <- 1 - sum((test_data$Precio_Final_Unitario - xgb_pred)^2) /
    sum((test_data$Precio_Final_Unitario - mean(test_data$Precio_Final_Unitario))^2)

  metrics <- data.frame(
    Model = c("Linear Regression", "Random Forest", "XGBoost"),
    RMSE = c(lm_rmse, rf_rmse, xgb_rmse),
    R2 = c(lm_r2, rf_r2, xgb_r2)
  )

  return(list(metrics = metrics))
}

# IDs de los 5 productos a modelar
productos_ids <- c(155001, 3929788, 3904152, 155002, 3678055)

# Aplicar modelo a cada producto
resultados_modelos <- map(productos_ids, function(id) {
  resultado <- train_price_models(datos, product_id = id)
  if (!is.null(resultado)) {
    resultado$metrics %>% mutate(ID_Inventario = id)
  } else {
    NULL
  }
}) %>% compact() %>% bind_rows()

# Mostrar resultados
resultados_modelos
##                Model        RMSE        R2 ID_Inventario
## 1  Linear Regression  30.2314808 0.9301839        155001
## 2      Random Forest  20.3499737 0.9683653        155001
## 3            XGBoost  10.8625683 0.9909863        155001
## 4  Linear Regression   0.9961090 0.9745183       3929788
## 5      Random Forest   0.7463236 0.9856956       3929788
## 6            XGBoost   0.3634018 0.9966085       3929788
## 7  Linear Regression  63.2610620 0.8980785       3904152
## 8      Random Forest  11.9625578 0.9963555       3904152
## 9            XGBoost  11.4022456 0.9966889       3904152
## 10 Linear Regression  25.7977520 0.9226069        155002
## 11     Random Forest  10.0274489 0.9883072        155002
## 12           XGBoost   4.9295488 0.9971741        155002
## 13 Linear Regression 110.6053375 0.8924438       3678055
## 14     Random Forest  31.4628228 0.9912968       3678055
## 15           XGBoost  19.9533667 0.9964996       3678055
# Lista con los IDs de productos (puedes usar top_ids que ya definiste)
productos_ids <- top_ids

# Entrenar modelos para cada producto y guardar en lista
modelos_precio_lista <- setNames(
  lapply(productos_ids, function(id) train_price_models(datos, id)),
  as.character(productos_ids)
)

9.0.3 Estimar precios óptimos

estimate_optimal_prices <- function(data, product_id, price_models, demand_models = NULL, future_dates = NULL) {
  price_steps <- 20

  # Selección del mejor modelo de precio
  best_price_model_idx <- which.max(price_models$metrics$R2)
  best_price_model_name <- price_models$metrics$Model[best_price_model_idx]

  # Datos del producto
  product_data <- data %>% filter(ID_Inventario == product_id)

  # Rango de precios restringido a percentiles 5% - 95% y limitado a 1.5x la mediana
  min_price <- quantile(product_data$Precio_Final_Unitario, 0.05, na.rm = TRUE)
  max_price <- quantile(product_data$Precio_Final_Unitario, 0.95, na.rm = TRUE)
  price_range <- seq(min_price, max_price, length.out = price_steps)
  price_range <- pmin(price_range, 1.5 * median(product_data$Precio_Final_Unitario, na.rm = TRUE))

  # Inicializar escenarios futuros
  future_scenarios <- data.frame()

  for (future_date in future_dates) {
    future_date <- as.Date(future_date)
    mes_actual <- lubridate::month(future_date)

    mes_data <- product_data %>% filter(lubridate::month(Trx_Fecha) == mes_actual)
    if (nrow(mes_data) < 5) mes_data <- product_data

    costo_mes <- median(mes_data$Costo_Venta, na.rm = TRUE)
    cant_mes <- median(mes_data$Cant, na.rm = TRUE)
    desc_mes <- median(mes_data$Descuento_Porcentaje, na.rm = TRUE)

    if (is.na(costo_mes)) costo_mes <- median(product_data$Costo_Venta, na.rm = TRUE)
    if (is.na(cant_mes) || cant_mes == 0) cant_mes <- median(product_data$Cant, na.rm = TRUE)
    if (is.na(desc_mes)) desc_mes <- median(product_data$Descuento_Porcentaje, na.rm = TRUE)

    date_df <- data.frame(
      Trx_Fecha = rep(future_date, price_steps),
      Precio_Final_Unitario = price_range,
      Cant = cant_mes,
      Costo_Venta = costo_mes,
      Descuento_Porcentaje = desc_mes,
      Dia_Semana = lubridate::wday(future_date),
      Mes_Num = mes_actual,
      Anio = lubridate::year(future_date),
      Dias_Desde_Inicio = as.numeric(difftime(future_date, min(product_data$Trx_Fecha), units = "days")),
      Margen_Unitario = NA
    )

    future_scenarios <- rbind(future_scenarios, date_df)
  }

  # Calcular margen unitario simulado
  future_scenarios$Margen_Unitario <- future_scenarios$Precio_Final_Unitario -
    (future_scenarios$Costo_Venta / future_scenarios$Cant)

  # Estimar elasticidad histórica (con mínimo 15 puntos válidos)
  product_data <- product_data %>% arrange(Trx_Fecha)
  elasticity_df <- product_data %>%
    filter(!is.na(Cant) & !is.na(Precio_Final_Unitario)) %>%
    mutate(
      P_lag = lag(Precio_Final_Unitario),
      Q_lag = lag(Cant),
      dP = Precio_Final_Unitario - P_lag,
      dQ = Cant - Q_lag,
      elasticity_point = (dQ / Q_lag) / (dP / P_lag)
    ) %>%
    filter(!is.na(elasticity_point), is.finite(elasticity_point))

  elasticity <- median(elasticity_df$elasticity_point, na.rm = TRUE)
  if (nrow(elasticity_df) < 15 || is.na(elasticity) || !is.finite(elasticity)) {
    elasticity <- 1
  }

  # Estimar ventas y márgenes
  results <- future_scenarios %>%
    mutate(Venta_Esperada = 0, Margen_Total = 0)

  # Precio base sin descuentos (más robusto)
  baseline_price <- median(product_data %>% filter(Descuento_Porcentaje == 0) %>%
                             pull(Precio_Final_Unitario), na.rm = TRUE)
  if (is.na(baseline_price)) {
    baseline_price <- median(product_data$Precio_Final_Unitario, na.rm = TRUE)
  }

  for (i in 1:nrow(results)) {
    price_ratio <- baseline_price / results$Precio_Final_Unitario[i]
    adjusted_quantity <- results$Cant[i] * (price_ratio ^ elasticity)
    results$Venta_Esperada[i] <- results$Precio_Final_Unitario[i] * adjusted_quantity
    results$Margen_Total[i] <- adjusted_quantity * results$Margen_Unitario[i]
  }

  # Seleccionar precios óptimos (por fecha)
  optimal_prices <- results %>%
    group_by(Trx_Fecha) %>%
    slice_max(Venta_Esperada, n = 1) %>%
    select(Trx_Fecha, Precio_Optimal = Precio_Final_Unitario, Venta_Esperada, Margen_Total)

  # Validación de precios extremos
  precio_median <- median(product_data$Precio_Final_Unitario, na.rm = TRUE)
  if (any(optimal_prices$Precio_Optimal > 2 * precio_median)) {
    warning(paste(" Precio óptimo muy alto detectado para producto", product_id))
  }

  return(list(
    resultados = results,
    precios_optimos = optimal_prices,
    elasticidad = elasticity
  ))
}

9.0.4 Visualizar resultados

# Fechas futuras para simulación
dates_future <- seq(as.Date("2025-01-01"), by = "month", length.out = 6)

# Lista para guardar resultados por producto
precios_optimos_lista <- list()

# Iterar por productos
for (pid in productos_ids) {
  cat("PRODUCTO:", pid, "\n")
  
  modelo_precio <- modelos_precio_lista[[as.character(pid)]]
  
  if (!is.null(modelo_precio)) {
    resultado <- estimate_optimal_prices(
      data = datos,
      product_id = pid,
      price_models = modelo_precio,
      future_dates = dates_future
    )
    
    precios_optimos_lista[[as.character(pid)]] <- resultado
    
    cat("Elasticidad estimada:", round(resultado$elasticidad, 2), "\n\n")
    
    # Mostrar tabla manualmente fila por fila
    print(resultado$precios_optimos)
    
  } else {
    cat("No hay modelo de precios para el producto", pid, "\n")
  }
}
## PRODUCTO: 155001 
## Elasticidad estimada: -2.91 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01            630          3397.         606.
## 2 2025-02-01            630          3397.         637.
## 3 2025-03-01            630          3397.         733.
## 4 2025-04-01            630          3397.        1004.
## 5 2025-05-01            630          3397.        1094.
## 6 2025-06-01            630          3397.         911.
## PRODUCTO: 3929788 
## Elasticidad estimada: -3.1 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           51.6           162.         74.9
## 2 2025-02-01           51.6           130.         53.7
## 3 2025-03-01           51.6           130.         42.0
## 4 2025-04-01           51.6           130.         53.6
## 5 2025-05-01           51.6           130.         42.2
## 6 2025-06-01           51.6           130.         42.6
## PRODUCTO: 3904152 
## Elasticidad estimada: 0 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           3556           3556        1089.
## 2 2025-02-01           3556           3556        1088.
## 3 2025-03-01           3556           3556        1092.
## 4 2025-04-01           3556           3556        1092.
## 5 2025-05-01           3556           3556        1092.
## 6 2025-06-01           3556           3556        1113.
## PRODUCTO: 155002 
## Elasticidad estimada: -4.19 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           594.          6619.        1630.
## 2 2025-02-01           594.          4413.        -391.
## 3 2025-03-01           594.          6619.        1740.
## 4 2025-04-01           594.          6619.        2980.
## 5 2025-05-01           594.          6619.        2825.
## 6 2025-06-01           594.          6619.        2436.
## PRODUCTO: 3678055 
## Elasticidad estimada: 0 
## 
## # A tibble: 6 × 4
## # Groups:   Trx_Fecha [6]
##   Trx_Fecha  Precio_Optimal Venta_Esperada Margen_Total
##   <date>              <dbl>          <dbl>        <dbl>
## 1 2025-01-01           5908           5908        1794.
## 2 2025-02-01           5908           5908        1722.
## 3 2025-03-01           5908           5908        1695.
## 4 2025-04-01           5908           5908        1841.
## 5 2025-05-01           5908           5908        1807.
## 6 2025-06-01           5908           5908        1983.

9.0.5 Integración de precios óptimos y modelos

integrate_with_existing_models <- function(data, product_id, price_opt_results, xgb_model) {
  optimal_prices <- price_opt_results[[as.character(product_id)]]$precios_optimos
  
  if (is.null(optimal_prices) || nrow(optimal_prices) == 0) {
    warning(paste("No se encontraron precios óptimos para el producto", product_id))
    return(data.frame())
  }
  
  hist_data <- data %>%
    filter(ID_Inventario == product_id) %>%
    arrange(Trx_Fecha)
  
  future_features <- data.frame()
  
  for (i in 1:nrow(optimal_prices)) {
    future_date <- optimal_prices$Trx_Fecha[i]
    future_price <- optimal_prices$Precio_Optimal[i]
    
    mes_data <- hist_data %>%
      filter(lubridate::month(Trx_Fecha) == lubridate::month(future_date))
    
    if (nrow(mes_data) < 5) mes_data <- hist_data
    
    avg_features <- mes_data %>%
      summarise(
        Cant = median(Cant, na.rm = TRUE),
        Costo_Venta = median(Costo_Venta, na.rm = TRUE),
        Costo_Devolucion = median(Costo_Devolucion, na.rm = TRUE),
        Precio_Lista_Unitario = median(Precio_Lista_Unitario, na.rm = TRUE),
        Descuento_Porcentaje = median(Descuento_Porcentaje, na.rm = TRUE),
        Tiempo = as.numeric(difftime(future_date, min(hist_data$Trx_Fecha), units = "days")) / 30
      )
    
    # Variables de tendencia:
    avg_features$Precio_Final_Unitario <- future_price
    avg_features$Trx_Fecha <- future_date
    avg_features$Mes_Num <- lubridate::month(future_date)
    avg_features$Anio <- lubridate::year(future_date)
    avg_features$Mes_Desde_Inicio <- as.numeric(difftime(future_date, min(hist_data$Trx_Fecha), units = "days")) %/% 30
    
    future_features <- rbind(future_features, avg_features)
  }
  
  future_data <- data.frame(
    Fecha = future_features$Trx_Fecha,
    Precio_Final_Unitario = future_features$Precio_Final_Unitario
  )
  
  # === PREDICCIÓN CON XGBoost ===
  tryCatch({
    features <- xgb_model$feature_names
    if (is.null(features)) {
      features <- setdiff(names(future_features), "Venta")
    }
    xgb_matrix <- as.matrix(future_features[, features, drop = FALSE])
    future_data$Venta_XGBoost <- predict(xgb_model, xgb_matrix)
  }, error = function(e) {
    warning(paste("Error al predecir con XGBoost para producto", product_id, ":", e$message))
    future_data$Venta_XGBoost <- NA
  })
  
  # === MÉTRICAS ===
  avg_cost_per_unit <- median(hist_data$Costo_Venta / hist_data$Cant, na.rm = TRUE)
  
  future_data$Unidades_XGBoost <- future_data$Venta_XGBoost / future_data$Precio_Final_Unitario
  future_data$Costo_XGBoost <- future_data$Unidades_XGBoost * avg_cost_per_unit
  future_data$Margen_XGBoost <- future_data$Venta_XGBoost - future_data$Costo_XGBoost
  
  return(future_data)
}

9.0.6 Pipeline correcto

corregir_formato_fechas <- function(datos) {
  if ("Trx_Fecha" %in% colnames(datos)) {
    datos$Trx_Fecha_Original <- datos$Trx_Fecha

    if (is.character(datos$Trx_Fecha) &&
        any(grepl("^\\d{7}-\\d{2}-\\d{2}$", datos$Trx_Fecha))) {

      cat("Corrigiendo formato de fechas extraño...\n")

      datos$Trx_Fecha <- sapply(datos$Trx_Fecha, function(fecha) {
        if (is.na(fecha) || !is.character(fecha)) return(NA)

        partes <- strsplit(fecha, "-")[[1]]
        if (length(partes) == 3) {
          fecha_corregida <- paste("2023", partes[2], partes[3], sep = "-")
          return(fecha_corregida)
        } else {
          return(NA)
        }
      })

      datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
      cat("Fechas corregidas exitosamente.\n")
    } else if (!inherits(datos$Trx_Fecha, "Date")) {
      cat("Intentando convertir fechas a formato Date...\n")
      datos$Trx_Fecha <- as.Date(datos$Trx_Fecha)
    }
  }
  return(datos)
}

# Aplicar la corrección a tu dataframe antes de usarlo
datos_filtrados <- corregir_formato_fechas(datos_filtrados)
## Intentando convertir fechas a formato Date...
dates_future <- seq.Date(as.Date("2023-01-01"), by = "month", length.out = 6)
precios_optimos_lista <- list()

for (id in productos_ids) {
  cat("Estimando precios óptimos para producto:", id, "\n")

  modelo_precio <- modelos_precio_lista[[as.character(id)]]

  if (!is.null(modelo_precio)) {
    precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
      data = datos_filtrados,
      product_id = id,
      price_models = modelo_precio,
      future_dates = dates_future
    )
  }
}
## Estimando precios óptimos para producto: 155001 
## Estimando precios óptimos para producto: 3929788 
## Estimando precios óptimos para producto: 3904152 
## Estimando precios óptimos para producto: 155002 
## Estimando precios óptimos para producto: 3678055
for (id in names(precios_optimos_lista)) {
  df_optimo <- precios_optimos_lista[[id]]$precios_optimos

  if (!inherits(df_optimo$Trx_Fecha, "Date")) {
    df_optimo$Trx_Fecha <- as.Date(df_optimo$Trx_Fecha)
  }

  cat(paste0("\n### Producto: ", id, "\n"))

  print(
    ggplot(df_optimo, aes(x = Trx_Fecha, y = Precio_Optimal)) +
      geom_line(color = "#1f77b4", linewidth = 1.2) +
      geom_point(color = "#1f77b4", size = 2) +
      labs(
        title = paste("Precio Óptimo por Mes - Producto", id),
        x = "Fecha",
        y = "Precio Óptimo"
      ) +
      scale_x_date(date_labels = "%b %Y", date_breaks = "1 month") +
      theme_minimal(base_size = 12) +
      theme(
        plot.title = element_text(face = "bold"),
        axis.text.x = element_text(angle = 45, hjust = 1)
      )
  )
}
## 
## ### Producto: 155001

## 
## ### Producto: 3929788

## 
## ### Producto: 3904152

## 
## ### Producto: 155002

## 
## ### Producto: 3678055

run_price_optimization <- function(data, product_ids, future_dates = NULL, modelos_precio_lista = NULL) {
  if (is.null(future_dates)) {
    future_dates <- seq.Date(Sys.Date(), by = "month", length.out = 6)
  }

  precios_optimos_lista <- list()

  for (id in product_ids) {
    cat("Estimando precios óptimos para producto:", id, "\n")

    price_model <- NULL
    if (!is.null(modelos_precio_lista)) {
      price_model <- modelos_precio_lista[[as.character(id)]]
    }

    precios_optimos_lista[[as.character(id)]] <- estimate_optimal_prices(
      data = data,
      product_id = id,
      price_models = price_model,
      future_dates = future_dates
    )
  }

  return(precios_optimos_lista)
}
# Función principal que integra todo el pipeline con solo XGBoost
run_complete_analysis <- function(data, top_ids, modelos_xgb, modelos_precio_lista = NULL) {
  # 1. Estimar precios óptimos
  all_results <- run_price_optimization(data, top_ids, modelos_precio_lista = modelos_precio_lista)

  # 2. Integrar con modelo XGBoost
  integrated_results <- list()

  for (i in seq_along(top_ids)) {
    pid <- top_ids[i]
    pid_str <- as.character(pid)

    xgb_model <- if (length(modelos_xgb) >= i) modelos_xgb[[i]] else NULL

    future_predictions <- integrate_with_existing_models(
      data = data,
      product_id = pid,
      price_opt_results = all_results,
      xgb_model = xgb_model
    )

    integrated_results[[pid_str]] <- future_predictions

    if (nrow(future_predictions) > 0) {
      p_sales <- ggplot(future_predictions, aes(x = Fecha, y = Venta_XGBoost)) +
        geom_line(color = "#1f77b4", linewidth = 1.2) +
        geom_point(size = 2) +
        labs(
          title = paste("Predicciones de ventas con precios óptimos - Producto", pid),
          x = "Fecha",
          y = "Ventas estimadas ($)"
        ) +
        theme_minimal()

      p_margins <- ggplot(future_predictions, aes(x = Fecha, y = Margen_XGBoost)) +
        geom_col(fill = "steelblue", width = 15) +
        geom_text(aes(label = round(Margen_XGBoost, 0)), vjust = -0.5, size = 3.5) +
        labs(
          title = paste("Margen esperado con precios óptimos - Producto", pid),
          x = "Fecha",
          y = "Margen estimado ($)"
        ) +
        theme_minimal()

      all_results[[pid_str]]$integrated_plots <- list(
        sales = p_sales,
        margins = p_margins
      )
    }
  }

  # 3. Visualización de precios óptimos
  all_optimal_prices <- data.frame()

  for (pid in top_ids) {
    pid_str <- as.character(pid)
    if (pid_str %in% names(all_results)) {
      opt_prices <- all_results[[pid_str]]$precios_optimos %>%
        mutate(ID_Inventario = pid)

      all_optimal_prices <- rbind(all_optimal_prices, opt_prices)
    }
  }

  p_comparison <- ggplot(all_optimal_prices,
                         aes(x = Trx_Fecha, y = Precio_Optimal, color = factor(ID_Inventario))) +
    geom_line(size = 1.2) +
    geom_point(size = 3) +
    labs(
      title = "Comparación de Precios Óptimos por Producto",
      x = "Fecha",
      y = "Precio Óptimo",
      color = "ID Producto"
    ) +
    theme_minimal()

  # 4. Métricas finales
  metricas_optimas <- data.frame()

  for (pid in top_ids) {
    pid_str <- as.character(pid)
    if (pid_str %in% names(integrated_results)) {
      pred_data <- integrated_results[[pid_str]]

      if ("Margen_XGBoost" %in% names(pred_data)) {
        metrics_row <- data.frame(
          ID_Inventario = pid,
          Precio_Promedio = mean(pred_data$Precio_Final_Unitario, na.rm = TRUE),
          Venta_Total = sum(pred_data$Venta_XGBoost, na.rm = TRUE),
          Margen_Total = sum(pred_data$Margen_XGBoost, na.rm = TRUE),
          Margen_Porcentual = 100 * sum(pred_data$Margen_XGBoost, na.rm = TRUE) /
            sum(pred_data$Venta_XGBoost, na.rm = TRUE)
        )
        metricas_optimas <- rbind(metricas_optimas, metrics_row)
      }
    }
  }

  return(list(
    resultados = all_results,
    integracion = integrated_results,
    precios_optimos = all_optimal_prices,
    metricas_optimas = metricas_optimas,
    grafico_comparativo = p_comparison
  ))
}
resultado_completo <- run_complete_analysis(
  data = datos,
  top_ids = productos_ids,
  modelos_xgb = modelos_xgb_lista,
  modelos_precio_lista = modelos_precio_lista
)
## Estimando precios óptimos para producto: 155001 
## Estimando precios óptimos para producto: 3929788 
## Estimando precios óptimos para producto: 3904152 
## Estimando precios óptimos para producto: 155002 
## Estimando precios óptimos para producto: 3678055

9.0.7 Gráfico comparativo de precios óptimos por producto:

# Mostrar métricas si estás en modo interactivo
if (interactive()) View(resultado_completo$metricas_optimas)

cat("Gráfico comparativo de precios óptimos por producto:\n")
## Gráfico comparativo de precios óptimos por producto:
print(resultado_completo$grafico_comparativo)

10 Predicción de ventas con precios optimos por producto

cat("Gráficos individuales por producto:\n")
## Gráficos individuales por producto:
for (pid in names(resultado_completo$resultados)) {
  plots <- resultado_completo$resultados[[pid]]$integrated_plots
  if (!is.null(plots)) {
    cat(paste0("## Producto: ", pid, "\n\n"))
    print(plots$sales)   # solo usa Venta_XGBoost internamente
    print(plots$margins) # solo usa Margen_XGBoost internamente
    
    cat("\n---\n\n")
  }
}
## ## Producto: 155001

## 
## ---
## 
## ## Producto: 3929788

## 
## ---
## 
## ## Producto: 3904152

## 
## ---
## 
## ## Producto: 155002

## 
## ---
## 
## ## Producto: 3678055

## 
## ---

10.0.1 TABLA FINAL

tabla_final <- data.frame()

for (pid in productos_ids) {
  pred <- resultado_completo$integracion[[as.character(pid)]]
  real <- datos_filtrados %>% filter(ID_Inventario == pid)

  if (!is.null(pred) && nrow(pred) > 0) {
    precio_promedio <- mean(real$Precio_Final_Unitario, na.rm = TRUE)
    margen_historico_promedio <- mean(real$Venta - real$Costo_Venta, na.rm = TRUE)

    # Extraer mes de las fechas futuras simuladas
    pred$Mes_Simulado <- lubridate::month(pred$Fecha)

    # Calcular venta promedio histórica por mes
    venta_historica_por_mes <- real %>%
      mutate(Mes = lubridate::month(Trx_Fecha)) %>%
      group_by(Mes) %>%
      summarise(Venta_Historica_Promedio = mean(Venta, na.rm = TRUE), .groups = "drop")

    # Agregar columna de venta esperada histórica al df de predicción
    pred <- pred %>%
      left_join(venta_historica_por_mes, by = c("Mes_Simulado" = "Mes"))

    tabla_producto <- pred %>%
      select(Fecha, Precio_Final_Unitario, Venta_XGBoost, Margen_XGBoost, Venta_Historica_Promedio) %>%
      rename(
        Precio_Optimo = Precio_Final_Unitario,
        Venta_Esperada_XGBoost = Venta_XGBoost,
        Margen_XGBoost = Margen_XGBoost,
        Venta_Esperada_Historica = Venta_Historica_Promedio
      ) %>%
      mutate(
        ID_Inventario = pid,
        Precio_Promedio_Historico = round(precio_promedio, 2),
        Margen_Historico_Promedio = round(margen_historico_promedio, 2)
      ) %>%
      select(ID_Inventario, Fecha, Precio_Promedio_Historico, Precio_Optimo,
             Venta_Esperada_Historica, Venta_Esperada_XGBoost,
             Margen_Historico_Promedio, Margen_XGBoost)

    tabla_final <- bind_rows(tabla_final, tabla_producto)
  }
}

print(tabla_final)
##    ID_Inventario      Fecha Precio_Promedio_Historico Precio_Optimo
## 1         155001 2025-06-05                    467.28      630.0000
## 2         155001 2025-07-05                    467.28      630.0000
## 3         155001 2025-08-05                    467.28      630.0000
## 4         155001 2025-09-05                    467.28      630.0000
## 5         155001 2025-10-05                    467.28      630.0000
## 6         155001 2025-11-05                    467.28      630.0000
## 7        3929788 2025-06-05                     40.83       51.5872
## 8        3929788 2025-07-05                     40.83       51.5872
## 9        3929788 2025-08-05                     40.83       51.5872
## 10       3929788 2025-09-05                     40.83       51.5872
## 11       3929788 2025-10-05                     40.83       51.5872
## 12       3929788 2025-11-05                     40.83       51.5872
## 13       3904152 2025-06-05                   3157.60     3556.0000
## 14       3904152 2025-07-05                   3157.60     3556.0000
## 15       3904152 2025-08-05                   3157.60     3556.0000
## 16       3904152 2025-09-05                   3157.60     3556.0000
## 17       3904152 2025-10-05                   3157.60     3556.0000
## 18       3904152 2025-11-05                   3157.60     3556.0000
## 19        155002 2025-06-05                    458.03      593.6000
## 20        155002 2025-07-05                    458.03      593.6000
## 21        155002 2025-08-05                    458.03      593.6000
## 22        155002 2025-09-05                    458.03      593.6000
## 23        155002 2025-10-05                    458.03      593.6000
## 24        155002 2025-11-05                    458.03      593.6000
## 25       3678055 2025-06-05                   5316.65     5908.0000
## 26       3678055 2025-07-05                   5316.65     5908.0000
## 27       3678055 2025-08-05                   5316.65     5908.0000
## 28       3678055 2025-09-05                   5316.65     5908.0000
## 29       3678055 2025-10-05                   5316.65     5908.0000
## 30       3678055 2025-11-05                   5316.65     5908.0000
##    Venta_Esperada_Historica Venta_Esperada_XGBoost Margen_Historico_Promedio
## 1                  2773.289               1253.110                    354.20
## 2                  3824.150               1255.131                    354.20
## 3                  3309.438               1793.815                    354.20
## 4                  2906.493               1255.131                    354.20
## 5                  2853.639               1255.131                    354.20
## 6                  2933.349               1255.131                    354.20
## 7                  1658.104               1044.346                    358.30
## 8                  1796.298               1044.346                    358.30
## 9                  1715.712               1044.775                    358.30
## 10                 1568.125               1044.346                    358.30
## 11                 1647.976               1274.590                    358.30
## 12                 1481.254               1044.346                    358.30
## 13                 7427.639               3551.571                   1770.29
## 14                 6116.994               3554.225                   1770.29
## 15                 7902.450               3558.141                   1770.29
## 16                 7601.677               7108.436                   1770.29
## 17                 7653.351               3538.695                   1770.29
## 18                10330.334               3558.141                   1770.29
## 19                 3240.199               1703.100                    281.58
## 20                 3341.957               1703.100                    281.58
## 21                 2821.299               1703.100                    281.58
## 22                 2747.125               1099.524                    281.58
## 23                 2730.078               1099.524                    281.58
## 24                 2855.958               1099.524                    281.58
## 25                10800.705               5894.670                   2438.95
## 26                10692.688               5894.670                   2438.95
## 27                10281.788               5894.670                   2438.95
## 28                10671.964               5924.096                   2438.95
## 29                 9284.032               5915.545                   2438.95
## 30                10459.696               5897.285                   2438.95
##    Margen_XGBoost
## 1        551.2630
## 2        552.1520
## 3        789.1277
## 4        552.1520
## 5        552.1520
## 6        552.1520
## 7        431.6053
## 8        431.6053
## 9        431.7824
## 10       431.6053
## 11       526.7599
## 12       431.6053
## 13      1212.4252
## 14      1213.3312
## 15      1214.6681
## 16      2426.6575
## 17      1208.0296
## 18      1214.6681
## 19       669.6821
## 20       669.6821
## 21       669.6821
## 22       432.3477
## 23       432.3477
## 24       432.3477
## 25      1991.6554
## 26      1991.6554
## 27      1991.6554
## 28      2001.5978
## 29      1998.7085
## 30      1992.5389
str(df_ecdf)
## tibble [14,311 × 2] (S3: tbl_df/tbl/data.frame)
##  $ Precio_Final_Unitario: num [1:14311] 594 532 532 532 594 ...
##  $ Producto             : chr [1:14311] "155001" "155001" "155001" "155001" ...
summary(df_ecdf)
##  Precio_Final_Unitario   Producto        
##  Min.   : 336.0        Length:14311      
##  1st Qu.: 392.0        Class :character  
##  Median : 448.0        Mode  :character  
##  Mean   : 463.6                          
##  3rd Qu.: 504.0                          
##  Max.   :2095.8
