Contexto de aplicación empresarial: Visualización de datos en la cadena de suministro

Por: Christian David Rodriguez Barrera

Escenario

Una empresa dedicada al procesamiento y comercialización de leche empacada enfrenta dificultades para interpretar el comportamiento de su cadena de suministro. Con una base de más de 3.500 clientes distribuidos en distintos distritos, la organización busca aprovechar la visualización de datos para explorar sus operaciones, identificar patrones y respaldar decisiones que fortalezcan la eficiencia logística, reduzcan costos y mejoren la satisfacción del cliente.

Problema empresarial

Entre los principales desafíos que la empresa necesita abordar se encuentran:

  • Segmentación de clientes: Falta de claridad en la identificación de grupos de clientes con comportamientos de compra y características logísticas similares.

  • Gestión logística: Costos de distribución elevados y variaciones en los tiempos de entrega que afectan el nivel de servicio.

  • Retención de clientes: Presencia de clientes inactivos en varios distritos, lo que repercute negativamente en los ingresos.

Decisión involucrada

La compañía busca fundamentar sus decisiones en el análisis visual de la información mediante gráficos desarrollados con ggplot, con el fin de:

  • Explorar patrones de demanda y distribución geográfica de los pedidos.

  • Identificar visualmente los clientes con mayor nivel de inactividad y orientar estrategias de retención.

  • Analizar la eficiencia logística para rediseñar rutas de distribución y reducir tiempos y costos.

Objetivo del análisis

El propósito del estudio es utilizar análisis descriptivo apoyado en visualizaciones interactivas con ggplot para:

  • Detectar de forma gráfica los clientes más rentables y analizar su aporte relativo al total de ingresos.

  • Representar tendencias y distribuciones de variables clave en el proceso de suministro, facilitando la interpretación de comportamientos.

  • Visualizar los factores asociados a la inactividad de clientes por distrito, identificando posibles zonas de mejora.

Con este enfoque basado en la exploración visual de datos, la empresa podrá comprender de manera más intuitiva el desempeño de su cadena de suministro, optimizar la gestión de clientes y mejorar su eficiencia operativa.

Actividad

Su empresa de data analytics ha sido contratada. Se le ha entregado una base de datos que contiene variables relacionadas al problema.

Realice la visualización de datos requerida para responder a cada pregunta y plantee una conclusión al problema de decisión.

library(tidyverse)
library(ggplot2)
library(readxl)
library(dplyr)

datos <- read_excel('/Users/Christian/Desktop/Universidad/Septimo Semestre/Programacion/R/Visualización/dataset_distribucion.xlsx')

Análisis Univariado

1. ¿Cómo se distribuye el volumen entre los clientes? (Histograma)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   6.000   9.000   9.153  12.000  15.000
## 
##   3   4   5   6   7   8   9  10  11  12  13  14  15 
## 243 283 252 254 268 290 244 239 303 286 270 302 286

Interpretación

Se puede observar que la distribución de los pedidos de los clientes por centenas es muy similar en todos los grupos, dado que para cada uno de los valores el se tiene que hay un total de pedidos de aproximadamente de 252 a nivel de frecuencia.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   3.000   6.000   9.000   9.153  12.000  15.000
## 
##   3   4   5   6   7   8   9  10  11  12  13  14  15 
## 243 283 252 254 268 290 244 239 303 286 270 302 286

En este caso el codigo se modifica, generando 13 barras en lugar de 4.

2. ¿Cómo se distribuyen los valores monetarios de los pedidos? (Gráfico de Densidad)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.700   1.600   2.600   2.563   3.500   4.500
## 
## 0.7 0.8 0.9   1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9   2 2.1 2.2 2.3 2.4 2.5 2.6 
##  54 104  88  89  95  90  96 121 103  94 117  86  79 101  85  78  90  96  86  90 
## 2.7 2.8 2.9   3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9   4 4.1 4.2 4.3 4.4 4.5 
##  90  87  96  87  93  97 109  88  97  86  78  96 112  71  96  80  84  73  58

Interpretación

La mayoria de los pedidos de concentran entre los 1 y 2 millones, luego decrece a partir de los 4 millones.

3. ¿Cúal es la distribución del costo de la entrega?

## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

Interpretación La mayoria de las distribuciones estan relacionados a costos de entrega bajos, es decir la distribución es asimetrica en los valores indicando que la mayoria de los pedidos tienen costos bajos.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.500   0.800   1.200   1.481   2.000   4.400
## 
## 0.5 0.6 0.7 0.8 0.9   1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9   2 2.1 2.2 2.3 2.4 
## 185 322 312 219 223 190 144 177 157 151 123  99 107  90  92  92  98  77  67  54 
## 2.5 2.6 2.7 2.8 2.9   3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9   4 4.1 4.2 4.3 4.4 
##  57  65  41  50  44  42  45  32  32  24  28  16  13  19  14   5   7   5   1   1

En este caso el numero de bins ha disminuido pero se puede ver la tendencia.

4. ¿Cómo se distribuye el tiempo de entrega? (Histograma)

##  [1] "id-cliente"               "centro_distribucion"     
##  [3] "distrito_cliente"         "fecha_ini_sumi"          
##  [5] "estatus"                  "fecha_fin_sumi"          
##  [7] "volumen_pedi_centenas"    "valor_pedi_millones"     
##  [9] "frecuencia_pedi_mes"      "costos_entrega_millones" 
## [11] "tiempo_prom_entre_dias"   "nivel_serv_proce"        
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.00   13.00   19.00   18.98   25.00   30.00

## 
##   8   9  10  11  12  13  14  15  16  17  18  19  20  21  22  23  24  25  26  27 
## 158 151 162 165 144 152 180 153 128 150 150 144 154 149 155 133 162 137 170 147 
##  28  29  30 
## 168 139 169

Interpretación

De acuerdo con los datos obtenidos, la mayoria de las entregan se están realizando o toman un tiempo de espera entre 28 y 30 días.

5. ¿Que niveles de satisfacción predominan entre los clientes? (Barras)

##  [1] "id-cliente"               "centro_distribucion"     
##  [3] "distrito_cliente"         "fecha_ini_sumi"          
##  [5] "estatus"                  "fecha_fin_sumi"          
##  [7] "volumen_pedi_centenas"    "valor_pedi_millones"     
##  [9] "frecuencia_pedi_mes"      "costos_entrega_millones" 
## [11] "tiempo_prom_entre_dias"   "nivel_serv_proce"        
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"

Interpretación

En la colmuna de satisfacción solo hay tres rangos el 5, 6, y 7. Los tres niveles de satisfacción son relativamente iguales llegando a 1190, 1153, 1177 respectivamente. En terminos del indicador se podria decir que todos los clientes han tenido una muy buena satisfacción.

6. ¿Cuáles son las categorias de productos más demandadas? ()

Interpretación

En este caso, se tiene que el producto mas preferido o demandado es la caja de 12 unidades, seguidos de los productos que se encuentran disponibles en 50 unidades.

7. ¿Qué distritos concentran más clientes? (Barras)

##  [1] "id-cliente"               "centro_distribucion"     
##  [3] "distrito_cliente"         "fecha_ini_sumi"          
##  [5] "estatus"                  "fecha_fin_sumi"          
##  [7] "volumen_pedi_centenas"    "valor_pedi_millones"     
##  [9] "frecuencia_pedi_mes"      "costos_entrega_millones" 
## [11] "tiempo_prom_entre_dias"   "nivel_serv_proce"        
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"

Interpretación De acuerdo con los resultados obtenidos es posible evidenciar que la zona Norte es la que cuenta con una mayor cantidad de solicitudes, con una frecuencia de 1225.

8. ¿Cuál es la distribución del nivel de servicio? (Histograma)

##  [1] "id-cliente"               "centro_distribucion"     
##  [3] "distrito_cliente"         "fecha_ini_sumi"          
##  [5] "estatus"                  "fecha_fin_sumi"          
##  [7] "volumen_pedi_centenas"    "valor_pedi_millones"     
##  [9] "frecuencia_pedi_mes"      "costos_entrega_millones" 
## [11] "tiempo_prom_entre_dias"   "nivel_serv_proce"        
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   60.00   69.00   78.00   77.81   87.00   95.00

## 
##  60  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79 
## 103  84  83  87  99  93  91 102 113  92  99 112  91 104 107  72  87  85 100  99 
##  80  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95 
## 112 105  94  93  80  92 102  99 116 108 106 101 110 103  98  98

Se concentra un valor importante del nivel de servicio en el nivel 70, sin embargo los datos mas altos se concentran en el nivel de servicio 90.

9. ¿Existe relación entre valor de pedido y costo de entrega? ()

Interpretación

La gráfica de dispersión con línea de tendencia muestra una relación positiva entre el valor del pedido y el costo de entrega, lo que sugiere que a medida que los pedidos son más grandes en términos monetarios, también tienden a implicar mayores costos logísticos. Esto seria obvio ya que a mas cantida de producto, mas kilogramos cuenta entregar la leche.

Esto indica que los pedidos más rentables podrían estar asociados a mayores gastos de distribución, lo cual exige un análisis más profundo para optimizar la rentabilidad neta. La empresa podría considerar estrategias como segmentar los clientes por valor y diseñar rutas diferenciadas que reduzcan el costo por unidad entregada en los pedidos de mayor valor.

10. ¿Cómo varía el volumen de pedidos según el distrito?

Interpretación

La gráfica de cajas revela diferencias claras en el volumen de pedidos entre los distritos Norte, Oeste y Sureste.

  • El distrito Norte presenta una mediana más alta y una menor dispersión, lo que indica una demanda más estable y concentrada.

  • El distrito Sureste muestra una mayor variabilidad en los volúmenes, lo que podría reflejar comportamientos de compra más irregulares o una mezcla de clientes con distintos perfiles logísticos

  • El Sureste requeriría estrategias más flexibles y segmentadas para adaptarse a su heterogeneidad.

11. ¿Se observan diferencias en nivel de servicio entre clientes activos e inactivos?

Interpretación

La gráfica de violín evidencia una diferencia clara en la distribución del nivel de servicio entre clientes activos e inactivos. Los clientes activos presentan una concentración más alta en niveles de servicio cercanos al 90%, mientras que los inactivos muestran una distribución más dispersa y centrada en valores inferiores. Esta brecha sugiere que el nivel de servicio podría estar influyendo directamente en la retención de clientes: aquellos que reciben un servicio más eficiente tienden a mantenerse activos, mientras que los que experimentan menor calidad podrían abandonar la relación comercial.

12. ¿Qué centro de distribución incurre en mayores costos de entrega?

## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?

Interpretación

La gráfica de cajas muestra cómo varía el costo de entrega entre los distintos centros de distribución. Se observa que uno de los centros presenta una mediana más elevada y una mayor cantidad de valores atípicos, lo que indica que incurre en costos significativamente más altos y menos consistentes.

13. ¿Existe relación entre satisfacción y nivel de servicio?

## `geom_smooth()` using formula = 'y ~ x'

Interpretación

La gráfica de dispersión muestra una relación positiva entre el nivel de servicio y la satisfacción del cliente, aunque con una tendencia moderada.Como se vio antes la satisfacción es solo 5,6,7, especialmente cuando el nivel de servicio supera el 85%. Esto sugiere que, aunque no todos los clientes reaccionan igual ante mejoras en el servicio, existe una asociación clara: los clientes que reciben un servicio más eficiente tienden a reportar mayor satisfacción.

14.¿Cómo cambia la frecuencia de pedidos según el estatus?

Interpretación

Los clientes activos presentan una mediana más alta y una distribución más concentrada, lo que indica un patrón de compra más regular y sostenido. En cambio, los clientes inactivos tienen frecuencias más bajas y dispersas, lo que evidencia una menor participación en el proceso comercial.

15. ¿Cómo se comporta el costo de entrega frente al tiempo promedio?

## `geom_smooth()` using formula = 'y ~ x'

Interpretación

Se puede observar que existe una relación positiva entre el tiempo promedio de entrega y el costo de entrega. A medida que el tiempo de entrega se incrementa, también tienden a aumentar los costos logísticos, lo que sugiere que las rutas más largas o menos eficientes están generando un impacto económico directo.

16. ¿Qué relación existe entre valor del pedido y satisfacción?

Interpretación

Se observan agrupaciones en los niveles de satisfacción 5, 6 y 7, lo que indica que la mayoría de los clientes reportan experiencias favorables, especialmente cuando el valor del pedido es más alto. Esto sugiere que los clientes que realizan compras más grandes podrían estar recibiendo un servicio más personalizado o percibiendo mayor valor en la transacción.

17. ¿Cómo se distribuye el nivel de servicio combinando distrito y estatus?

Interpretación

Los clientes activos tienden a recibir un nivel de servicio más alto y consistente en todos los distritos, mientras que los inactivos presentan mayor dispersión y niveles inferiores, especialmente en el distrito Sureste. Esta segmentación revela brechas operativas que podrían estar afectando la retención de clientes en zonas específicas.

18. ¿Cómo se comporta el valor del pedido por categoría y distrito?

##  [1] "id-cliente"               "centro_distribucion"     
##  [3] "distrito_cliente"         "fecha_ini_sumi"          
##  [5] "estatus"                  "fecha_fin_sumi"          
##  [7] "volumen_pedi_centenas"    "valor_pedi_millones"     
##  [9] "frecuencia_pedi_mes"      "costos_entrega_millones" 
## [11] "tiempo_prom_entre_dias"   "nivel_serv_proce"        
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"

Interpretación

El boxplot muestra cómo varía el valor del pedido según la categoría del producto y el distrito del cliente. Se observan diferencias claras: por ejemplo, los pedidos de “Caja de 100 unidades” tienden a tener valores más altos, especialmente en el distrito Norte, mientras que en categorías menores como “Caja de 12 unidades” los valores son más bajos y más dispersos entre distritos.