Por: Christian David Rodriguez Barrera
Una empresa dedicada al procesamiento y comercialización de leche empacada enfrenta dificultades para interpretar el comportamiento de su cadena de suministro. Con una base de más de 3.500 clientes distribuidos en distintos distritos, la organización busca aprovechar la visualización de datos para explorar sus operaciones, identificar patrones y respaldar decisiones que fortalezcan la eficiencia logística, reduzcan costos y mejoren la satisfacción del cliente.
Entre los principales desafíos que la empresa necesita abordar se encuentran:
Segmentación de clientes: Falta de claridad en la identificación de grupos de clientes con comportamientos de compra y características logísticas similares.
Gestión logística: Costos de distribución elevados y variaciones en los tiempos de entrega que afectan el nivel de servicio.
Retención de clientes: Presencia de clientes inactivos en varios distritos, lo que repercute negativamente en los ingresos.
La compañía busca fundamentar sus decisiones en el análisis visual de la información mediante gráficos desarrollados con ggplot, con el fin de:
Explorar patrones de demanda y distribución geográfica de los pedidos.
Identificar visualmente los clientes con mayor nivel de inactividad y orientar estrategias de retención.
Analizar la eficiencia logística para rediseñar rutas de distribución y reducir tiempos y costos.
El propósito del estudio es utilizar análisis descriptivo apoyado en visualizaciones interactivas con ggplot para:
Detectar de forma gráfica los clientes más rentables y analizar su aporte relativo al total de ingresos.
Representar tendencias y distribuciones de variables clave en el proceso de suministro, facilitando la interpretación de comportamientos.
Visualizar los factores asociados a la inactividad de clientes por distrito, identificando posibles zonas de mejora.
Con este enfoque basado en la exploración visual de datos, la empresa podrá comprender de manera más intuitiva el desempeño de su cadena de suministro, optimizar la gestión de clientes y mejorar su eficiencia operativa.
Su empresa de data analytics ha sido contratada. Se le ha entregado una base de datos que contiene variables relacionadas al problema.
Realice la visualización de datos requerida para responder a cada pregunta y plantee una conclusión al problema de decisión.
library(tidyverse)
library(ggplot2)
library(readxl)
library(dplyr)
datos <- read_excel('/Users/Christian/Desktop/Universidad/Septimo Semestre/Programacion/R/Visualización/dataset_distribucion.xlsx')
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 6.000 9.000 9.153 12.000 15.000
##
## 3 4 5 6 7 8 9 10 11 12 13 14 15
## 243 283 252 254 268 290 244 239 303 286 270 302 286
Interpretación
Se puede observar que la distribución de los pedidos de los clientes por centenas es muy similar en todos los grupos, dado que para cada uno de los valores el se tiene que hay un total de pedidos de aproximadamente de 252 a nivel de frecuencia.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 6.000 9.000 9.153 12.000 15.000
##
## 3 4 5 6 7 8 9 10 11 12 13 14 15
## 243 283 252 254 268 290 244 239 303 286 270 302 286
En este caso el codigo se modifica, generando 13 barras en lugar de 4.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.700 1.600 2.600 2.563 3.500 4.500
##
## 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6
## 54 104 88 89 95 90 96 121 103 94 117 86 79 101 85 78 90 96 86 90
## 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3 4.4 4.5
## 90 87 96 87 93 97 109 88 97 86 78 96 112 71 96 80 84 73 58
Interpretación
La mayoria de los pedidos de concentran entre los 1 y 2 millones, luego decrece a partir de los 4 millones.
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
Interpretación La mayoria de las distribuciones estan
relacionados a costos de entrega bajos, es decir la distribución es
asimetrica en los valores indicando que la mayoria de los pedidos tienen
costos bajos.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.500 0.800 1.200 1.481 2.000 4.400
##
## 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4
## 185 322 312 219 223 190 144 177 157 151 123 99 107 90 92 92 98 77 67 54
## 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3 4.4
## 57 65 41 50 44 42 45 32 32 24 28 16 13 19 14 5 7 5 1 1
En este caso el numero de bins ha disminuido pero se puede ver la tendencia.
## [1] "id-cliente" "centro_distribucion"
## [3] "distrito_cliente" "fecha_ini_sumi"
## [5] "estatus" "fecha_fin_sumi"
## [7] "volumen_pedi_centenas" "valor_pedi_millones"
## [9] "frecuencia_pedi_mes" "costos_entrega_millones"
## [11] "tiempo_prom_entre_dias" "nivel_serv_proce"
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.00 13.00 19.00 18.98 25.00 30.00
##
## 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
## 158 151 162 165 144 152 180 153 128 150 150 144 154 149 155 133 162 137 170 147
## 28 29 30
## 168 139 169
Interpretación
De acuerdo con los datos obtenidos, la mayoria de las entregan se están realizando o toman un tiempo de espera entre 28 y 30 días.
## [1] "id-cliente" "centro_distribucion"
## [3] "distrito_cliente" "fecha_ini_sumi"
## [5] "estatus" "fecha_fin_sumi"
## [7] "volumen_pedi_centenas" "valor_pedi_millones"
## [9] "frecuencia_pedi_mes" "costos_entrega_millones"
## [11] "tiempo_prom_entre_dias" "nivel_serv_proce"
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
Interpretación
En la colmuna de satisfacción solo hay tres rangos el 5, 6, y 7. Los tres niveles de satisfacción son relativamente iguales llegando a 1190, 1153, 1177 respectivamente. En terminos del indicador se podria decir que todos los clientes han tenido una muy buena satisfacción.
Interpretación
En este caso, se tiene que el producto mas preferido o demandado es la caja de 12 unidades, seguidos de los productos que se encuentran disponibles en 50 unidades.
## [1] "id-cliente" "centro_distribucion"
## [3] "distrito_cliente" "fecha_ini_sumi"
## [5] "estatus" "fecha_fin_sumi"
## [7] "volumen_pedi_centenas" "valor_pedi_millones"
## [9] "frecuencia_pedi_mes" "costos_entrega_millones"
## [11] "tiempo_prom_entre_dias" "nivel_serv_proce"
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
Interpretación De acuerdo con los resultados obtenidos
es posible evidenciar que la zona Norte es la que cuenta con una mayor
cantidad de solicitudes, con una frecuencia de 1225.
## [1] "id-cliente" "centro_distribucion"
## [3] "distrito_cliente" "fecha_ini_sumi"
## [5] "estatus" "fecha_fin_sumi"
## [7] "volumen_pedi_centenas" "valor_pedi_millones"
## [9] "frecuencia_pedi_mes" "costos_entrega_millones"
## [11] "tiempo_prom_entre_dias" "nivel_serv_proce"
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 60.00 69.00 78.00 77.81 87.00 95.00
##
## 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79
## 103 84 83 87 99 93 91 102 113 92 99 112 91 104 107 72 87 85 100 99
## 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95
## 112 105 94 93 80 92 102 99 116 108 106 101 110 103 98 98
Se concentra un valor importante del nivel de servicio en el nivel 70, sin embargo los datos mas altos se concentran en el nivel de servicio 90.
Interpretación
La gráfica de dispersión con línea de tendencia muestra una relación positiva entre el valor del pedido y el costo de entrega, lo que sugiere que a medida que los pedidos son más grandes en términos monetarios, también tienden a implicar mayores costos logísticos. Esto seria obvio ya que a mas cantida de producto, mas kilogramos cuenta entregar la leche.
Esto indica que los pedidos más rentables podrían estar asociados a mayores gastos de distribución, lo cual exige un análisis más profundo para optimizar la rentabilidad neta. La empresa podría considerar estrategias como segmentar los clientes por valor y diseñar rutas diferenciadas que reduzcan el costo por unidad entregada en los pedidos de mayor valor.
Interpretación
La gráfica de cajas revela diferencias claras en el volumen de pedidos entre los distritos Norte, Oeste y Sureste.
El distrito Norte presenta una mediana más alta y una menor dispersión, lo que indica una demanda más estable y concentrada.
El distrito Sureste muestra una mayor variabilidad en los volúmenes, lo que podría reflejar comportamientos de compra más irregulares o una mezcla de clientes con distintos perfiles logísticos
El Sureste requeriría estrategias más flexibles y segmentadas para adaptarse a su heterogeneidad.
Interpretación
La gráfica de violín evidencia una diferencia clara en la distribución del nivel de servicio entre clientes activos e inactivos. Los clientes activos presentan una concentración más alta en niveles de servicio cercanos al 90%, mientras que los inactivos muestran una distribución más dispersa y centrada en valores inferiores. Esta brecha sugiere que el nivel de servicio podría estar influyendo directamente en la retención de clientes: aquellos que reciben un servicio más eficiente tienden a mantenerse activos, mientras que los que experimentan menor calidad podrían abandonar la relación comercial.
## Warning: Continuous x aesthetic
## ℹ did you forget `aes(group = ...)`?
Interpretación
La gráfica de cajas muestra cómo varía el costo de entrega entre los distintos centros de distribución. Se observa que uno de los centros presenta una mediana más elevada y una mayor cantidad de valores atípicos, lo que indica que incurre en costos significativamente más altos y menos consistentes.
## `geom_smooth()` using formula = 'y ~ x'
Interpretación
La gráfica de dispersión muestra una relación positiva entre el nivel de servicio y la satisfacción del cliente, aunque con una tendencia moderada.Como se vio antes la satisfacción es solo 5,6,7, especialmente cuando el nivel de servicio supera el 85%. Esto sugiere que, aunque no todos los clientes reaccionan igual ante mejoras en el servicio, existe una asociación clara: los clientes que reciben un servicio más eficiente tienden a reportar mayor satisfacción.
Interpretación
Los clientes activos presentan una mediana más alta y una distribución más concentrada, lo que indica un patrón de compra más regular y sostenido. En cambio, los clientes inactivos tienen frecuencias más bajas y dispersas, lo que evidencia una menor participación en el proceso comercial.
## `geom_smooth()` using formula = 'y ~ x'
Interpretación
Se puede observar que existe una relación positiva entre el tiempo promedio de entrega y el costo de entrega. A medida que el tiempo de entrega se incrementa, también tienden a aumentar los costos logísticos, lo que sugiere que las rutas más largas o menos eficientes están generando un impacto económico directo.
Interpretación
Se observan agrupaciones en los niveles de satisfacción 5, 6 y 7, lo que indica que la mayoría de los clientes reportan experiencias favorables, especialmente cuando el valor del pedido es más alto. Esto sugiere que los clientes que realizan compras más grandes podrían estar recibiendo un servicio más personalizado o percibiendo mayor valor en la transacción.
Interpretación
Los clientes activos tienden a recibir un nivel de servicio más alto y consistente en todos los distritos, mientras que los inactivos presentan mayor dispersión y niveles inferiores, especialmente en el distrito Sureste. Esta segmentación revela brechas operativas que podrían estar afectando la retención de clientes en zonas específicas.
## [1] "id-cliente" "centro_distribucion"
## [3] "distrito_cliente" "fecha_ini_sumi"
## [5] "estatus" "fecha_fin_sumi"
## [7] "volumen_pedi_centenas" "valor_pedi_millones"
## [9] "frecuencia_pedi_mes" "costos_entrega_millones"
## [11] "tiempo_prom_entre_dias" "nivel_serv_proce"
## [13] "categoria_mas_solicitada" "satisfaccion_cliente_1_7"
Interpretación
El boxplot muestra cómo varía el valor del pedido según la categoría del producto y el distrito del cliente. Se observan diferencias claras: por ejemplo, los pedidos de “Caja de 100 unidades” tienden a tener valores más altos, especialmente en el distrito Norte, mientras que en categorías menores como “Caja de 12 unidades” los valores son más bajos y más dispersos entre distritos.