BASE VENTAS ZARA

En este informe se van a generar el debate 2 utilizando la Base de Datos de Zara, la cual corresponde a las ventas del día 19 de febrero de 2024.

BLOQUE 1: Propiedades de los datos

La siguiente tabla corresponde al resumen de los datos analizados.

##    Product.ID           Product.Position Promotion Product.Category Seasonal 
##  Min.   :110075   Aisle         :97      No :132   Clothing:252     No :124  
##  1st Qu.:131054   End-cap       :86      Yes:120                    Yes:128  
##  Median :151682   Front of Store:69                                          
##  Mean   :153371                                                              
##  3rd Qu.:175670                                                              
##  Max.   :199631                                                              
##                                                                              
##   Sales.Volume   brand    
##  Min.   : 529   Zara:252  
##  1st Qu.:1243             
##  Median :1840             
##  Mean   :1824             
##  3rd Qu.:2399             
##  Max.   :2989             
##                           
##                                                                        url     
##  https://www.zara.com/us/en/alpaca-blend-open-knit-sweater-p05755132.html:  2  
##  https://www.zara.com/us/en/basic-100-wool-sweater-p02893106.html        :  2  
##  https://www.zara.com/us/en/basic-foil-knit-sweater-p00506101.html       :  2  
##  https://www.zara.com/us/en/basic-knit-sweater-p01509115.html            :  2  
##  https://www.zara.com/us/en/bomber-jacket-p05344402.html                 :  2  
##  https://www.zara.com/us/en/colorblock-knit-crop-sweater-p05536008.html  :  2  
##  (Other)                                                                 :240  
##                sku                                     name    
##  281593208-015-2 :  2   PLAID OVERSHIRT                  :  6  
##  281883711-071-2 :  2   PATCH BOMBER JACKET              :  4  
##  311282631-712-2 :  2   POCKET OVERSHIRT                 :  4  
##  311292244-800-39:  2   BOMBER JACKET                    :  3  
##  311307610-400-39:  2   CONTRASTING PATCHES BOMBER JACKET:  3  
##  312571093-710-2 :  2   FAUX LEATHER BOMBER JACKET       :  3  
##  (Other)         :240   (Other)                          :229  
##                                                                                                                                                                                        description 
##  Varsity jacket with elastic collar and long sleeves. Welt pockets at hip and interior pocket. Embroidered appliqué and contrast front and back patches. Rib trim. Front snap button closure.:  4  
##                                                                                                                                                                                              :  2  
##  Baggy fit jeans. Five pockets. Washed effect. Front zip and button closure.                                                                                                                 :  2  
##  Boxy fit jacket. Lapel collar and long sleeves with buttoned cuffs. Patch pockets at hip. Washed effect.Asymmetric hem with side vents. Front button closure.                               :  2  
##  Cropped overshirt. Lapel collar and long sleeves with buttoned cuffs. Chest patch pocket. Irregular trim. Front button closure.                                                             :  2  
##  Cropped overshirt. Lapel collar and long sleeves with buttoned cuffs. Front patch pockets. Irregular finished seams. Front button closure.                                                  :  2  
##  (Other)                                                                                                                                                                                     :238  
##      price        currency                       scraped_at       terms    
##  Min.   :  7.99   USD:252   2024-02-19T09:10:31.877971:  2   jackets :140  
##  1st Qu.: 49.90             2024-02-19T09:10:32.534246:  2   jeans   :  8  
##  Median : 79.90             2024-02-19T09:10:33.128884:  2   shoes   : 31  
##  Mean   : 86.25             2024-02-19T09:10:33.890995:  2   sweaters: 41  
##  3rd Qu.:109.00             2024-02-19T09:10:34.521463:  2   t-shirts: 32  
##  Max.   :439.00             2024-02-19T09:10:35.068338:  2                 
##                             (Other)                   :240                 
##   section   
##  MAN  :218  
##  WOMAN: 34  
##             
##             
##             
##             
## 
  • ¿Qué variables contiene el dataset? 
## 1. Product.ID
## 2. Product.Position
## 3. Promotion
## 4. Product.Category
## 5. Seasonal
## 6. Sales.Volume
## 7. brand
## 8. url
## 9. sku
## 10. name
## 11. description
## 12. price
## 13. currency
## 14. scraped_at
## 15. terms
## 16. section
  • ¿Todas las variables tienen nombres claros y significativos?

R: Las variables estan claras, salvo “terms” y “section” que podrian ser mas objetivas

  • ¿Qué escalas de medida tienen?
  • ¿Están bien documentadas las unidades de medida?

R: Tiene algunas falencias como “price” que se asume incluye descuentos e impuestos

  • ¿Qué metadatos faltan para entenderlas mejor?

R: No hay informacion de tallas o colores

  • ¿Detectáis variables redundantes o sin utilidad?

R: “brand” es redundante (todos los valores son “Zara”); url y sku podrían ser útiles para trazabilidad, pero no para análisis estadístico directo.

  • ¿Existen variables con un único valor que podrían eliminarse?

R: “product Category” y “currency” tienen un solo valor (“Clothing”, “USD”), lo que limita su utilidad analítica.

  • ¿Cuáles son los posibles valores de cada variable y cómo se codifican las categorías?
Resumen de variables, tipos y valores posibles
variable tipo valores
Product.ID integer 185102, 188771, 180176, 112917, 192936
Product.Position factor Aisle, End-cap, Front of Store
Promotion factor No, Yes
Product.Category factor Clothing
Seasonal factor No, Yes
Sales.Volume integer 2823, 654, 2220, 1568, 2942
brand factor Zara
url factor https://www.zara.com/us/en/-p04310461.html, https://www.zara.com/us/en/100-feather-fill-puffer-jacket-p00155480.html, https://www.zara.com/us/en/100-feather-fill-puffer-jacket-p04302305.html, https://www.zara.com/us/en/100-linen-overshirt-p04224708.html, https://www.zara.com/us/en/100-wool-suit-jacket-p05955218.html
sku factor 267133943-711-2, 267186163-643-2, 267195405-500-3, 272145190-250-2, 275600408-400-2
name factor , 100% FEATHER FILL PUFFER JACKET, 100% LINEN OVERSHIRT, 100% WOOL SUIT JACKET, ABSTRACT JACQUARD SWEATER
description factor , Ankle boots. Made of leather with a suede finish. Faux shearling interior and side detail. Rounded shape. Welt around upper. Back pull tab. Chunky lug soles., Baggy fit jeans. Five pockets. Washed effect. Front zip and button closure., Baggy jeans. Five pockets. Washed effect. Front zip and button closure., Baggy jeans. Self belt at waist. Front pockets and back patch pockets. Washed effect. Front button closure.
price numeric 19.99, 169, 129, 139, 79.9
currency factor USD
scraped_at Date 2024-02-19
terms factor jackets, jeans, shoes, sweaters, t-shirts
section factor MAN, WOMAN

BLOQUE 2: Limitaciones y sesgos

  • ¿Hay datos de fechas u ubicación de tienda?

R: No hay datos de ubicación de la o las tiendas, sobre las fechas, se indica que las ventas ocurrieron un único día, el 19 de febrero de 2024

  • ¿Qué limitaciones temporales o geográficas encontráis?

R: según punto anterior, no se puede analizar evolución temporal ni de locaciones.

  • ¿Faltan variables clave de contexto (ubicación, campañas de marketing, etc.)?

R: Efectivamente existen varias variables que de existir nos habrían permitido un análisis más completo (ubicación, campañas de marketing, stock, devoluciones, etc.)

  • ¿Qué posibles sesgos de representatividad percibís? ¿Podrían distorsionar los resultados?

R: Stock disponible al momento de la compra, tallas disponibles, productos para damas.

  • ¿Hay suficiente contexto para interpretar cambios de ventas?

R; No se puede interpretar cambios en ventas sin saber duración de disponibilidad, promociones activas, etc.

  • ¿Los datos están actualizados o podrían estar desfasados?

R: No, no están actualizados, se trata de un análisis puntual del día 19 de febrero de 2024, por lo que también presentan un desfase si quisiéramos hacer un análisis representativo para tomar decisiones.

BLOQUE 3: Estrategias de limpieza y validación

  • ¿Los rangos de valores son razonables (precios, volumen de ventas)?

R: Analizando las variables, se obtiene que ambas están dentro de rangos razonables.

“price”: entre $7.99 y $439.00

“sales volume”: entre 529 y 2989

  • ¿Existen valores ausentes (NA)? ¿Cuáles? ¿Es posible recuperar el dato desde otra fuente?

R: si, hay algunos valores ausentes (2 ventas), los cuales se podrían obtener revisando los comprobantes de ventas:

“name”: 1 valor ausente.

“description”: 2 valores ausentes.

  • ¿Existen valores atípicos (outliers)? ¿Cuáles? ¿Es posible verificar estos valores?

R: hay valores tanto en “price” como en “sales volumen” que podrían considerarse atípicos, pero están dentro de rangos razonables y no tenemos más información para poder asumir que es un dato erróneo.

  • ¿Existen duplicados?

R: No, ninguna venta se repite.

  • ¿Existe coherencia entre variables relacionadas?

R: Con la información disponible no es posible determinar.

  • ¿Haríais cambios en categorías como terms o Product Category?

R: para “terms” creo que se debiese cambiar por “subcategoría”, es más entendible

BLOQUE 4: Propuestas de mejora y reflexión final

  • ¿Qué variables deberíamos añadir en futuras extracciones?

R: ubicación de tienda, stock disponible, canal de venta, vendedor(a), campañas vigentes y descuentos aplicados entre otros.

  • ¿Cómo mejorar la trazabilidad y actualización de los datos?

R: Utilizar información directamente de la fuente (ejemplo: SAP) y no de 3eros (Kaggle); incorporar variables que nos permitiesen hacer mayores análisis y evita sesgos.

  • ¿Qué variables complementarias (stock, ubicación, canales de venta) podrían enriquecer el análisis?

R: Variables adicionales como “stock”, “ubicación”, “canales de venta”, “vendedores”, “Feedback de clientes” serian muy útiles para realizar análisis mas completos y poder generar información real y contundente para la toma de decisiones.

  • ¿Qué aprendizajes os lleváis de cara a futuros proyectos?

R: más allá de la utilización de herramientas muy potentes como R (RStudio), destaco algunas conclusiones:

  1. La calidad del análisis depende de la calidad y contexto de los datos.

  2. Es crucial documentar bien las variables y mantener consistencia en las categorías.

  3. Es muy relevante tener claro que es lo que quiero analizar (a que situación quiero obtener las respuestas)

  4. El sesgo de cualquier tipo puede alterar el resultado, las conclusiones y en ultima instancia las decisiones que se tomen.

  5. El tener una base tan acotada, no permite visualizar comportamiento claro (si lo hubiese) y por lo tanto para este caso, no podríamos inferir prácticamente ningún patrón con el cual generar estrategia de venta.


Saludos Cordiales

RODRIGO GIL RIOS