INTRODUCCION

En este informe se van a dar respuestas del debate 2 usando el databese de Zara sobre un parcial de las ventas generadas en Febrero 19 del 2024 y para dar introuccion mostraremos el resumen de nuestros datos:

##    Product.ID           Product.Position Promotion Product.Category Seasonal 
##  Min.   :110075   Aisle         :97      No :132   Clothing:252     No :124  
##  1st Qu.:131054   End-cap       :86      Yes:120                    Yes:128  
##  Median :151682   Front of Store:69                                          
##  Mean   :153371                                                              
##  3rd Qu.:175670                                                              
##  Max.   :199631                                                              
##                                                                              
##   Sales.Volume   brand    
##  Min.   : 529   Zara:252  
##  1st Qu.:1243             
##  Median :1840             
##  Mean   :1824             
##  3rd Qu.:2399             
##  Max.   :2989             
##                           
##                                                                        url     
##  https://www.zara.com/us/en/alpaca-blend-open-knit-sweater-p05755132.html:  2  
##  https://www.zara.com/us/en/basic-100-wool-sweater-p02893106.html        :  2  
##  https://www.zara.com/us/en/basic-foil-knit-sweater-p00506101.html       :  2  
##  https://www.zara.com/us/en/basic-knit-sweater-p01509115.html            :  2  
##  https://www.zara.com/us/en/bomber-jacket-p05344402.html                 :  2  
##  https://www.zara.com/us/en/colorblock-knit-crop-sweater-p05536008.html  :  2  
##  (Other)                                                                 :240  
##                sku                                     name    
##  281593208-015-2 :  2   PLAID OVERSHIRT                  :  6  
##  281883711-071-2 :  2   PATCH BOMBER JACKET              :  4  
##  311282631-712-2 :  2   POCKET OVERSHIRT                 :  4  
##  311292244-800-39:  2   BOMBER JACKET                    :  3  
##  311307610-400-39:  2   CONTRASTING PATCHES BOMBER JACKET:  3  
##  312571093-710-2 :  2   FAUX LEATHER BOMBER JACKET       :  3  
##  (Other)         :240   (Other)                          :229  
##                                                                                                                                                                                        description 
##  Varsity jacket with elastic collar and long sleeves. Welt pockets at hip and interior pocket. Embroidered appliqué and contrast front and back patches. Rib trim. Front snap button closure.:  4  
##                                                                                                                                                                                              :  2  
##  Baggy fit jeans. Five pockets. Washed effect. Front zip and button closure.                                                                                                                 :  2  
##  Boxy fit jacket. Lapel collar and long sleeves with buttoned cuffs. Patch pockets at hip. Washed effect.Asymmetric hem with side vents. Front button closure.                               :  2  
##  Cropped overshirt. Lapel collar and long sleeves with buttoned cuffs. Chest patch pocket. Irregular trim. Front button closure.                                                             :  2  
##  Cropped overshirt. Lapel collar and long sleeves with buttoned cuffs. Front patch pockets. Irregular finished seams. Front button closure.                                                  :  2  
##  (Other)                                                                                                                                                                                     :238  
##      price        currency                       scraped_at       terms    
##  Min.   :  7.99   USD:252   2024-02-19T09:10:31.877971:  2   jackets :140  
##  1st Qu.: 49.90             2024-02-19T09:10:32.534246:  2   jeans   :  8  
##  Median : 79.90             2024-02-19T09:10:33.128884:  2   shoes   : 31  
##  Mean   : 86.25             2024-02-19T09:10:33.890995:  2   sweaters: 41  
##  3rd Qu.:109.00             2024-02-19T09:10:34.521463:  2   t-shirts: 32  
##  Max.   :439.00             2024-02-19T09:10:35.068338:  2                 
##                             (Other)                   :240                 
##   section   
##  MAN  :218  
##  WOMAN: 34  
##             
##             
##             
##             
## 

PROPIEDADES

Características básicas de los datos (metadatos):

  • ¿Qué variables están presentes en los datos?
## 1. Product.ID
## 2. Product.Position
## 3. Promotion
## 4. Product.Category
## 5. Seasonal
## 6. Sales.Volume
## 7. brand
## 8. url
## 9. sku
## 10. name
## 11. description
## 12. price
## 13. currency
## 14. scraped_at
## 15. terms
## 16. section

R/ Podemos ver que la base de datos tiene un total de 16 variables

  • ¿Son las variables claras y completas?

R/ si las variables estan bien organizadas y su descripcion corresponde a la informacion de la base de datos

  • ¿En qué escalas de medidas están las variables (numéricas, categóricas o de fecha)?
## Warning: package 'lubridate' was built under R version 4.5.1
## 
## Adjuntando el paquete: 'lubridate'
## The following objects are masked from 'package:base':
## 
##     date, intersect, setdiff, union
##                     tipo
## Product.ID       integer
## Product.Position  factor
## Promotion         factor
## Product.Category  factor
## Seasonal          factor
## Sales.Volume     integer
## brand             factor
## url               factor
## sku               factor
## name              factor
## description       factor
## price            numeric
## currency          factor
## scraped_at          Date
## terms             factor
## section           factor

R/ Al final se organiza de acuerdo al tipo de categorias si son numericas, categoricas o de fecha y hora

  • ¿Cuáles son los posibles valores de cada variable y cómo se codifican las categorías?
## Warning: package 'tidyverse' was built under R version 4.5.1
## Warning: package 'purrr' was built under R version 4.5.1
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr   1.1.4     ✔ readr   2.1.5
## ✔ forcats 1.0.0     ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2     ✔ tibble  3.3.0
## ✔ purrr   1.1.0     ✔ tidyr   1.3.1
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
Resumen de variables, tipos y valores posibles
variable tipo valores
Product.ID integer 185102, 188771, 180176, 112917, 192936
Product.Position factor Aisle, End-cap, Front of Store
Promotion factor No, Yes
Product.Category factor Clothing
Seasonal factor No, Yes
Sales.Volume integer 2823, 654, 2220, 1568, 2942
brand factor Zara
url factor https://www.zara.com/us/en/-p04310461.html, https://www.zara.com/us/en/100-feather-fill-puffer-jacket-p00155480.html, https://www.zara.com/us/en/100-feather-fill-puffer-jacket-p04302305.html, https://www.zara.com/us/en/100-linen-overshirt-p04224708.html, https://www.zara.com/us/en/100-wool-suit-jacket-p05955218.html
sku factor 267133943-711-2, 267186163-643-2, 267195405-500-3, 272145190-250-2, 275600408-400-2
name factor , 100% FEATHER FILL PUFFER JACKET, 100% LINEN OVERSHIRT, 100% WOOL SUIT JACKET, ABSTRACT JACQUARD SWEATER
description factor , Ankle boots. Made of leather with a suede finish. Faux shearling interior and side detail. Rounded shape. Welt around upper. Back pull tab. Chunky lug soles., Baggy fit jeans. Five pockets. Washed effect. Front zip and button closure., Baggy jeans. Five pockets. Washed effect. Front zip and button closure., Baggy jeans. Self belt at waist. Front pockets and back patch pockets. Washed effect. Front button closure.
price numeric 19.99, 169, 129, 139, 79.9
currency factor USD
scraped_at Date 2024-02-19
terms factor jackets, jeans, shoes, sweaters, t-shirts
section factor MAN, WOMAN

R/Se adjunta tabla resumen mostrando la informacion de cada variable

LIMITACIONES

Reflexiona sobre las restricciones o condiciones que pueden afectar la calidad, interpretación y uso de los datos en un análisis.

Actualización de los datos:

  • ¿Los datos están actualizados o podrían estar desfasados?
R/ Todos los datos pertencen a un solo dia que corresponde al 19 de Febrero del 2024, estos datos estarian desfasados y generan un analisis incorrecto.

Falta de contexto clave:

  • ¿Falta información contextual como la ubicación de las tiendas, campañas de marketing o eventos específicos que puedan haber influido en las ventas?

R/ Esta base de datos no nos otroga informacion de que ciudad, pais o tienda fue originada la informacion, por otro lado tampoco podemos analizar si las estaciones influyen en las ventas o si se manejo una campaña de marketing.

  • ¿Hay datos de fechas u ubicación de tienda?

R/ La base de datos tiene la variable Screped at que indica cuando fueron extraidos, pero no nos indica una ubicacion.

  • ¿Qué limitaciones temporales o geográficas encontráis?

R/ las temporales que al solo tener la fecha extraccion no podemos analizar tendencias estacionales

Geograficas al no tener la ubicacion de la tienda, no podemos analizar como se comporta la poblacion de acuerdoa a la region.

LIMPIEZA Y VALIDACION

  • ¿Existen duplicados?
sum(duplicated(zara))
## [1] 0

R/ El dataset no contiene valores duplicados

  • ¿Los rangos de valores son razonables (precios, volumen de ventas)? ¿Existen valores atípicos (outliers)? ¿Cuáles? ¿Es posible verificar estos valores?

R/ Si debido a los productos que maneja la tienda, no se tienen precios en negativos o muy altos

Los precios qe parecen atipicos se debe a que pertenencen a productos considerados premium y entran en el rango normal de precios de la tienda,

  • ¿Existe coherencia entre variables relacionadas?

R/ Si los valores que se manejan entran dentro de un rango normal de precios

  • ¿Haríais cambios en categorías como terms o Product Category?

R/ No se proponen cambios debido a que la informacion esta bien categorizada.

REFLEXIONES Y RECOMENDACIONES

  • ¿Qué variables deberíamos añadir en futuras extracciones?
    R/ Las variables que considero deberia incluir son Geolocalizacion, Stock disponible, canal de venta, nombre de la tienda.
  • ¿Cómo mejorar la trazabilidad y actualización de los datos?
    R/Incluiria la variable de fechas, en caso de notener el reporte automatizado, para poder hacer analisis historicos de ventas.
  • ¿Qué variables complementarias podrían enriquecer el análisis?
    R/Calificaciones dadas por clientes, comentarios, son variables que nos ayudan a analizar la perpectiva de nuestros clientes sobre nuestros productos, tiendas o personal de trabajo.
  • ¿Qué aprendizajes os lleváis de cara a futuros proyectos?
    R/La importancia de tener una base de datos correcta, actualizada, con la informacion necesaria para que te permita realizar a analisis acertivos, en este caso falta mucha informacion y no se recomienda generar estrategias de ventas o recomendacione sporque la informacion no es suficiente.