1. Introducció

El conjunt de dades que hem agafat prové del d’una base de dades del kaggle. On l’objectiu d’aquesta pràctica és aprendre a utilitzar RStudio a més a més de fer treball d’equip.Ens hem plantejat la pregunta de “Com influeix el dia de la setmana i la hora al tipus i quantitat de la beguda comprada, i el guany (per beguda, per hora, dia, mes)”. S’han escollit aquestes dades perque considerant la pregunta que volem respondre conté totes les dades necessaries i més per poder tractar la pregunta.

2. Importació de les dades

Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.

# Exemple d'importació (modifiqueu segons calgui)
 dades <- read_csv("coffe.csv")
## Rows: 3547 Columns: 11
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr  (6): cash_type, coffee_name, Time_of_Day, Weekday, Month_name, Date
## dbl  (4): hour_of_day, money, Weekdaysort, Monthsort
## time (1): Time
## 
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.

El format original era un CSV. No hem fet cap modificació prèvia en el RStudio per passar la base de dades de .CSV a .RData.

3. Dimensions del dataset

dim(dades)
## [1] 3547   11
glimpse(dades)
## Rows: 3,547
## Columns: 11
## $ hour_of_day <dbl> 10, 12, 12, 13, 13, 15, 16, 18, 19, 19, 19, 10, 10, 11, 14…
## $ cash_type   <chr> "card", "card", "card", "card", "card", "card", "card", "c…
## $ money       <dbl> 38.7, 38.7, 38.7, 28.9, 38.7, 33.8, 38.7, 33.8, 38.7, 33.8…
## $ coffee_name <chr> "Latte", "Hot Chocolate", "Hot Chocolate", "Americano", "L…
## $ Time_of_Day <chr> "Morning", "Afternoon", "Afternoon", "Afternoon", "Afterno…
## $ Weekday     <chr> "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "F…
## $ Month_name  <chr> "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "M…
## $ Weekdaysort <dbl> 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7…
## $ Monthsort   <dbl> 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3…
## $ Date        <chr> "01/03/2024", "01/03/2024", "01/03/2024", "01/03/2024", "0…
## $ Time        <time> 15:50:00, 19:22:00, 20:18:00, 46:33:00, 48:14:00, 39:47:0…

Incloeu: - Nombre de files: 3547 - Nombre de columnes: 11 - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable Tipus Descripció Valors possibles / rang
exemple_var numèrica Significat de la variable 0–100
 tibble(
   variable = names(dades),
   tipus = sapply(dades, class)
 )
## # A tibble: 11 × 2
##    variable    tipus       
##    <chr>       <named list>
##  1 hour_of_day <chr [1]>   
##  2 cash_type   <chr [1]>   
##  3 money       <chr [1]>   
##  4 coffee_name <chr [1]>   
##  5 Time_of_Day <chr [1]>   
##  6 Weekday     <chr [1]>   
##  7 Month_name  <chr [1]>   
##  8 Weekdaysort <chr [1]>   
##  9 Monthsort   <chr [1]>   
## 10 Date        <chr [1]>   
## 11 Time        <chr [2]>

5. Estadístiques descriptives

 summary(dades)
##   hour_of_day     cash_type             money       coffee_name       
##  Min.   : 6.00   Length:3547        Min.   :18.12   Length:3547       
##  1st Qu.:10.00   Class :character   1st Qu.:27.92   Class :character  
##  Median :14.00   Mode  :character   Median :32.82   Mode  :character  
##  Mean   :14.19                      Mean   :31.65                     
##  3rd Qu.:18.00                      3rd Qu.:35.76                     
##  Max.   :22.00                      Max.   :38.70                     
##  Time_of_Day          Weekday           Month_name         Weekdaysort   
##  Length:3547        Length:3547        Length:3547        Min.   :1.000  
##  Class :character   Class :character   Class :character   1st Qu.:2.000  
##  Mode  :character   Mode  :character   Mode  :character   Median :4.000  
##                                                           Mean   :3.846  
##                                                           3rd Qu.:6.000  
##                                                           Max.   :7.000  
##    Monthsort          Date                Time                
##  Min.   : 1.000   Length:3547        Min.   :00:00:00.000000  
##  1st Qu.: 3.000   Class :character   1st Qu.:14:46:30.000000  
##  Median : 7.000   Mode  :character   Median :28:53:00.000000  
##  Mean   : 6.454                      Mean   :29:25:58.146321  
##  3rd Qu.:10.000                      3rd Qu.:44:17:30.000000  
##  Max.   :12.000                      Max.   :59:55:00.000000

Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
 ggplot(dades, aes(x = Weekdaysort)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

 ggplot(dades, aes(x = money)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.

7. Variables externes i dades addicionals

Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.