El conjunt de dades que hem agafat prové del d’una base de dades del kaggle. On l’objectiu d’aquesta pràctica és aprendre a utilitzar RStudio a més a més de fer treball d’equip.Ens hem plantejat la pregunta de “Com influeix el dia de la setmana i la hora al tipus i quantitat de la beguda comprada, i el guany (per beguda, per hora, dia, mes)”. S’han escollit aquestes dades perque considerant la pregunta que volem respondre conté totes les dades necessaries i més per poder tractar la pregunta.
Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.
# Exemple d'importació (modifiqueu segons calgui)
dades <- read_csv("coffe.csv")
## Rows: 3547 Columns: 11
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ","
## chr (6): cash_type, coffee_name, Time_of_Day, Weekday, Month_name, Date
## dbl (4): hour_of_day, money, Weekdaysort, Monthsort
## time (1): Time
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
El format original era un CSV. No hem fet cap modificació prèvia en el RStudio per passar la base de dades de .CSV a .RData.
dim(dades)
## [1] 3547 11
glimpse(dades)
## Rows: 3,547
## Columns: 11
## $ hour_of_day <dbl> 10, 12, 12, 13, 13, 15, 16, 18, 19, 19, 19, 10, 10, 11, 14…
## $ cash_type <chr> "card", "card", "card", "card", "card", "card", "card", "c…
## $ money <dbl> 38.7, 38.7, 38.7, 28.9, 38.7, 33.8, 38.7, 33.8, 38.7, 33.8…
## $ coffee_name <chr> "Latte", "Hot Chocolate", "Hot Chocolate", "Americano", "L…
## $ Time_of_Day <chr> "Morning", "Afternoon", "Afternoon", "Afternoon", "Afterno…
## $ Weekday <chr> "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "Fri", "F…
## $ Month_name <chr> "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "Mar", "M…
## $ Weekdaysort <dbl> 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7…
## $ Monthsort <dbl> 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3…
## $ Date <chr> "01/03/2024", "01/03/2024", "01/03/2024", "01/03/2024", "0…
## $ Time <time> 15:50:00, 19:22:00, 20:18:00, 46:33:00, 48:14:00, 39:47:0…
Incloeu: - Nombre de files: 3547 - Nombre de columnes: 11 - Quina és la unitat d’anàlisi (persona, empresa, producte, mesura…)
Descriviu cada variable del dataset.
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| exemple_var | numèrica | Significat de la variable | 0–100 |
tibble(
variable = names(dades),
tipus = sapply(dades, class)
)
## # A tibble: 11 × 2
## variable tipus
## <chr> <named list>
## 1 hour_of_day <chr [1]>
## 2 cash_type <chr [1]>
## 3 money <chr [1]>
## 4 coffee_name <chr [1]>
## 5 Time_of_Day <chr [1]>
## 6 Weekday <chr [1]>
## 7 Month_name <chr [1]>
## 8 Weekdaysort <chr [1]>
## 9 Monthsort <chr [1]>
## 10 Date <chr [1]>
## 11 Time <chr [2]>
summary(dades)
## hour_of_day cash_type money coffee_name
## Min. : 6.00 Length:3547 Min. :18.12 Length:3547
## 1st Qu.:10.00 Class :character 1st Qu.:27.92 Class :character
## Median :14.00 Mode :character Median :32.82 Mode :character
## Mean :14.19 Mean :31.65
## 3rd Qu.:18.00 3rd Qu.:35.76
## Max. :22.00 Max. :38.70
## Time_of_Day Weekday Month_name Weekdaysort
## Length:3547 Length:3547 Length:3547 Min. :1.000
## Class :character Class :character Class :character 1st Qu.:2.000
## Mode :character Mode :character Mode :character Median :4.000
## Mean :3.846
## 3rd Qu.:6.000
## Max. :7.000
## Monthsort Date Time
## Min. : 1.000 Length:3547 Min. :00:00:00.000000
## 1st Qu.: 3.000 Class :character 1st Qu.:14:46:30.000000
## Median : 7.000 Mode :character Median :28:53:00.000000
## Mean : 6.454 Mean :29:25:58.146321
## 3rd Qu.:10.000 3rd Qu.:44:17:30.000000
## Max. :12.000 Max. :59:55:00.000000
Comenteu: - Si hi ha valors perduts. - Si alguna variable s’hauria de transformar. - Outliers o valors estranys.
Incloeu una o dues gràfiques exploratòries.
# Exemple:
ggplot(dades, aes(x = Weekdaysort)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
ggplot(dades, aes(x = money)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value `binwidth`.
Expliqueu: - Si necessitareu dades externes per completar l’anàlisi. - On les podríeu trobar. - Si falten variables per respondre la pregunta inicial.
Incloeu qualsevol altre detall rellevant del procés de preparació de dades.