D’ON PROVÉ EL CONJUNT DE DADES: Cadascú es va encarregar de preguntar a 10 persones diferents un dels seus viatges.
QUIN ÉS L’OBJECTIU DEL PROJECTE: saber el motiu pel qual la gent gasta diners i fa més kilòmetres, si es per: negocis, per lluna de mel…
QUINA PRREUGNTA VOLEU RESPONDRE: Per quin motiu la gent gasta més diners i fa més quilòmetres a l’hora de viatjar?
PER QUÈ AQUESTES DADES SON ADECUADES PER LA PREGUNTA: perquè en aquestes dades i conté el numero de persones, el motiu i els kilòmetres per cada viatge.
load("dades.RData")
gt(dades)
| Identificador | Origen | Desti | Preu | Sexe | Persones | Motiu | Kms |
|---|---|---|---|---|---|---|---|
| 1 | Barcelona | Berlín | 78 | M | 1 | Negocis | 1499 |
| 2 | Barcelona | Roma | 47 | F | 5 | Oci | 858 |
| 3 | Barcelona | Seoul | 584 | M | 1 | Oci | 9602 |
| 4 | Berlín | Nova York | 432 | M | 2 | Lluna de mel | 6385 |
| 5 | Berlín | Barcelona | 62 | M | 4 | Turisme | 1499 |
| 6 | Berlín | Varsovia | 163 | F | 1 | Acadèmics | 570 |
| 7 | París | Istanbul | 347 | M | 3 | Oci | 2337 |
| 8 | París | Atenes | 239 | F | 5 | Oci | 2212 |
| 9 | París | Estocolm | 102 | F | 1 | Acadèmics | 1544 |
| 10 | Zagreb | Brusseles | 246 | F | 3 | Visitar família | 1281 |
| 11 | Barcelona | Lisboa | 49 | M | 3 | Visitar família | 1006 |
| 12 | Barcelona | Roma | 47 | F | 4 | Oci | 858 |
| 13 | Madrid | Atenes | 170 | F | 2 | Negocis | 2368 |
| 14 | Madrid | Istanbul | 242 | M | 2 | Oci | 2738 |
| 15 | Barcelona | Nova York | 462 | M | 5 | Oci | 6165 |
| 16 | València | Bangkok | 738 | F | 1 | Acadèmics | 9946 |
| 17 | Sevilla | Ciutat del Cap | 1060 | M | 3 | Negocis | 11356 |
| 18 | Frankfurt | Tòquio | 778 | F | 1 | Acadèmics | 9331 |
| 19 | Milà | Sydney | 1373 | F | 2 | Oci | 16555 |
| 20 | Barcelona | Reykjavík | 308 | M | 3 | Oci | 2963 |
| 21 | Roma | Praga | 63 | M | 3 | Visitar família | 923 |
| 22 | Milà | Berlín | 58 | F | 2 | Negocis | 862 |
| 23 | Barcelona | Roma | 89 | F | 1 | Negocis | 858 |
| 24 | Girona | Munich | 47 | F | 2 | Turisme | 969 |
| 25 | Madrid | Nova York | 937 | M | 2 | Acadèmics | 5768 |
| 26 | Barcelona | Cancún | 802 | F | 4 | Turisme | 8402 |
| 27 | Lisboa | Zagreb | 102 | M | 2 | Oci | 2229 |
| 28 | Munich | Barcelona | 75 | M | 3 | Acadèmics | 1054 |
| 29 | Venècia | Barcelona | 92 | F | 1 | Turisme | 935 |
| 30 | Barcelona | Noruega | 123 | F | 2 | Acadèmics | 2350 |
| 31 | Amsterdam | Barcelona | 67 | M | 2 | Visitar família | 1238 |
| 32 | Londres | Dubai | 485 | F | 1 | Negocis | 5477 |
| 33 | Barcelona | París | 52 | F | 3 | Oci | 830 |
| 34 | Roma | Londres | 94 | M | 4 | Turisme | 1433 |
| 35 | Atenes | Viena | 127 | F | 2 | Acadèmics | 1282 |
| 36 | Barcelona | Dublin | 89 | M | 1 | Negocis | 1471 |
| 37 | Bilbao | Brussel·les | 112 | F | 2 | Visitar família | 1007 |
| 38 | Zaragoza | Amsterdam | 98 | M | 3 | Oci | 1268 |
| 39 | Praga | Madrid | 76 | F | 1 | Negocis | 1772 |
| 40 | Barcelona | Copenhaguen | 145 | M | 2 | Lluna de mel | 1759 |
| 41 | Viena | Barcelona | 88 | F | 4 | Turisme | 1349 |
| 42 | Oslo | París | 156 | M | 1 | Acadèmics | 1435 |
| 43 | Barcelona | Rabat | 134 | M | 3 | Oci | 1138 |
| 44 | Dublin | Frankfurt | 79 | M | 2 | Negocis | 1088 |
| 45 | Barcelona | Brussel·les | 68 | F | 5 | Visitar família | 1065 |
| 46 | Helsinki | Barcelona | 189 | F | 2 | Turisme | 2603 |
| 47 | Estocolm | Roma | 167 | M | 1 | Acadèmics | 2094 |
| 48 | Barcelona | Londres | 72 | M | 3 | Oci | 1137 |
| 49 | Varsovia | Milà | 95 | F | 1 | Negocis | 1208 |
| 50 | Barcelona | Budapest | 103 | M | 4 | Turisme | 1497 |
El format original era xlsx, excel, el qual s’anomena dades
No hem fet cap modificació prèvia
dim(dades)
## [1] 50 8
glimpse(dades)
## Rows: 50
## Columns: 8
## $ Identificador <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ Origen <chr> "Barcelona", "Barcelona", "Barcelona", "Berlín", "Berlín…
## $ Desti <chr> "Berlín", "Roma", "Seoul", "Nova York", "Barcelona", "Va…
## $ Preu <dbl> 78, 47, 584, 432, 62, 163, 347, 239, 102, 246, 49, 47, 1…
## $ Sexe <chr> "M", "F", "M", "M", "M", "F", "M", "F", "F", "F", "M", "…
## $ Persones <dbl> 1, 5, 1, 2, 4, 1, 3, 5, 1, 3, 3, 4, 2, 2, 5, 1, 3, 1, 2,…
## $ Motiu <chr> "Negocis", "Oci", "Oci", "Lluna de mel", "Turisme", "Aca…
## $ Kms <dbl> 1499, 858, 9602, 6385, 1499, 570, 2337, 2212, 1544, 1281…
NOMBRE DE FILES: 50
NOMBRE DE COLUMNES: 8
QUINA ÉS LA UNITAT D’ANÀLISI: el motiu exacte pel qual fan el viatge
Descriviu cada variable del dataset.
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| exemple_var | numèrica | Significat de la variable | 0–100 |
tibble(
variable = names(dades),
tipus = sapply(dades, class),
descripcio = c(
"Codi numèric per identificar el vol", "Punt d'origen", "Destí ", "Preu total", "Sexe", "Nombre de persones", "Motiu del viatge", "Kilòmetres"
),
rang = c(
"1-50", "Nom de ciutats", "Nom de ciutats"," de 0 a 2000" , "Home/Dona"," 5 " , "1 sol motiu ", " 0-20000"
)
)
## # A tibble: 8 × 4
## variable tipus descripcio rang
## <chr> <chr> <chr> <chr>
## 1 Identificador numeric "Codi numèric per identificar el vol" "1-50"
## 2 Origen character "Punt d'origen" "Nom de ciutats"
## 3 Desti character "Destí " "Nom de ciutats"
## 4 Preu numeric "Preu total" " de 0 a 2000"
## 5 Sexe character "Sexe" "Home/Dona"
## 6 Persones numeric "Nombre de persones" " 5 "
## 7 Motiu character "Motiu del viatge" "1 sol motiu "
## 8 Kms numeric "Kilòmetres" " 0-20000"
summary(dades)
## Identificador Origen Desti Preu
## Min. : 1.00 Length:50 Length:50 Min. : 47.0
## 1st Qu.:13.25 Class :character Class :character 1st Qu.: 76.5
## Median :25.50 Mode :character Mode :character Median : 107.5
## Mean :25.50 Mean : 248.2
## 3rd Qu.:37.75 3rd Qu.: 245.0
## Max. :50.00 Max. :1373.0
## Sexe Persones Motiu Kms
## Length:50 Min. :1.00 Length:50 Min. : 570
## Class :character 1st Qu.:1.00 Class :character 1st Qu.: 1071
## Mode :character Median :2.00 Mode :character Median : 1484
## Mean :2.42 Mean : 2951
## 3rd Qu.:3.00 3rd Qu.: 2544
## Max. :5.00 Max. :16555
HI HA VALORS PERDUTS?: Si, hi han valors que no s’utilitzen per resoldre la nostre pregunta
HI HA ALGUNA VARIABLE QUE S’HA DE TRANSFORMAR?: No
OUTLIERS O VALORS ESTRANYS?: No
Incloeu una o dues gràfiques exploratòries.
library(tidyverse)
library(dplyr)
barplot(table(dades$Origen),
main = "Nombre de vols per origen",
xlab = "Ciutat d'origen",
ylab = "Nombre de vols",
las = 2)
plot(dades$Kms, dades$Preu,,
main = "Relació entre distància i preu",
xlab = "Kms del vol",
ylab = "Preu (€)")
pregunta <- dades[,c("Preu", "Kms", "Motiu")]
pregunta
## # A tibble: 50 × 3
## Preu Kms Motiu
## <dbl> <dbl> <chr>
## 1 78 1499 Negocis
## 2 47 858 Oci
## 3 584 9602 Oci
## 4 432 6385 Lluna de mel
## 5 62 1499 Turisme
## 6 163 570 Acadèmics
## 7 347 2337 Oci
## 8 239 2212 Oci
## 9 102 1544 Acadèmics
## 10 246 1281 Visitar família
## # ℹ 40 more rows
mlineal = lm(pregunta$Preu~pregunta$Kms)
mlineal
##
## Call:
## lm(formula = pregunta$Preu ~ pregunta$Kms)
##
## Coefficients:
## (Intercept) pregunta$Kms
## 0.17144 0.08404
pregunta <- dades[,c("Preu", "Kms", "Motiu","Persones")]
pregunta
## # A tibble: 50 × 4
## Preu Kms Motiu Persones
## <dbl> <dbl> <chr> <dbl>
## 1 78 1499 Negocis 1
## 2 47 858 Oci 5
## 3 584 9602 Oci 1
## 4 432 6385 Lluna de mel 2
## 5 62 1499 Turisme 4
## 6 163 570 Acadèmics 1
## 7 347 2337 Oci 3
## 8 239 2212 Oci 5
## 9 102 1544 Acadèmics 1
## 10 246 1281 Visitar família 3
## # ℹ 40 more rows
mlineal = lm(pregunta$Preu~pregunta$Kms)
mlineal
##
## Call:
## lm(formula = pregunta$Preu ~ pregunta$Kms)
##
## Coefficients:
## (Intercept) pregunta$Kms
## 0.17144 0.08404
plot(pregunta$Kms, pregunta$Preu,,
main = "Relació entre distància i preu",
xlab = "Kms del vol",
ylab = "Preu (€)")
abline(mlineal, col="red")
pregunta_groupm <- pregunta %>% group_by(Motiu) %>% summarise(Preu_mig = mean(Preu), Viatges = n()) %>% arrange(Preu_mig)
pregunta_groupm
## # A tibble: 6 × 3
## Motiu Preu_mig Viatges
## <chr> <dbl> <int>
## 1 Visitar família 101. 6
## 2 Turisme 185. 8
## 3 Negocis 228. 10
## 4 Lluna de mel 288. 2
## 5 Oci 293. 14
## 6 Acadèmics 337. 10
barplot(pregunta_groupm$Preu_mig, names.arg=pregunta_groupm$Motiu, las = 2)
pregunta_groups <- pregunta %>% group_by(Motiu) %>% summarise(Preu_total = sum(Preu*Persones), Viatges = n()) %>% arrange(Preu_total)
pregunta_groups
## # A tibble: 6 × 3
## Motiu Preu_total Viatges
## <chr> <dbl> <int>
## 1 Lluna de mel 1154 2
## 2 Visitar família 1772 6
## 3 Acadèmics 4703 10
## 4 Negocis 4706 10
## 5 Turisme 5160 8
## 6 Oci 10979 14
barplot(pregunta_groups$Preu_total, names.arg=pregunta_groups$Motiu, las = 2)
Q1 <- quantile(dades$Preu, 0.25)
Q3 <- quantile(dades$Preu, 0.75)
IQR <- IQR(dades$Preu)
lim_inf <- Q1 - 1.5 * IQR
lim_sup <- Q3 + 1.5 * IQR
outliers <- dades[dades$Preu < lim_inf | dades$Preu > lim_sup, ]
outliers
## # A tibble: 7 × 8
## Identificador Origen Desti Preu Sexe Persones Motiu Kms
## <dbl> <chr> <chr> <dbl> <chr> <dbl> <chr> <dbl>
## 1 3 Barcelona Seoul 584 M 1 Oci 9602
## 2 16 València Bangkok 738 F 1 Acadèmics 9946
## 3 17 Sevilla Ciutat del Cap 1060 M 3 Negocis 11356
## 4 18 Frankfurt Tòquio 778 F 1 Acadèmics 9331
## 5 19 Milà Sydney 1373 F 2 Oci 16555
## 6 25 Madrid Nova York 937 M 2 Acadèmics 5768
## 7 26 Barcelona Cancún 802 F 4 Turisme 8402
No tenim cap altre comentari a afegir.
CONCLUSIONS PRELIMINARS: relació directa entre els preus i les distàncies, gran presència de viatges d’oci (major part dels diners totals), els viatges a familia generen una quantitat de diners excepcionalment petita
LIMITACIONS DEL DATASET: molts dels vols tenen com a origen i/o destí Barcelona i altres ciutats europees, condicionant bastant els resultats obtinguts
PRÒXIMES PASSES: realitzar un estudi més a fons mitjançant models inferencials (a part del model ja utilitzat en l’scatterplot)