1. Introducció

2. Importació de les dades

load("dades.RData")

gt(dades)
Identificador Origen Desti Preu Sexe Persones Motiu Kms
1 Barcelona Berlín 78 M 1 Negocis 1499
2 Barcelona Roma 47 F 5 Oci 858
3 Barcelona Seoul 584 M 1 Oci 9602
4 Berlín Nova York 432 M 2 Lluna de mel 6385
5 Berlín Barcelona 62 M 4 Turisme 1499
6 Berlín Varsovia 163 F 1 Acadèmics 570
7 París Istanbul 347 M 3 Oci 2337
8 París Atenes 239 F 5 Oci 2212
9 París Estocolm 102 F 1 Acadèmics 1544
10 Zagreb Brusseles 246 F 3 Visitar família 1281
11 Barcelona Lisboa 49 M 3 Visitar família 1006
12 Barcelona Roma 47 F 4 Oci 858
13 Madrid Atenes 170 F 2 Negocis 2368
14 Madrid Istanbul 242 M 2 Oci 2738
15 Barcelona Nova York 462 M 5 Oci 6165
16 València Bangkok 738 F 1 Acadèmics 9946
17 Sevilla Ciutat del Cap 1060 M 3 Negocis 11356
18 Frankfurt Tòquio 778 F 1 Acadèmics 9331
19 Milà Sydney 1373 F 2 Oci 16555
20 Barcelona Reykjavík 308 M 3 Oci 2963
21 Roma Praga 63 M 3 Visitar família 923
22 Milà Berlín 58 F 2 Negocis 862
23 Barcelona Roma 89 F 1 Negocis 858
24 Girona Munich 47 F 2 Turisme 969
25 Madrid Nova York 937 M 2 Acadèmics 5768
26 Barcelona Cancún 802 F 4 Turisme 8402
27 Lisboa Zagreb 102 M 2 Oci 2229
28 Munich Barcelona 75 M 3 Acadèmics 1054
29 Venècia Barcelona 92 F 1 Turisme 935
30 Barcelona Noruega 123 F 2 Acadèmics 2350
31 Amsterdam Barcelona 67 M 2 Visitar família 1238
32 Londres Dubai 485 F 1 Negocis 5477
33 Barcelona París 52 F 3 Oci 830
34 Roma Londres 94 M 4 Turisme 1433
35 Atenes Viena 127 F 2 Acadèmics 1282
36 Barcelona Dublin 89 M 1 Negocis 1471
37 Bilbao Brussel·les 112 F 2 Visitar família 1007
38 Zaragoza Amsterdam 98 M 3 Oci 1268
39 Praga Madrid 76 F 1 Negocis 1772
40 Barcelona Copenhaguen 145 M 2 Lluna de mel 1759
41 Viena Barcelona 88 F 4 Turisme 1349
42 Oslo París 156 M 1 Acadèmics 1435
43 Barcelona Rabat 134 M 3 Oci 1138
44 Dublin Frankfurt 79 M 2 Negocis 1088
45 Barcelona Brussel·les 68 F 5 Visitar família 1065
46 Helsinki Barcelona 189 F 2 Turisme 2603
47 Estocolm Roma 167 M 1 Acadèmics 2094
48 Barcelona Londres 72 M 3 Oci 1137
49 Varsovia Milà 95 F 1 Negocis 1208
50 Barcelona Budapest 103 M 4 Turisme 1497

3. Dimensions del dataset

 dim(dades)
## [1] 50  8
 glimpse(dades)
## Rows: 50
## Columns: 8
## $ Identificador <dbl> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 1…
## $ Origen        <chr> "Barcelona", "Barcelona", "Barcelona", "Berlín", "Berlín…
## $ Desti         <chr> "Berlín", "Roma", "Seoul", "Nova York", "Barcelona", "Va…
## $ Preu          <dbl> 78, 47, 584, 432, 62, 163, 347, 239, 102, 246, 49, 47, 1…
## $ Sexe          <chr> "M", "F", "M", "M", "M", "F", "M", "F", "F", "F", "M", "…
## $ Persones      <dbl> 1, 5, 1, 2, 4, 1, 3, 5, 1, 3, 3, 4, 2, 2, 5, 1, 3, 1, 2,…
## $ Motiu         <chr> "Negocis", "Oci", "Oci", "Lluna de mel", "Turisme", "Aca…
## $ Kms           <dbl> 1499, 858, 9602, 6385, 1499, 570, 2337, 2212, 1544, 1281…

4. Diccionari de variables

Descriviu cada variable del dataset.

Variable Tipus Descripció Valors possibles / rang
exemple_var numèrica Significat de la variable 0–100
 tibble(
   variable = names(dades),
   tipus = sapply(dades, class), 
   descripcio = c(
     "Codi numèric per identificar el vol", "Punt d'origen", "Destí ", "Preu total", "Sexe", "Nombre de persones", "Motiu del viatge", "Kilòmetres"
   ),
  rang = c(
    "1-50", "Nom de ciutats", "Nom de ciutats"," de 0 a 2000" , "Home/Dona"," 5 " , "1 sol motiu ", " 0-20000"
  )
 )
## # A tibble: 8 × 4
##   variable      tipus     descripcio                            rang            
##   <chr>         <chr>     <chr>                                 <chr>           
## 1 Identificador numeric   "Codi numèric per identificar el vol" "1-50"          
## 2 Origen        character "Punt d'origen"                       "Nom de ciutats"
## 3 Desti         character "Destí "                              "Nom de ciutats"
## 4 Preu          numeric   "Preu total"                          " de 0 a 2000"  
## 5 Sexe          character "Sexe"                                "Home/Dona"     
## 6 Persones      numeric   "Nombre de persones"                  " 5 "           
## 7 Motiu         character "Motiu del viatge"                    "1 sol motiu "  
## 8 Kms           numeric   "Kilòmetres"                          " 0-20000"

5. Estadístiques descriptives

 summary(dades)
##  Identificador      Origen             Desti                Preu       
##  Min.   : 1.00   Length:50          Length:50          Min.   :  47.0  
##  1st Qu.:13.25   Class :character   Class :character   1st Qu.:  76.5  
##  Median :25.50   Mode  :character   Mode  :character   Median : 107.5  
##  Mean   :25.50                                         Mean   : 248.2  
##  3rd Qu.:37.75                                         3rd Qu.: 245.0  
##  Max.   :50.00                                         Max.   :1373.0  
##      Sexe              Persones       Motiu                Kms       
##  Length:50          Min.   :1.00   Length:50          Min.   :  570  
##  Class :character   1st Qu.:1.00   Class :character   1st Qu.: 1071  
##  Mode  :character   Median :2.00   Mode  :character   Median : 1484  
##                     Mean   :2.42                      Mean   : 2951  
##                     3rd Qu.:3.00                      3rd Qu.: 2544  
##                     Max.   :5.00                      Max.   :16555

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

library(tidyverse)
library(dplyr)
barplot(table(dades$Origen),
        main = "Nombre de vols per origen",
        xlab = "Ciutat d'origen",
        ylab = "Nombre de vols",
        las = 2)

plot(dades$Kms, dades$Preu,,
     main = "Relació entre distància i preu",
     xlab = "Kms del vol",
     ylab = "Preu (€)")

pregunta <- dades[,c("Preu", "Kms", "Motiu")]
pregunta
## # A tibble: 50 × 3
##     Preu   Kms Motiu          
##    <dbl> <dbl> <chr>          
##  1    78  1499 Negocis        
##  2    47   858 Oci            
##  3   584  9602 Oci            
##  4   432  6385 Lluna de mel   
##  5    62  1499 Turisme        
##  6   163   570 Acadèmics      
##  7   347  2337 Oci            
##  8   239  2212 Oci            
##  9   102  1544 Acadèmics      
## 10   246  1281 Visitar família
## # ℹ 40 more rows
mlineal = lm(pregunta$Preu~pregunta$Kms)
mlineal
## 
## Call:
## lm(formula = pregunta$Preu ~ pregunta$Kms)
## 
## Coefficients:
##  (Intercept)  pregunta$Kms  
##      0.17144       0.08404
pregunta <- dades[,c("Preu", "Kms", "Motiu","Persones")]
pregunta
## # A tibble: 50 × 4
##     Preu   Kms Motiu           Persones
##    <dbl> <dbl> <chr>              <dbl>
##  1    78  1499 Negocis                1
##  2    47   858 Oci                    5
##  3   584  9602 Oci                    1
##  4   432  6385 Lluna de mel           2
##  5    62  1499 Turisme                4
##  6   163   570 Acadèmics              1
##  7   347  2337 Oci                    3
##  8   239  2212 Oci                    5
##  9   102  1544 Acadèmics              1
## 10   246  1281 Visitar família        3
## # ℹ 40 more rows
mlineal = lm(pregunta$Preu~pregunta$Kms)
mlineal
## 
## Call:
## lm(formula = pregunta$Preu ~ pregunta$Kms)
## 
## Coefficients:
##  (Intercept)  pregunta$Kms  
##      0.17144       0.08404
plot(pregunta$Kms, pregunta$Preu,,
     main = "Relació entre distància i preu",
     xlab = "Kms del vol",
     ylab = "Preu (€)")
abline(mlineal, col="red")

pregunta_groupm <- pregunta %>% group_by(Motiu) %>% summarise(Preu_mig = mean(Preu), Viatges = n()) %>% arrange(Preu_mig)
pregunta_groupm
## # A tibble: 6 × 3
##   Motiu           Preu_mig Viatges
##   <chr>              <dbl>   <int>
## 1 Visitar família     101.       6
## 2 Turisme             185.       8
## 3 Negocis             228.      10
## 4 Lluna de mel        288.       2
## 5 Oci                 293.      14
## 6 Acadèmics           337.      10
barplot(pregunta_groupm$Preu_mig, names.arg=pregunta_groupm$Motiu, las = 2)

pregunta_groups <- pregunta %>% group_by(Motiu) %>% summarise(Preu_total = sum(Preu*Persones), Viatges = n()) %>% arrange(Preu_total)
pregunta_groups
## # A tibble: 6 × 3
##   Motiu           Preu_total Viatges
##   <chr>                <dbl>   <int>
## 1 Lluna de mel          1154       2
## 2 Visitar família       1772       6
## 3 Acadèmics             4703      10
## 4 Negocis               4706      10
## 5 Turisme               5160       8
## 6 Oci                  10979      14
barplot(pregunta_groups$Preu_total, names.arg=pregunta_groups$Motiu, las = 2)

Q1 <- quantile(dades$Preu, 0.25)
Q3 <- quantile(dades$Preu, 0.75)
IQR <- IQR(dades$Preu)
lim_inf <- Q1 - 1.5 * IQR
lim_sup <- Q3 + 1.5 * IQR
outliers <- dades[dades$Preu < lim_inf | dades$Preu > lim_sup, ]
outliers
## # A tibble: 7 × 8
##   Identificador Origen    Desti           Preu Sexe  Persones Motiu       Kms
##           <dbl> <chr>     <chr>          <dbl> <chr>    <dbl> <chr>     <dbl>
## 1             3 Barcelona Seoul            584 M            1 Oci        9602
## 2            16 València  Bangkok          738 F            1 Acadèmics  9946
## 3            17 Sevilla   Ciutat del Cap  1060 M            3 Negocis   11356
## 4            18 Frankfurt Tòquio           778 F            1 Acadèmics  9331
## 5            19 Milà      Sydney          1373 F            2 Oci       16555
## 6            25 Madrid    Nova York        937 M            2 Acadèmics  5768
## 7            26 Barcelona Cancún           802 F            4 Turisme    8402

7. Variables externes i dades addicionals

8. Altres comentaris

No tenim cap altre comentari a afegir.

9. Conclusió preliminar i pròximes passes

CONCLUSIONS PRELIMINARS: relació directa entre els preus i les distàncies, gran presència de viatges d’oci (major part dels diners totals), els viatges a familia generen una quantitat de diners excepcionalment petita

LIMITACIONS DEL DATASET: molts dels vols tenen com a origen i/o destí Barcelona i altres ciutats europees, condicionant bastant els resultats obtinguts

PRÒXIMES PASSES: realitzar un estudi més a fons mitjançant models inferencials (a part del model ja utilitzat en l’scatterplot)