Expliqueu breument:
D’on prové el conjunt de dades.
El conjunt de dades prové de la web oficial de l’ajuntament de Barcelona on pengen tots els estudis de dades
Quin és l’objectiu del projecte.
L’objectiu del projecte és estudiar la diferència de vols que va haver durant un període de temps específic (2019-2025) degut a una pandèmia mundial.
Quina pregunta voleu respondre.
L’any 2020 va haver una pandèmia mundial que va afectar a tota la població, empreses, companyies… Això inclou els vols d’avions. Des del 2019 fins a la actualitat genera una gràfica que mostri com ha canviat el nombre de vols a l’espai aeri espanyol durant aquest període de temps.
Per què aquestes dades són adequades per aquesta pregunta.
Són adeqüades perquè l’aeroport de barcelona arrastra una gran quantitat de turisme, llavors podem obtenir moltes dades durant el període de temps que volem estudiar i observar la diferència.
Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.
# Exemple d'importació (modifiqueu segons calgui)
load("dades.RData")
Expliqueu: - Quin era el format original (CSV, XLSX, txt…) - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…)
dim(dades)
## [1] 56480 6
glimpse(dades)
## Rows: 56,480
## Columns: 6
## $ Data_Referencia <chr> NA, "01/01/2025", "01/01/2025", "01/01/2025", "01/01/2…
## $ Codi_Companyia <dbl> NA, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 10, 1…
## $ Nom_Companyia <chr> NA, "Vueling Airlines", "Vueling Airlines", "Vueling A…
## $ Codi_Zona <dbl> NA, 1, 2, 5, 1, 2, 5, 1, 2, 3, 2, 2, 1, 2, 2, 2, 2, 1,…
## $ Nom_Zona <chr> NA, "Espanya", "Europa", "Àfrica", "Espanya", "Europa"…
## $ Nombre_Vols <dbl> NA, 155, 181, 12, 22, 61, 2, 22, 2, 5, 32, 14, 12, 20,…
Incloeu: - Nombre de files.
nrow(dades)
## [1] 56480
ncol(dades)
## [1] 6
Descriviu cada variable del dataset.
tibble(
variable = names(dades),
tipus = sapply(dades, class)
)
## # A tibble: 6 × 2
## variable tipus
## <chr> <chr>
## 1 Data_Referencia character
## 2 Codi_Companyia numeric
## 3 Nom_Companyia character
## 4 Codi_Zona numeric
## 5 Nom_Zona character
## 6 Nombre_Vols numeric
| Variable | Tipus | Descripció | Valors possibles / rang |
|---|---|---|---|
| Data_Referencia | character | La data del vol | Dades d’un any |
| Codi_Companyia | numèrica | El codi que està atribuït a cada companyia | 1–20, 22, 28, 31, 36, 41, 52, 9999 |
| Nom_Companyia | character | Nom de la companyia | - |
| Codi_Zona | numèrica | Codi atrïbuit a cada zona aèria | 1-5 |
| Nom_Zona | character | Nom de la zona aèria | - |
| Nombre_Vols | numèrica | Nombre de vols fetes per una companyia en una zona aèria concreta | 1–300 (aprox) |
summary(dades)
## Data_Referencia Codi_Companyia Nom_Companyia Codi_Zona
## Length:56480 Min. : 1.0 Length:56480 Min. :1.000
## Class :character 1st Qu.: 3.0 Class :character 1st Qu.:2.000
## Mode :character Median : 9.0 Mode :character Median :2.000
## Mean : 182.7 Mean :2.269
## 3rd Qu.: 18.0 3rd Qu.:2.000
## Max. :9999.0 Max. :5.000
## NA's :1 NA's :1
## Nom_Zona Nombre_Vols
## Length:56480 Min. : 1.0
## Class :character 1st Qu.: 4.0
## Mode :character Median : 8.0
## Mean : 19.7
## 3rd Qu.: 16.0
## Max. :245.0
## NA's :1
Comenteu: - Si hi ha valors perduts. No hi han valors perduts - Si alguna variable s’hauria de transformar. No hi ha cap variable que s’hagi de transformar - Outliers o valors estranys. sí que n’hi ha, per exemple valors molt alts de vols (entre 150 i 220) en comparació amb la resta.
Incloeu una o dues gràfiques exploratòries.
# Exemple:
df_clean <- dades %>%
filter(!is.na(Nombre_Vols))
ggplot(df_clean, aes(x = Nombre_Vols)) +
geom_histogram(bins = 30, color = "black", fill = "steelblue") +
labs(
title = "Histograma del nombre de vols",
x = "Nombre de vols",
y = "Freqüència"
)
Expliqueu:
No necessitarem dades externes.
En el OpenDataBCN, si necessitessim dades d’altres aeroports, accediriem a l’ajuntament d’una altra gran ciutat.
No falten variables
Incloeu qualsevol altre detall rellevant del procés de preparació de dades.
Hem decidit ajuntar des de l’any 2019 fins al 2025. Així, hem tingut que comprovar que el codi de les companyies d’un any concret no se solapin amb codis de companyia d’altres anys.