1. Introducció

Expliqueu breument:

2. Importació de les dades

Mostreu com heu importat el fitxer i quin nom té l’objecte carregat.

# Exemple d'importació (modifiqueu segons calgui)
load("dades.RData")

Expliqueu: - Quin era el format original (CSV, XLSX, txt…) - Si heu fet cap modificació prèvia (neteja, reanomenar columnes, selecció de variables…)

3. Dimensions del dataset

dim(dades)
## [1] 56480     6
glimpse(dades)
## Rows: 56,480
## Columns: 6
## $ Data_Referencia <chr> NA, "01/01/2025", "01/01/2025", "01/01/2025", "01/01/2…
## $ Codi_Companyia  <dbl> NA, 1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 5, 6, 7, 8, 9, 10, 1…
## $ Nom_Companyia   <chr> NA, "Vueling Airlines", "Vueling Airlines", "Vueling A…
## $ Codi_Zona       <dbl> NA, 1, 2, 5, 1, 2, 5, 1, 2, 3, 2, 2, 1, 2, 2, 2, 2, 1,…
## $ Nom_Zona        <chr> NA, "Espanya", "Europa", "Àfrica", "Espanya", "Europa"…
## $ Nombre_Vols     <dbl> NA, 155, 181, 12, 22, 61, 2, 22, 2, 5, 32, 14, 12, 20,…

Incloeu: - Nombre de files.

nrow(dades)
## [1] 56480
ncol(dades)
## [1] 6

4. Diccionari de variables

Descriviu cada variable del dataset.

tibble(
variable = names(dades),
tipus = sapply(dades, class)
)
## # A tibble: 6 × 2
##   variable        tipus    
##   <chr>           <chr>    
## 1 Data_Referencia character
## 2 Codi_Companyia  numeric  
## 3 Nom_Companyia   character
## 4 Codi_Zona       numeric  
## 5 Nom_Zona        character
## 6 Nombre_Vols     numeric
Variable Tipus Descripció Valors possibles / rang
Data_Referencia character La data del vol Dades d’un any
Codi_Companyia numèrica El codi que està atribuït a cada companyia 1–20, 22, 28, 31, 36, 41, 52, 9999
Nom_Companyia character Nom de la companyia -
Codi_Zona numèrica Codi atrïbuit a cada zona aèria 1-5
Nom_Zona character Nom de la zona aèria -
Nombre_Vols numèrica Nombre de vols fetes per una companyia en una zona aèria concreta 1–300 (aprox)

5. Estadístiques descriptives

summary(dades)
##  Data_Referencia    Codi_Companyia   Nom_Companyia        Codi_Zona    
##  Length:56480       Min.   :   1.0   Length:56480       Min.   :1.000  
##  Class :character   1st Qu.:   3.0   Class :character   1st Qu.:2.000  
##  Mode  :character   Median :   9.0   Mode  :character   Median :2.000  
##                     Mean   : 182.7                      Mean   :2.269  
##                     3rd Qu.:  18.0                      3rd Qu.:2.000  
##                     Max.   :9999.0                      Max.   :5.000  
##                     NA's   :1                           NA's   :1      
##    Nom_Zona          Nombre_Vols   
##  Length:56480       Min.   :  1.0  
##  Class :character   1st Qu.:  4.0  
##  Mode  :character   Median :  8.0  
##                     Mean   : 19.7  
##                     3rd Qu.: 16.0  
##                     Max.   :245.0  
##                     NA's   :1

Comenteu: - Si hi ha valors perduts. No hi han valors perduts - Si alguna variable s’hauria de transformar. No hi ha cap variable que s’hagi de transformar - Outliers o valors estranys. sí que n’hi ha, per exemple valors molt alts de vols (entre 150 i 220) en comparació amb la resta.

6. Visualització inicial

Incloeu una o dues gràfiques exploratòries.

# Exemple:
df_clean <- dades %>%
filter(!is.na(Nombre_Vols))
ggplot(df_clean, aes(x = Nombre_Vols)) +
geom_histogram(bins = 30, color = "black", fill = "steelblue") +
labs(
title = "Histograma del nombre de vols",
x = "Nombre de vols",
y = "Freqüència"
)

7. Variables externes i dades addicionals

Expliqueu:

No necessitarem dades externes.

En el OpenDataBCN, si necessitessim dades d’altres aeroports, accediriem a l’ajuntament d’una altra gran ciutat.

No falten variables

8. Altres comentaris

Incloeu qualsevol altre detall rellevant del procés de preparació de dades.

Hem decidit ajuntar des de l’any 2019 fins al 2025. Així, hem tingut que comprovar que el codi de les companyies d’un any concret no se solapin amb codis de companyia d’altres anys.