Το dataset αφορά τιμές αεροπορικών εισιτηρίων και περιλαμβάνει πληροφορίες για αεροπορικές εταιρείες, αποστάσεις πτήσεων, χρόνο κράτησης και τιμές.
Η πηγή του dataset είναι: [συμπλήρωσε π.χ. Kaggle].
Το dataset επιλέχθηκε επειδή σχετίζεται άμεσα με την επιχειρηματική αναλυτική, ειδικά στον τομέα των αερομεταφορών και της τιμολόγησης.
Μπορεί να χρησιμοποιηθεί για: - ανάλυση τιμών εισιτηρίων - κατανόηση δυναμικής τιμολόγησης - πρόβλεψη κόστους
| Μεταβλητή | Τύπος | Περιγραφή |
|---|---|---|
| Ticket_ID | Ακέραιος | Μοναδικό ID |
| Airline | Κατηγορική | Αεροπορική εταιρεία |
| Origin | Κατηγορική | Αφετηρία |
| Destination | Κατηγορική | Προορισμός |
| Distance_km | Αριθμητική | Απόσταση σε km |
| Class | Κατηγορική | Θέση (Economy/Business) |
| Days_Before_Departure | Αριθμητική | Ημέρες πριν την πτήση |
| Price_USD | Αριθμητική | Τιμή εισιτηρίου |
df <- read.csv("airline_ticket_prices_dataset.csv")
# έλεγχος
head(df)
## Ticket_ID Airline Origin Destination Distance_km Class
## 1 1 Saudia Mumbai Paris 2643 Economy
## 2 2 Etihad Istanbul Jeddah 8266 Business
## 3 3 British Airways Dubai Riyadh 2698 First
## 4 4 Emirates London Istanbul 7956 First
## 5 5 Qatar Airways Doha Dubai 1308 Business
## 6 6 Turkish Airlines Mumbai Istanbul 9382 First
## Days_Before_Departure Price_USD
## 1 28 555.30
## 2 98 2070.27
## 3 21 1883.11
## 4 24 5349.65
## 5 60 516.19
## 6 19 6495.84
str(df)
## 'data.frame': 250 obs. of 8 variables:
## $ Ticket_ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Airline : chr "Saudia" "Etihad" "British Airways" "Emirates" ...
## $ Origin : chr "Mumbai" "Istanbul" "Dubai" "London" ...
## $ Destination : chr "Paris" "Jeddah" "Riyadh" "Istanbul" ...
## $ Distance_km : int 2643 8266 2698 7956 1308 9382 3506 6122 7150 3760 ...
## $ Class : chr "Economy" "Business" "First" "First" ...
## $ Days_Before_Departure: int 28 98 21 24 60 19 85 88 24 36 ...
## $ Price_USD : num 555 2070 1883 5350 516 ...
summary(df)
## Ticket_ID Airline Origin Destination
## Min. : 1.00 Length:250 Length:250 Length:250
## 1st Qu.: 63.25 Class :character Class :character Class :character
## Median :125.50 Mode :character Mode :character Mode :character
## Mean :125.50
## 3rd Qu.:187.75
## Max. :250.00
## Distance_km Class Days_Before_Departure Price_USD
## Min. : 336 Length:250 Min. : 1.00 Min. : 106.1
## 1st Qu.: 2992 Class :character 1st Qu.: 31.25 1st Qu.: 818.7
## Median : 6132 Mode :character Median : 60.50 Median :1531.2
## Mean : 6000 Mean : 59.02 Mean :2006.1
## 3rd Qu.: 8833 3rd Qu.: 86.75 3rd Qu.:2590.4
## Max. :11903 Max. :118.00 Max. :8852.7
mean(df$Price_USD)
## [1] 2006.06
median(df$Price_USD)
## [1] 1531.235
# mode
mode_price <- names(sort(table(df$Price_USD), decreasing = TRUE))[1]
mode_price
## [1] "106.07"
sd(df$Price_USD)
## [1] 1675.067
var(df$Price_USD)
## [1] 2805850
range(df$Price_USD)
## [1] 106.07 8852.69
numeric_data <- df %>%
select(Distance_km, Days_Before_Departure, Price_USD)
cor(numeric_data)
## Distance_km Days_Before_Departure Price_USD
## Distance_km 1.0000000 -0.0367523 0.6425463
## Days_Before_Departure -0.0367523 1.0000000 -0.3189308
## Price_USD 0.6425463 -0.3189308 1.0000000
Παρατηρούμε ότι: - Η τιμή πιθανόν αυξάνεται με την απόσταση - Η τιμή επηρεάζεται από τις ημέρες πριν την αναχώρηση
ggplot(df, aes(x = Distance_km, y = Price_USD)) +
geom_point() +
labs(title = "Απόσταση vs Τιμή")
Σχόλιο: Υπάρχει θετική σχέση μεταξύ απόστασης και τιμής.
ggplot(df, aes(x = Class, y = Price_USD)) +
geom_boxplot() +
labs(title = "Τιμή ανά Κατηγορία Θέσης")
Σχόλιο: Οι Business θέσεις είναι ακριβότερες.
ggplot(df, aes(x = Price_USD)) +
geom_histogram(bins = 30) +
labs(title = "Κατανομή Τιμών")
Σχόλιο: Οι περισσότερες τιμές συγκεντρώνονται σε συγκεκριμένο εύρος.
ggplot(df, aes(x = Airline)) +
geom_bar() +
theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
labs(title = "Πτήσεις ανά Εταιρεία")
Σχόλιο: Ορισμένες εταιρείες έχουν περισσότερες καταγραφές.
Η ανάλυση έδειξε ότι: - Η απόσταση επηρεάζει την τιμή - Η κατηγορία θέσης έχει σημαντική επίδραση - Ο χρόνος κράτησης παίζει ρόλο στη διαμόρφωση τιμής