1. Περιγραφή Dataset

Περιγραφή και Πηγή

Το dataset αφορά τιμές αεροπορικών εισιτηρίων και περιλαμβάνει πληροφορίες για αεροπορικές εταιρείες, αποστάσεις πτήσεων, χρόνο κράτησης και τιμές.

Η πηγή του dataset είναι: [συμπλήρωσε π.χ. Kaggle].

Αιτιολόγηση Επιλογής

Το dataset επιλέχθηκε επειδή σχετίζεται άμεσα με την επιχειρηματική αναλυτική, ειδικά στον τομέα των αερομεταφορών και της τιμολόγησης.

Μπορεί να χρησιμοποιηθεί για: - ανάλυση τιμών εισιτηρίων - κατανόηση δυναμικής τιμολόγησης - πρόβλεψη κόστους

Επιχειρηματικά Ερωτήματα

  • Πώς επηρεάζει η απόσταση την τιμή;
  • Πώς επηρεάζει ο χρόνος πριν την αναχώρηση την τιμή;
  • Υπάρχουν διαφορές τιμών μεταξύ εταιρειών ή θέσεων;

Περιγραφή Μεταβλητών

Μεταβλητή Τύπος Περιγραφή
Ticket_ID Ακέραιος Μοναδικό ID
Airline Κατηγορική Αεροπορική εταιρεία
Origin Κατηγορική Αφετηρία
Destination Κατηγορική Προορισμός
Distance_km Αριθμητική Απόσταση σε km
Class Κατηγορική Θέση (Economy/Business)
Days_Before_Departure Αριθμητική Ημέρες πριν την πτήση
Price_USD Αριθμητική Τιμή εισιτηρίου

2. Περιγραφικά Στατιστικά

df <- read.csv("airline_ticket_prices_dataset.csv")

# έλεγχος
head(df)
##   Ticket_ID          Airline   Origin Destination Distance_km    Class
## 1         1           Saudia   Mumbai       Paris        2643  Economy
## 2         2           Etihad Istanbul      Jeddah        8266 Business
## 3         3  British Airways    Dubai      Riyadh        2698    First
## 4         4         Emirates   London    Istanbul        7956    First
## 5         5    Qatar Airways     Doha       Dubai        1308 Business
## 6         6 Turkish Airlines   Mumbai    Istanbul        9382    First
##   Days_Before_Departure Price_USD
## 1                    28    555.30
## 2                    98   2070.27
## 3                    21   1883.11
## 4                    24   5349.65
## 5                    60    516.19
## 6                    19   6495.84
str(df)
## 'data.frame':    250 obs. of  8 variables:
##  $ Ticket_ID            : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Airline              : chr  "Saudia" "Etihad" "British Airways" "Emirates" ...
##  $ Origin               : chr  "Mumbai" "Istanbul" "Dubai" "London" ...
##  $ Destination          : chr  "Paris" "Jeddah" "Riyadh" "Istanbul" ...
##  $ Distance_km          : int  2643 8266 2698 7956 1308 9382 3506 6122 7150 3760 ...
##  $ Class                : chr  "Economy" "Business" "First" "First" ...
##  $ Days_Before_Departure: int  28 98 21 24 60 19 85 88 24 36 ...
##  $ Price_USD            : num  555 2070 1883 5350 516 ...
summary(df)
##    Ticket_ID        Airline             Origin          Destination       
##  Min.   :  1.00   Length:250         Length:250         Length:250        
##  1st Qu.: 63.25   Class :character   Class :character   Class :character  
##  Median :125.50   Mode  :character   Mode  :character   Mode  :character  
##  Mean   :125.50                                                           
##  3rd Qu.:187.75                                                           
##  Max.   :250.00                                                           
##   Distance_km       Class           Days_Before_Departure   Price_USD     
##  Min.   :  336   Length:250         Min.   :  1.00        Min.   : 106.1  
##  1st Qu.: 2992   Class :character   1st Qu.: 31.25        1st Qu.: 818.7  
##  Median : 6132   Mode  :character   Median : 60.50        Median :1531.2  
##  Mean   : 6000                      Mean   : 59.02        Mean   :2006.1  
##  3rd Qu.: 8833                      3rd Qu.: 86.75        3rd Qu.:2590.4  
##  Max.   :11903                      Max.   :118.00        Max.   :8852.7

Μέτρα Κεντρικής Τάσης

mean(df$Price_USD)
## [1] 2006.06
median(df$Price_USD)
## [1] 1531.235
# mode
mode_price <- names(sort(table(df$Price_USD), decreasing = TRUE))[1]
mode_price
## [1] "106.07"

Μέτρα Διασποράς

sd(df$Price_USD)
## [1] 1675.067
var(df$Price_USD)
## [1] 2805850
range(df$Price_USD)
## [1]  106.07 8852.69

3. Συσχετίσεις

numeric_data <- df %>%
  select(Distance_km, Days_Before_Departure, Price_USD)

cor(numeric_data)
##                       Distance_km Days_Before_Departure  Price_USD
## Distance_km             1.0000000            -0.0367523  0.6425463
## Days_Before_Departure  -0.0367523             1.0000000 -0.3189308
## Price_USD               0.6425463            -0.3189308  1.0000000

Σχολιασμός

Παρατηρούμε ότι: - Η τιμή πιθανόν αυξάνεται με την απόσταση - Η τιμή επηρεάζεται από τις ημέρες πριν την αναχώρηση


4. Διαγράμματα

Scatterplot

ggplot(df, aes(x = Distance_km, y = Price_USD)) +
  geom_point() +
  labs(title = "Απόσταση vs Τιμή")

Σχόλιο: Υπάρχει θετική σχέση μεταξύ απόστασης και τιμής.


Boxplot

ggplot(df, aes(x = Class, y = Price_USD)) +
  geom_boxplot() +
  labs(title = "Τιμή ανά Κατηγορία Θέσης")

Σχόλιο: Οι Business θέσεις είναι ακριβότερες.


Histogram

ggplot(df, aes(x = Price_USD)) +
  geom_histogram(bins = 30) +
  labs(title = "Κατανομή Τιμών")

Σχόλιο: Οι περισσότερες τιμές συγκεντρώνονται σε συγκεκριμένο εύρος.


Bar Chart

ggplot(df, aes(x = Airline)) +
  geom_bar() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1)) +
  labs(title = "Πτήσεις ανά Εταιρεία")

Σχόλιο: Ορισμένες εταιρείες έχουν περισσότερες καταγραφές.


5. Συμπεράσματα

Η ανάλυση έδειξε ότι: - Η απόσταση επηρεάζει την τιμή - Η κατηγορία θέσης έχει σημαντική επίδραση - Ο χρόνος κράτησης παίζει ρόλο στη διαμόρφωση τιμής