Περιγραφή του Dataset και Πηγή (Uber 2024):

Το σύνολο των δεδομένων αντλήθηκε από την πλατφόρμα Kaggle

Σύνδεσμος: [https://www.kaggle.com/datasets/nidhisharma25/uber-ride-bookings-ncr-2024]

Περιγραφή: Το dataset περιλαμβάνει 148.770 εγγραφές και 21 μεταβλητές που αφορούν τη λειτουργία της Uber για το έτος 2024.

Κύριοι Άξονες Ανάλυσης:
  • Χωροχρονική Ζήτηση: Μοτίβα κρατήσεων ανά ώρα και περιοχή.
  • Δείκτες Ακυρώσεων: Συσχέτιση χρόνου αναμονής με την εγκατάλειψη κράτησης.
  • Ποιότητα Υπηρεσιών: Επίδραση της κατάστασης του οχήματος στη βαθμολογία (rating).
  • Οικονομική Απόδοση: Ανάλυση εσόδων ανά επιτυχημένη διαδρομή.

Dataset και Επιχειρηματική Αναλυτική:

To dataset Uber 2024 αποτελεί πρότυπο για την ανάλυση δυναμικής τιμολόγησης. Μέσω της επεξεργασίας του, είναι δυνατός ο εντοπισμός εμπορικών ευκαιριών σε ώρες αιχμής και η κατανόηση της κερδοφορίας ανά διαδρομή, προσφέροντας πολύτιμα insights για τη στρατηγική λήψη αποφάσεων σε μια ανταγωνιστική αγορά.

Επιχειρηματικά Ερωτήματα:

Περιγραφή Μεταβλητών:

Variable description ofUber 2024
Variable Var_Type Var_Range Var_Meas
Date Date 2024-01-01 έως 2024-12-31 Ημέρα
Time hms/num 00:00:00 έως 23:59:59 Secs/Mins
Booking ID chr CNR + 7 ψηφία ID
Booking Status chr 5 κατηγορίες Status
Customer ID chr CID + 7 ψηφία ID
Vehicle Type chr eBike, Auto, Sedan, κ.α. Category
Pickup Location chr Ονόματα περιοχών Location
Drop Location chr Ονόματα περιοχών Location
Avg VTAT chr 1.0 - 45.0 Minutes
Avg CTAT chr 1.0 - 60.0 Minutes
Cancelled Rides by Customer chr 0 - 1 (ή null) Count
Reason for cancelling by Customer chr 10+ αιτιολογίες Text
Cancelled Rides by Driver chr 0 - 1 (ή null) Count
Driver Cancellation Reason chr 8+ αιτιολογίες Text
Incomplete Rides chr 0 - 1 (ή null) Count
Incomplete Rides Reason chr 6+ αιτιολογίες Text
Booking Value chr 50 - 3500+ Currency
Ride Distance chr 0.5 - 85.0 Kilometers
Driver Ratings chr 1.0 - 5.0 Score (1-5)
Customer Rating chr 1.0 - 5.0 Score (1-5)
Payment Method chr UPI, Card, Cash, null Method

Υπολογισμός και Παρουσίαση Περιγραφικών Στατιστικών για τη στήλη Avg.VTAT:

#Διαβάζω το dataset και το καταχωρώ στο UberDataset, όπου δεν βρίσκει τιμή τοποθετεί την τιμή NA
uberDataset <- read.csv("ncr_ride_bookings.csv", na.strings = c("null", "NA", ""))

# Υπολογισμός μέσης τιμής για το Avg VTAT 
Avg_Value <- mean(uberDataset$Avg.VTAT, na.rm = TRUE)
cat("Μέση Τιμή:", Avg_Value, "\n")
## Μέση Τιμή: 8.456352
#Υπολογισμός διαμέσου για το Avg VTAT
median_vtat <- median(uberDataset$Avg.VTAT, na.rm = TRUE)
cat("Διάμεσος:", median_vtat, "\n")
## Διάμεσος: 8.3
#Υπολογισμός τυπική απόκλση για το Avg VTAT
sd_Value <- sd(uberDataset$AVG_VTAT, na.rm = TRUE)      
cat("Τυπική Απόκλιση:", sd_Value, "\n")
## Τυπική Απόκλιση: NA
#Υπολογισμός διακύμανσης για το Avg VTAT
#var_Value <- var(uberDataset$AVG_VTAT, na.rm = TRUE)  
#cat("Διακύμανση:", var_Value, "\n")

#Υπολογισμός εύρος (Min και Max) για το Avg VTAT
range_Value <- range(uberDataset$AVG_VTAT, na.rm = TRUE) 
## Warning in min(x, na.rm = na.rm): no non-missing arguments to min; returning
## Inf
## Warning in max(x, na.rm = na.rm): no non-missing arguments to max; returning
## -Inf
cat("Εύρος (Min-Max):", range_Value, "\n")
## Εύρος (Min-Max): Inf -Inf

Δημιουργία scatterplot:

plot(uberDataset$Ride.Distance, uberDataset$Booking.Value, main="Ride Distance vs Booking Value",
     xlab="Ride Distance", ylab="Booking Value",
     col="lightblue", pch=16)

Παρατηρείται ότι τα σημεία είναι αρκετά διάσπαρτα σε όλο το γράφημα. Παρόλο που σε ορισμένες περιπτώσεις μεγαλύτερες αποστάσεις συνδέονται με υψηλότερες τιμές, η μεγάλη διασπορά των τιμών για παρόμοιες αποστάσεις υποδηλώνει ότι η αξία της κράτησης επηρεάζεται και από άλλους παράγοντες πέρα από την απόσταση.

Δημιουργία Βoxplot:

boxplot(as.numeric(uberDataset$Ride.Distance),
        main="Boxplot of Ride Distance",
        ylab="Ride Distance (km)",
        col="lightgreen")

Η διάμεσος εντοπίζεται περίπου στα 24 χιλιόμετρα, υποδεικνύοντας ότι οι μισές από τις καταγεγραμμένες διαδρομές αφορούν αποστάσεις κάτω από αυτό το όριο. Το γεγονός ότι ο κύριος όγκος των κρατήσεων (50%) περιορίζεται αυστηρά στο εύρος των 12 έως 37 χιλιομέτρων υποδηλώνει ότι η υπηρεσία εξυπηρετεί κυρίως μεσαίες αποστάσεις, χωρίς να επηρεάζεται από ακραίες διακυμάνσεις.

Δημιουργία histogram:

hist(as.numeric(uberDataset$Ride.Distance),
     main="Histogram Ride Distance",
     xlab="Ride Distance",
     col="lightpink",
     breaks=20)

Παρατηρείται ότι οι διαδρομές πολύ μικρής απόστασης είναι ελάχιστες, ενώ η ζήτηση κορυφώνεται στο εύρος 2 έως 20 χιλιομέτρων, όπου οι συχνότητες ξεπερνούν τις 4.000 κρατήσεις ανά κατηγορία. Μετά τα 20 χιλιόμετρα, η κατανομή παρουσιάζει σταθερότητα μέχρι το όριο των 50 χιλιομέτρων. Το διάγραμμα υποδηλώνει ότι η υπηρεσία εξυπηρετεί ένα ευρύ φάσμα μετακινήσεων, με μια ιδιαίτερη προτίμηση στις μεσαίες αποστάσεις.

Δημιουργία bar chart:

barplot(table(uberDataset$Payment.Method),
        main="Payment Method",
        xlab="Payment Method",
        ylab="Frequency",
        col="orange")

Το ραβδόγραμμα αναδεικνύει την προτίμηση των χρηστών προς τις ψηφιακές συναλλαγές, με το UPI να αποτελεί την επικρατέστερη επιλογή. Η παρουσία της κατηγορίας “null” ως μια υψηλή σε συχνότητα στήλη αποτελεί ένα κρίσιμο εύρημα, καθώς υποδηλώνει σημαντικό κενό στην καταγραφή των δεδομένων για ένα μεγάλο μέρος των διαδρομών. Τα μετρητά παραμένουν η δεύτερη πιο δημοφιλής μέθοδος, υπερτερώντας κατά πολύ των πιστωτικών και χρεωστικών καρτών που βρίσκονται στα χαμηλότερα επίπεδα χρήσης. Παράλληλα, το Uber Wallet εμφανίζει περιορισμένη απήχηση.