Το σύνολο των δεδομένων αντλήθηκε από την πλατφόρμα Kaggle
Σύνδεσμος: [https://www.kaggle.com/datasets/nidhisharma25/uber-ride-bookings-ncr-2024]
Περιγραφή: Το dataset περιλαμβάνει 148.770 εγγραφές και 21 μεταβλητές που αφορούν τη λειτουργία της Uber για το έτος 2024.
To dataset Uber 2024 αποτελεί πρότυπο για την ανάλυση δυναμικής τιμολόγησης. Μέσω της επεξεργασίας του, είναι δυνατός ο εντοπισμός εμπορικών ευκαιριών σε ώρες αιχμής και η κατανόηση της κερδοφορίας ανά διαδρομή, προσφέροντας πολύτιμα insights για τη στρατηγική λήψη αποφάσεων σε μια ανταγωνιστική αγορά.
| Variable | Var_Type | Var_Range | Var_Meas |
|---|---|---|---|
| Date | Date | 2024-01-01 έως 2024-12-31 | Ημέρα |
| Time | hms/num | 00:00:00 έως 23:59:59 | Secs/Mins |
| Booking ID | chr | CNR + 7 ψηφία | ID |
| Booking Status | chr | 5 κατηγορίες | Status |
| Customer ID | chr | CID + 7 ψηφία | ID |
| Vehicle Type | chr | eBike, Auto, Sedan, κ.α. | Category |
| Pickup Location | chr | Ονόματα περιοχών | Location |
| Drop Location | chr | Ονόματα περιοχών | Location |
| Avg VTAT | chr | 1.0 - 45.0 | Minutes |
| Avg CTAT | chr | 1.0 - 60.0 | Minutes |
| Cancelled Rides by Customer | chr | 0 - 1 (ή null) | Count |
| Reason for cancelling by Customer | chr | 10+ αιτιολογίες | Text |
| Cancelled Rides by Driver | chr | 0 - 1 (ή null) | Count |
| Driver Cancellation Reason | chr | 8+ αιτιολογίες | Text |
| Incomplete Rides | chr | 0 - 1 (ή null) | Count |
| Incomplete Rides Reason | chr | 6+ αιτιολογίες | Text |
| Booking Value | chr | 50 - 3500+ | Currency |
| Ride Distance | chr | 0.5 - 85.0 | Kilometers |
| Driver Ratings | chr | 1.0 - 5.0 | Score (1-5) |
| Customer Rating | chr | 1.0 - 5.0 | Score (1-5) |
| Payment Method | chr | UPI, Card, Cash, null | Method |
#Διαβάζω το dataset και το καταχωρώ στο UberDataset, όπου δεν βρίσκει τιμή τοποθετεί την τιμή NA
uberDataset <- read.csv("ncr_ride_bookings.csv", na.strings = c("null", "NA", ""))
# Υπολογισμός μέσης τιμής για το Avg VTAT
Avg_Value <- mean(uberDataset$Avg.VTAT, na.rm = TRUE)
cat("Μέση Τιμή:", Avg_Value, "\n")
## Μέση Τιμή: 8.456352
#Υπολογισμός διαμέσου για το Avg VTAT
median_vtat <- median(uberDataset$Avg.VTAT, na.rm = TRUE)
cat("Διάμεσος:", median_vtat, "\n")
## Διάμεσος: 8.3
#Υπολογισμός τυπική απόκλση για το Avg VTAT
sd_Value <- sd(uberDataset$AVG_VTAT, na.rm = TRUE)
cat("Τυπική Απόκλιση:", sd_Value, "\n")
## Τυπική Απόκλιση: NA
#Υπολογισμός διακύμανσης για το Avg VTAT
#var_Value <- var(uberDataset$AVG_VTAT, na.rm = TRUE)
#cat("Διακύμανση:", var_Value, "\n")
#Υπολογισμός εύρος (Min και Max) για το Avg VTAT
range_Value <- range(uberDataset$AVG_VTAT, na.rm = TRUE)
## Warning in min(x, na.rm = na.rm): no non-missing arguments to min; returning
## Inf
## Warning in max(x, na.rm = na.rm): no non-missing arguments to max; returning
## -Inf
cat("Εύρος (Min-Max):", range_Value, "\n")
## Εύρος (Min-Max): Inf -Inf
plot(uberDataset$Ride.Distance, uberDataset$Booking.Value, main="Ride Distance vs Booking Value",
xlab="Ride Distance", ylab="Booking Value",
col="lightblue", pch=16)
Παρατηρείται ότι τα σημεία είναι αρκετά διάσπαρτα σε όλο το γράφημα.
Παρόλο που σε ορισμένες περιπτώσεις μεγαλύτερες αποστάσεις συνδέονται με
υψηλότερες τιμές, η μεγάλη διασπορά των τιμών για παρόμοιες αποστάσεις
υποδηλώνει ότι η αξία της κράτησης επηρεάζεται και από άλλους παράγοντες
πέρα από την απόσταση.
boxplot(as.numeric(uberDataset$Ride.Distance),
main="Boxplot of Ride Distance",
ylab="Ride Distance (km)",
col="lightgreen")
Η διάμεσος εντοπίζεται περίπου στα 24 χιλιόμετρα, υποδεικνύοντας ότι οι
μισές από τις καταγεγραμμένες διαδρομές αφορούν αποστάσεις κάτω από αυτό
το όριο. Το γεγονός ότι ο κύριος όγκος των κρατήσεων (50%) περιορίζεται
αυστηρά στο εύρος των 12 έως 37 χιλιομέτρων υποδηλώνει ότι η υπηρεσία
εξυπηρετεί κυρίως μεσαίες αποστάσεις, χωρίς να επηρεάζεται από ακραίες
διακυμάνσεις.
hist(as.numeric(uberDataset$Ride.Distance),
main="Histogram Ride Distance",
xlab="Ride Distance",
col="lightpink",
breaks=20)
Παρατηρείται ότι οι διαδρομές πολύ μικρής απόστασης είναι ελάχιστες, ενώ
η ζήτηση κορυφώνεται στο εύρος 2 έως 20 χιλιομέτρων, όπου οι συχνότητες
ξεπερνούν τις 4.000 κρατήσεις ανά κατηγορία. Μετά τα 20 χιλιόμετρα, η
κατανομή παρουσιάζει σταθερότητα μέχρι το όριο των 50 χιλιομέτρων. Το
διάγραμμα υποδηλώνει ότι η υπηρεσία εξυπηρετεί ένα ευρύ φάσμα
μετακινήσεων, με μια ιδιαίτερη προτίμηση στις μεσαίες αποστάσεις.
barplot(table(uberDataset$Payment.Method),
main="Payment Method",
xlab="Payment Method",
ylab="Frequency",
col="orange")
Το ραβδόγραμμα αναδεικνύει την προτίμηση των χρηστών προς τις ψηφιακές
συναλλαγές, με το UPI να αποτελεί την επικρατέστερη επιλογή. Η παρουσία
της κατηγορίας “null” ως μια υψηλή σε συχνότητα στήλη αποτελεί ένα
κρίσιμο εύρημα, καθώς υποδηλώνει σημαντικό κενό στην καταγραφή των
δεδομένων για ένα μεγάλο μέρος των διαδρομών. Τα μετρητά παραμένουν η
δεύτερη πιο δημοφιλής μέθοδος, υπερτερώντας κατά πολύ των πιστωτικών και
χρεωστικών καρτών που βρίσκονται στα χαμηλότερα επίπεδα χρήσης.
Παράλληλα, το Uber Wallet εμφανίζει περιορισμένη απήχηση.