Το dataset περιέχει αναλυτικές πληροφορίες για καταχωρήσεις Airbnb στη Νέα Υόρκη. Κάθε γραμμή αντιστοιχεί σε ένα ακίνητο/κατάλυμα και περιλαμβάνει στοιχεία όπως τοποθεσία, τιμή, τύπος δωματίου, αριθμός κριτικών, διαθεσιμότητα κ.ά, προσφέροντας πληροφόρηση για την αγορά βραχυχρόνιας μίσθωσης, χρήσιμη για επιχειρήσεις που δραστηριοποιούνται στον τουρισμό, real estate ή υπηρεσίες φιλοξενίας. Επιτρέπει τη διερεύνηση ζητημάτων όπως: -Τιμολόγηση και απόδοση καταλυμάτων -Δημοφιλία περιοχών -Προφίλ πελατών & hosts -Προφίλ πελατών & hosts
α)Ποιες περιοχές έχουν τη μεγαλύτερη μέση τιμή ανά διανυκτέρευση;
β)Υπάρχει σχέση μεταξύ τιμής και αριθμού κριτικών;
γ)Ποιοι hosts διαχειρίζονται τα περισσότερα ακίνητα;
δ)Ποιος τύπος δωματίου είναι πιο διαδεδομένος ανά περιοχή;
Ελλιπείς Τιμές: Η μεταβλητή reviews_per_month περιέχει κενές τιμές (missing values) όταν η μεταβλητή number_of_reviews είναι 0. Αυτό συμβαίνει διότι σε περιπτώσεις όπου δεν υπάρχουν κριτικές, η πληροφορία για τον αριθμό κριτικών ανά μήνα δεν είναι διαθέσιμη.
Ακραίες Τιμές (Outliers): Η μεταβλητή price περιέχει ακραίες τιμές (π.χ. πάνω από $1000), οι οποίες ενδέχεται να επηρεάζουν την ακριβή ανάλυση των τιμών και των τάσεων. Επίσης, η μεταβλητή minimum_nights έχει τιμές μέχρι και 365, γεγονός που ενδέχεται να μην είναι ρεαλιστικό σε πολλές περιπτώσεις και απαιτεί πιθανόν επανεξέταση.
Διπλώτυπες Εγγραφές: Δεν εντοπίζονται διπλότυπες εγγραφές στο dataset, καθώς κάθε id είναι μοναδικό και δεν επαναλαμβάνεται, διασφαλίζοντας την ακεραιότητα των δεδομένων.
| Όνομα Μεταβλητής | Τύπος | Περιγραφή |
|---|---|---|
| id | Αριθμητική | Μοναδικό ID κάθε καταχώρησης |
| name | Κείμενο | Τίτλος καταχώρησης στο Airbnb |
| host_id | Αριθμητική | Αναγνωριστικό ιδιοκτήτη |
| host_name | Κείμενο | Όνομα ιδιοκτήτη |
| neighbourhood_group | Κατηγορική | Περιοχή της Νέας Υόρκης |
| neighbourhood | Κατηγορική | Συγκεκριμένη γειτονιά |
| latitude | Αριθμητική | Γεωγραφικό πλάτος |
| longitude | Αριθμητική | Γεωγραφικό μήκος |
| room_type | Κατηγορική | Τύπος δωματίου |
| price | Αριθμητική | Τιμή ανά διανυκτέρευση |
| minimum_nights | Αριθμητική | Ελάχιστες απαιτούμενες διανυκτερεύσεις |
| number_of_reviews | Αριθμητική | Συνολικές κριτικές του καταλύματος |
| last_review | Ημερομηνία | Ημερομηνία τελευταίας κριτικής |
| reviews_per_month | Αριθμητική | Μέσος αριθμός κριτικών ανά μήνα |
| calculated_host_listings_count | Αριθμητική | Αριθμός καταχωρήσεων που διαχειρίζεται ο host |
| availability_365 | Αριθμητική | Αριθμός διαθέσιμων ημερών ανά έτος (0–365) |
| max_price | max_nights | maxavailability | min_price | min_nights | min_availability | mean_price | mean_nights | mean_availability |
|---|---|---|---|---|---|---|---|---|
| 9999 | 364 | 365 | 10 | 1 | 0 | 141.8252 | 5.571226 | 114.8113 |
Από το διάγραμμα παρατηρούμε πως:
Τα φθηνότερα καταλύματα πιθανότατα έχουν υψηλή ζήτηση, άρα και περισσότερες κρατήσεις και κριτικές.
Τα ακριβότερα καταλύματα είναι πιο εξειδικευμένα (ίσως πολυτελή ή VIP), έχουν λιγότερους επισκέπτες, άρα και λιγότερες κριτικές.
Οι χρήστες φαίνεται να προτιμούν οικονομικές επιλογές, κάτι που αντανακλάται στον αριθμό των αξιολογήσεων.
Παρατηρούμε ότι:
Στο Μανχάταν υπάρχουν υψηλότερες τιμές με πολλούς outliers (ακραίες τιμές), υποδεικνύοντας καταλύματα με εξαιρετικά υψηλές τιμές.
Στη συνέχεια ακολουθεί το Brooklyn με τις περισσότερες τιμές να είναι χαμηλότερες από του Μανχάταν.
Ενώ οι Queens, Staten Island & Bronxέχουν γενικά χαμηλότερες τιμές σε σχέση με τις προηγούμενες, με λιγότερα outliers.
Tα περισσότερα καταλύματα επιτρέπουν μικρό αριθμό διανυκτερεύσεων, κυρίως από 1 έως 5 νύχτες. Αυτό ανταποκρίνεται στις ανάγκες ταξιδιωτών για σύντομες επισκέψεις. Τιμές πάνω από τις 30 νύχτες είναι σπάνιες.
Παρατηρώντας το διάγραμμα διακρίνουμε πως το Manhattan συγκεντρώνει τις περισσότερες καταχωρήσεις Airbnb, επιβεβαιώνοντας τη δημοτικότητα της περιοχής, ενώ ακολουθεί Brooklyn αναδεικνύοντας την αυξανόμενη τουριστική ζήτηση.
Ο αριθμός των κριτικών μπορεί να λειτουργήσει ως ένδειξη της δημοτικότητας ή της συχνότητας κράτησης ενός καταλύματος.
m1 <- lm(price ~ number_of_reviews, data = model_data)
summary(m1)
##
## Call:
## lm(formula = price ~ number_of_reviews, data = model_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -135.7 -74.4 -35.7 29.2 9853.9
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 145.95807 1.09133 133.743 < 2e-16 ***
## number_of_reviews -0.14101 0.01935 -7.289 3.18e-13 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 183.7 on 38804 degrees of freedom
## Multiple R-squared: 0.001367, Adjusted R-squared: 0.001342
## F-statistic: 53.13 on 1 and 38804 DF, p-value: 3.182e-13
ggplot(model_data, aes(x = price, y = number_of_reviews)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = coef(m1)[1], slope = coef(m1)[2], color = "red", linewidth = 1.2) +
labs(title = "Γραμμική Παλινδρόμηση: Τιμή ~ Αριθμός Κριτικών",
x = "Τιμή", y = "Αριθμός Κριτικών")
Σχολιασμός:
Το πρώτο μοντέλο βασίζεται αποκλειστικά στον αριθμό των κριτικών. Το R² είναι πολύ χαμηλό (1.34%), γεγονός που δείχνει ότι η μεταβλητή αυτή από μόνη της δεν εξηγεί επαρκώς την τιμή των καταλυμάτων.
m2<- lm(price~ number_of_reviews + neighbourhood_group, data = model_data)
summary(m2)
##
## Call:
## lm(formula = price ~ number_of_reviews + neighbourhood_group,
## data = model_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -172.9 -64.8 -30.3 24.0 9816.5
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 83.23258 6.13172 13.574 < 2e-16 ***
## number_of_reviews -0.11087 0.01903 -5.827 5.68e-09 ***
## neighbourhood_groupBrooklyn 40.89261 6.26132 6.531 6.61e-11 ***
## neighbourhood_groupManhattan 99.88989 6.26000 15.957 < 2e-16 ***
## neighbourhood_groupQueens 14.16071 6.65907 2.127 0.0335 *
## neighbourhood_groupStaten Island 10.80754 11.87184 0.910 0.3626
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 180.5 on 38800 degrees of freedom
## Multiple R-squared: 0.03626, Adjusted R-squared: 0.03613
## F-statistic: 291.9 on 5 and 38800 DF, p-value: < 2.2e-16
Σχολιασμός: Η προσθήκη της γειτονιάς (neighbourhood_group) στο μοντέλο αυξάνει αισθητά το R² (3.61%), κάτι που υποδεικνύει ότι η περιοχή επηρεάζει σημαντικά την τιμή.
m3<- lm(price ~ number_of_reviews + neighbourhood_group + room_type, data = model_data)
summary(m3)
##
## Call:
## lm(formula = price ~ number_of_reviews + neighbourhood_group +
## room_type, data = model_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -214.2 -51.7 -18.5 14.5 9878.8
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 151.66835 5.98167 25.356 < 2e-16 ***
## number_of_reviews -0.10228 0.01822 -5.613 2.00e-08 ***
## neighbourhood_groupBrooklyn 25.20960 6.00122 4.201 2.67e-05 ***
## neighbourhood_groupManhattan 73.59604 6.00933 12.247 < 2e-16 ***
## neighbourhood_groupQueens 10.88781 6.37543 1.708 0.0877 .
## neighbourhood_groupStaten Island -3.01083 11.36811 -0.265 0.7911
## room_typePrivate room -104.47360 1.79850 -58.089 < 2e-16 ***
## room_typeShared room -127.56024 6.07959 -20.982 < 2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 172.8 on 38798 degrees of freedom
## Multiple R-squared: 0.1169, Adjusted R-squared: 0.1167
## F-statistic: 733.5 on 7 and 38798 DF, p-value: < 2.2e-16
Σχολιασμός: Με την εισαγωγή του τύπου δωματίου (room_type), το R² αυξάνεται ακόμα περισσότερο (11.6%), αποδεικνύοντας ότι αποτελεί βασικό παράγοντα στην τιμολόγηση.
| Μοντέλο | R_squared | SSE |
|---|---|---|
| Τιμή~Ελάχιστο Αριθμό Διανυκτερεύσεων | 0.0014 | 1309322104 |
| Τιμή~Αριθμός Κριτικών + Γειτονιά | 0.0363 | 1263578971 |
| Τιμή~Αριθμός Κριτικών + Γειτονιά + Τύπος Δωματίου | 0.1169 | 1157875110 |
Το μοντέλο με μόνο τον ελάχιστο αριθμό διανυκτερεύσεων παρουσιάζει πολύ χαμηλή προβλεπτική ικανότητα (R² = 0.0014).
Η προσθήκη των μεταβλητών “Αριθμός Κριτικών” και “Γειτονιά” βελτιώνει αισθητά το R² και μειώνει το SSE, άρα προσφέρει καλύτερη προσαρμογή.
Το πιο σύνθετο μοντέλο που περιλαμβάνει και τον “Τύπο Δωματίου” φτάνει R² = 0.1169, δείχνοντας ότι οι κατηγοριακές μεταβλητές έχουν ουσιαστική συμβολή στην εξήγηση της τιμής.
Συνολικά, η πολυμεταβλητή ανάλυση είναι πιο αποτελεσματική, καθώς αξιοποιεί ταυτόχρονα αριθμητικά και χωρικά χαρακτηριστικά.