1.Περιγραφή Dataset

Το dataset περιέχει αναλυτικές πληροφορίες για καταχωρήσεις Airbnb στη Νέα Υόρκη. Κάθε γραμμή αντιστοιχεί σε ένα ακίνητο/κατάλυμα και περιλαμβάνει στοιχεία όπως τοποθεσία, τιμή, τύπος δωματίου, αριθμός κριτικών, διαθεσιμότητα κ.ά, προσφέροντας πληροφόρηση για την αγορά βραχυχρόνιας μίσθωσης, χρήσιμη για επιχειρήσεις που δραστηριοποιούνται στον τουρισμό, real estate ή υπηρεσίες φιλοξενίας. Επιτρέπει τη διερεύνηση ζητημάτων όπως: -Τιμολόγηση και απόδοση καταλυμάτων -Δημοφιλία περιοχών -Προφίλ πελατών & hosts -Προφίλ πελατών & hosts

2.Πιθανά Επιχειρηματικά Προβλήματα

α)Ποιες περιοχές έχουν τη μεγαλύτερη μέση τιμή ανά διανυκτέρευση;

β)Υπάρχει σχέση μεταξύ τιμής και αριθμού κριτικών;

γ)Ποιοι hosts διαχειρίζονται τα περισσότερα ακίνητα;

δ)Ποιος τύπος δωματίου είναι πιο διαδεδομένος ανά περιοχή;

3.Προβλήματα Δεδομένων

4.Περιγραφή Μεταβλητών

Όνομα Μεταβλητής Τύπος Περιγραφή
id Αριθμητική Μοναδικό ID κάθε καταχώρησης
name Κείμενο Τίτλος καταχώρησης στο Airbnb
host_id Αριθμητική Αναγνωριστικό ιδιοκτήτη
host_name Κείμενο Όνομα ιδιοκτήτη
neighbourhood_group Κατηγορική Περιοχή της Νέας Υόρκης
neighbourhood Κατηγορική Συγκεκριμένη γειτονιά
latitude Αριθμητική Γεωγραφικό πλάτος
longitude Αριθμητική Γεωγραφικό μήκος
room_type Κατηγορική Τύπος δωματίου
price Αριθμητική Τιμή ανά διανυκτέρευση
minimum_nights Αριθμητική Ελάχιστες απαιτούμενες διανυκτερεύσεις
number_of_reviews Αριθμητική Συνολικές κριτικές του καταλύματος
last_review Ημερομηνία Ημερομηνία τελευταίας κριτικής
reviews_per_month Αριθμητική Μέσος αριθμός κριτικών ανά μήνα
calculated_host_listings_count Αριθμητική Αριθμός καταχωρήσεων που διαχειρίζεται ο host
availability_365 Αριθμητική Αριθμός διαθέσιμων ημερών ανά έτος (0–365)

5.Περιγραφικά Στατιστικά

Συνοπτικά Στατιστικά
max_price max_nights maxavailability min_price min_nights min_availability mean_price mean_nights mean_availability
9999 364 365 10 1 0 141.8252 5.571226 114.8113

6.Διαγράμματα

Scatterplot- Σχέση Τιμής και Αριθμού Κριτικών

Από το διάγραμμα παρατηρούμε πως:

  1. Τα φθηνότερα καταλύματα πιθανότατα έχουν υψηλή ζήτηση, άρα και περισσότερες κρατήσεις και κριτικές.

  2. Τα ακριβότερα καταλύματα είναι πιο εξειδικευμένα (ίσως πολυτελή ή VIP), έχουν λιγότερους επισκέπτες, άρα και λιγότερες κριτικές.

  3. Οι χρήστες φαίνεται να προτιμούν οικονομικές επιλογές, κάτι που αντανακλάται στον αριθμό των αξιολογήσεων.

Boxplot- Σχέση Τιμής και Γειτονιάς

Παρατηρούμε ότι:

  1. Στο Μανχάταν υπάρχουν υψηλότερες τιμές με πολλούς outliers (ακραίες τιμές), υποδεικνύοντας καταλύματα με εξαιρετικά υψηλές τιμές.

  2. Στη συνέχεια ακολουθεί το Brooklyn με τις περισσότερες τιμές να είναι χαμηλότερες από του Μανχάταν.

  3. Ενώ οι Queens, Staten Island & Bronxέχουν γενικά χαμηλότερες τιμές σε σχέση με τις προηγούμενες, με λιγότερα outliers.

Histogram- Κατανομή Ημερών Διανυκτέρευσης

Tα περισσότερα καταλύματα επιτρέπουν μικρό αριθμό διανυκτερεύσεων, κυρίως από 1 έως 5 νύχτες. Αυτό ανταποκρίνεται στις ανάγκες ταξιδιωτών για σύντομες επισκέψεις. Τιμές πάνω από τις 30 νύχτες είναι σπάνιες.

Bar Chart- Κατανομή Καταχωρήσεων βάση της τοποθεσίας του καταλύματος

Παρατηρώντας το διάγραμμα διακρίνουμε πως το Manhattan συγκεντρώνει τις περισσότερες καταχωρήσεις Airbnb, επιβεβαιώνοντας τη δημοτικότητα της περιοχής, ενώ ακολουθεί Brooklyn αναδεικνύοντας την αυξανόμενη τουριστική ζήτηση.

7.Γραμμική Παλινδρόμηση

Μοντέλο 1: Τιμή~Ελάχιστο Αριθμό Διανυκτερεύσεων

Ο αριθμός των κριτικών μπορεί να λειτουργήσει ως ένδειξη της δημοτικότητας ή της συχνότητας κράτησης ενός καταλύματος.

m1 <- lm(price ~ number_of_reviews, data = model_data)
summary(m1)
## 
## Call:
## lm(formula = price ~ number_of_reviews, data = model_data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -135.7  -74.4  -35.7   29.2 9853.9 
## 
## Coefficients:
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       145.95807    1.09133 133.743  < 2e-16 ***
## number_of_reviews  -0.14101    0.01935  -7.289 3.18e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 183.7 on 38804 degrees of freedom
## Multiple R-squared:  0.001367,   Adjusted R-squared:  0.001342 
## F-statistic: 53.13 on 1 and 38804 DF,  p-value: 3.182e-13
ggplot(model_data, aes(x = price, y = number_of_reviews)) +
  geom_point(alpha = 0.5) +
  geom_abline(intercept = coef(m1)[1], slope = coef(m1)[2], color = "red", linewidth = 1.2) +
  labs(title = "Γραμμική Παλινδρόμηση: Τιμή ~ Αριθμός Κριτικών",
       x = "Τιμή", y = "Αριθμός Κριτικών")

Σχολιασμός:

Το πρώτο μοντέλο βασίζεται αποκλειστικά στον αριθμό των κριτικών. Το είναι πολύ χαμηλό (1.34%), γεγονός που δείχνει ότι η μεταβλητή αυτή από μόνη της δεν εξηγεί επαρκώς την τιμή των καταλυμάτων.

Μοντέλο 2: Τιμή~Αριθμός Κριτικών + Γειτονιά

m2<- lm(price~ number_of_reviews + neighbourhood_group, data = model_data) 
summary(m2)
## 
## Call:
## lm(formula = price ~ number_of_reviews + neighbourhood_group, 
##     data = model_data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -172.9  -64.8  -30.3   24.0 9816.5 
## 
## Coefficients:
##                                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                      83.23258    6.13172  13.574  < 2e-16 ***
## number_of_reviews                -0.11087    0.01903  -5.827 5.68e-09 ***
## neighbourhood_groupBrooklyn      40.89261    6.26132   6.531 6.61e-11 ***
## neighbourhood_groupManhattan     99.88989    6.26000  15.957  < 2e-16 ***
## neighbourhood_groupQueens        14.16071    6.65907   2.127   0.0335 *  
## neighbourhood_groupStaten Island 10.80754   11.87184   0.910   0.3626    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 180.5 on 38800 degrees of freedom
## Multiple R-squared:  0.03626,    Adjusted R-squared:  0.03613 
## F-statistic: 291.9 on 5 and 38800 DF,  p-value: < 2.2e-16

Σχολιασμός: Η προσθήκη της γειτονιάς (neighbourhood_group) στο μοντέλο αυξάνει αισθητά το (3.61%), κάτι που υποδεικνύει ότι η περιοχή επηρεάζει σημαντικά την τιμή.

Μοντέλο 3: Τιμή~Αριθμός Κριτικών + Γειτονιά + Τύπος Δωματίου

m3<- lm(price ~ number_of_reviews + neighbourhood_group + room_type, data = model_data)
summary(m3)
## 
## Call:
## lm(formula = price ~ number_of_reviews + neighbourhood_group + 
##     room_type, data = model_data)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -214.2  -51.7  -18.5   14.5 9878.8 
## 
## Coefficients:
##                                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                       151.66835    5.98167  25.356  < 2e-16 ***
## number_of_reviews                  -0.10228    0.01822  -5.613 2.00e-08 ***
## neighbourhood_groupBrooklyn        25.20960    6.00122   4.201 2.67e-05 ***
## neighbourhood_groupManhattan       73.59604    6.00933  12.247  < 2e-16 ***
## neighbourhood_groupQueens          10.88781    6.37543   1.708   0.0877 .  
## neighbourhood_groupStaten Island   -3.01083   11.36811  -0.265   0.7911    
## room_typePrivate room            -104.47360    1.79850 -58.089  < 2e-16 ***
## room_typeShared room             -127.56024    6.07959 -20.982  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 172.8 on 38798 degrees of freedom
## Multiple R-squared:  0.1169, Adjusted R-squared:  0.1167 
## F-statistic: 733.5 on 7 and 38798 DF,  p-value: < 2.2e-16

Σχολιασμός: Με την εισαγωγή του τύπου δωματίου (room_type), το αυξάνεται ακόμα περισσότερο (11.6%), αποδεικνύοντας ότι αποτελεί βασικό παράγοντα στην τιμολόγηση.

Σύγκριση Μοντέλων: R² και SSE
Μοντέλο R_squared SSE
Τιμή~Ελάχιστο Αριθμό Διανυκτερεύσεων 0.0014 1309322104
Τιμή~Αριθμός Κριτικών + Γειτονιά 0.0363 1263578971
Τιμή~Αριθμός Κριτικών + Γειτονιά + Τύπος Δωματίου 0.1169 1157875110

8.Συμπεράσματα Σύγκρισης Μοντέλων

Συνολικά, η πολυμεταβλητή ανάλυση είναι πιο αποτελεσματική, καθώς αξιοποιεί ταυτόχρονα αριθμητικά και χωρικά χαρακτηριστικά.