Σε αυτή την ανάλυση μελετάμε δεδομένα από την αγορά ακινήτων, με στόχο τη δημιουργία μοντέλων γραμμικής παλινδρόμησης για την πρόβλεψη της τιμής ανά τετραγωνικό μέτρο. Το link για το dataset μπορείτε να το βρείτε εδώ: dataset link. Το dataset περιέχει 414 εγγραφές και απαρτίζεται από 8 διαφορετικές στήλες/χαρακτηριστικά.
| Μεταβλητή (όνομα στο dataset) | Περιγραφή | Μονάδα Μέτρησης |
|---|---|---|
X1 transaction date |
Ημερομηνία συναλλαγής | έτος.μήνας (π.χ. 2012.917) |
X2 house age |
Ηλικία κατοικίας | έτη |
X3 distance to the nearest MRT station |
Απόσταση από κοντινότερο σταθμό μετρό | μέτρα |
X4 number of convenience stores |
Πλήθος κοντινών καταστημάτων (π.χ. μίνι μάρκετ) | αριθμός |
X5 latitude |
Γεωγραφικό πλάτος του ακινήτου | δεκαδικός βαθμός (°) |
X6 longitude |
Γεωγραφικό μήκος του ακινήτου | δεκαδικός βαθμός (°) |
Y house price of unit area |
Τιμή ανά τετραγωνικό μέτρο του ακινήτου | χιλιάδες TWD/m² (ΝΤ$/m²) |
##ΦΟΡΤΩΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΟΥ DATASET
## 'data.frame': 414 obs. of 8 variables:
## $ No : int 1 2 3 4 5 6 7 8 9 10 ...
## $ X1.transaction.date : int 2013 2013 2014 2014 2013 2013 2013 2013 2014 2013 ...
## $ X2.house.age : num 32 19.5 13.3 13.3 5 7.1 34.5 20.3 31.7 17.9 ...
## $ X3.distance.to.the.nearest.MRT.station: num 84.9 306.6 562 562 390.6 ...
## $ X4.number.of.convenience.stores : int 10 9 5 5 5 3 7 6 1 3 ...
## $ X5.latitude : num 25 25 25 25 25 ...
## $ X6.longitude : num 122 122 122 122 122 ...
## $ Y.house.price.of.unit.area : num 37.9 42.2 47.3 54.8 43.1 32.1 40.3 46.7 18.8 22.1 ...
Σε αυτή την ενότητα μελετάμε μερικές από τις πιο ενδιαφέρουσες συσχετίσεις μεταξύ μεταβλητών.
Σχόλιο: Δεν φαίνεται να υπάρχει ξεκάθαρη γραμμική συσχέτιση ανάμεσα στην ηλικία του σπιτιού και την τιμή του. Παρ’ όλα αυτά, διακρίνεται μια τάση τα νεότερα σπίτια (0–10 έτη) να συγκεντρώνουν μερικές από τις υψηλότερες τιμές, αν και υπάρχουν και αρκετές εξαιρέσεις.
Σχόλιο: Υπάρχει σαφής αρνητική συσχέτιση: όσο μικραίνει η απόσταση από τον σταθμό MRT, τόσο αυξάνεται η τιμή ανά τ.μ. Αυτό υποδεικνύει πως η εγγύτητα σε μέσα μαζικής μεταφοράς αποτελεί σημαντικό παράγοντα στην αποτίμηση ακινήτων.
Σχόλιο: Όσο περισσότερα τα καταστήματα στην περιοχή, τόσο μικρότερη τείνει να είναι η απόσταση από MRT — πιθανώς ένδειξη κεντρικότερης τοποθεσίας.
Σχόλιο: Η πλειοψηφία των ακινήτων κινείται μεταξύ 20 και 50 χιλ. NT$/m². Υπάρχει κάποια συγκέντρωση γύρω από τις 40 μονάδες, υποδηλώνοντας τυπική εμπορική αξία ανά περιοχή.
Σχόλιο: Το γράφημα δείχνει τη συνολική κατανομή των συναλλαγών ανά έτος. Παρατηρείται ότι οι περισσότερες αγοραπωλησίες πραγματοποιήθηκαν το 2013, γεγονός που μπορεί να συνδέεται με τάσεις της αγοράς ή φορολογικά/οικονομικά κίνητρα εκείνης της χρονιάς.
y = a + b₁ × Απόσταση από Μετρό
## # A tibble: 414 × 8
## Y.house.price.of.uni…¹ X3.distance.to.the.n…² .fitted .resid .hat .sigma
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 37.9 84.9 45.2 -7.34 0.00393 10.1
## 2 42.2 307. 43.6 -1.42 0.00333 10.1
## 3 47.3 562. 41.8 5.53 0.00283 10.1
## 4 54.8 562. 41.8 13.0 0.00283 10.1
## 5 43.1 391. 43.0 0.0849 0.00315 10.1
## 6 32.1 2175. 30.1 2.04 0.00423 10.1
## 7 40.3 623. 41.3 -1.02 0.00274 10.1
## 8 46.7 288. 43.8 2.94 0.00338 10.1
## 9 18.8 5512. 5.82 13.0 0.0322 10.1
## 10 22.1 1783. 32.9 -10.8 0.00316 10.1
## # ℹ 404 more rows
## # ℹ abbreviated names: ¹Y.house.price.of.unit.area,
## # ²X3.distance.to.the.nearest.MRT.station
## # ℹ 2 more variables: .cooksd <dbl>, .std.resid <dbl>
##
## Call:
## lm(formula = Y.house.price.of.unit.area ~ X3.distance.to.the.nearest.MRT.station,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -35.396 -6.007 -1.195 4.831 73.483
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 45.8514271 0.6526105 70.26 <2e-16
## X3.distance.to.the.nearest.MRT.station -0.0072621 0.0003925 -18.50 <2e-16
##
## (Intercept) ***
## X3.distance.to.the.nearest.MRT.station ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 10.07 on 412 degrees of freedom
## Multiple R-squared: 0.4538, Adjusted R-squared: 0.4524
## F-statistic: 342.2 on 1 and 412 DF, p-value: < 2.2e-16
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.454 0.452 10.1 342. 4.64e-56 1 -1543. 3091. 3103.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 342, RSE: 10.10"
y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.491 0.489 9.73 198. 5.07e-61 2 -1528. 3064. 3080.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 198, RSE: 9.73"
y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.541 0.538 9.25 161. 5.44e-69 3 -1506. 3023. 3043.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 161, RSE: 9.25"
y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.571 0.567 8.95 136. 7.60e-74 4 -1492. 2997. 3021.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 136, RSE: 8.95"
y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος + b₅ × Γεωγραφικό Μήκος
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.571 0.566 8.96 109. 9.34e-73 5 -1492. 2999. 3027.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 109, RSE: 8.96"
y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος + b₅ × Γεωγραφικό Μήκος + b₆ × Έτος Συναλλαγής
## # A tibble: 1 × 12
## r.squared adj.r.squared sigma statistic p.value df logLik AIC BIC
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 0.584 0.578 8.84 95.4 1.88e-74 6 -1486. 2988. 3020.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 95.4, RSE: 8.84"
| Model | R_squared | SSE |
|---|---|---|
| m1 | 0.4538 | 41766.70 |
| m2 | 0.4911 | 38907.62 |
| m3 | 0.5411 | 35090.93 |
| m4 | 0.5711 | 32791.59 |
| m5 | 0.5712 | 32789.57 |
| m6 | 0.5843 | 31782.36 |
Η ανάλυση ανέδειξε ότι:
Η μελέτη καταλήγει στο συμπέρασμα ότι ένα καλά δομημένο μοντέλο παλινδρόμησης μπορεί να αποτελέσει ένα χρήσιμο εργαλείο εκτίμησης της αξίας ακινήτων, με βάση βασικούς παράγοντες της περιοχής.