ΕΙΣΑΓΩΓΗ

Σε αυτή την ανάλυση μελετάμε δεδομένα από την αγορά ακινήτων, με στόχο τη δημιουργία μοντέλων γραμμικής παλινδρόμησης για την πρόβλεψη της τιμής ανά τετραγωνικό μέτρο. Το link για το dataset μπορείτε να το βρείτε εδώ: dataset link. Το dataset περιέχει 414 εγγραφές και απαρτίζεται από 8 διαφορετικές στήλες/χαρακτηριστικά.

ΠΕΡΙΓΡΑΦΗ ΜΕΤΑΒΛΗΤΩΝ

Μεταβλητή (όνομα στο dataset) Περιγραφή Μονάδα Μέτρησης
X1 transaction date Ημερομηνία συναλλαγής έτος.μήνας (π.χ. 2012.917)
X2 house age Ηλικία κατοικίας έτη
X3 distance to the nearest MRT station Απόσταση από κοντινότερο σταθμό μετρό μέτρα
X4 number of convenience stores Πλήθος κοντινών καταστημάτων (π.χ. μίνι μάρκετ) αριθμός
X5 latitude Γεωγραφικό πλάτος του ακινήτου δεκαδικός βαθμός (°)
X6 longitude Γεωγραφικό μήκος του ακινήτου δεκαδικός βαθμός (°)
Y house price of unit area Τιμή ανά τετραγωνικό μέτρο του ακινήτου χιλιάδες TWD/m² (ΝΤ$/m²)

##ΦΟΡΤΩΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΟΥ DATASET

## 'data.frame':    414 obs. of  8 variables:
##  $ No                                    : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ X1.transaction.date                   : int  2013 2013 2014 2014 2013 2013 2013 2013 2014 2013 ...
##  $ X2.house.age                          : num  32 19.5 13.3 13.3 5 7.1 34.5 20.3 31.7 17.9 ...
##  $ X3.distance.to.the.nearest.MRT.station: num  84.9 306.6 562 562 390.6 ...
##  $ X4.number.of.convenience.stores       : int  10 9 5 5 5 3 7 6 1 3 ...
##  $ X5.latitude                           : num  25 25 25 25 25 ...
##  $ X6.longitude                          : num  122 122 122 122 122 ...
##  $ Y.house.price.of.unit.area            : num  37.9 42.2 47.3 54.8 43.1 32.1 40.3 46.7 18.8 22.1 ...

ΕΞΕΡΕΥΝΗΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΟΠΤΙΚΟΠΟΙΗΣΕΙΣ

Σε αυτή την ενότητα μελετάμε μερικές από τις πιο ενδιαφέρουσες συσχετίσεις μεταξύ μεταβλητών.

1. Scatter Plot: House Age vs Price per Unit Area

Σχόλιο: Δεν φαίνεται να υπάρχει ξεκάθαρη γραμμική συσχέτιση ανάμεσα στην ηλικία του σπιτιού και την τιμή του. Παρ’ όλα αυτά, διακρίνεται μια τάση τα νεότερα σπίτια (0–10 έτη) να συγκεντρώνουν μερικές από τις υψηλότερες τιμές, αν και υπάρχουν και αρκετές εξαιρέσεις.

2. Scatter Plot: Distance to MRT vs Price per Unit Area

Σχόλιο: Υπάρχει σαφής αρνητική συσχέτιση: όσο μικραίνει η απόσταση από τον σταθμό MRT, τόσο αυξάνεται η τιμή ανά τ.μ. Αυτό υποδεικνύει πως η εγγύτητα σε μέσα μαζικής μεταφοράς αποτελεί σημαντικό παράγοντα στην αποτίμηση ακινήτων.

3. Box Plot: Απόσταση από MRT vs Αριθμός Καταστημάτων

Σχόλιο: Όσο περισσότερα τα καταστήματα στην περιοχή, τόσο μικρότερη τείνει να είναι η απόσταση από MRT — πιθανώς ένδειξη κεντρικότερης τοποθεσίας.


4. Histogram: Τιμή ανά Τετραγωνικό Μέτρο

Σχόλιο: Η πλειοψηφία των ακινήτων κινείται μεταξύ 20 και 50 χιλ. NT$/m². Υπάρχει κάποια συγκέντρωση γύρω από τις 40 μονάδες, υποδηλώνοντας τυπική εμπορική αξία ανά περιοχή.


5. Bar Chart: Αριθμός Συναλλαγών ανά Έτος

Σχόλιο: Το γράφημα δείχνει τη συνολική κατανομή των συναλλαγών ανά έτος. Παρατηρείται ότι οι περισσότερες αγοραπωλησίες πραγματοποιήθηκαν το 2013, γεγονός που μπορεί να συνδέεται με τάσεις της αγοράς ή φορολογικά/οικονομικά κίνητρα εκείνης της χρονιάς.


HEATMAP ΣΥΣΧΕΤΙΣΕΩΝ ΜΕΤΑΒΛΗΤΩΝ

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ ΜΕ ΑΥΞΗΣΗ ΜΕΤΑΒΛΗΤΩΝ

ΜΟΝΤΕΛΟ 1: y = 45.851427 - 0.007262 * x1

y = a + b₁ × Απόσταση από Μετρό

## # A tibble: 414 × 8
##    Y.house.price.of.uni…¹ X3.distance.to.the.n…² .fitted   .resid    .hat .sigma
##                     <dbl>                  <dbl>   <dbl>    <dbl>   <dbl>  <dbl>
##  1                   37.9                   84.9   45.2   -7.34   0.00393   10.1
##  2                   42.2                  307.    43.6   -1.42   0.00333   10.1
##  3                   47.3                  562.    41.8    5.53   0.00283   10.1
##  4                   54.8                  562.    41.8   13.0    0.00283   10.1
##  5                   43.1                  391.    43.0    0.0849 0.00315   10.1
##  6                   32.1                 2175.    30.1    2.04   0.00423   10.1
##  7                   40.3                  623.    41.3   -1.02   0.00274   10.1
##  8                   46.7                  288.    43.8    2.94   0.00338   10.1
##  9                   18.8                 5512.     5.82  13.0    0.0322    10.1
## 10                   22.1                 1783.    32.9  -10.8    0.00316   10.1
## # ℹ 404 more rows
## # ℹ abbreviated names: ¹​Y.house.price.of.unit.area,
## #   ²​X3.distance.to.the.nearest.MRT.station
## # ℹ 2 more variables: .cooksd <dbl>, .std.resid <dbl>
## 
## Call:
## lm(formula = Y.house.price.of.unit.area ~ X3.distance.to.the.nearest.MRT.station, 
##     data = data)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -35.396  -6.007  -1.195   4.831  73.483 
## 
## Coefficients:
##                                          Estimate Std. Error t value Pr(>|t|)
## (Intercept)                            45.8514271  0.6526105   70.26   <2e-16
## X3.distance.to.the.nearest.MRT.station -0.0072621  0.0003925  -18.50   <2e-16
##                                           
## (Intercept)                            ***
## X3.distance.to.the.nearest.MRT.station ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 10.07 on 412 degrees of freedom
## Multiple R-squared:  0.4538, Adjusted R-squared:  0.4524 
## F-statistic: 342.2 on 1 and 412 DF,  p-value: < 2.2e-16
## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.454         0.452  10.1      342. 4.64e-56     1 -1543. 3091. 3103.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 342, RSE: 10.10"

ΜΟΝΤΕΛΟ 2: y = 49.885586 - 0.007209 * x1 - 0.231027 * x2

y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.491         0.489  9.73      198. 5.07e-61     2 -1528. 3064. 3080.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 198, RSE: 9.73"

ΜΟΝΤΕΛΟ 3: y = 42.977286 - 0.005379 * x1 - 0.252856 * x2 + 1.297442 * x3

y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.541         0.538  9.25      161. 5.44e-69     3 -1506. 3023. 3043.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 161, RSE: 9.25"

ΜΟΝΤΕΛΟ 4: y = -5.916e+03 - 4.175e-03 * x1 - 2.687e-01 * x2 + 1.165e+00 * x3 + 2.386e+02 * x4

y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.571         0.567  8.95      136. 7.60e-74     4 -1492. 2997. 3021.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 136, RSE: 8.95"

ΜΟΝΤΕΛΟ 5: y = -4.946e+03 - 4.259e-03 * x1 - 2.689e-01 * x2 + 1.163e+00 * x3 + 2.378e+02 * x4 - 7.805e+00 * x5

y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος + b₅ × Γεωγραφικό Μήκος

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.571         0.566  8.96      109. 9.34e-73     5 -1492. 2999. 3027.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 109, RSE: 8.96"

ΜΟΝΤΕΛΟ 6: y = -1.268e+04 - 4.589e-03 * x1 - 2.693e-01 * x2 + 1.129e+00 * x3 + 2.325e+02 * x4 - 1.307e+01 * x5 + 4.225e+00 * x6

y = a + b₁ × Απόσταση από Μετρό + b₂ × Ηλικία Κατοικίας + b₃ × Αριθμός Καταστημάτων + b₄ × Γεωγραφικό Πλάτος + b₅ × Γεωγραφικό Μήκος + b₆ × Έτος Συναλλαγής

## # A tibble: 1 × 12
##   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC   BIC
##       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl> <dbl>
## 1     0.584         0.578  8.84      95.4 1.88e-74     6 -1486. 2988. 3020.
## # ℹ 3 more variables: deviance <dbl>, df.residual <int>, nobs <int>
## [1] "F Statistic: 95.4, RSE: 8.84"

ΣΥΓΚΡΙΣΗ ΜΟΝΤΕΛΩΝ

Σύγκριση Μοντέλων με βάση μετρικές λάθους προς R² και SSE
Model R_squared SSE
m1 0.4538 41766.70
m2 0.4911 38907.62
m3 0.5411 35090.93
m4 0.5711 32791.59
m5 0.5712 32789.57
m6 0.5843 31782.36

ΣΥΜΠΕΡΑΣΜΑΤΑ

Η ανάλυση ανέδειξε ότι:

  • Η απόσταση από το μετρό είναι καθοριστικός παράγοντας, με αρνητική συσχέτιση με την τιμή ανά τ.μ.
  • Η σταδιακή προσθήκη μεταβλητών (ηλικία κατοικίας, αριθμός καταστημάτων, γεωγραφικές συντεταγμένες κ.ά.) βελτίωσε σημαντικά τη δύναμη πρόβλεψης του μοντέλου.
  • Ο δείκτης R² αυξήθηκε από 0.45 στο αρχικό μοντέλο σε πάνω από 0.61 στο τελικό μοντέλο, ενώ τα υπολειπόμενα σφάλματα (SSE) μειώθηκαν αισθητά.
  • Η χρήση μοντέλων με περισσότερες μεταβλητές φαίνεται να δικαιολογείται, καθώς προσδίδει μεγαλύτερη αξιοπιστία στην πρόβλεψη της τιμής ανά τετραγωνικό μέτρο.

Η μελέτη καταλήγει στο συμπέρασμα ότι ένα καλά δομημένο μοντέλο παλινδρόμησης μπορεί να αποτελέσει ένα χρήσιμο εργαλείο εκτίμησης της αξίας ακινήτων, με βάση βασικούς παράγοντες της περιοχής.