1. Περιγραφή Dataset

Το dataset “kc_house_data” περιέχει πληροφορίες για πωλήσεις σπιτιών στο King County της Αμερικής από το Μάϊο του 2014 έως το Δεκέμβριο του 2015. Σκοπός αυτής της έρευνας είναι η δημιουργία ενώς μοντέλου που θα βοηθήσει στην αποτοίμηση των ακινήτων της περιοχής.

  library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr     1.1.4     ✔ readr     2.1.5
## ✔ forcats   1.0.0     ✔ stringr   1.5.1
## ✔ ggplot2   3.5.2     ✔ tibble    3.3.0
## ✔ lubridate 1.9.4     ✔ tidyr     1.3.1
## ✔ purrr     1.0.4     
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag()    masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
  library(ggplot2)
  library(dplyr)
  library(readr)
  library(knitr)

2. Εισαγωγή Δεδομένων

  data <- read.csv("C:/Users/maria/Downloads/kc_house_data.csv")

  
  # Αφαίρεση γραμμών με ελλιπή δεδομένα
  data <- na.omit(data)
  
  # Εμφάνιση περιλήψης δεδομένων
  summary(data)
##        id                date               price            bedrooms     
##  Min.   :1.000e+06   Length:15762       Min.   :  82000   Min.   : 1.000  
##  1st Qu.:2.125e+09   Class :character   1st Qu.: 321000   1st Qu.: 3.000  
##  Median :3.905e+09   Mode  :character   Median : 450000   Median : 3.000  
##  Mean   :4.593e+09                      Mean   : 541317   Mean   : 3.379  
##  3rd Qu.:7.335e+09                      3rd Qu.: 644875   3rd Qu.: 4.000  
##  Max.   :9.895e+09                      Max.   :7700000   Max.   :33.000  
##    bathrooms      sqft_living       sqft_lot           floors     
##  Min.   :0.500   Min.   :  370   Min.   :    520   Min.   :1.000  
##  1st Qu.:1.750   1st Qu.: 1430   1st Qu.:   5048   1st Qu.:1.000  
##  Median :2.250   Median : 1920   Median :   7602   Median :1.500  
##  Mean   :2.121   Mean   : 2085   Mean   :  15281   Mean   :1.495  
##  3rd Qu.:2.500   3rd Qu.: 2550   3rd Qu.:  10720   3rd Qu.:2.000  
##  Max.   :8.000   Max.   :13540   Max.   :1651359   Max.   :3.500  
##    waterfront            view        condition         grade       
##  Min.   :0.000000   Min.   :0.00   Min.   :1.000   Min.   : 3.000  
##  1st Qu.:0.000000   1st Qu.:0.00   1st Qu.:3.000   1st Qu.: 7.000  
##  Median :0.000000   Median :0.00   Median :3.000   Median : 7.000  
##  Mean   :0.007613   Mean   :0.23   Mean   :3.411   Mean   : 7.664  
##  3rd Qu.:0.000000   3rd Qu.:0.00   3rd Qu.:4.000   3rd Qu.: 8.000  
##  Max.   :1.000000   Max.   :4.00   Max.   :5.000   Max.   :13.000  
##    sqft_above   sqft_basement         yr_built     yr_renovated    
##  Min.   : 370   Length:15762       Min.   :1900   Min.   :   0.00  
##  1st Qu.:1200   Class :character   1st Qu.:1952   1st Qu.:   0.00  
##  Median :1570   Mode  :character   Median :1975   Median :   0.00  
##  Mean   :1793                      Mean   :1971   Mean   :  82.44  
##  3rd Qu.:2220                      3rd Qu.:1997   3rd Qu.:   0.00  
##  Max.   :9410                      Max.   :2015   Max.   :2015.00  
##     zipcode           lat             long        sqft_living15 
##  Min.   :98001   Min.   :47.16   Min.   :-122.5   Min.   : 399  
##  1st Qu.:98033   1st Qu.:47.47   1st Qu.:-122.3   1st Qu.:1490  
##  Median :98065   Median :47.57   Median :-122.2   Median :1846  
##  Mean   :98078   Mean   :47.56   Mean   :-122.2   Mean   :1990  
##  3rd Qu.:98117   3rd Qu.:47.68   3rd Qu.:-122.1   3rd Qu.:2370  
##  Max.   :98199   Max.   :47.78   Max.   :-121.3   Max.   :6210  
##    sqft_lot15    
##  Min.   :   659  
##  1st Qu.:  5100  
##  Median :  7620  
##  Mean   : 12900  
##  3rd Qu.: 10108  
##  Max.   :871200

Το Dataset περιλαμβάνει 21597 διαφορετικές κατοικίες, με 21 χαρακτηριστικά για το καθε απο αυτά. Τα χαρακτηριστικά αυτά είναι: id: Αριθμητική (integer) - Μοναδικό αναγνωριστικό date: Κατηγορική (character) - Ημερομηνία πώλησης price: Αριθμητική (double) - Τιμή πώλησης (σε USD) bedrooms: Αριθμητική (integer) - Αριθμός υπνοδωματίων bathrooms: Αριθμητική (double) - Αριθμός μπάνιων sqft_living: Αριθμητική (integer) - Τετραγωνικά πόδια κατοικίσιμης επιφάνειας sqft_lot: Αριθμητική (integer) - Τετραγωνικά πόδια οικοπέδου floors: Αριθμητική (double) - Αριθμός ορόφων waterfront: Αριθμητική (integer) - Εάν έχει θέα στη θάλασσα (0/1) view: Αριθμητική (integer) - Βαθμός θέας (0-4) condition: Αριθμητική (integer) - Κατάσταση σπιτιού (1-5) grade: Αριθμητική (integer) - Βαθμός κατασκευής (1-13) sqft_above: Αριθμητική (integer) - Τετρ. πόδια πάνω από το έδαφος sqft_basement: Αριθμητική (integer) - Τετρ. πόδια υπόγειο yr_built: Αριθμητική (integer) - Έτος κατασκευής yr_renovated: Αριθμητική (integer) - Έτος ανακαίνισης (0 αν καμία) zipcode: Κατηγορική (integer) - Ταχυδρομικός κώδικας lat: Αριθμητική (double) - Γεωγραφικό πλάτος long: Αριθμητική (double) - Γεωγραφικό μήκος sqft_living15: Αριθμητική (integer) - Μέσος sqft_living 15 κοντινών σπιτιών sqft_lot15: Αριθμητική (integer) - Μέσος sqft_lot 15 κοντινών σπιτιών

Η μεταβλητή price κυμαίνεται από 82,000 έως 7,700,000 USD, ενώ υπάρχουν μεγάλες διακυμάνσεις σε μεταβλητές όπως sqft_living και sqft_lot.

3. Διαγράμματα

#Boxplot

  ggplot(data, aes(x = factor(condition), y = price, fill = factor(condition)))   +
    geom_boxplot()  + 
    labs(title = "Boxplot Τιμής Πώλησης ανά Κατάσταση Σπιτιού", x = "Κατάσταση", y = "Τιμή Πώλησης") + 
    scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
    theme_minimal()

Τα σπίτια σε καλύτερη κατάσταση (υψηλότερο condition) παρουσιάζουν υψηλότερο μέσο όρο στην τιμή πώλησης και μικρότερη διακύμανση σε σύγκριση με αυτά σε χειρότερη κατάσταση, όπου υπάρχουν και περιπτώσεις με πολύ χαμηλές τιμές.

##Bar Chart

  data_summary <- data %>%
  group_by(bedrooms) %>%
  summarise(mean_price = mean(price, na.rm = TRUE))

  ggplot(data_summary, aes(x = factor(bedrooms), y = mean_price, fill = factor(bedrooms))) + 
    geom_bar(stat = "identity") + 
    labs(title = "Μέση Τιμή Πώλησης ανά Αριθμό Υπνοδωματίων", x = "Υπνοδωμάτια", y = "Μέση Τιμή") +
    scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
    theme_minimal()

Η μέση τιμή πώλησης αυξάνεται με τον αριθμό των υπνοδωματίων μέχρι περίπου 4-5, δίνοντας σημαντική διαφορά στην αξία σπιτιών με περισσότερα δωμάτια.

##Ιστόγραμμα

  ggplot(data, aes(x = price)) +
    geom_histogram(binwidth = 50000, fill = "blue", color = "black") +
    labs(title = "Ιστόγραμμα Τιμών Πώλησης", x = "Τιμή Πώλησης", y = "Συχνότητα") +
    scale_x_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
    theme_minimal()

Η κατανομή των τιμών πώλησης είναι ασύμμετρη με κορυφή γύρω στα 300,000-500,000 USD, αλλά υπάρχει μια ουρά προς υψηλότερες τιμές, πιθανώς από πολυτελή σπίτια.

##Scatterplot

    ggplot(data, aes(x = sqft_living, y = price)) +
      geom_point(aes(color = factor(waterfront)), alpha = 0.5) +
      geom_smooth(method = "lm", color = "red") +
      labs(title = "Συσχέτιση Επιφάνειας Κατοικίας και Τιμής Πώλησης", x= "Τετρ. Πόδια Κατοικίας", y = "Τιμή Πώλησης") + 
      scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
      theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

Υπάρχει ισχυρή θετική συσχέτιση μεταξύ της επιφάνειας κατοικίας και της τιμής πώλησης, με τα σπίτια με θέα στη θάλασσα (waterfront=1) να συγκεντρώνονται σε υψηλότερες τιμές.

4. Γραμμική Παλινδρόμηση

Μοντέλο 1: Πλήρες Μοντέλο Περιλαμβάνει όλες τις αριθμητικές μεταβλητές (εκτός από id, date, zipcode, lat, long που δεν είναι κατάλληλες για το αρχικό μοντέλο).

#Μοντέλο 1: Πλήρες Μοντέλο

    model1 <- lm(price ~ bedrooms + bathrooms + sqft_living + sqft_lot + floors + waterfront + view + condition + grade + sqft_above + sqft_basement + yr_built + yr_renovated + sqft_living15 + sqft_lot15, data = data)
  summary(model1)
## 
## Call:
## lm(formula = price ~ bedrooms + bathrooms + sqft_living + sqft_lot + 
##     floors + waterfront + view + condition + grade + sqft_above + 
##     sqft_basement + yr_built + yr_renovated + sqft_living15 + 
##     sqft_lot15, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1270302  -106499    -8387    87343  4067708 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          6.194e+06  1.602e+05  38.665  < 2e-16 ***
## bedrooms            -3.491e+04  2.314e+03 -15.085  < 2e-16 ***
## bathrooms            4.850e+04  4.073e+03  11.908  < 2e-16 ***
## sqft_living          1.342e+02  2.604e+01   5.152 2.61e-07 ***
## sqft_lot            -3.935e-02  5.765e-02  -0.683 0.494932    
## floors               2.242e+04  4.359e+03   5.143 2.74e-07 ***
## waterfront           5.341e+05  2.213e+04  24.136  < 2e-16 ***
## view                 4.707e+04  2.659e+03  17.704  < 2e-16 ***
## condition            2.126e+04  2.856e+03   7.446 1.01e-13 ***
## grade                1.173e+05  2.608e+03  44.969  < 2e-16 ***
## sqft_above           2.730e+01  2.599e+01   1.050 0.293601    
## sqft_basement0.0    -6.084e+03  1.378e+04  -0.441 0.658920    
## sqft_basement10.0    1.328e+03  2.088e+05   0.006 0.994926    
## sqft_basement100.0   7.099e+04  3.837e+04   1.850 0.064328 .  
## sqft_basement1000.0 -1.350e+04  3.006e+04  -0.449 0.653330    
## sqft_basement1008.0 -1.379e+05  2.095e+05  -0.658 0.510280    
## sqft_basement1010.0  1.663e+04  3.738e+04   0.445 0.656317    
## sqft_basement1020.0  1.016e+05  4.110e+04   2.473 0.013428 *  
## sqft_basement1024.0 -8.343e+05  2.096e+05  -3.980 6.92e-05 ***
## sqft_basement1030.0  1.214e+05  4.353e+04   2.790 0.005283 ** 
## sqft_basement1040.0 -2.674e+04  3.986e+04  -0.671 0.502352    
## sqft_basement1050.0  6.244e+04  4.276e+04   1.460 0.144313    
## sqft_basement1060.0 -2.841e+04  3.857e+04  -0.736 0.461484    
## sqft_basement1070.0 -7.628e+03  4.506e+04  -0.169 0.865579    
## sqft_basement1080.0 -1.831e+03  4.851e+04  -0.038 0.969901    
## sqft_basement1090.0  2.672e+03  4.942e+04   0.054 0.956883    
## sqft_basement110.0   3.587e+04  5.909e+04   0.607 0.543878    
## sqft_basement1100.0  2.688e+04  3.701e+04   0.726 0.467684    
## sqft_basement1110.0  2.670e+04  4.741e+04   0.563 0.573362    
## sqft_basement1120.0  4.854e+04  4.275e+04   1.135 0.256288    
## sqft_basement1130.0  2.937e+03  5.163e+04   0.057 0.954638    
## sqft_basement1135.0 -2.092e+05  2.098e+05  -0.997 0.318710    
## sqft_basement1140.0  3.797e+04  5.496e+04   0.691 0.489661    
## sqft_basement1150.0 -5.593e+02  5.285e+04  -0.011 0.991557    
## sqft_basement1160.0 -1.072e+05  5.517e+04  -1.943 0.052021 .  
## sqft_basement1170.0 -8.240e+04  5.413e+04  -1.522 0.127966    
## sqft_basement1180.0  1.172e+04  5.131e+04   0.229 0.819258    
## sqft_basement1190.0 -2.235e+04  5.677e+04  -0.394 0.693745    
## sqft_basement120.0   6.741e+04  3.685e+04   1.829 0.067363 .  
## sqft_basement1200.0 -5.099e+03  3.833e+04  -0.133 0.894160    
## sqft_basement1210.0 -8.552e+04  5.835e+04  -1.466 0.142769    
## sqft_basement1220.0  3.444e+04  4.940e+04   0.697 0.485728    
## sqft_basement1230.0 -4.075e+04  5.276e+04  -0.772 0.439948    
## sqft_basement1240.0 -7.454e+04  5.869e+04  -1.270 0.204093    
## sqft_basement1245.0 -1.252e+05  2.101e+05  -0.596 0.551191    
## sqft_basement1248.0 -1.534e+05  2.102e+05  -0.730 0.465571    
## sqft_basement1250.0 -3.179e+04  4.452e+04  -0.714 0.475135    
## sqft_basement1260.0  6.291e+04  6.041e+04   1.041 0.297732    
## sqft_basement1270.0  2.674e+04  5.527e+04   0.484 0.628455    
## sqft_basement1280.0  1.127e+05  5.337e+04   2.111 0.034809 *  
## sqft_basement1281.0 -5.150e+05  2.102e+05  -2.450 0.014300 *  
## sqft_basement1284.0 -8.829e+05  2.104e+05  -4.196 2.73e-05 ***
## sqft_basement1290.0 -2.863e+04  6.643e+04  -0.431 0.666460    
## sqft_basement130.0   9.114e+04  4.935e+04   1.847 0.064782 .  
## sqft_basement1300.0 -1.811e+04  4.651e+04  -0.389 0.697048    
## sqft_basement1310.0  1.334e+04  6.909e+04   0.193 0.846867    
## sqft_basement1320.0  1.734e+05  5.700e+04   3.043 0.002349 ** 
## sqft_basement1330.0 -4.404e+02  6.683e+04  -0.007 0.994743    
## sqft_basement1340.0  9.234e+04  7.212e+04   1.280 0.200444    
## sqft_basement1350.0 -1.160e+05  7.221e+04  -1.606 0.108252    
## sqft_basement1360.0  3.528e+04  6.320e+04   0.558 0.576755    
## sqft_basement1370.0  7.106e+04  5.883e+04   1.208 0.227104    
## sqft_basement1380.0  8.163e+04  6.028e+04   1.354 0.175680    
## sqft_basement1390.0  1.586e+05  6.987e+04   2.271 0.023184 *  
## sqft_basement140.0   5.489e+04  3.367e+04   1.630 0.103062    
## sqft_basement1400.0 -3.321e+04  5.118e+04  -0.649 0.516418    
## sqft_basement1410.0 -2.966e+04  7.611e+04  -0.390 0.696714    
## sqft_basement1420.0 -9.751e+04  6.781e+04  -1.438 0.150477    
## sqft_basement143.0   1.603e+05  2.087e+05   0.768 0.442451    
## sqft_basement1430.0  1.141e+05  7.307e+04   1.561 0.118539    
## sqft_basement1440.0 -6.175e+04  7.641e+04  -0.808 0.419002    
## sqft_basement145.0   1.378e+05  1.209e+05   1.140 0.254380    
## sqft_basement1450.0  2.421e+04  6.265e+04   0.386 0.699210    
## sqft_basement1460.0 -3.071e+04  7.658e+04  -0.401 0.688399    
## sqft_basement1470.0  1.019e+05  1.091e+05   0.934 0.350273    
## sqft_basement1480.0  1.182e+05  9.874e+04   1.198 0.231102    
## sqft_basement1481.0 -1.223e+05  2.109e+05  -0.580 0.562105    
## sqft_basement1490.0  3.179e+05  9.131e+04   3.482 0.000500 ***
## sqft_basement150.0   7.629e+04  3.770e+04   2.023 0.043043 *  
## sqft_basement1500.0 -2.161e+04  5.631e+04  -0.384 0.701138    
## sqft_basement1510.0 -6.610e+04  8.555e+04  -0.773 0.439754    
## sqft_basement1520.0  2.659e+05  9.155e+04   2.905 0.003681 ** 
## sqft_basement1525.0 -2.557e+05  2.111e+05  -1.212 0.225710    
## sqft_basement1530.0 -1.845e+05  9.160e+04  -2.014 0.043996 *  
## sqft_basement1540.0 -2.022e+04  7.738e+04  -0.261 0.793905    
## sqft_basement1550.0 -1.554e+04  1.097e+05  -0.142 0.887333    
## sqft_basement1560.0  1.218e+05  1.253e+05   0.973 0.330775    
## sqft_basement1570.0  2.314e+05  9.216e+04   2.511 0.012063 *  
## sqft_basement1580.0 -8.644e+04  8.160e+04  -1.059 0.289455    
## sqft_basement1590.0  1.350e+05  7.483e+04   1.803 0.071340 .  
## sqft_basement160.0   3.252e+04  4.808e+04   0.676 0.498809    
## sqft_basement1600.0  2.223e+05  6.457e+04   3.442 0.000578 ***
## sqft_basement1610.0 -1.924e+05  1.516e+05  -1.269 0.204321    
## sqft_basement1620.0  2.550e+05  1.001e+05   2.549 0.010821 *  
## sqft_basement1630.0  3.687e+05  1.104e+05   3.341 0.000837 ***
## sqft_basement1640.0 -1.259e+05  1.004e+05  -1.253 0.210232    
## sqft_basement1650.0  1.371e+05  8.709e+04   1.574 0.115509    
## sqft_basement1660.0  3.207e+05  9.278e+04   3.457 0.000548 ***
## sqft_basement1670.0 -5.958e+04  1.004e+05  -0.593 0.552952    
## sqft_basement1680.0  9.353e+04  1.005e+05   0.931 0.351908    
## sqft_basement1690.0 -1.381e+05  1.005e+05  -1.373 0.169628    
## sqft_basement170.0   5.488e+04  5.189e+04   1.058 0.290280    
## sqft_basement1700.0 -1.605e+05  1.109e+05  -1.447 0.147976    
## sqft_basement1710.0  1.974e+05  1.263e+05   1.562 0.118223    
## sqft_basement172.0   1.721e+05  2.087e+05   0.824 0.409677    
## sqft_basement1720.0 -6.889e+03  9.342e+04  -0.074 0.941220    
## sqft_basement1730.0  9.483e+04  1.524e+05   0.622 0.533819    
## sqft_basement1740.0 -5.075e+05  2.130e+05  -2.382 0.017213 *  
## sqft_basement1750.0 -1.885e+04  1.266e+05  -0.149 0.881624    
## sqft_basement1760.0  3.827e+05  9.390e+04   4.076 4.61e-05 ***
## sqft_basement1770.0  3.300e+04  2.121e+05   0.156 0.876369    
## sqft_basement1780.0 -1.076e+05  1.015e+05  -1.060 0.288955    
## sqft_basement1790.0  2.201e+05  9.434e+04   2.333 0.019676 *  
## sqft_basement1798.0 -1.584e+05  2.122e+05  -0.746 0.455427    
## sqft_basement180.0   1.041e+05  4.253e+04   2.448 0.014369 *  
## sqft_basement1800.0  2.239e+05  9.430e+04   2.374 0.017600 *  
## sqft_basement1810.0  5.661e+05  2.125e+05   2.664 0.007719 ** 
## sqft_basement1820.0  4.772e+05  1.533e+05   3.113 0.001858 ** 
## sqft_basement1830.0  1.850e+05  1.532e+05   1.208 0.227145    
## sqft_basement1840.0 -1.441e+05  2.124e+05  -0.679 0.497416    
## sqft_basement1850.0  3.260e+04  9.474e+04   0.344 0.730788    
## sqft_basement1852.0 -2.986e+05  2.135e+05  -1.398 0.162009    
## sqft_basement1860.0  4.245e+05  1.534e+05   2.768 0.005651 ** 
## sqft_basement1870.0  3.308e+05  1.024e+05   3.230 0.001240 ** 
## sqft_basement1890.0  1.044e+06  1.534e+05   6.807 1.04e-11 ***
## sqft_basement190.0   5.269e+04  4.182e+04   1.260 0.207661    
## sqft_basement1900.0 -1.469e+05  1.128e+05  -1.302 0.193024    
## sqft_basement1910.0 -3.718e+05  1.536e+05  -2.420 0.015518 *  
## sqft_basement1913.0 -7.317e+05  2.129e+05  -3.437 0.000589 ***
## sqft_basement1920.0  7.623e+05  2.130e+05   3.579 0.000346 ***
## sqft_basement1930.0 -1.394e+05  2.130e+05  -0.654 0.512846    
## sqft_basement1940.0  1.795e+05  1.141e+05   1.573 0.115633    
## sqft_basement1950.0  3.202e+05  1.134e+05   2.823 0.004763 ** 
## sqft_basement1960.0  2.436e+04  2.130e+05   0.114 0.908979    
## sqft_basement1990.0 -2.026e+05  2.134e+05  -0.950 0.342358    
## sqft_basement200.0   4.225e+04  2.694e+04   1.568 0.116848    
## sqft_basement2000.0 -1.619e+04  2.132e+05  -0.076 0.939463    
## sqft_basement2010.0  1.575e+05  2.134e+05   0.738 0.460508    
## sqft_basement2020.0  8.618e+05  1.040e+05   8.285  < 2e-16 ***
## sqft_basement2030.0 -4.960e+05  2.134e+05  -2.325 0.020108 *  
## sqft_basement2040.0 -1.038e+05  1.545e+05  -0.672 0.501701    
## sqft_basement2050.0  2.509e+05  2.145e+05   1.169 0.242240    
## sqft_basement2060.0 -3.706e+05  1.292e+05  -2.869 0.004126 ** 
## sqft_basement207.0   1.272e+05  2.086e+05   0.610 0.542184    
## sqft_basement2070.0 -8.969e+04  1.547e+05  -0.580 0.562203    
## sqft_basement2080.0 -3.176e+05  2.137e+05  -1.486 0.137225    
## sqft_basement2090.0  2.334e+05  2.140e+05   1.091 0.275474    
## sqft_basement210.0   5.452e+04  5.050e+04   1.079 0.280403    
## sqft_basement2100.0 -7.619e+05  2.138e+05  -3.563 0.000368 ***
## sqft_basement2110.0 -4.391e+04  1.550e+05  -0.283 0.776998    
## sqft_basement2120.0 -2.306e+05  2.140e+05  -1.078 0.281114    
## sqft_basement2130.0 -1.477e+05  2.140e+05  -0.690 0.490116    
## sqft_basement2150.0 -9.529e+03  1.555e+05  -0.061 0.951122    
## sqft_basement2160.0  2.285e+05  1.555e+05   1.469 0.141818    
## sqft_basement2170.0  6.273e+05  1.303e+05   4.815 1.49e-06 ***
## sqft_basement2190.0 -4.199e+05  2.143e+05  -1.959 0.050109 .  
## sqft_basement2196.0 -6.258e+05  2.146e+05  -2.916 0.003551 ** 
## sqft_basement220.0   5.355e+04  3.712e+04   1.443 0.149117    
## sqft_basement2200.0  8.213e+05  1.560e+05   5.265 1.42e-07 ***
## sqft_basement2220.0 -1.193e+05  2.144e+05  -0.557 0.577810    
## sqft_basement225.0   2.528e+05  2.086e+05   1.212 0.225705    
## sqft_basement2250.0 -5.136e+04  2.146e+05  -0.239 0.810912    
## sqft_basement230.0   1.505e+05  7.459e+04   2.017 0.043683 *  
## sqft_basement2300.0 -3.914e+05  2.152e+05  -1.819 0.068885 .  
## sqft_basement2310.0  2.006e+06  2.150e+05   9.329  < 2e-16 ***
## sqft_basement2330.0 -2.992e+05  1.570e+05  -1.906 0.056689 .  
## sqft_basement235.0   1.827e+04  1.478e+05   0.124 0.901604    
## sqft_basement2350.0  2.619e+05  2.153e+05   1.216 0.223897    
## sqft_basement2360.0  4.067e+06  2.174e+05  18.706  < 2e-16 ***
## sqft_basement240.0   7.764e+04  3.064e+04   2.534 0.011293 *  
## sqft_basement243.0   1.443e+05  2.087e+05   0.692 0.489207    
## sqft_basement248.0   3.581e+04  2.086e+05   0.172 0.863724    
## sqft_basement2490.0  9.716e+05  2.179e+05   4.459 8.27e-06 ***
## sqft_basement250.0   3.423e+04  3.530e+04   0.970 0.332204    
## sqft_basement2570.0 -9.898e+04  2.168e+05  -0.457 0.648002    
## sqft_basement2580.0  9.282e+04  2.170e+05   0.428 0.668821    
## sqft_basement260.0   4.237e+04  3.755e+04   1.128 0.259246    
## sqft_basement2600.0 -7.659e+05  2.174e+05  -3.523 0.000428 ***
## sqft_basement265.0   1.117e+05  1.478e+05   0.756 0.449845    
## sqft_basement266.0   6.246e+04  2.086e+05   0.299 0.764656    
## sqft_basement270.0   2.845e+04  3.980e+04   0.715 0.474634    
## sqft_basement2720.0 -2.585e+05  2.183e+05  -1.184 0.236409    
## sqft_basement2730.0  1.670e+06  2.180e+05   7.660 1.96e-14 ***
## sqft_basement274.0  -1.656e+04  2.087e+05  -0.079 0.936740    
## sqft_basement280.0   8.689e+04  3.345e+04   2.598 0.009399 ** 
## sqft_basement2810.0 -3.413e+05  2.190e+05  -1.558 0.119153    
## sqft_basement283.0   6.301e+04  2.086e+05   0.302 0.762604    
## sqft_basement2850.0 -6.679e+04  2.190e+05  -0.305 0.760340    
## sqft_basement290.0   7.272e+04  3.192e+04   2.278 0.022740 *  
## sqft_basement295.0   2.780e+04  2.086e+05   0.133 0.893985    
## sqft_basement300.0   2.505e+04  2.399e+04   1.044 0.296500    
## sqft_basement310.0   2.443e+04  3.417e+04   0.715 0.474691    
## sqft_basement320.0   9.225e+04  4.105e+04   2.247 0.024640 *  
## sqft_basement3260.0  1.155e+05  2.223e+05   0.520 0.603336    
## sqft_basement330.0   1.179e+05  3.615e+04   3.261 0.001113 ** 
## sqft_basement340.0  -1.903e+04  3.221e+04  -0.591 0.554616    
## sqft_basement3480.0  4.384e+06  2.255e+05  19.437  < 2e-16 ***
## sqft_basement350.0   1.633e+04  3.222e+04   0.507 0.612274    
## sqft_basement3500.0  7.091e+05  2.255e+05   3.145 0.001666 ** 
## sqft_basement360.0   5.659e+04  2.952e+04   1.917 0.055206 .  
## sqft_basement370.0   4.378e+04  4.175e+04   1.049 0.294419    
## sqft_basement374.0  -1.604e+05  2.087e+05  -0.768 0.442256    
## sqft_basement380.0   3.136e+04  3.320e+04   0.944 0.344950    
## sqft_basement390.0   3.020e+04  3.816e+04   0.791 0.428708    
## sqft_basement40.0    6.582e+03  1.050e+05   0.063 0.950035    
## sqft_basement400.0   3.436e+04  2.100e+04   1.636 0.101888    
## sqft_basement410.0  -1.118e+04  5.191e+04  -0.215 0.829489    
## sqft_basement4130.0 -7.356e+05  2.326e+05  -3.162 0.001571 ** 
## sqft_basement414.0   1.500e+05  1.478e+05   1.015 0.310230    
## sqft_basement415.0   1.977e+05  2.087e+05   0.948 0.343388    
## sqft_basement417.0  -6.044e+05  2.087e+05  -2.896 0.003782 ** 
## sqft_basement420.0   3.403e+04  2.886e+04   1.179 0.238294    
## sqft_basement430.0   4.654e+04  3.398e+04   1.370 0.170812    
## sqft_basement435.0   1.796e+05  2.087e+05   0.861 0.389446    
## sqft_basement440.0   1.805e+04  3.039e+04   0.594 0.552687    
## sqft_basement450.0   2.652e+04  2.682e+04   0.989 0.322837    
## sqft_basement460.0  -2.099e+04  3.407e+04  -0.616 0.537910    
## sqft_basement470.0   1.907e+03  3.641e+04   0.052 0.958235    
## sqft_basement475.0   2.179e+05  2.089e+05   1.043 0.297039    
## sqft_basement480.0   2.141e+04  2.768e+04   0.773 0.439241    
## sqft_basement4820.0  1.672e+06  2.402e+05   6.962 3.50e-12 ***
## sqft_basement490.0  -8.543e+03  4.523e+04  -0.189 0.850168    
## sqft_basement50.0    6.849e+04  7.484e+04   0.915 0.360107    
## sqft_basement500.0  -1.292e+04  2.118e+04  -0.610 0.541908    
## sqft_basement506.0  -8.844e+04  2.087e+05  -0.424 0.671790    
## sqft_basement508.0   3.283e+05  2.087e+05   1.573 0.115787    
## sqft_basement510.0   1.326e+04  3.796e+04   0.349 0.726802    
## sqft_basement515.0  -8.699e+04  2.087e+05  -0.417 0.676850    
## sqft_basement516.0  -1.266e+05  2.087e+05  -0.607 0.544099    
## sqft_basement518.0   8.222e+04  2.087e+05   0.394 0.693659    
## sqft_basement520.0   4.009e+04  3.114e+04   1.287 0.198006    
## sqft_basement530.0  -8.377e+02  2.657e+04  -0.032 0.974853    
## sqft_basement540.0   1.676e+04  3.405e+04   0.492 0.622518    
## sqft_basement550.0  -3.663e+04  3.131e+04  -1.170 0.241975    
## sqft_basement560.0   7.826e+04  3.722e+04   2.103 0.035523 *  
## sqft_basement570.0   3.047e+04  3.455e+04   0.882 0.377779    
## sqft_basement580.0   2.978e+04  2.826e+04   1.054 0.292053    
## sqft_basement588.0  -1.645e+05  2.098e+05  -0.784 0.433049    
## sqft_basement590.0  -2.302e+04  3.989e+04  -0.577 0.563845    
## sqft_basement60.0    1.166e+05  1.210e+05   0.964 0.335049    
## sqft_basement600.0  -7.575e+03  2.180e+04  -0.347 0.728232    
## sqft_basement602.0  -1.826e+05  2.088e+05  -0.874 0.381949    
## sqft_basement610.0   6.164e+04  3.944e+04   1.563 0.118087    
## sqft_basement620.0   1.947e+04  2.953e+04   0.659 0.509752    
## sqft_basement630.0  -3.405e+04  3.307e+04  -1.030 0.303138    
## sqft_basement640.0  -3.597e+04  3.287e+04  -1.094 0.273863    
## sqft_basement650.0  -8.920e+01  3.172e+04  -0.003 0.997756    
## sqft_basement652.0   1.779e+05  2.088e+05   0.852 0.394293    
## sqft_basement660.0   2.541e+04  3.825e+04   0.664 0.506454    
## sqft_basement666.0  -4.139e+05  2.089e+05  -1.982 0.047518 *  
## sqft_basement670.0   2.483e+04  3.258e+04   0.762 0.446069    
## sqft_basement680.0  -1.731e+04  3.091e+04  -0.560 0.575555    
## sqft_basement690.0   5.008e+04  3.941e+04   1.271 0.203751    
## sqft_basement70.0    3.055e+04  1.050e+05   0.291 0.771091    
## sqft_basement700.0   1.190e+03  2.316e+04   0.051 0.959012    
## sqft_basement710.0   3.994e+04  4.379e+04   0.912 0.361790    
## sqft_basement720.0  -3.259e+04  2.987e+04  -1.091 0.275197    
## sqft_basement730.0  -2.781e+03  3.499e+04  -0.079 0.936654    
## sqft_basement740.0  -1.210e+04  3.293e+04  -0.367 0.713271    
## sqft_basement750.0  -1.969e+04  2.830e+04  -0.696 0.486614    
## sqft_basement760.0  -2.471e+04  3.466e+04  -0.713 0.475853    
## sqft_basement768.0  -5.906e+05  2.091e+05  -2.824 0.004743 ** 
## sqft_basement770.0   7.052e+03  3.421e+04   0.206 0.836682    
## sqft_basement780.0  -1.942e+04  3.264e+04  -0.595 0.551863    
## sqft_basement784.0  -1.917e+05  2.090e+05  -0.917 0.358961    
## sqft_basement790.0   3.046e+04  3.583e+04   0.850 0.395133    
## sqft_basement80.0    8.918e+04  5.371e+04   1.661 0.096830 .  
## sqft_basement800.0  -7.239e+03  2.482e+04  -0.292 0.770546    
## sqft_basement810.0  -9.894e+03  3.772e+04  -0.262 0.793112    
## sqft_basement820.0  -4.441e+04  3.675e+04  -1.208 0.226919    
## sqft_basement830.0  -1.848e+04  3.590e+04  -0.515 0.606773    
## sqft_basement840.0  -1.452e+04  3.230e+04  -0.450 0.653066    
## sqft_basement850.0   2.685e+04  3.404e+04   0.789 0.430187    
## sqft_basement860.0   7.664e+03  3.290e+04   0.233 0.815772    
## sqft_basement861.0  -3.400e+05  2.091e+05  -1.626 0.104005    
## sqft_basement862.0  -2.330e+05  2.092e+05  -1.114 0.265427    
## sqft_basement870.0  -2.390e+04  3.793e+04  -0.630 0.528633    
## sqft_basement875.0  -6.752e+05  2.102e+05  -3.212 0.001320 ** 
## sqft_basement880.0   5.106e+04  3.458e+04   1.477 0.139827    
## sqft_basement890.0   1.688e+03  3.713e+04   0.045 0.963735    
## sqft_basement90.0    4.480e+04  5.713e+04   0.784 0.432929    
## sqft_basement900.0  -1.788e+04  2.841e+04  -0.629 0.529178    
## sqft_basement906.0  -5.030e+03  2.093e+05  -0.024 0.980828    
## sqft_basement910.0  -1.951e+04  3.472e+04  -0.562 0.574149    
## sqft_basement920.0  -3.729e+04  3.715e+04  -1.004 0.315437    
## sqft_basement930.0  -4.995e+03  4.144e+04  -0.121 0.904064    
## sqft_basement935.0   8.329e+04  2.094e+05   0.398 0.690754    
## sqft_basement940.0  -2.500e+04  3.528e+04  -0.709 0.478572    
## sqft_basement950.0  -2.648e+04  3.780e+04  -0.701 0.483595    
## sqft_basement960.0  -1.648e+04  3.676e+04  -0.448 0.653981    
## sqft_basement970.0  -4.192e+04  4.739e+04  -0.885 0.376393    
## sqft_basement980.0   4.041e+04  4.026e+04   1.004 0.315457    
## sqft_basement990.0   2.898e+04  3.962e+04   0.732 0.464467    
## yr_built            -3.567e+03  8.182e+01 -43.595  < 2e-16 ***
## yr_renovated         5.407e+00  4.520e+00   1.196 0.231572    
## sqft_living15        2.370e+01  4.156e+00   5.702 1.20e-08 ***
## sqft_lot15          -4.343e-01  8.738e-02  -4.970 6.77e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 208300 on 15465 degrees of freedom
## Multiple R-squared:  0.6928, Adjusted R-squared:  0.6869 
## F-statistic: 117.8 on 296 and 15465 DF,  p-value: < 2.2e-16

Το μοντέλο εξηγεί περίπου το 70% της διακύμανσης των τιμών, αλλά αρκετές μεταβλητές (π.χ., sqft_above, sqft_basement) δεν είναι στατιστικά σημαντικές.

##Μοντέλο 2: Αφαίρεση ασήμαντων μεταβλητών

    model2 <- lm(price ~ bedrooms + bathrooms + sqft_living + floors + waterfront + view + condition + grade + sqft_lot  + yr_built + sqft_living15 + sqft_lot15 + yr_renovated, data = data)
  summary(model2)
## 
## Call:
## lm(formula = price ~ bedrooms + bathrooms + sqft_living + floors + 
##     waterfront + view + condition + grade + sqft_lot + yr_built + 
##     sqft_living15 + sqft_lot15 + yr_renovated, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1193103  -109475   -10013    91366  4195406 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    6.334e+06  1.628e+05  38.912  < 2e-16 ***
## bedrooms      -4.116e+04  2.376e+03 -17.323  < 2e-16 ***
## bathrooms      4.887e+04  4.088e+03  11.955  < 2e-16 ***
## sqft_living    1.733e+02  4.233e+00  40.940  < 2e-16 ***
## floors         2.546e+04  4.071e+03   6.255 4.07e-10 ***
## waterfront     6.047e+05  2.202e+04  27.460  < 2e-16 ***
## view           4.383e+04  2.667e+03  16.432  < 2e-16 ***
## condition      1.849e+04  2.948e+03   6.271 3.68e-10 ***
## grade          1.179e+05  2.670e+03  44.149  < 2e-16 ***
## sqft_lot      -4.383e-02  6.000e-02  -0.730 0.465114    
## yr_built      -3.634e+03  8.355e+01 -43.501  < 2e-16 ***
## sqft_living15  1.612e+01  4.195e+00   3.842 0.000122 ***
## sqft_lot15    -4.895e-01  9.037e-02  -5.417 6.16e-08 ***
## yr_renovated   1.027e+01  4.673e+00   2.198 0.027992 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 218400 on 15748 degrees of freedom
## Multiple R-squared:  0.656,  Adjusted R-squared:  0.6558 
## F-statistic:  2311 on 13 and 15748 DF,  p-value: < 2.2e-16

##Μοντέλο 3: Περαιτέρω απλοποίηση

    model3 <- lm(price ~ bathrooms + sqft_living + waterfront + view + condition + grade + floors +  yr_built + bedrooms + sqft_living15, data = data)
  summary(model3)
## 
## Call:
## lm(formula = price ~ bathrooms + sqft_living + waterfront + view + 
##     condition + grade + floors + yr_built + bedrooms + sqft_living15, 
##     data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1195648  -109016   -10101    91405  4233697 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    6.526e+06  1.542e+05  42.328  < 2e-16 ***
## bathrooms      5.178e+04  4.056e+03  12.766  < 2e-16 ***
## sqft_living    1.685e+02  4.199e+00  40.125  < 2e-16 ***
## waterfront     6.078e+05  2.204e+04  27.578  < 2e-16 ***
## view           4.368e+04  2.672e+03  16.348  < 2e-16 ***
## condition      1.719e+04  2.912e+03   5.903 3.65e-09 ***
## grade          1.192e+05  2.672e+03  44.602  < 2e-16 ***
## floors         2.822e+04  4.067e+03   6.939 4.10e-12 ***
## yr_built      -3.738e+03  7.931e+01 -47.129  < 2e-16 ***
## bedrooms      -3.956e+04  2.371e+03 -16.685  < 2e-16 ***
## sqft_living15  1.337e+01  4.188e+00   3.193  0.00141 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 218900 on 15751 degrees of freedom
## Multiple R-squared:  0.6544, Adjusted R-squared:  0.6542 
## F-statistic:  2983 on 10 and 15751 DF,  p-value: < 2.2e-16

Αφαιρούμε επιπλέον ασήμαντες μεταβλητές: bedrooms, floors, sqft_lot15.

#Μοντέλο 4: Τελικό Μοντέλο

    model4 <- lm(price ~ sqft_living + waterfront + view + grade + yr_built + sqft_living15, data = data)
  summary(model4)
## 
## Call:
## lm(formula = price ~ sqft_living + waterfront + view + grade + 
##     yr_built + sqft_living15, data = data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1209803  -114769    -7686    93670  4425925 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    5.680e+06  1.298e+05  43.757   <2e-16 ***
## sqft_living    1.693e+02  3.393e+00  49.892   <2e-16 ***
## waterfront     6.267e+05  2.235e+04  28.046   <2e-16 ***
## view           4.702e+04  2.703e+03  17.395   <2e-16 ***
## grade          1.324e+05  2.614e+03  50.647   <2e-16 ***
## yr_built      -3.314e+03  6.869e+01 -48.247   <2e-16 ***
## sqft_living15  5.826e+00  4.214e+00   1.382    0.167    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 222300 on 15755 degrees of freedom
## Multiple R-squared:  0.6435, Adjusted R-squared:  0.6434 
## F-statistic:  4741 on 6 and 15755 DF,  p-value: < 2.2e-16

Το μοντέλο είναι το πιο απλό με ελάχιστη απώλεια στο R².

##5 Δημιουργία πίνακα σύγκρισης

    comparison <- data.frame(
    Model = c("Μοντέλο 1", "Μοντέλο 2", "Μοντέλο 3", "Μοντέλο 4"),
    R_squared = c(summary(model1)$r.squared, summary(model2)$r.squared, 
                  summary(model3)$r.squared, summary(model4)$r.squared),
    Adjusted_R_squared = c(summary(model1)$adj.r.squared, summary(model2)$adj.r.squared, 
                          summary(model3)$adj.r.squared, summary(model4)$adj.r.squared),
    SSE = c(sum(resid(model1)^2), sum(resid(model2)^2), 
            sum(resid(model3)^2), sum(resid(model4)^2))
  )
  
  kable(comparison, caption = "Σύγκριση Μοντέλων Γραμμικής Παλινδρόμησης", 
        digits = 3, align = "c")
Σύγκριση Μοντέλων Γραμμικής Παλινδρόμησης
Model R_squared Adjusted_R_squared SSE
Μοντέλο 1 0.693 0.687 6.708223e+14
Μοντέλο 2 0.656 0.656 7.511004e+14
Μοντέλο 3 0.654 0.654 7.546629e+14
Μοντέλο 4 0.644 0.643 7.783872e+14

Το Μοντέλο 1 έχει το υψηλότερο R² και το χαμηλότερο SSE, αλλά περιλαμβάνει πολλές ασήμαντες μεταβλητές, καθιστώντας το υπερβολικά πολύπλοκο. Το Μοντέλο 4 προσφέρει σχετικά μικρότερη απόδοση με το Μοντέλο 1, αλλά με λιγότερες μεταβλητές. Το SSE αυξάνεται κατα 1 μοναδα από το Μοντέλο 1 στο Μοντέλο 4, αλλά η διαφορά είναι μικρή σε σχέση με τη μείωση της πολυπλοκότητας.

##Συμπερασμα

Η τιμή πώλησης σπιτιών επηρεάζεται σημαντικά από το μέγεθος (sqft_living), τη θέα (view, waterfront), το βαθμό κατασκευής (grade) και το έτος κατασκευής(yr_built) και άλλα. Πιστεύω πως παρόλλο που το Μοντέλο 4 προσφέρει ισορροπία μεταξύ ακρίβειας και απλότητας, το Μοντέλο 3 με ελάχιστα περισσότερους παραμέτρους παράγει ποιό ποιο ολοκληρομένες προβλέψεις καθιστώντας το ιδανικό.