Το dataset “kc_house_data” περιέχει πληροφορίες για πωλήσεις σπιτιών στο King County της Αμερικής από το Μάϊο του 2014 έως το Δεκέμβριο του 2015. Σκοπός αυτής της έρευνας είναι η δημιουργία ενώς μοντέλου που θα βοηθήσει στην αποτοίμηση των ακινήτων της περιοχής.
library(tidyverse)
## ── Attaching core tidyverse packages ──────────────────────── tidyverse 2.0.0 ──
## ✔ dplyr 1.1.4 ✔ readr 2.1.5
## ✔ forcats 1.0.0 ✔ stringr 1.5.1
## ✔ ggplot2 3.5.2 ✔ tibble 3.3.0
## ✔ lubridate 1.9.4 ✔ tidyr 1.3.1
## ✔ purrr 1.0.4
## ── Conflicts ────────────────────────────────────────── tidyverse_conflicts() ──
## ✖ dplyr::filter() masks stats::filter()
## ✖ dplyr::lag() masks stats::lag()
## ℹ Use the conflicted package (<http://conflicted.r-lib.org/>) to force all conflicts to become errors
library(ggplot2)
library(dplyr)
library(readr)
library(knitr)
data <- read.csv("C:/Users/maria/Downloads/kc_house_data.csv")
# Αφαίρεση γραμμών με ελλιπή δεδομένα
data <- na.omit(data)
# Εμφάνιση περιλήψης δεδομένων
summary(data)
## id date price bedrooms
## Min. :1.000e+06 Length:15762 Min. : 82000 Min. : 1.000
## 1st Qu.:2.125e+09 Class :character 1st Qu.: 321000 1st Qu.: 3.000
## Median :3.905e+09 Mode :character Median : 450000 Median : 3.000
## Mean :4.593e+09 Mean : 541317 Mean : 3.379
## 3rd Qu.:7.335e+09 3rd Qu.: 644875 3rd Qu.: 4.000
## Max. :9.895e+09 Max. :7700000 Max. :33.000
## bathrooms sqft_living sqft_lot floors
## Min. :0.500 Min. : 370 Min. : 520 Min. :1.000
## 1st Qu.:1.750 1st Qu.: 1430 1st Qu.: 5048 1st Qu.:1.000
## Median :2.250 Median : 1920 Median : 7602 Median :1.500
## Mean :2.121 Mean : 2085 Mean : 15281 Mean :1.495
## 3rd Qu.:2.500 3rd Qu.: 2550 3rd Qu.: 10720 3rd Qu.:2.000
## Max. :8.000 Max. :13540 Max. :1651359 Max. :3.500
## waterfront view condition grade
## Min. :0.000000 Min. :0.00 Min. :1.000 Min. : 3.000
## 1st Qu.:0.000000 1st Qu.:0.00 1st Qu.:3.000 1st Qu.: 7.000
## Median :0.000000 Median :0.00 Median :3.000 Median : 7.000
## Mean :0.007613 Mean :0.23 Mean :3.411 Mean : 7.664
## 3rd Qu.:0.000000 3rd Qu.:0.00 3rd Qu.:4.000 3rd Qu.: 8.000
## Max. :1.000000 Max. :4.00 Max. :5.000 Max. :13.000
## sqft_above sqft_basement yr_built yr_renovated
## Min. : 370 Length:15762 Min. :1900 Min. : 0.00
## 1st Qu.:1200 Class :character 1st Qu.:1952 1st Qu.: 0.00
## Median :1570 Mode :character Median :1975 Median : 0.00
## Mean :1793 Mean :1971 Mean : 82.44
## 3rd Qu.:2220 3rd Qu.:1997 3rd Qu.: 0.00
## Max. :9410 Max. :2015 Max. :2015.00
## zipcode lat long sqft_living15
## Min. :98001 Min. :47.16 Min. :-122.5 Min. : 399
## 1st Qu.:98033 1st Qu.:47.47 1st Qu.:-122.3 1st Qu.:1490
## Median :98065 Median :47.57 Median :-122.2 Median :1846
## Mean :98078 Mean :47.56 Mean :-122.2 Mean :1990
## 3rd Qu.:98117 3rd Qu.:47.68 3rd Qu.:-122.1 3rd Qu.:2370
## Max. :98199 Max. :47.78 Max. :-121.3 Max. :6210
## sqft_lot15
## Min. : 659
## 1st Qu.: 5100
## Median : 7620
## Mean : 12900
## 3rd Qu.: 10108
## Max. :871200
Το Dataset περιλαμβάνει 21597 διαφορετικές κατοικίες, με 21 χαρακτηριστικά για το καθε απο αυτά. Τα χαρακτηριστικά αυτά είναι: id: Αριθμητική (integer) - Μοναδικό αναγνωριστικό date: Κατηγορική (character) - Ημερομηνία πώλησης price: Αριθμητική (double) - Τιμή πώλησης (σε USD) bedrooms: Αριθμητική (integer) - Αριθμός υπνοδωματίων bathrooms: Αριθμητική (double) - Αριθμός μπάνιων sqft_living: Αριθμητική (integer) - Τετραγωνικά πόδια κατοικίσιμης επιφάνειας sqft_lot: Αριθμητική (integer) - Τετραγωνικά πόδια οικοπέδου floors: Αριθμητική (double) - Αριθμός ορόφων waterfront: Αριθμητική (integer) - Εάν έχει θέα στη θάλασσα (0/1) view: Αριθμητική (integer) - Βαθμός θέας (0-4) condition: Αριθμητική (integer) - Κατάσταση σπιτιού (1-5) grade: Αριθμητική (integer) - Βαθμός κατασκευής (1-13) sqft_above: Αριθμητική (integer) - Τετρ. πόδια πάνω από το έδαφος sqft_basement: Αριθμητική (integer) - Τετρ. πόδια υπόγειο yr_built: Αριθμητική (integer) - Έτος κατασκευής yr_renovated: Αριθμητική (integer) - Έτος ανακαίνισης (0 αν καμία) zipcode: Κατηγορική (integer) - Ταχυδρομικός κώδικας lat: Αριθμητική (double) - Γεωγραφικό πλάτος long: Αριθμητική (double) - Γεωγραφικό μήκος sqft_living15: Αριθμητική (integer) - Μέσος sqft_living 15 κοντινών σπιτιών sqft_lot15: Αριθμητική (integer) - Μέσος sqft_lot 15 κοντινών σπιτιών
Η μεταβλητή price κυμαίνεται από 82,000 έως 7,700,000 USD, ενώ υπάρχουν μεγάλες διακυμάνσεις σε μεταβλητές όπως sqft_living και sqft_lot.
#Boxplot
ggplot(data, aes(x = factor(condition), y = price, fill = factor(condition))) +
geom_boxplot() +
labs(title = "Boxplot Τιμής Πώλησης ανά Κατάσταση Σπιτιού", x = "Κατάσταση", y = "Τιμή Πώλησης") +
scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
theme_minimal()
Τα σπίτια σε καλύτερη κατάσταση (υψηλότερο condition) παρουσιάζουν υψηλότερο μέσο όρο στην τιμή πώλησης και μικρότερη διακύμανση σε σύγκριση με αυτά σε χειρότερη κατάσταση, όπου υπάρχουν και περιπτώσεις με πολύ χαμηλές τιμές.
##Bar Chart
data_summary <- data %>%
group_by(bedrooms) %>%
summarise(mean_price = mean(price, na.rm = TRUE))
ggplot(data_summary, aes(x = factor(bedrooms), y = mean_price, fill = factor(bedrooms))) +
geom_bar(stat = "identity") +
labs(title = "Μέση Τιμή Πώλησης ανά Αριθμό Υπνοδωματίων", x = "Υπνοδωμάτια", y = "Μέση Τιμή") +
scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
theme_minimal()
Η μέση τιμή πώλησης αυξάνεται με τον αριθμό των υπνοδωματίων μέχρι περίπου 4-5, δίνοντας σημαντική διαφορά στην αξία σπιτιών με περισσότερα δωμάτια.
##Ιστόγραμμα
ggplot(data, aes(x = price)) +
geom_histogram(binwidth = 50000, fill = "blue", color = "black") +
labs(title = "Ιστόγραμμα Τιμών Πώλησης", x = "Τιμή Πώλησης", y = "Συχνότητα") +
scale_x_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
theme_minimal()
Η κατανομή των τιμών πώλησης είναι ασύμμετρη με κορυφή γύρω στα 300,000-500,000 USD, αλλά υπάρχει μια ουρά προς υψηλότερες τιμές, πιθανώς από πολυτελή σπίτια.
##Scatterplot
ggplot(data, aes(x = sqft_living, y = price)) +
geom_point(aes(color = factor(waterfront)), alpha = 0.5) +
geom_smooth(method = "lm", color = "red") +
labs(title = "Συσχέτιση Επιφάνειας Κατοικίας και Τιμής Πώλησης", x= "Τετρ. Πόδια Κατοικίας", y = "Τιμή Πώλησης") +
scale_y_continuous(labels = scales::comma_format(scale = 1e-3, suffix = "K")) +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
Υπάρχει ισχυρή θετική συσχέτιση μεταξύ της επιφάνειας κατοικίας και της τιμής πώλησης, με τα σπίτια με θέα στη θάλασσα (waterfront=1) να συγκεντρώνονται σε υψηλότερες τιμές.
Μοντέλο 1: Πλήρες Μοντέλο Περιλαμβάνει όλες τις αριθμητικές μεταβλητές (εκτός από id, date, zipcode, lat, long που δεν είναι κατάλληλες για το αρχικό μοντέλο).
#Μοντέλο 1: Πλήρες Μοντέλο
model1 <- lm(price ~ bedrooms + bathrooms + sqft_living + sqft_lot + floors + waterfront + view + condition + grade + sqft_above + sqft_basement + yr_built + yr_renovated + sqft_living15 + sqft_lot15, data = data)
summary(model1)
##
## Call:
## lm(formula = price ~ bedrooms + bathrooms + sqft_living + sqft_lot +
## floors + waterfront + view + condition + grade + sqft_above +
## sqft_basement + yr_built + yr_renovated + sqft_living15 +
## sqft_lot15, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1270302 -106499 -8387 87343 4067708
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.194e+06 1.602e+05 38.665 < 2e-16 ***
## bedrooms -3.491e+04 2.314e+03 -15.085 < 2e-16 ***
## bathrooms 4.850e+04 4.073e+03 11.908 < 2e-16 ***
## sqft_living 1.342e+02 2.604e+01 5.152 2.61e-07 ***
## sqft_lot -3.935e-02 5.765e-02 -0.683 0.494932
## floors 2.242e+04 4.359e+03 5.143 2.74e-07 ***
## waterfront 5.341e+05 2.213e+04 24.136 < 2e-16 ***
## view 4.707e+04 2.659e+03 17.704 < 2e-16 ***
## condition 2.126e+04 2.856e+03 7.446 1.01e-13 ***
## grade 1.173e+05 2.608e+03 44.969 < 2e-16 ***
## sqft_above 2.730e+01 2.599e+01 1.050 0.293601
## sqft_basement0.0 -6.084e+03 1.378e+04 -0.441 0.658920
## sqft_basement10.0 1.328e+03 2.088e+05 0.006 0.994926
## sqft_basement100.0 7.099e+04 3.837e+04 1.850 0.064328 .
## sqft_basement1000.0 -1.350e+04 3.006e+04 -0.449 0.653330
## sqft_basement1008.0 -1.379e+05 2.095e+05 -0.658 0.510280
## sqft_basement1010.0 1.663e+04 3.738e+04 0.445 0.656317
## sqft_basement1020.0 1.016e+05 4.110e+04 2.473 0.013428 *
## sqft_basement1024.0 -8.343e+05 2.096e+05 -3.980 6.92e-05 ***
## sqft_basement1030.0 1.214e+05 4.353e+04 2.790 0.005283 **
## sqft_basement1040.0 -2.674e+04 3.986e+04 -0.671 0.502352
## sqft_basement1050.0 6.244e+04 4.276e+04 1.460 0.144313
## sqft_basement1060.0 -2.841e+04 3.857e+04 -0.736 0.461484
## sqft_basement1070.0 -7.628e+03 4.506e+04 -0.169 0.865579
## sqft_basement1080.0 -1.831e+03 4.851e+04 -0.038 0.969901
## sqft_basement1090.0 2.672e+03 4.942e+04 0.054 0.956883
## sqft_basement110.0 3.587e+04 5.909e+04 0.607 0.543878
## sqft_basement1100.0 2.688e+04 3.701e+04 0.726 0.467684
## sqft_basement1110.0 2.670e+04 4.741e+04 0.563 0.573362
## sqft_basement1120.0 4.854e+04 4.275e+04 1.135 0.256288
## sqft_basement1130.0 2.937e+03 5.163e+04 0.057 0.954638
## sqft_basement1135.0 -2.092e+05 2.098e+05 -0.997 0.318710
## sqft_basement1140.0 3.797e+04 5.496e+04 0.691 0.489661
## sqft_basement1150.0 -5.593e+02 5.285e+04 -0.011 0.991557
## sqft_basement1160.0 -1.072e+05 5.517e+04 -1.943 0.052021 .
## sqft_basement1170.0 -8.240e+04 5.413e+04 -1.522 0.127966
## sqft_basement1180.0 1.172e+04 5.131e+04 0.229 0.819258
## sqft_basement1190.0 -2.235e+04 5.677e+04 -0.394 0.693745
## sqft_basement120.0 6.741e+04 3.685e+04 1.829 0.067363 .
## sqft_basement1200.0 -5.099e+03 3.833e+04 -0.133 0.894160
## sqft_basement1210.0 -8.552e+04 5.835e+04 -1.466 0.142769
## sqft_basement1220.0 3.444e+04 4.940e+04 0.697 0.485728
## sqft_basement1230.0 -4.075e+04 5.276e+04 -0.772 0.439948
## sqft_basement1240.0 -7.454e+04 5.869e+04 -1.270 0.204093
## sqft_basement1245.0 -1.252e+05 2.101e+05 -0.596 0.551191
## sqft_basement1248.0 -1.534e+05 2.102e+05 -0.730 0.465571
## sqft_basement1250.0 -3.179e+04 4.452e+04 -0.714 0.475135
## sqft_basement1260.0 6.291e+04 6.041e+04 1.041 0.297732
## sqft_basement1270.0 2.674e+04 5.527e+04 0.484 0.628455
## sqft_basement1280.0 1.127e+05 5.337e+04 2.111 0.034809 *
## sqft_basement1281.0 -5.150e+05 2.102e+05 -2.450 0.014300 *
## sqft_basement1284.0 -8.829e+05 2.104e+05 -4.196 2.73e-05 ***
## sqft_basement1290.0 -2.863e+04 6.643e+04 -0.431 0.666460
## sqft_basement130.0 9.114e+04 4.935e+04 1.847 0.064782 .
## sqft_basement1300.0 -1.811e+04 4.651e+04 -0.389 0.697048
## sqft_basement1310.0 1.334e+04 6.909e+04 0.193 0.846867
## sqft_basement1320.0 1.734e+05 5.700e+04 3.043 0.002349 **
## sqft_basement1330.0 -4.404e+02 6.683e+04 -0.007 0.994743
## sqft_basement1340.0 9.234e+04 7.212e+04 1.280 0.200444
## sqft_basement1350.0 -1.160e+05 7.221e+04 -1.606 0.108252
## sqft_basement1360.0 3.528e+04 6.320e+04 0.558 0.576755
## sqft_basement1370.0 7.106e+04 5.883e+04 1.208 0.227104
## sqft_basement1380.0 8.163e+04 6.028e+04 1.354 0.175680
## sqft_basement1390.0 1.586e+05 6.987e+04 2.271 0.023184 *
## sqft_basement140.0 5.489e+04 3.367e+04 1.630 0.103062
## sqft_basement1400.0 -3.321e+04 5.118e+04 -0.649 0.516418
## sqft_basement1410.0 -2.966e+04 7.611e+04 -0.390 0.696714
## sqft_basement1420.0 -9.751e+04 6.781e+04 -1.438 0.150477
## sqft_basement143.0 1.603e+05 2.087e+05 0.768 0.442451
## sqft_basement1430.0 1.141e+05 7.307e+04 1.561 0.118539
## sqft_basement1440.0 -6.175e+04 7.641e+04 -0.808 0.419002
## sqft_basement145.0 1.378e+05 1.209e+05 1.140 0.254380
## sqft_basement1450.0 2.421e+04 6.265e+04 0.386 0.699210
## sqft_basement1460.0 -3.071e+04 7.658e+04 -0.401 0.688399
## sqft_basement1470.0 1.019e+05 1.091e+05 0.934 0.350273
## sqft_basement1480.0 1.182e+05 9.874e+04 1.198 0.231102
## sqft_basement1481.0 -1.223e+05 2.109e+05 -0.580 0.562105
## sqft_basement1490.0 3.179e+05 9.131e+04 3.482 0.000500 ***
## sqft_basement150.0 7.629e+04 3.770e+04 2.023 0.043043 *
## sqft_basement1500.0 -2.161e+04 5.631e+04 -0.384 0.701138
## sqft_basement1510.0 -6.610e+04 8.555e+04 -0.773 0.439754
## sqft_basement1520.0 2.659e+05 9.155e+04 2.905 0.003681 **
## sqft_basement1525.0 -2.557e+05 2.111e+05 -1.212 0.225710
## sqft_basement1530.0 -1.845e+05 9.160e+04 -2.014 0.043996 *
## sqft_basement1540.0 -2.022e+04 7.738e+04 -0.261 0.793905
## sqft_basement1550.0 -1.554e+04 1.097e+05 -0.142 0.887333
## sqft_basement1560.0 1.218e+05 1.253e+05 0.973 0.330775
## sqft_basement1570.0 2.314e+05 9.216e+04 2.511 0.012063 *
## sqft_basement1580.0 -8.644e+04 8.160e+04 -1.059 0.289455
## sqft_basement1590.0 1.350e+05 7.483e+04 1.803 0.071340 .
## sqft_basement160.0 3.252e+04 4.808e+04 0.676 0.498809
## sqft_basement1600.0 2.223e+05 6.457e+04 3.442 0.000578 ***
## sqft_basement1610.0 -1.924e+05 1.516e+05 -1.269 0.204321
## sqft_basement1620.0 2.550e+05 1.001e+05 2.549 0.010821 *
## sqft_basement1630.0 3.687e+05 1.104e+05 3.341 0.000837 ***
## sqft_basement1640.0 -1.259e+05 1.004e+05 -1.253 0.210232
## sqft_basement1650.0 1.371e+05 8.709e+04 1.574 0.115509
## sqft_basement1660.0 3.207e+05 9.278e+04 3.457 0.000548 ***
## sqft_basement1670.0 -5.958e+04 1.004e+05 -0.593 0.552952
## sqft_basement1680.0 9.353e+04 1.005e+05 0.931 0.351908
## sqft_basement1690.0 -1.381e+05 1.005e+05 -1.373 0.169628
## sqft_basement170.0 5.488e+04 5.189e+04 1.058 0.290280
## sqft_basement1700.0 -1.605e+05 1.109e+05 -1.447 0.147976
## sqft_basement1710.0 1.974e+05 1.263e+05 1.562 0.118223
## sqft_basement172.0 1.721e+05 2.087e+05 0.824 0.409677
## sqft_basement1720.0 -6.889e+03 9.342e+04 -0.074 0.941220
## sqft_basement1730.0 9.483e+04 1.524e+05 0.622 0.533819
## sqft_basement1740.0 -5.075e+05 2.130e+05 -2.382 0.017213 *
## sqft_basement1750.0 -1.885e+04 1.266e+05 -0.149 0.881624
## sqft_basement1760.0 3.827e+05 9.390e+04 4.076 4.61e-05 ***
## sqft_basement1770.0 3.300e+04 2.121e+05 0.156 0.876369
## sqft_basement1780.0 -1.076e+05 1.015e+05 -1.060 0.288955
## sqft_basement1790.0 2.201e+05 9.434e+04 2.333 0.019676 *
## sqft_basement1798.0 -1.584e+05 2.122e+05 -0.746 0.455427
## sqft_basement180.0 1.041e+05 4.253e+04 2.448 0.014369 *
## sqft_basement1800.0 2.239e+05 9.430e+04 2.374 0.017600 *
## sqft_basement1810.0 5.661e+05 2.125e+05 2.664 0.007719 **
## sqft_basement1820.0 4.772e+05 1.533e+05 3.113 0.001858 **
## sqft_basement1830.0 1.850e+05 1.532e+05 1.208 0.227145
## sqft_basement1840.0 -1.441e+05 2.124e+05 -0.679 0.497416
## sqft_basement1850.0 3.260e+04 9.474e+04 0.344 0.730788
## sqft_basement1852.0 -2.986e+05 2.135e+05 -1.398 0.162009
## sqft_basement1860.0 4.245e+05 1.534e+05 2.768 0.005651 **
## sqft_basement1870.0 3.308e+05 1.024e+05 3.230 0.001240 **
## sqft_basement1890.0 1.044e+06 1.534e+05 6.807 1.04e-11 ***
## sqft_basement190.0 5.269e+04 4.182e+04 1.260 0.207661
## sqft_basement1900.0 -1.469e+05 1.128e+05 -1.302 0.193024
## sqft_basement1910.0 -3.718e+05 1.536e+05 -2.420 0.015518 *
## sqft_basement1913.0 -7.317e+05 2.129e+05 -3.437 0.000589 ***
## sqft_basement1920.0 7.623e+05 2.130e+05 3.579 0.000346 ***
## sqft_basement1930.0 -1.394e+05 2.130e+05 -0.654 0.512846
## sqft_basement1940.0 1.795e+05 1.141e+05 1.573 0.115633
## sqft_basement1950.0 3.202e+05 1.134e+05 2.823 0.004763 **
## sqft_basement1960.0 2.436e+04 2.130e+05 0.114 0.908979
## sqft_basement1990.0 -2.026e+05 2.134e+05 -0.950 0.342358
## sqft_basement200.0 4.225e+04 2.694e+04 1.568 0.116848
## sqft_basement2000.0 -1.619e+04 2.132e+05 -0.076 0.939463
## sqft_basement2010.0 1.575e+05 2.134e+05 0.738 0.460508
## sqft_basement2020.0 8.618e+05 1.040e+05 8.285 < 2e-16 ***
## sqft_basement2030.0 -4.960e+05 2.134e+05 -2.325 0.020108 *
## sqft_basement2040.0 -1.038e+05 1.545e+05 -0.672 0.501701
## sqft_basement2050.0 2.509e+05 2.145e+05 1.169 0.242240
## sqft_basement2060.0 -3.706e+05 1.292e+05 -2.869 0.004126 **
## sqft_basement207.0 1.272e+05 2.086e+05 0.610 0.542184
## sqft_basement2070.0 -8.969e+04 1.547e+05 -0.580 0.562203
## sqft_basement2080.0 -3.176e+05 2.137e+05 -1.486 0.137225
## sqft_basement2090.0 2.334e+05 2.140e+05 1.091 0.275474
## sqft_basement210.0 5.452e+04 5.050e+04 1.079 0.280403
## sqft_basement2100.0 -7.619e+05 2.138e+05 -3.563 0.000368 ***
## sqft_basement2110.0 -4.391e+04 1.550e+05 -0.283 0.776998
## sqft_basement2120.0 -2.306e+05 2.140e+05 -1.078 0.281114
## sqft_basement2130.0 -1.477e+05 2.140e+05 -0.690 0.490116
## sqft_basement2150.0 -9.529e+03 1.555e+05 -0.061 0.951122
## sqft_basement2160.0 2.285e+05 1.555e+05 1.469 0.141818
## sqft_basement2170.0 6.273e+05 1.303e+05 4.815 1.49e-06 ***
## sqft_basement2190.0 -4.199e+05 2.143e+05 -1.959 0.050109 .
## sqft_basement2196.0 -6.258e+05 2.146e+05 -2.916 0.003551 **
## sqft_basement220.0 5.355e+04 3.712e+04 1.443 0.149117
## sqft_basement2200.0 8.213e+05 1.560e+05 5.265 1.42e-07 ***
## sqft_basement2220.0 -1.193e+05 2.144e+05 -0.557 0.577810
## sqft_basement225.0 2.528e+05 2.086e+05 1.212 0.225705
## sqft_basement2250.0 -5.136e+04 2.146e+05 -0.239 0.810912
## sqft_basement230.0 1.505e+05 7.459e+04 2.017 0.043683 *
## sqft_basement2300.0 -3.914e+05 2.152e+05 -1.819 0.068885 .
## sqft_basement2310.0 2.006e+06 2.150e+05 9.329 < 2e-16 ***
## sqft_basement2330.0 -2.992e+05 1.570e+05 -1.906 0.056689 .
## sqft_basement235.0 1.827e+04 1.478e+05 0.124 0.901604
## sqft_basement2350.0 2.619e+05 2.153e+05 1.216 0.223897
## sqft_basement2360.0 4.067e+06 2.174e+05 18.706 < 2e-16 ***
## sqft_basement240.0 7.764e+04 3.064e+04 2.534 0.011293 *
## sqft_basement243.0 1.443e+05 2.087e+05 0.692 0.489207
## sqft_basement248.0 3.581e+04 2.086e+05 0.172 0.863724
## sqft_basement2490.0 9.716e+05 2.179e+05 4.459 8.27e-06 ***
## sqft_basement250.0 3.423e+04 3.530e+04 0.970 0.332204
## sqft_basement2570.0 -9.898e+04 2.168e+05 -0.457 0.648002
## sqft_basement2580.0 9.282e+04 2.170e+05 0.428 0.668821
## sqft_basement260.0 4.237e+04 3.755e+04 1.128 0.259246
## sqft_basement2600.0 -7.659e+05 2.174e+05 -3.523 0.000428 ***
## sqft_basement265.0 1.117e+05 1.478e+05 0.756 0.449845
## sqft_basement266.0 6.246e+04 2.086e+05 0.299 0.764656
## sqft_basement270.0 2.845e+04 3.980e+04 0.715 0.474634
## sqft_basement2720.0 -2.585e+05 2.183e+05 -1.184 0.236409
## sqft_basement2730.0 1.670e+06 2.180e+05 7.660 1.96e-14 ***
## sqft_basement274.0 -1.656e+04 2.087e+05 -0.079 0.936740
## sqft_basement280.0 8.689e+04 3.345e+04 2.598 0.009399 **
## sqft_basement2810.0 -3.413e+05 2.190e+05 -1.558 0.119153
## sqft_basement283.0 6.301e+04 2.086e+05 0.302 0.762604
## sqft_basement2850.0 -6.679e+04 2.190e+05 -0.305 0.760340
## sqft_basement290.0 7.272e+04 3.192e+04 2.278 0.022740 *
## sqft_basement295.0 2.780e+04 2.086e+05 0.133 0.893985
## sqft_basement300.0 2.505e+04 2.399e+04 1.044 0.296500
## sqft_basement310.0 2.443e+04 3.417e+04 0.715 0.474691
## sqft_basement320.0 9.225e+04 4.105e+04 2.247 0.024640 *
## sqft_basement3260.0 1.155e+05 2.223e+05 0.520 0.603336
## sqft_basement330.0 1.179e+05 3.615e+04 3.261 0.001113 **
## sqft_basement340.0 -1.903e+04 3.221e+04 -0.591 0.554616
## sqft_basement3480.0 4.384e+06 2.255e+05 19.437 < 2e-16 ***
## sqft_basement350.0 1.633e+04 3.222e+04 0.507 0.612274
## sqft_basement3500.0 7.091e+05 2.255e+05 3.145 0.001666 **
## sqft_basement360.0 5.659e+04 2.952e+04 1.917 0.055206 .
## sqft_basement370.0 4.378e+04 4.175e+04 1.049 0.294419
## sqft_basement374.0 -1.604e+05 2.087e+05 -0.768 0.442256
## sqft_basement380.0 3.136e+04 3.320e+04 0.944 0.344950
## sqft_basement390.0 3.020e+04 3.816e+04 0.791 0.428708
## sqft_basement40.0 6.582e+03 1.050e+05 0.063 0.950035
## sqft_basement400.0 3.436e+04 2.100e+04 1.636 0.101888
## sqft_basement410.0 -1.118e+04 5.191e+04 -0.215 0.829489
## sqft_basement4130.0 -7.356e+05 2.326e+05 -3.162 0.001571 **
## sqft_basement414.0 1.500e+05 1.478e+05 1.015 0.310230
## sqft_basement415.0 1.977e+05 2.087e+05 0.948 0.343388
## sqft_basement417.0 -6.044e+05 2.087e+05 -2.896 0.003782 **
## sqft_basement420.0 3.403e+04 2.886e+04 1.179 0.238294
## sqft_basement430.0 4.654e+04 3.398e+04 1.370 0.170812
## sqft_basement435.0 1.796e+05 2.087e+05 0.861 0.389446
## sqft_basement440.0 1.805e+04 3.039e+04 0.594 0.552687
## sqft_basement450.0 2.652e+04 2.682e+04 0.989 0.322837
## sqft_basement460.0 -2.099e+04 3.407e+04 -0.616 0.537910
## sqft_basement470.0 1.907e+03 3.641e+04 0.052 0.958235
## sqft_basement475.0 2.179e+05 2.089e+05 1.043 0.297039
## sqft_basement480.0 2.141e+04 2.768e+04 0.773 0.439241
## sqft_basement4820.0 1.672e+06 2.402e+05 6.962 3.50e-12 ***
## sqft_basement490.0 -8.543e+03 4.523e+04 -0.189 0.850168
## sqft_basement50.0 6.849e+04 7.484e+04 0.915 0.360107
## sqft_basement500.0 -1.292e+04 2.118e+04 -0.610 0.541908
## sqft_basement506.0 -8.844e+04 2.087e+05 -0.424 0.671790
## sqft_basement508.0 3.283e+05 2.087e+05 1.573 0.115787
## sqft_basement510.0 1.326e+04 3.796e+04 0.349 0.726802
## sqft_basement515.0 -8.699e+04 2.087e+05 -0.417 0.676850
## sqft_basement516.0 -1.266e+05 2.087e+05 -0.607 0.544099
## sqft_basement518.0 8.222e+04 2.087e+05 0.394 0.693659
## sqft_basement520.0 4.009e+04 3.114e+04 1.287 0.198006
## sqft_basement530.0 -8.377e+02 2.657e+04 -0.032 0.974853
## sqft_basement540.0 1.676e+04 3.405e+04 0.492 0.622518
## sqft_basement550.0 -3.663e+04 3.131e+04 -1.170 0.241975
## sqft_basement560.0 7.826e+04 3.722e+04 2.103 0.035523 *
## sqft_basement570.0 3.047e+04 3.455e+04 0.882 0.377779
## sqft_basement580.0 2.978e+04 2.826e+04 1.054 0.292053
## sqft_basement588.0 -1.645e+05 2.098e+05 -0.784 0.433049
## sqft_basement590.0 -2.302e+04 3.989e+04 -0.577 0.563845
## sqft_basement60.0 1.166e+05 1.210e+05 0.964 0.335049
## sqft_basement600.0 -7.575e+03 2.180e+04 -0.347 0.728232
## sqft_basement602.0 -1.826e+05 2.088e+05 -0.874 0.381949
## sqft_basement610.0 6.164e+04 3.944e+04 1.563 0.118087
## sqft_basement620.0 1.947e+04 2.953e+04 0.659 0.509752
## sqft_basement630.0 -3.405e+04 3.307e+04 -1.030 0.303138
## sqft_basement640.0 -3.597e+04 3.287e+04 -1.094 0.273863
## sqft_basement650.0 -8.920e+01 3.172e+04 -0.003 0.997756
## sqft_basement652.0 1.779e+05 2.088e+05 0.852 0.394293
## sqft_basement660.0 2.541e+04 3.825e+04 0.664 0.506454
## sqft_basement666.0 -4.139e+05 2.089e+05 -1.982 0.047518 *
## sqft_basement670.0 2.483e+04 3.258e+04 0.762 0.446069
## sqft_basement680.0 -1.731e+04 3.091e+04 -0.560 0.575555
## sqft_basement690.0 5.008e+04 3.941e+04 1.271 0.203751
## sqft_basement70.0 3.055e+04 1.050e+05 0.291 0.771091
## sqft_basement700.0 1.190e+03 2.316e+04 0.051 0.959012
## sqft_basement710.0 3.994e+04 4.379e+04 0.912 0.361790
## sqft_basement720.0 -3.259e+04 2.987e+04 -1.091 0.275197
## sqft_basement730.0 -2.781e+03 3.499e+04 -0.079 0.936654
## sqft_basement740.0 -1.210e+04 3.293e+04 -0.367 0.713271
## sqft_basement750.0 -1.969e+04 2.830e+04 -0.696 0.486614
## sqft_basement760.0 -2.471e+04 3.466e+04 -0.713 0.475853
## sqft_basement768.0 -5.906e+05 2.091e+05 -2.824 0.004743 **
## sqft_basement770.0 7.052e+03 3.421e+04 0.206 0.836682
## sqft_basement780.0 -1.942e+04 3.264e+04 -0.595 0.551863
## sqft_basement784.0 -1.917e+05 2.090e+05 -0.917 0.358961
## sqft_basement790.0 3.046e+04 3.583e+04 0.850 0.395133
## sqft_basement80.0 8.918e+04 5.371e+04 1.661 0.096830 .
## sqft_basement800.0 -7.239e+03 2.482e+04 -0.292 0.770546
## sqft_basement810.0 -9.894e+03 3.772e+04 -0.262 0.793112
## sqft_basement820.0 -4.441e+04 3.675e+04 -1.208 0.226919
## sqft_basement830.0 -1.848e+04 3.590e+04 -0.515 0.606773
## sqft_basement840.0 -1.452e+04 3.230e+04 -0.450 0.653066
## sqft_basement850.0 2.685e+04 3.404e+04 0.789 0.430187
## sqft_basement860.0 7.664e+03 3.290e+04 0.233 0.815772
## sqft_basement861.0 -3.400e+05 2.091e+05 -1.626 0.104005
## sqft_basement862.0 -2.330e+05 2.092e+05 -1.114 0.265427
## sqft_basement870.0 -2.390e+04 3.793e+04 -0.630 0.528633
## sqft_basement875.0 -6.752e+05 2.102e+05 -3.212 0.001320 **
## sqft_basement880.0 5.106e+04 3.458e+04 1.477 0.139827
## sqft_basement890.0 1.688e+03 3.713e+04 0.045 0.963735
## sqft_basement90.0 4.480e+04 5.713e+04 0.784 0.432929
## sqft_basement900.0 -1.788e+04 2.841e+04 -0.629 0.529178
## sqft_basement906.0 -5.030e+03 2.093e+05 -0.024 0.980828
## sqft_basement910.0 -1.951e+04 3.472e+04 -0.562 0.574149
## sqft_basement920.0 -3.729e+04 3.715e+04 -1.004 0.315437
## sqft_basement930.0 -4.995e+03 4.144e+04 -0.121 0.904064
## sqft_basement935.0 8.329e+04 2.094e+05 0.398 0.690754
## sqft_basement940.0 -2.500e+04 3.528e+04 -0.709 0.478572
## sqft_basement950.0 -2.648e+04 3.780e+04 -0.701 0.483595
## sqft_basement960.0 -1.648e+04 3.676e+04 -0.448 0.653981
## sqft_basement970.0 -4.192e+04 4.739e+04 -0.885 0.376393
## sqft_basement980.0 4.041e+04 4.026e+04 1.004 0.315457
## sqft_basement990.0 2.898e+04 3.962e+04 0.732 0.464467
## yr_built -3.567e+03 8.182e+01 -43.595 < 2e-16 ***
## yr_renovated 5.407e+00 4.520e+00 1.196 0.231572
## sqft_living15 2.370e+01 4.156e+00 5.702 1.20e-08 ***
## sqft_lot15 -4.343e-01 8.738e-02 -4.970 6.77e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 208300 on 15465 degrees of freedom
## Multiple R-squared: 0.6928, Adjusted R-squared: 0.6869
## F-statistic: 117.8 on 296 and 15465 DF, p-value: < 2.2e-16
Το μοντέλο εξηγεί περίπου το 70% της διακύμανσης των τιμών, αλλά αρκετές μεταβλητές (π.χ., sqft_above, sqft_basement) δεν είναι στατιστικά σημαντικές.
##Μοντέλο 2: Αφαίρεση ασήμαντων μεταβλητών
model2 <- lm(price ~ bedrooms + bathrooms + sqft_living + floors + waterfront + view + condition + grade + sqft_lot + yr_built + sqft_living15 + sqft_lot15 + yr_renovated, data = data)
summary(model2)
##
## Call:
## lm(formula = price ~ bedrooms + bathrooms + sqft_living + floors +
## waterfront + view + condition + grade + sqft_lot + yr_built +
## sqft_living15 + sqft_lot15 + yr_renovated, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1193103 -109475 -10013 91366 4195406
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.334e+06 1.628e+05 38.912 < 2e-16 ***
## bedrooms -4.116e+04 2.376e+03 -17.323 < 2e-16 ***
## bathrooms 4.887e+04 4.088e+03 11.955 < 2e-16 ***
## sqft_living 1.733e+02 4.233e+00 40.940 < 2e-16 ***
## floors 2.546e+04 4.071e+03 6.255 4.07e-10 ***
## waterfront 6.047e+05 2.202e+04 27.460 < 2e-16 ***
## view 4.383e+04 2.667e+03 16.432 < 2e-16 ***
## condition 1.849e+04 2.948e+03 6.271 3.68e-10 ***
## grade 1.179e+05 2.670e+03 44.149 < 2e-16 ***
## sqft_lot -4.383e-02 6.000e-02 -0.730 0.465114
## yr_built -3.634e+03 8.355e+01 -43.501 < 2e-16 ***
## sqft_living15 1.612e+01 4.195e+00 3.842 0.000122 ***
## sqft_lot15 -4.895e-01 9.037e-02 -5.417 6.16e-08 ***
## yr_renovated 1.027e+01 4.673e+00 2.198 0.027992 *
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 218400 on 15748 degrees of freedom
## Multiple R-squared: 0.656, Adjusted R-squared: 0.6558
## F-statistic: 2311 on 13 and 15748 DF, p-value: < 2.2e-16
##Μοντέλο 3: Περαιτέρω απλοποίηση
model3 <- lm(price ~ bathrooms + sqft_living + waterfront + view + condition + grade + floors + yr_built + bedrooms + sqft_living15, data = data)
summary(model3)
##
## Call:
## lm(formula = price ~ bathrooms + sqft_living + waterfront + view +
## condition + grade + floors + yr_built + bedrooms + sqft_living15,
## data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1195648 -109016 -10101 91405 4233697
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 6.526e+06 1.542e+05 42.328 < 2e-16 ***
## bathrooms 5.178e+04 4.056e+03 12.766 < 2e-16 ***
## sqft_living 1.685e+02 4.199e+00 40.125 < 2e-16 ***
## waterfront 6.078e+05 2.204e+04 27.578 < 2e-16 ***
## view 4.368e+04 2.672e+03 16.348 < 2e-16 ***
## condition 1.719e+04 2.912e+03 5.903 3.65e-09 ***
## grade 1.192e+05 2.672e+03 44.602 < 2e-16 ***
## floors 2.822e+04 4.067e+03 6.939 4.10e-12 ***
## yr_built -3.738e+03 7.931e+01 -47.129 < 2e-16 ***
## bedrooms -3.956e+04 2.371e+03 -16.685 < 2e-16 ***
## sqft_living15 1.337e+01 4.188e+00 3.193 0.00141 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 218900 on 15751 degrees of freedom
## Multiple R-squared: 0.6544, Adjusted R-squared: 0.6542
## F-statistic: 2983 on 10 and 15751 DF, p-value: < 2.2e-16
Αφαιρούμε επιπλέον ασήμαντες μεταβλητές: bedrooms, floors, sqft_lot15.
#Μοντέλο 4: Τελικό Μοντέλο
model4 <- lm(price ~ sqft_living + waterfront + view + grade + yr_built + sqft_living15, data = data)
summary(model4)
##
## Call:
## lm(formula = price ~ sqft_living + waterfront + view + grade +
## yr_built + sqft_living15, data = data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1209803 -114769 -7686 93670 4425925
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 5.680e+06 1.298e+05 43.757 <2e-16 ***
## sqft_living 1.693e+02 3.393e+00 49.892 <2e-16 ***
## waterfront 6.267e+05 2.235e+04 28.046 <2e-16 ***
## view 4.702e+04 2.703e+03 17.395 <2e-16 ***
## grade 1.324e+05 2.614e+03 50.647 <2e-16 ***
## yr_built -3.314e+03 6.869e+01 -48.247 <2e-16 ***
## sqft_living15 5.826e+00 4.214e+00 1.382 0.167
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 222300 on 15755 degrees of freedom
## Multiple R-squared: 0.6435, Adjusted R-squared: 0.6434
## F-statistic: 4741 on 6 and 15755 DF, p-value: < 2.2e-16
Το μοντέλο είναι το πιο απλό με ελάχιστη απώλεια στο R².
##5 Δημιουργία πίνακα σύγκρισης
comparison <- data.frame(
Model = c("Μοντέλο 1", "Μοντέλο 2", "Μοντέλο 3", "Μοντέλο 4"),
R_squared = c(summary(model1)$r.squared, summary(model2)$r.squared,
summary(model3)$r.squared, summary(model4)$r.squared),
Adjusted_R_squared = c(summary(model1)$adj.r.squared, summary(model2)$adj.r.squared,
summary(model3)$adj.r.squared, summary(model4)$adj.r.squared),
SSE = c(sum(resid(model1)^2), sum(resid(model2)^2),
sum(resid(model3)^2), sum(resid(model4)^2))
)
kable(comparison, caption = "Σύγκριση Μοντέλων Γραμμικής Παλινδρόμησης",
digits = 3, align = "c")
| Model | R_squared | Adjusted_R_squared | SSE |
|---|---|---|---|
| Μοντέλο 1 | 0.693 | 0.687 | 6.708223e+14 |
| Μοντέλο 2 | 0.656 | 0.656 | 7.511004e+14 |
| Μοντέλο 3 | 0.654 | 0.654 | 7.546629e+14 |
| Μοντέλο 4 | 0.644 | 0.643 | 7.783872e+14 |
Το Μοντέλο 1 έχει το υψηλότερο R² και το χαμηλότερο SSE, αλλά περιλαμβάνει πολλές ασήμαντες μεταβλητές, καθιστώντας το υπερβολικά πολύπλοκο. Το Μοντέλο 4 προσφέρει σχετικά μικρότερη απόδοση με το Μοντέλο 1, αλλά με λιγότερες μεταβλητές. Το SSE αυξάνεται κατα 1 μοναδα από το Μοντέλο 1 στο Μοντέλο 4, αλλά η διαφορά είναι μικρή σε σχέση με τη μείωση της πολυπλοκότητας.
##Συμπερασμα
Η τιμή πώλησης σπιτιών επηρεάζεται σημαντικά από το μέγεθος (sqft_living), τη θέα (view, waterfront), το βαθμό κατασκευής (grade) και το έτος κατασκευής(yr_built) και άλλα. Πιστεύω πως παρόλλο που το Μοντέλο 4 προσφέρει ισορροπία μεταξύ ακρίβειας και απλότητας, το Μοντέλο 3 με ελάχιστα περισσότερους παραμέτρους παράγει ποιό ποιο ολοκληρομένες προβλέψεις καθιστώντας το ιδανικό.