To παρόν dataset απεικονίζει μια λίστα κατοικιών στην περιοχή του King County από την μεσητική εταιρεία Zillow Inc. Στο dataset αυτό αναγράφονται γύρω στα 21597 data points και αυτά περιλαμβάνουν την χρονία κατασκεύης της κατοικίας, πόσα υπνοδωμάτια έχει, πόσα μπάνια ανήκουνε σ’ αυτό, πόσα τετραγωνικά μέτρα είναι συνολικά, την χρονία που έγινε η ανακαίνισή της, από πόσα πατώματα αποτελείτε, σε ποιά τρέχον κατάσταση βρίσκετε (η οποία βαθμολογείτε απο το 0 μέχρι το 5), την ημερομηνία αναγραφής τους στην λίστα και την αρχική τιμή της κάθε κατοικίας.
Ο κύριος λόγος επιλογής του επιμέρους συνόλου δεδομένων είναι να υπολογιστεί η τρέχον εκτιμόμενη αξία της κατοικίας με βάση όλα τα υπόλοιπα δεδομένα που εχουν παρθεί από αυτήν. Επίσης, θα παρατηρήσουμε και θα βρούμε ποίες άλλες μεταβλητές έχουν υψηλή συσχέτιση μεταξύ της τρέχον τιμής των κατοικιών.
-Ποία θα είναι η εκτιμόμενη αξία των κατοικιών με βάση τα υπόλοιπα δεδομένα που ύπαρχουν για αυτές;
-Με βάση ποία κριτήρια θα ανεβεί ή κατεβεί η αρχική τιμή της κάθε κατοικίας;
-Ποία μεταβλητή συμβάλλει περισσότερο για την ανάδειξη της τρέχον τιμής της κάθε κατοικίας;
1.id - unique identified for a house.
2.dateDate - (numeric) date of sale.
3.pricePrice - (numeric) sale price.
4.bedroomsNumber - (numeric) of Bedrooms/House.
5.bathroomsNumber - (numeric) of bathrooms/bedrooms
6.sqft_livingsquare - (numeric) size of the living space
7.sqft_lotsquare - (numeric) size of the property
8.floorsTotal - (numeric) floors (levels) in house
9.waterfront - (numeric) binary indicator for a waterfront view
10.view - (numeric) An index from 0 to 4 of how good the view of the property was
11.condition - (factor) How good the condition is (poor to very good)
12.grade - Classification by construction quality which refers to the types of materials used and the quality of workmanship. Buildings of better quality (higher grade) cost more to build per unit of measure and command higher value. Grades run from grade 1 to 13
13.sqft_above - square footage of house apart from basement
14.sqft_basement - square footage of the basement
15.yr_built - Built Year
16.yr_renovated - Year when house was renovated
17.zipcode - zip
18.lat - Latitude coordinate
19.long - Longitude coordinate
20.sqft_living15 - The square footage of interior housing living space for the nearest 15 neighbors
21.sqft_lot15 - The square footage of the land lots of the nearest 15 neighbors
summary(house_data)
## price bedrooms bathrooms sqft_living
## Min. : 82000 Min. : 1.000 Min. :0.500 Min. : 370
## 1st Qu.: 321000 1st Qu.: 3.000 1st Qu.:1.750 1st Qu.: 1430
## Median : 450000 Median : 3.000 Median :2.250 Median : 1920
## Mean : 541332 Mean : 3.379 Mean :2.121 Mean : 2085
## 3rd Qu.: 645000 3rd Qu.: 4.000 3rd Qu.:2.500 3rd Qu.: 2550
## Max. :7700000 Max. :33.000 Max. :8.000 Max. :13540
## sqft_lot floors waterfront view
## Min. : 520 Min. :1.000 Min. :0.000000 Min. :0.00
## 1st Qu.: 5050 1st Qu.:1.000 1st Qu.:0.000000 1st Qu.:0.00
## Median : 7604 Median :1.500 Median :0.000000 Median :0.00
## Mean : 15284 Mean :1.495 Mean :0.007615 Mean :0.23
## 3rd Qu.: 10720 3rd Qu.:2.000 3rd Qu.:0.000000 3rd Qu.:0.00
## Max. :1651359 Max. :3.500 Max. :1.000000 Max. :4.00
## condition grade sqft_above sqft_basement
## Min. :1.000 Min. : 3.000 Min. : 370 Length:15758
## 1st Qu.:3.000 1st Qu.: 7.000 1st Qu.:1200 Class :character
## Median :3.000 Median : 7.000 Median :1570 Mode :character
## Mean :3.411 Mean : 7.663 Mean :1793
## 3rd Qu.:4.000 3rd Qu.: 8.000 3rd Qu.:2220
## Max. :5.000 Max. :13.000 Max. :9410
## yr_built yr_renovated zipcode lat
## Min. :1900 Min. : 0.00 Min. :98001 Min. :47.16
## 1st Qu.:1952 1st Qu.: 0.00 1st Qu.:98033 1st Qu.:47.47
## Median :1975 Median : 0.00 Median :98065 Median :47.57
## Mean :1971 Mean : 82.46 Mean :98078 Mean :47.56
## 3rd Qu.:1997 3rd Qu.: 0.00 3rd Qu.:98117 3rd Qu.:47.68
## Max. :2015 Max. :2015.00 Max. :98199 Max. :47.78
## long sqft_living15 sqft_lot15
## Min. :-122.5 Min. : 399 Min. : 659
## 1st Qu.:-122.3 1st Qu.:1490 1st Qu.: 5100
## Median :-122.2 Median :1846 Median : 7620
## Mean :-122.2 Mean :1990 Mean : 12903
## 3rd Qu.:-122.1 3rd Qu.:2370 3rd Qu.: 10108
## Max. :-121.3 Max. :6210 Max. :871200
Στο συγκεκριμένο διάγραμμα παρατηρούμε το εξής:
Η κατοικία με το μεγαλύτερο μέγεθος σε τετραγώνικά μέτρα είχε χτιστεί γύρω στο 1922. Το μεγεθός της ξεπερνά τα ενάμιση εκατομμύριο τετραγωνικά μέτρα!
Σε γενικό βαθμό, οι περισσότερες κατοικίες βρίσκονται κάτω από τα 250 000 τετραγωνικά μέτρα. Αυτό δεν σημαίνει βέβαια ότι είναι ένας μικρός αριθμός και οι κατοικίες που υπάρχουν στην λίστα είναι αρκετά μεγάλες.
Επίσης, παρατειρείτε ότι μετά το 1970 υπάρχει μια απότομη και αυξημένη αλλάγή στο μέγεθος των κατοικιών που χτίστηκαν τότε, και κυρίως στην δεκαετία του 1990 όπου υπάρχουν ολο ένα και περισσότερες κατοικίες με πολύ μεγάλο μέγεθος (πάνω από 90 000 τετραγωνικά μέτρα).
Απο το παραπάνω διάγραμμα παρατηρείται ότι:
Τα περισσότερα outliers βρίσκονται στην θέση 2 και 3 πράγμα που σημαίνει ότι οι κατοικίες που βρίσκονται στο γεωγραφικό μήκος μεταξύ 47,5 και 47,7 έχουν καλή εώς αρκετά καλή θέα.
Η χαμηλότερη τιμή των outliers βρίσκεται στην θέση 0.
Η διάμεσος των περισσότερων κατηγοριών είναι σταθερή.
Απο το ιστόγραμμα παρατηρείτε το εξής:
Οι περισσότερες κατοικίες έχουν γύρω στα 3 υπνοδωμάτια και αυτό σημαίνει ότι για μια οικογένεια που είναι πενταμελής και άνω θα είναι λίγο δύσκολο για να γίνει η αγορά της.
Σε πολλές άλλες κατοικίες φαίνεται ότι έχουν γύρω στα 4 υπνοδωμάτια άρα είναι συμβατά για μεγαλύτερες οικογένειες.
Υπάρχουν επίσης και κατοικίες με 5 υπνοδωμάτια αλλά είναι πίο λίγος ο αριθμός τους.
Οι κατοικίες με 6 υπνοδωμάτια και άνω είναι οι λιγότερες.
Θα ορίσουμε την μεταβλητή της τιμής ως την εξαρτημένη μας μεταβλητή και μετά θα δούμε ποίες άλλες μεταβλητές έχουν την υψηλότερη συσχέτιση μεταξύ τους.
library(ggplot2)
m1 <- lm(price ~ sqft_lot + bathrooms + bedrooms,data = house_data)
summary(m1)
##
## Call:
## lm(formula = price ~ sqft_lot + bathrooms + bedrooms, data = house_data)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1497454 -184651 -41385 111720 5903835
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -4.320e+04 9.816e+03 -4.401 1.08e-05 ***
## sqft_lot 3.850e-01 6.035e-02 6.379 1.83e-10 ***
## bathrooms 2.414e+05 3.832e+03 62.996 < 2e-16 ***
## bedrooms 1.974e+04 3.133e+03 6.301 3.03e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 315800 on 15754 degrees of freedom
## Multiple R-squared: 0.2805, Adjusted R-squared: 0.2803
## F-statistic: 2047 on 3 and 15754 DF, p-value: < 2.2e-16
SSE1 <- sum(m1$residuals^2)
ggplot(house_data, aes(x = sqft_lot, y = price)) +
geom_point() +
geom_abline(intercept = coef(m1)[1], slope = coef(m1)[2], color = "red", linewidth = 1) +
labs(title = "Γραμμική Παλινδρόμηση: price ~ size of the property",
x = "sqft_lot", y = "price")