Περιγραφή του Dataset

To παρόν dataset απεικονίζει μια λίστα κατοικιών στην περιοχή του King County από την μεσητική εταιρεία Zillow Inc. Στο dataset αυτό αναγράφονται γύρω στα 21597 data points και αυτά περιλαμβάνουν την χρονία κατασκεύης της κατοικίας, πόσα υπνοδωμάτια έχει, πόσα μπάνια ανήκουνε σ’ αυτό, πόσα τετραγωνικά μέτρα είναι συνολικά, την χρονία που έγινε η ανακαίνισή της, από πόσα πατώματα αποτελείτε, σε ποιά τρέχον κατάσταση βρίσκετε (η οποία βαθμολογείτε απο το 0 μέχρι το 5), την ημερομηνία αναγραφής τους στην λίστα και την αρχική τιμή της κάθε κατοικίας.

  • Αιτιολόγηση της επιλογής σε σχέση με την επιχειρηματική αναλυτική:

Ο κύριος λόγος επιλογής του επιμέρους συνόλου δεδομένων είναι να υπολογιστεί η τρέχον εκτιμόμενη αξία της κατοικίας με βάση όλα τα υπόλοιπα δεδομένα που εχουν παρθεί από αυτήν. Επίσης, θα παρατηρήσουμε και θα βρούμε ποίες άλλες μεταβλητές έχουν υψηλή συσχέτιση μεταξύ της τρέχον τιμής των κατοικιών.

  • Πιθανά επιχειρηματικά ερωτήματα:

-Ποία θα είναι η εκτιμόμενη αξία των κατοικιών με βάση τα υπόλοιπα δεδομένα που ύπαρχουν για αυτές;

-Με βάση ποία κριτήρια θα ανεβεί ή κατεβεί η αρχική τιμή της κάθε κατοικίας;

-Ποία μεταβλητή συμβάλλει περισσότερο για την ανάδειξη της τρέχον τιμής της κάθε κατοικίας;

  • Περιγραφή Μεταβλητών
1.id - unique identified for a house.
2.dateDate - (numeric) date of sale.
3.pricePrice - (numeric) sale price.
4.bedroomsNumber - (numeric) of Bedrooms/House.
5.bathroomsNumber - (numeric) of bathrooms/bedrooms
6.sqft_livingsquare - (numeric) size of the living space
7.sqft_lotsquare - (numeric) size of the property
8.floorsTotal - (numeric) floors (levels) in house
9.waterfront - (numeric) binary indicator for a waterfront view
10.view - (numeric) An index from 0 to 4 of how good the view of the property was
11.condition - (factor) How good the condition is (poor to very good)
12.grade - Classification by construction quality which refers to the types of materials used and the quality of workmanship. Buildings of better quality (higher grade) cost more to build per unit of measure and command higher value. Grades run from grade 1 to 13
13.sqft_above - square footage of house apart from basement
14.sqft_basement - square footage of the basement
15.yr_built - Built Year
16.yr_renovated - Year when house was renovated
17.zipcode - zip
18.lat - Latitude coordinate
19.long - Longitude coordinate
20.sqft_living15 - The square footage of interior housing living space for the nearest 15 neighbors
21.sqft_lot15 - The square footage of the land lots of the nearest 15 neighbors

Υπολογισμός και παρουσίαση περιγραφικών στατιστικών:

summary(house_data)
##      price            bedrooms        bathrooms      sqft_living   
##  Min.   :  82000   Min.   : 1.000   Min.   :0.500   Min.   :  370  
##  1st Qu.: 321000   1st Qu.: 3.000   1st Qu.:1.750   1st Qu.: 1430  
##  Median : 450000   Median : 3.000   Median :2.250   Median : 1920  
##  Mean   : 541332   Mean   : 3.379   Mean   :2.121   Mean   : 2085  
##  3rd Qu.: 645000   3rd Qu.: 4.000   3rd Qu.:2.500   3rd Qu.: 2550  
##  Max.   :7700000   Max.   :33.000   Max.   :8.000   Max.   :13540  
##     sqft_lot           floors        waterfront            view     
##  Min.   :    520   Min.   :1.000   Min.   :0.000000   Min.   :0.00  
##  1st Qu.:   5050   1st Qu.:1.000   1st Qu.:0.000000   1st Qu.:0.00  
##  Median :   7604   Median :1.500   Median :0.000000   Median :0.00  
##  Mean   :  15284   Mean   :1.495   Mean   :0.007615   Mean   :0.23  
##  3rd Qu.:  10720   3rd Qu.:2.000   3rd Qu.:0.000000   3rd Qu.:0.00  
##  Max.   :1651359   Max.   :3.500   Max.   :1.000000   Max.   :4.00  
##    condition         grade          sqft_above   sqft_basement     
##  Min.   :1.000   Min.   : 3.000   Min.   : 370   Length:15758      
##  1st Qu.:3.000   1st Qu.: 7.000   1st Qu.:1200   Class :character  
##  Median :3.000   Median : 7.000   Median :1570   Mode  :character  
##  Mean   :3.411   Mean   : 7.663   Mean   :1793                     
##  3rd Qu.:4.000   3rd Qu.: 8.000   3rd Qu.:2220                     
##  Max.   :5.000   Max.   :13.000   Max.   :9410                     
##     yr_built     yr_renovated        zipcode           lat       
##  Min.   :1900   Min.   :   0.00   Min.   :98001   Min.   :47.16  
##  1st Qu.:1952   1st Qu.:   0.00   1st Qu.:98033   1st Qu.:47.47  
##  Median :1975   Median :   0.00   Median :98065   Median :47.57  
##  Mean   :1971   Mean   :  82.46   Mean   :98078   Mean   :47.56  
##  3rd Qu.:1997   3rd Qu.:   0.00   3rd Qu.:98117   3rd Qu.:47.68  
##  Max.   :2015   Max.   :2015.00   Max.   :98199   Max.   :47.78  
##       long        sqft_living15    sqft_lot15    
##  Min.   :-122.5   Min.   : 399   Min.   :   659  
##  1st Qu.:-122.3   1st Qu.:1490   1st Qu.:  5100  
##  Median :-122.2   Median :1846   Median :  7620  
##  Mean   :-122.2   Mean   :1990   Mean   : 12903  
##  3rd Qu.:-122.1   3rd Qu.:2370   3rd Qu.: 10108  
##  Max.   :-121.3   Max.   :6210   Max.   :871200

Οπτικοποίηση δεδομένων

Scatter Plot

Στο συγκεκριμένο διάγραμμα παρατηρούμε το εξής:

  1. Η κατοικία με το μεγαλύτερο μέγεθος σε τετραγώνικά μέτρα είχε χτιστεί γύρω στο 1922. Το μεγεθός της ξεπερνά τα ενάμιση εκατομμύριο τετραγωνικά μέτρα!

  2. Σε γενικό βαθμό, οι περισσότερες κατοικίες βρίσκονται κάτω από τα 250 000 τετραγωνικά μέτρα. Αυτό δεν σημαίνει βέβαια ότι είναι ένας μικρός αριθμός και οι κατοικίες που υπάρχουν στην λίστα είναι αρκετά μεγάλες.

  3. Επίσης, παρατειρείτε ότι μετά το 1970 υπάρχει μια απότομη και αυξημένη αλλάγή στο μέγεθος των κατοικιών που χτίστηκαν τότε, και κυρίως στην δεκαετία του 1990 όπου υπάρχουν ολο ένα και περισσότερες κατοικίες με πολύ μεγάλο μέγεθος (πάνω από 90 000 τετραγωνικά μέτρα).

Boxplot

Απο το παραπάνω διάγραμμα παρατηρείται ότι:

  1. Τα περισσότερα outliers βρίσκονται στην θέση 2 και 3 πράγμα που σημαίνει ότι οι κατοικίες που βρίσκονται στο γεωγραφικό μήκος μεταξύ 47,5 και 47,7 έχουν καλή εώς αρκετά καλή θέα.

  2. Η χαμηλότερη τιμή των outliers βρίσκεται στην θέση 0.

  3. Η διάμεσος των περισσότερων κατηγοριών είναι σταθερή.

    1. Η κατηγορία με την μεγαλύτερη διασπορά είναι αυτή με την πολύ καλή θέα.

Histogram

Απο το ιστόγραμμα παρατηρείτε το εξής:

  1. Οι περισσότερες κατοικίες έχουν γύρω στα 3 υπνοδωμάτια και αυτό σημαίνει ότι για μια οικογένεια που είναι πενταμελής και άνω θα είναι λίγο δύσκολο για να γίνει η αγορά της.

  2. Σε πολλές άλλες κατοικίες φαίνεται ότι έχουν γύρω στα 4 υπνοδωμάτια άρα είναι συμβατά για μεγαλύτερες οικογένειες.

  3. Υπάρχουν επίσης και κατοικίες με 5 υπνοδωμάτια αλλά είναι πίο λίγος ο αριθμός τους.

  4. Οι κατοικίες με 6 υπνοδωμάτια και άνω είναι οι λιγότερες.


Γραμμική Παλινδρόμηση

Θα ορίσουμε την μεταβλητή της τιμής ως την εξαρτημένη μας μεταβλητή και μετά θα δούμε ποίες άλλες μεταβλητές έχουν την υψηλότερη συσχέτιση μεταξύ τους.

Πρώτο μοντέλο γραμμικής παλινδρόμησης

library(ggplot2)

m1 <- lm(price ~ sqft_lot + bathrooms + bedrooms,data = house_data)

summary(m1)
## 
## Call:
## lm(formula = price ~ sqft_lot + bathrooms + bedrooms, data = house_data)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1497454  -184651   -41385   111720  5903835 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -4.320e+04  9.816e+03  -4.401 1.08e-05 ***
## sqft_lot     3.850e-01  6.035e-02   6.379 1.83e-10 ***
## bathrooms    2.414e+05  3.832e+03  62.996  < 2e-16 ***
## bedrooms     1.974e+04  3.133e+03   6.301 3.03e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 315800 on 15754 degrees of freedom
## Multiple R-squared:  0.2805, Adjusted R-squared:  0.2803 
## F-statistic:  2047 on 3 and 15754 DF,  p-value: < 2.2e-16
SSE1 <- sum(m1$residuals^2)

ggplot(house_data, aes(x = sqft_lot, y = price)) +
  geom_point() +
  geom_abline(intercept = coef(m1)[1], slope = coef(m1)[2], color = "red", linewidth = 1) +
  labs(title = "Γραμμική Παλινδρόμηση: price ~ size of the property",
       x = "sqft_lot", y = "price")