Pada kali ini, kami dari tim bayesian akan melakukan serangkaian analisis data pada data property. Sebelum itu, di sini kami akan menjelaskan kamus data yang akan kita gunakan. Adapun variabel-variabel yang digunakan adalah sebagai berikut :
cityid : A unique id of each cityzpid : The Zillow Property ID. Every property has a unique zipid. The Zillow Property ID for the property for which to obtain informationcountyid : A unique id of each countyhomeType : Type of house. Includes apartment, condo, multi family, single family, town house, manufactured, lot, and unknownzipcode : ZIP codebathrooms : Number of bathrooms in the propertytaxyear : The year of tax paymenttax_paid : The amount of the property taxtax_assessement : Assessed value of the propertyyear_built : Original construction dateparcelNumber : A parcel number is assigned by the local tax assessment office and is used to help identify the property for taxhasGarage : The property contains a garage or nothasPetAllowed : Whether people can keep pets in the propertyarchitectureStyle : Architecture stylehoa : Homeowners association feehasPrivatePool : The property has a private pool or notheating : Types of heatinghasCooling : The property has cooling or notlotsize : Parking area square feetlivingArea : Living area square feetfurnished : The property has furniture or nohomeStatus : Recent property status. Includes for sale, for rent, force closed, pending, pre force closure, recently sold, and solddatePosted : Date postedbedrooms : Number of bedrooms in the propertyprice : Property pricepriceHistory : Price history of the property. Includes Price Change Rate, event, source, time, buyerAgent, sellerAgent, and price, etc…schools : Nearby school and school scores from https://www.greatschools.org/if(!require(tidyverse)) install.packages("tidyverse")
if(!require(ggplot2)) install.packages("ggplot2")
if(!require(readxl)) install.packages("readxl")
if(!require(skimr)) install.packages("skimr")
if(!require(DataExplorer)) install.packages("DataExplorer")
library(tidyverse)
library(ggplot2)
library(readxl)
library(skimr)
library(DataExplorer)
Data yang digunakan pada Exploratory Data Analytic di sini ialah data yang sudah clean, sudah di bersihkan pada proses sebelumnya yaitu data cleaning.
data <- read_xlsx("datapropertyclean2.xlsx")
Cek data
head(data)
## # A tibble: 6 x 26
## ï..cityid zpid countyid homeType zipcode bathrooms tax.year tax_paid
## <dbl> <dbl> <dbl> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 20330 15073822 3227 CONDO 94109 2 2020 8852.
## 2 20330 15077622 3227 CONDO 94102 2 2020 6904.
## 3 20330 15077919 3227 CONDO 94102 1 2020 5711.
## 4 20330 15148335 3227 CONDO 94105 1 2020 7544.
## 5 20330 15148336 3227 CONDO 94105 1 2020 7869.
## 6 20330 15148534 3227 CONDO 94105 1 2020 9952.
## # ... with 18 more variables: tax_assessment <dbl>, year_built <dbl>,
## # parcelNumber <chr>, hasGarage <lgl>, hasPetsAllowed <lgl>,
## # architecturalStyle <chr>, hoa <chr>, moa <chr>, hasPrivatePool <lgl>,
## # heating <chr>, hasCooling <lgl>, livingArea <dbl>, furnished <lgl>,
## # homeStatus <chr>, datePosted <dbl>, bedrooms <dbl>, price <dbl>,
## # distance <dbl>
Lihat ringkasan data yang kita gunakan, lihat pula apakah ada missing value pada data yang sudah clean.
glimpse(data)
## Rows: 714
## Columns: 26
## $ ï..cityid <dbl> 20330, 20330, 20330, 20330, 20330, 20330, 20330, 20~
## $ zpid <dbl> 15073822, 15077622, 15077919, 15148335, 15148336, 1~
## $ countyid <dbl> 3227, 3227, 3227, 3227, 3227, 3227, 3227, 3227, 322~
## $ homeType <chr> "CONDO", "CONDO", "CONDO", "CONDO", "CONDO", "CONDO~
## $ zipcode <dbl> 94109, 94102, 94102, 94105, 94105, 94105, 94105, 94~
## $ bathrooms <dbl> 2, 2, 1, 1, 1, 1, 1, 1, 3, 2, 2, 3, 1, 2, 2, 4, 2, ~
## $ tax.year <dbl> 2020, 2020, 2020, 2020, 2020, 2020, 2020, 2020, 202~
## $ tax_paid <dbl> 8852.30, 6903.82, 5711.28, 7544.04, 7868.96, 9952.1~
## $ tax_assessment <dbl> 671868, 509608, 414274, 567166, 594274, 767460, 270~
## $ year_built <dbl> 1966, 1982, 1982, 1991, 1991, 1997, 1997, 1986, 197~
## $ parcelNumber <chr> "0599053", "0762098", "762395", "3767226", "3767227~
## $ hasGarage <lgl> TRUE, TRUE, FALSE, TRUE, TRUE, TRUE, TRUE, TRUE, TR~
## $ hasPetsAllowed <lgl> FALSE, FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE, ~
## $ architecturalStyle <chr> "Modern/High Tech", "Contemporary,Modern/High Tech"~
## $ hoa <chr> "$905", "$1130", "$940", "$627", "$576", "$711", "$~
## $ moa <chr> "monthly", "monthly", "monthly", "monthly", "monthl~
## $ hasPrivatePool <lgl> FALSE, FALSE, TRUE, FALSE, FALSE, FALSE, FALSE, FAL~
## $ heating <chr> "['Baseboard']", "['Electric']", "['Baseboard']", "~
## $ hasCooling <lgl> TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRUE, TRU~
## $ livingArea <dbl> 1040, 1022, 672, 544, 432, 922, 536, 772, 1738, 190~
## $ furnished <lgl> FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FALSE, FA~
## $ homeStatus <chr> "FOR_SALE", "FOR_SALE", "FOR_SALE", "FOR_SALE", "FO~
## $ datePosted <dbl> 1.61e+12, 1.62e+12, 1.62e+12, 1.62e+12, 1.61e+12, 1~
## $ bedrooms <dbl> 1, 2, 1, 1, 0, 1, 1, 2, 3, 3, 2, 4, 2, 3, 2, 3, 3, ~
## $ price <dbl> 849995, 820000, 569000, 700000, 579000, 875000, 659~
## $ distance <dbl> 0.3, 0.6, 0.5, 1.0, 1.0, 1.0, 1.0, 0.2, 0.4, 1.1, 0~
Terdapat 714 baris dan 26 kolom pada data property yang digunakan
summary(data)
## ï..cityid zpid countyid homeType
## Min. : 3506 Min. : 15073822 Min. : 204 Length:714
## 1st Qu.:12447 1st Qu.: 20508048 1st Qu.:2841 Class :character
## Median :12447 Median : 25406320 Median :3101 Mode :character
## Mean :22832 Mean : 66484870 Mean :2854
## 3rd Qu.:33839 3rd Qu.: 82841231 3rd Qu.:3101
## Max. :54296 Max. :325861830 Max. :3227
## zipcode bathrooms tax.year tax_paid
## Min. :90004 Min. : 1.000 Min. :2019 Min. : 419.3
## 1st Qu.:90026 1st Qu.: 2.000 1st Qu.:2020 1st Qu.: 4772.1
## Median :90802 Median : 2.000 Median :2020 Median : 7289.3
## Mean :91412 Mean : 2.473 Mean :2020 Mean : 11432.7
## 3rd Qu.:92128 3rd Qu.: 3.000 3rd Qu.:2020 3rd Qu.: 10433.5
## Max. :95835 Max. :13.000 Max. :2020 Max. :307568.8
## tax_assessment year_built parcelNumber hasGarage
## Min. : 33292 Min. :1908 Length:714 Mode :logical
## 1st Qu.: 380167 1st Qu.:1979 Class :character FALSE:327
## Median : 585914 Median :1991 Mode :character TRUE :387
## Mean : 918184 Mean :1990
## 3rd Qu.: 827060 3rd Qu.:2006
## Max. :25468992 Max. :2021
## hasPetsAllowed architecturalStyle hoa moa
## Mode :logical Length:714 Length:714 Length:714
## FALSE:621 Class :character Class :character Class :character
## TRUE :93 Mode :character Mode :character Mode :character
##
##
##
## hasPrivatePool heating hasCooling livingArea
## Mode :logical Length:714 Mode:logical Min. : 304.0
## FALSE:648 Class :character TRUE:714 1st Qu.: 971.2
## TRUE :66 Mode :character Median : 1320.0
## Mean : 1722.4
## 3rd Qu.: 1870.0
## Max. :19127.0
## furnished homeStatus datePosted bedrooms
## Mode :logical Length:714 Min. :1.500e+12 Min. :0.000
## FALSE:714 Class :character 1st Qu.:1.610e+12 1st Qu.:2.000
## Mode :character Median :1.620e+12 Median :2.000
## Mean :1.609e+12 Mean :2.332
## 3rd Qu.:1.620e+12 3rd Qu.:3.000
## Max. :1.620e+12 Max. :8.000
## price distance
## Min. : 115000 Min. :0.0000
## 1st Qu.: 549000 1st Qu.:0.3000
## Median : 748500 Median :0.5000
## Mean : 1252711 Mean :0.5468
## 3rd Qu.: 1050000 3rd Qu.:0.7000
## Max. :27000000 Max. :3.4000
Diperoleh ringkasan data five number summary dan ditambah dengan mean Harga terendah property pada data tersebut adalah sebesar 115000 dan harga tertinggi property pada data tersebut adalah 27000000.
skim(data)
| Name | data |
| Number of rows | 714 |
| Number of columns | 26 |
| _______________________ | |
| Column type frequency: | |
| character | 7 |
| logical | 5 |
| numeric | 14 |
| ________________________ | |
| Group variables | None |
Variable type: character
| skim_variable | n_missing | complete_rate | min | max | empty | n_unique | whitespace |
|---|---|---|---|---|---|---|---|
| homeType | 0 | 1 | 5 | 13 | 0 | 5 | 0 |
| parcelNumber | 0 | 1 | 5 | 12 | 0 | 697 | 0 |
| architecturalStyle | 0 | 1 | 4 | 51 | 0 | 41 | 0 |
| hoa | 0 | 1 | 3 | 5 | 0 | 442 | 0 |
| moa | 0 | 1 | 7 | 9 | 0 | 3 | 0 |
| heating | 0 | 1 | 8 | 115 | 0 | 88 | 0 |
| homeStatus | 0 | 1 | 4 | 13 | 0 | 4 | 0 |
Variable type: logical
| skim_variable | n_missing | complete_rate | mean | count |
|---|---|---|---|---|
| hasGarage | 0 | 1 | 0.54 | TRU: 387, FAL: 327 |
| hasPetsAllowed | 0 | 1 | 0.13 | FAL: 621, TRU: 93 |
| hasPrivatePool | 0 | 1 | 0.09 | FAL: 648, TRU: 66 |
| hasCooling | 0 | 1 | 1.00 | TRU: 714 |
| furnished | 0 | 1 | 0.00 | FAL: 714 |
Variable type: numeric
| skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
|---|---|---|---|---|---|---|---|---|---|---|
| ï..cityid | 0 | 1 | 2.283181e+04 | 1.661488e+04 | 3.506000e+03 | 1.244700e+04 | 1.244700e+04 | 3.383900e+04 | 5.429600e+04 | ▇▁▁▁▃ |
| zpid | 0 | 1 | 6.648487e+07 | 7.150137e+07 | 1.507382e+07 | 2.050805e+07 | 2.540632e+07 | 8.284123e+07 | 3.258618e+08 | ▇▂▁▁▁ |
| countyid | 0 | 1 | 2.854440e+03 | 5.508600e+02 | 2.040000e+02 | 2.841000e+03 | 3.101000e+03 | 3.101000e+03 | 3.227000e+03 | ▁▁▁▁▇ |
| zipcode | 0 | 1 | 9.141182e+04 | 1.660700e+03 | 9.000400e+04 | 9.002625e+04 | 9.080200e+04 | 9.212800e+04 | 9.583500e+04 | ▇▃▁▂▁ |
| bathrooms | 0 | 1 | 2.470000e+00 | 1.360000e+00 | 1.000000e+00 | 2.000000e+00 | 2.000000e+00 | 3.000000e+00 | 1.300000e+01 | ▇▁▁▁▁ |
| tax.year | 0 | 1 | 2.019760e+03 | 4.300000e-01 | 2.019000e+03 | 2.020000e+03 | 2.020000e+03 | 2.020000e+03 | 2.020000e+03 | ▂▁▁▁▇ |
| tax_paid | 0 | 1 | 1.143268e+04 | 1.998090e+04 | 4.193300e+02 | 4.772090e+03 | 7.289340e+03 | 1.043349e+04 | 3.075688e+05 | ▇▁▁▁▁ |
| tax_assessment | 0 | 1 | 9.181840e+05 | 1.640269e+06 | 3.329200e+04 | 3.801668e+05 | 5.859140e+05 | 8.270598e+05 | 2.546899e+07 | ▇▁▁▁▁ |
| year_built | 0 | 1 | 1.990170e+03 | 2.055000e+01 | 1.908000e+03 | 1.979250e+03 | 1.991000e+03 | 2.006000e+03 | 2.021000e+03 | ▁▁▃▇▇ |
| livingArea | 0 | 1 | 1.722420e+03 | 1.559890e+03 | 3.040000e+02 | 9.712500e+02 | 1.320000e+03 | 1.870000e+03 | 1.912700e+04 | ▇▁▁▁▁ |
| datePosted | 0 | 1 | 1.608880e+12 | 1.732066e+10 | 1.500000e+12 | 1.610000e+12 | 1.620000e+12 | 1.620000e+12 | 1.620000e+12 | ▁▁▁▁▇ |
| bedrooms | 0 | 1 | 2.330000e+00 | 1.200000e+00 | 0.000000e+00 | 2.000000e+00 | 2.000000e+00 | 3.000000e+00 | 8.000000e+00 | ▃▇▁▁▁ |
| price | 0 | 1 | 1.252711e+06 | 1.970505e+06 | 1.150000e+05 | 5.490000e+05 | 7.485000e+05 | 1.050000e+06 | 2.700000e+07 | ▇▁▁▁▁ |
| distance | 0 | 1 | 5.500000e-01 | 3.900000e-01 | 0.000000e+00 | 3.000000e-01 | 5.000000e-01 | 7.000000e-01 | 3.400000e+00 | ▇▂▁▁▁ |
Secara lebih rinci lagi dari hasil fungsi glimpse() sebelumnya, data property tersebut memiliki 7 kolom bertipe character, 5 kolom bertipe logical, dan 14 kolom bertipe numeric.
plot_intro(data)
Dapat dilihat, tidak terdapat missing observation dan All missing columns, sehingga dapat dikatakan persentase complete rowsnya sebesar 100%
plot_missing(data)
Tidak terdapat kolom yang missing value
plot_histogram(data)
plot_bar(data)
## 3 columns ignored with more than 50 categories.
## parcelNumber: 697 categories
## hoa: 442 categories
## heating: 88 categories
plot_correlation(data)
## 4 features with more than 20 categories ignored!
## parcelNumber: 697 categories
## architecturalStyle: 41 categories
## hoa: 442 categories
## heating: 88 categories
## Warning in cor(x = structure(list(ï..cityid = c(20330, 20330, 20330, 20330, :
## the standard deviation is zero
Koefisien korelasi yang kita lihat ialah koefisien korelasi antara kolom price dengan kolom-kolom lainnya, hal tersebut dikarenakan price nantinya akan menjadi topik/permasalahan yang ingin kita gali. Adapun yang memiliki korelasi kuat dengan kolom price antara lain ialah :
Selain yang disebutkan di atas, sesuai plot di atas secara umum, ada banyak yang memiliki korelasi dengan kolom price, namun korelasinya tidak terlalu kuat.
hasGarageplot_boxplot(data, by = "hasGarage")
Dari plot yang terbentuk, jika kita fokus pada kolom
price, maka property yang memiliki garasi (hasGarage = TRUE) akan memiliki harga yang cenderung lebih tinggi dibandingkan property yang tidak memiliki garasi (hasGarage = FALSE)
hasPetsAllowedplot_boxplot(data, by = "hasPetsAllowed")
Dari plot yang terbentuk, jika kita lihat bersama-sama, property yang mengizinkan di dalamnya memikihara binatang kesayangan, akan memiliki harga yang cenderung homogen dan rendah jika dibandingkan dengan yang tidak mengizinkan memelihara binatang kesayangan di dalamnya yang memiliki variasi tinggi pada harga property.
hasPrivatePoolplot_boxplot(data, by = "hasPrivatePool")
Berdasarkan boxplot yang terbentuk, maka kita bisa menyimpulkan bahawasanya property yang memiliki kolam renang pribadi di dalamnya cenderung memiliki harga yang bervariasi dan cenderung memiliki harga yang lebih tinggi jika dibandingkan dengan property yang tidak memiliki kolam renang pribadi.
hasCoolingplot_boxplot(data, by = "hasCooling")
Karena semua priperty pada data berkategori memiliki pendiingin (
hasCooling = TRUE), maka nantinya kolom ini bisa kita drop.
homeStatusplot_boxplot(data, by = "homeStatus")
Ada beberapa yang dapat kita interpretasikan dari hasil boxplot di atas * kondisi di mana
homeStatus = SOLD atau property yang sudah terjual cencderung memiliki variasi harga yang homogen dibanding kategori yang lain, selain itu, orang-orang dalam memilih property cenderung memilih property dengan harga yang rendah (hal tersebut bisa kita lihat boxplot pada RECENTLY_SOLD dan SOLD yang cendeung memiliki harga yang rendah). * Selain itu, ketika kita lihat kolom distance, kategori SOLD secara grafis lebih homogen dibandingkan status yang lain. Dan memiliki variasi jarak terdekat ke sekolah yang cenderung rendah. Artinya orang-orang lebih suka membeli property yang memiliki jarak ke sekolah yang kecil.
homeTypedata$homeType <- as.factor(data$homeType)
levels(data$homeType)
## [1] "CONDO" "MANUFACTURED" "MULTI_FAMILY" "SINGLE_FAMILY"
## [5] "TOWNHOUSE"
plot_boxplot(data, by = "homeType")
Dari hasil boxplot yang diperoleh, rumah dengan type TOWNHOUSE memiliki harga yang cenderung homogen, sedangkan type SINGLE_FAMILY memiliki harga yang paling heterogen dibandingkan type yang lainnya.
year_buildplot_scatterplot(data, by = "year_built")
Beberapa interpretasi yang diperoleh : * Rumah/property yang dibangun pada tahun 1925 sampai dengan yang dibangun tahun 2000an ke atas secara mayoritas memiliki garasi, begitupun sebaliknya banyak juga yang tidak punya garasi. * Property yang memiliki jumlah kamar tidur di atas 6 mayoritas dibangun di era tahun 2000an ke atas.
tax_paidplot_scatterplot(data, by = "tax_paid")
Berdasarkan plot yang diperoleh, rumah dengan status SOLD cenderung memiliki pajak yang homogen dan rendah.
livingAreaplot_scatterplot(data, by = "livingArea")
Berdasarkan plot yang terbentuk, status rumah yang SOLD cenderung memiliki ukuran ruang tamu yang homogen dan ukuran ruang tamu yang kecil dibandingkan status rumah yang lainnya.
priceplot_scatterplot(data, by = "price")
Ada banyak yang dapat diinterpretasikan dari plot yang terbentuk : * Status rumah SOLD cenderung memiliki harga yang homogen dan memiliki harga yang paling rendah dibandingkan status rumah lainnya. * Property yang memiliki jumlah kamar lebih dari 6 cenderung memiliki harga yang homogen dan memiliki harga yang tinggi dibandingkan dengan property yang memiliki jumlah kamar kurang dari 6. * Seperti yang tadi sudah dijelaskan, property yang memiliki kolam renang cenderung memiliki harga yang heterogen dibandingkan yang tidak memiliki kolam renang. Selain itu, property yang memiliki kolam renang cenderung memiliki harga yang lebih tinggi. * Begitu pula, property yang tidak mengizinkan memilihara binatang kesayangan memiliki harga yang lebih tinggi dan cenderung memiliki harga yang heterogen.
homeTypedata %>%
select(price, homeType) %>%
arrange(desc(price))
## # A tibble: 714 x 2
## price homeType
## <dbl> <fct>
## 1 27000000 SINGLE_FAMILY
## 2 20995000 SINGLE_FAMILY
## 3 13900000 SINGLE_FAMILY
## 4 13850000 SINGLE_FAMILY
## 5 13775000 SINGLE_FAMILY
## 6 11595000 SINGLE_FAMILY
## 7 10995000 SINGLE_FAMILY
## 8 9980000 CONDO
## 9 9950000 SINGLE_FAMILY
## 10 8595000 SINGLE_FAMILY
## # ... with 704 more rows
7 harga teratas atau termahal dimiliki oleh rumah dengan type SINGLE_FAMILY
homeStatusdata %>%
group_by(homeStatus) %>%
summarise(maxx.price = max(price))
## # A tibble: 4 x 2
## homeStatus maxx.price
## <chr> <dbl>
## 1 FOR_SALE 27000000
## 2 PENDING 4495000
## 3 RECENTLY_SOLD 3800000
## 4 SOLD 1226000
ystatus rumah yang SOLD dan RECENTLY_SOLD memiliki harga maksimum yang paling kecil dibandingkan dengan status lainnya. Mengindikasikan property yang murah adalah yang dicari-cari orang
data %>%
select(bedrooms, price) %>%
arrange(desc(price))
## # A tibble: 714 x 2
## bedrooms price
## <dbl> <dbl>
## 1 8 27000000
## 2 7 20995000
## 3 8 13900000
## 4 5 13850000
## 5 6 13775000
## 6 7 11595000
## 7 5 10995000
## 8 3 9980000
## 9 5 9950000
## 10 6 8595000
## # ... with 704 more rows
Harga 4 teratas di miliki oleh property dengan jumlah kamar tidur yang banyak (>=5), sedangkan harga 4 terbawah dimiliki oleh property dengan jumlah kamar tidur yang sedikit (<=3), namun secara umum harga property bervariasi untuk setiap jumlah kamar yang tersedia.
data %>%
group_by(homeStatus) %>%
summarise(mean.living.area = mean(livingArea))
## # A tibble: 4 x 2
## homeStatus mean.living.area
## <chr> <dbl>
## 1 FOR_SALE 1843.
## 2 PENDING 1602.
## 3 RECENTLY_SOLD 1407.
## 4 SOLD 1347.
Berdasarkan hasil tersebut, dapat disimpulkan bahwa rata-rata property yang terjual dan baru saja terjual memiliki ruang tamu yang kecil.
dt <- data %>%
filter(homeStatus == "SOLD")
dt2 <- data %>%
right_join(dt, by = c("ï..cityid", "zpid", "countyid", "zipcode"))
dt2 %>%
select(homeType.x, homeStatus.x, year_built.x) %>%
arrange(desc(year_built.x))
## # A tibble: 73 x 3
## homeType.x homeStatus.x year_built.x
## <fct> <chr> <dbl>
## 1 SINGLE_FAMILY SOLD 2019
## 2 CONDO SOLD 2019
## 3 SINGLE_FAMILY SOLD 2018
## 4 CONDO SOLD 2017
## 5 CONDO SOLD 2016
## 6 CONDO SOLD 2015
## 7 CONDO SOLD 2011
## 8 CONDO SOLD 2009
## 9 CONDO SOLD 2006
## 10 SINGLE_FAMILY SOLD 2005
## # ... with 63 more rows
Ada beberapa rumah yang baru (bangunan yang dibangun di atas tahun 2010) langsung terjual (sold), namun tetap lebih banyak bangunan lama yang statusnya sold.
dtt <- data %>%
filter(homeStatus == "RECENTLY_SOLD")
dtt2 <- data %>%
right_join(dtt, by = c("ï..cityid", "zpid", "countyid", "zipcode"))
dtt2 %>%
select(homeType.x, homeStatus.x, year_built.x) %>%
arrange(desc(year_built.x))
## # A tibble: 91 x 3
## homeType.x homeStatus.x year_built.x
## <fct> <chr> <dbl>
## 1 SINGLE_FAMILY RECENTLY_SOLD 2019
## 2 CONDO RECENTLY_SOLD 2016
## 3 TOWNHOUSE RECENTLY_SOLD 2016
## 4 CONDO RECENTLY_SOLD 2016
## 5 CONDO RECENTLY_SOLD 2011
## 6 CONDO RECENTLY_SOLD 2010
## 7 SINGLE_FAMILY RECENTLY_SOLD 2009
## 8 CONDO RECENTLY_SOLD 2009
## 9 CONDO RECENTLY_SOLD 2009
## 10 CONDO RECENTLY_SOLD 2009
## # ... with 81 more rows
Ada beberapa rumah yang baru (bangunan yang dibangun di atas tahun 2010) langsung baru saja terjual (recently_sold), namun tetap lebih banyak bangunan lama yang statusnya sold.
data %>%
select(architecturalStyle, price, year_built, bedrooms, livingArea) %>%
arrange(desc(price))
## # A tibble: 714 x 5
## architecturalStyle price year_built bedrooms livingArea
## <chr> <dbl> <dbl> <dbl> <dbl>
## 1 French 27000000 2021 8 19127
## 2 Mediterranean 20995000 1994 7 16134
## 3 Contemporary 13900000 1998 8 11000
## 4 Traditional 13850000 1995 5 9881
## 5 Traditional 13775000 2015 6 7549
## 6 Contemporary 11595000 2020 7 11607
## 7 Traditional 10995000 1997 5 9200
## 8 Contemporary 9980000 1982 3 5770
## 9 Contemporary 9950000 2019 5 8200
## 10 Traditional 8595000 2020 6 6959
## # ... with 704 more rows
Property termahal pada data tersebut dimiliki oleh property dengan ArchitectureStyle French, yang dibangun pada tahun 2021 dengan jumlah kamar tidur terbanyak yakni 8 kamar tidur. Selain itu, tahun dibangunnya rumah tersebut tidak terlalu berpengaruh terhadap harga property.