玩转房价数据

美国King County的10000条记录,14个字段,主要字段说明如下:
- 销售日期:2014年5月到2015年5月房屋出售时的日期
- 销售价格:房屋交易价格,单位为美元,是目标预测值
- 卧室数:房屋中的卧室数目
- 浴室数:房屋中的浴室数目
- 房屋面积:房屋里的生活面积
- 停车面积:停车坪的面积
- 楼层数:房屋的楼层数
- 房屋评分:King County房屋评分系统对房屋的总体评分
- 建筑面积:除了地下室之外的房屋建筑面积
- 地下室面积:地下室的面积
- 建筑年份:房屋建成的年份
- 修复年份:房屋上次修复的年份
- 纬度:房屋所在纬度
- 经度:房屋所在经度

Step 1:数据概览

写代码重现以下分析结果

## 'data.frame':    10000 obs. of  14 variables:
##  $ 销售日期  : int  20150302 20150211 20150107 20141103 20140603 20150506 20150305 20140701 20140807 20141204 ...
##  $ 销售价格  : int  545000 785000 765000 720000 449500 248500 675000 730000 311000 660000 ...
##  $ 卧室数    : int  3 4 3 5 5 2 4 2 2 2 ...
##  $ 浴室数    : num  2.25 2.5 3.25 2.5 2.75 1 2.5 2.25 1 1 ...
##  $ 房屋面积  : int  1670 3300 3190 2900 2040 780 1770 2130 860 960 ...
##  $ 停车面积  : int  6240 10514 5283 9525 7488 10064 9858 4920 3300 6263 ...
##  $ 楼层数    : num  1 2 2 2 1 1 1 1.5 1 1 ...
##  $ 房屋评分  : int  8 10 9 9 7 7 8 7 6 6 ...
##  $ 建筑面积  : int  1240 3300 3190 2900 1200 780 1770 1530 860 960 ...
##  $ 地下室面积: int  430 0 0 0 840 0 0 600 0 0 ...
##  $ 建筑年份  : int  1974 1984 2007 1989 1969 1958 1971 1941 1903 1942 ...
##  $ 修复年份  : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 纬度      : num  47.6 47.6 47.6 47.5 47.7 ...
##  $ 经度      : num  -122 -122 -122 -122 -122 ...
##     销售日期           销售价格           卧室数           浴室数     
##  Min.   :20140502   Min.   :  75000   Min.   : 0.000   Min.   :0.000  
##  1st Qu.:20140722   1st Qu.: 322500   1st Qu.: 3.000   1st Qu.:1.750  
##  Median :20141017   Median : 450700   Median : 3.000   Median :2.250  
##  Mean   :20143916   Mean   : 542875   Mean   : 3.368   Mean   :2.117  
##  3rd Qu.:20150217   3rd Qu.: 645000   3rd Qu.: 4.000   3rd Qu.:2.500  
##  Max.   :20150527   Max.   :6885000   Max.   :10.000   Max.   :7.750  
##     房屋面积       停车面积           楼层数         房屋评分     
##  Min.   : 390   Min.   :    572   Min.   :1.000   Min.   : 3.000  
##  1st Qu.:1430   1st Qu.:   5023   1st Qu.:1.000   1st Qu.: 7.000  
##  Median :1910   Median :   7590   Median :1.500   Median : 7.000  
##  Mean   :2082   Mean   :  15353   Mean   :1.503   Mean   : 7.665  
##  3rd Qu.:2550   3rd Qu.:  10717   3rd Qu.:2.000   3rd Qu.: 8.000  
##  Max.   :9890   Max.   :1651359   Max.   :3.500   Max.   :13.000  
##     建筑面积      地下室面积      建筑年份       修复年份      
##  Min.   : 390   Min.   :   0   Min.   :1900   Min.   :   0.00  
##  1st Qu.:1190   1st Qu.:   0   1st Qu.:1952   1st Qu.:   0.00  
##  Median :1560   Median :   0   Median :1975   Median :   0.00  
##  Mean   :1791   Mean   : 291   Mean   :1971   Mean   :  85.21  
##  3rd Qu.:2212   3rd Qu.: 560   3rd Qu.:1997   3rd Qu.:   0.00  
##  Max.   :8860   Max.   :4820   Max.   :2015   Max.   :2015.00  
##       纬度            经度       
##  Min.   :47.16   Min.   :-122.5  
##  1st Qu.:47.47   1st Qu.:-122.3  
##  Median :47.57   Median :-122.2  
##  Mean   :47.56   Mean   :-122.2  
##  3rd Qu.:47.68   3rd Qu.:-122.1  
##  Max.   :47.78   Max.   :-121.3

Step 2:简单图表

写代码重现以下图表

你还能做其他有意义的图吗,尝试再做几张?

Step 3:数据变换

写代码完成以下数据变换,格式如下:
# 题目编号和内容
你的代码

  1. 选择在2000年后建成的房屋
  2. 选择在2015年销售的房屋
  3. 选择在12月销售的房屋
  4. 按照销售价格从高到低对房屋进行排序
  5. 按照销售价格从低到高对房屋进行排序
  6. 计算1个新的变量:单位房屋面积的房屋价格
  7. 计算1个新的变量:房屋已建成的年数
  8. 使用排序函数寻找销售价格最高的100套房屋
  9. 生成一个新的数据框:仅包括销售日期、销售价格、房屋评分、经度、纬度变量
  10. 将新生成的数据框中的经度、纬度变量名称变为lng、lat
  11. 在新生成的数据框中计算3个新的变量:房屋销售的年、月、日
  12. 统计每月销售的房屋数量
  13. 统计每月销售的房屋均价
  14. 将销售日期分割为年、月、日3列。
  15. 增加一个新销售日期变量,格式为“年/月/日”。
  16. 计算房屋的销售日期距离今天已过去的天数。