PROJECT - Apartment Analysis
- Preprocessing
## 'data.frame': 807353 obs. of 28 variables:
## $ 거래금액 : int 100000 110000 26500 30000 25900 25300 25000 27900 27800 26800 ...
## $ 건축년도 : int 2008 2004 2005 1999 1993 1992 1993 1992 1992 1993 ...
## $ 년 : int 2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
## $ 도로명 : chr "사직로8길" "경희궁2길" "율곡로2길" "혜화로3길" ...
## $ 도로명건물본번호코드: int 4 5 7 5 198 19 198 19 19 198 ...
## $ 도로명건물부번호코드: int 0 5 0 0 0 0 0 0 0 0 ...
## $ 도로명시군구코드 : int 11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
## $ 도로명일련번호코드 : int 3 1 1 2 2 1 2 1 1 2 ...
## $ 도로명지상지하코드 : int 0 0 0 0 0 0 0 0 0 0 ...
## $ 도로명코드 : int 4100135 4100005 4100234 4100545 4100020 4100065 4100020 4100065 4100065 4100020 ...
## $ 법정동 : chr "사직동" "내수동" "수송동" "명륜2가" ...
## $ 법정동본번코드 : int 9 110 85 237 703 702 703 702 702 703 ...
## $ 법정동부번코드 : int 0 15 0 0 0 0 0 0 0 0 ...
## $ 법정동시군구코드 : int 11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
## $ 법정동읍면동코드 : int 11500 11800 12400 17100 17400 17400 17400 17400 17400 17400 ...
## $ 법정동지번코드 : chr "1" "1" "1" "1" ...
## $ 아파트 : chr "광화문풍림스페이스본(101동~105동)" "킹스매너" "로얄팰리스스위트" "아남3" ...
## $ 월 : int 1 1 1 1 1 1 1 1 1 1 ...
## $ 일 : int 20 8 11 13 5 7 8 11 15 18 ...
## $ 일련번호 : chr "11110-2203" "11110-118" "11110-205" "11110-26" ...
## $ 전용면적 : num 136.4 194.4 40.1 47.4 64.7 ...
## $ 지번 : chr "9" "110-15" "85" "237" ...
## $ 지역코드 : int 11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
## $ 층 : int 7 6 8 4 3 2 11 11 13 11 ...
## $ qrt : chr "Q1" "Q1" "Q1" "Q1" ...
## $ yyyyqrt : chr "2010Q1" "2010Q1" "2010Q1" "2010Q1" ...
## $ 평수 : int 41 59 12 14 20 17 20 17 17 20 ...
## $ 평단가 : num 2439 1864 2208 2143 1295 ...
#----------------------------------------------------
# gsub ~바꾸기
#----------------------------------------------------
#gsub(' ','', df$???뜝?룞?삕??) -> df$???뜝?룞?삕??
#----------------------------------------------------
# Creating Columns using information
#----------------------------------------------------
#df[, -c(25,26,27,28)] -> df_1
#ifelse(df_1$?? < 4, 'Q1',
# ifelse(df_1$?? < 7, 'Q2',
# ifelse(df_1$?? < 10, 'Q3', 'Q4'))) -> df_1$qrt
#df_1$yyyyqrt <- paste0(df_1$??, df_1$qrt)
#df_1$???? <- round(df_1$????????/3.3)
#df_1$???訝?? <- df_1$??궧???셿?/df$????
분석 가설 설정 하기
서울 전체 아파트 VS 강남 아파트 가격의 변화 양상은 다를 것이다.
서울 전체 아파트 평균 평당 매매가 VS 강남구의 평균 평당 매매가
- 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다.
반포동 3개월 이전까지의 추세와 유사한 지역을 탐색 - 계층적 군집 분석 수행
## # A tibble: 42 x 2
## yyyyqrt mean
## * <chr> <dbl>
## 1 2010Q1 2079.
## 2 2010Q2 1906.
## 3 2010Q3 1966.
## 4 2010Q4 2085.
## 5 2011Q1 1934.
## 6 2011Q2 1895.
## 7 2011Q3 1925.
## 8 2011Q4 1961.
## 9 2012Q1 1875.
## 10 2012Q2 1908.
## # ... with 32 more rows
ggplot(df.1, aes(yyyyqrt, mean, group=1))+
geom_line(size=0.7)+
geom_smooth(method = "lm", col= "indianred")+
theme(axis.text = element_text(angle=90))+
ylim(0, max(df.1$mean))+
theme(text = element_text(family = font),
legend.position = "none",
axis.ticks = element_blank(),
plot.background = element_rect("#EBEBEB"),
panel.background = element_blank(),
axis.title = element_text(color = "#292929", face = "bold"),
axis.text = element_text(color = "#292929", face = "bold"),
plot.subtitle = element_markdown(face = "bold", color = "#292929"),
strip.text.x = element_text(face = "bold", color = "#292929"),
strip.background = element_blank(),
panel.spacing = unit(2, "lines"))+
labs(x= "Year Quaters", y= "Means of price", title= "The Average price of apartment in Korea baed on Quarters")

가설 1 : 서울 전체 아파트와 강남 아파트 가격은 변화하는 양상이 다를 것이다.
서울 전체 VS 강남구 아파트 (반포, 서초, 삼성동, 압구정동)
library(ggthemes)
df%>%
filter(법정동 %in% c("반포동", "서초동?","삼성동","압구정동")) %>%
group_by(yyyyqrt, 년) %>%
summarise(mean = mean(평단가)) -> gangnam
ggplot(gangnam, aes(yyyyqrt, mean, group=1))+
geom_line(size=0.8, col="#EC1D27") +
geom_smooth(method = "lm", col= "cornflowerblue")+
ylim(0, max(gangnam$mean))+
theme(text = element_text(family = font),
legend.position = "none",
axis.ticks = element_blank(),
plot.background = element_rect("#EBEBEB"),
panel.background = element_blank(),
axis.title = element_text(color = "#292929", face = "bold"),
axis.text = element_text(color = "#292929", face = "bold"),
plot.subtitle = element_markdown(face = "bold", color = "#292929"),
strip.text.x = element_text(face = "bold", color = "#292929"),
strip.background = element_blank(),
panel.spacing = unit(2, "lines"))+
labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in Gangnam areas")+
theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20")) +
theme(axis.title.x=element_blank(),
axis.text.x=element_blank(),
axis.ticks.x=element_blank())-> seoul_plot
seoul_plot

서초, 삼성, 압구정동의 각 평균 단가 시각화
#-----------------------------------------------------
# 서초동
#-----------------------------------------------------
df %>%
filter(법정동 == '서초동') %>%
group_by(yyyyqrt) %>%
summarise(price = mean(평단가)) %>%
ggplot(aes(yyyyqrt, price, group =1))+
geom_line(size=0.8, col="#EC1D27")+
geom_smooth(method = "lm", col= "cornflowerblue")+
theme(axis.text = element_text(angle=90))+
ylim(0, max(gangnam$mean))+
theme(text = element_text(family = font),
legend.position = "none",
axis.ticks = element_blank(),
plot.background = element_rect("#EBEBEB"),
panel.background = element_blank(),
axis.title = element_text(color = "#292929", face = "bold"),
axis.text = element_text(color = "#292929", face = "bold"),
plot.subtitle = element_markdown(face = "bold", color = "#292929"),
strip.text.x = element_text(face = "bold", color = "#292929"),
strip.background = element_blank(),
panel.spacing = unit(2, "lines"))+
labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in Seocho dong")+
theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
theme(axis.title.x=element_blank(),
axis.text.x=element_blank(),
axis.ticks.x=element_blank())->plot_1
df %>%
filter(법정동 == '삼성동') %>%
group_by(yyyyqrt) %>%
summarise(price = mean(평단가)) %>%
ggplot(aes(yyyyqrt, price, group =1))+
geom_line(size=0.8, col="#EC1D27")+
geom_smooth(method = "lm", col= "cornflowerblue")+
theme(axis.text = element_text(angle=90))+
ylim(0, max(gangnam$mean))+
theme(text = element_text(family = font),
legend.position = "none",
axis.ticks = element_blank(),
plot.background = element_rect("#EBEBEB"),
panel.background = element_blank(),
axis.title = element_text(color = "#292929", face = "bold"),
axis.text = element_text(color = "#292929", face = "bold"),
plot.subtitle = element_markdown(face = "bold", color = "#292929"),
strip.text.x = element_text(face = "bold", color = "#292929"),
strip.background = element_blank(),
panel.spacing = unit(2, "lines"))+
labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in 삼성동")+
theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20")) +
theme(axis.title.x=element_blank(),
axis.text.x=element_blank(),
axis.ticks.x=element_blank())-> plot_2
df %>%
filter(법정동 == '압구정동') %>%
group_by(yyyyqrt) %>%
summarise(price = mean(평단가)) %>%
ggplot(aes(yyyyqrt, price, group =1))+
geom_line(size=0.8, col="#EC1D27")+
geom_smooth(method = "lm", col= "cornflowerblue")+
theme(axis.text = element_text(angle=90))+
ylim(0, max(gangnam$mean))+
theme(text = element_text(family = font),
legend.position = "none",
axis.ticks = element_blank(),
plot.background = element_rect("#EBEBEB"),
panel.background = element_blank(),
axis.title = element_text(color = "#292929", face = "bold"),
axis.text = element_text(color = "#292929", face = "bold"),
plot.subtitle = element_markdown(face = "bold", color = "#292929"),
strip.text.x = element_text(face = "bold", color = "#292929"),
strip.background = element_blank(),
panel.spacing = unit(2, "lines"))+
labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in 압구정")+
theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
theme(axis.title.x=element_blank(),
axis.text.x=element_blank(),
axis.ticks.x=element_blank()) -> plot_3
plot_3


가설 2 : 2. 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다.
분석 내용 가정: 2020년 가격하락세는 코로나 여파로 인한 일시적인 현상이며, 이전 수준을 회복할 것으로 예측 -> 2020년 이전의 데이터로 반포동과 유사한 추세지역을 찾기 -> 동별 가격 변화 추세로 계층적 군집 분석
각 동별 가격 추세의 상관관계를 유사도(거리)행렬로 사용
유사도 행렬로 계층적 군집분석
법정동 기준, 분기 발생이 없는 지역을 제거
반포동 데이터/ 반포동 미 데이터만 추려서 데이터 병함 (dcast 함수 사용 )
Cor 함수를 사용한 유사도 행렬 데이터 셋 준비

계층적 군집 분석 실행

반포동과 유사한 패턴을 보이는 지역을 확인
반포동과 유사한 패턴을 보이는 지역을 확인

반포동과 유사한 패턴의 지역 미래 가격 예측
2020년 초 거래 가격으로 수준으로 3개월 내 회복 예측
iii{r}
