Understanding Data Analysis

PROJECT - Apartment Analysis

  1. Preprocessing
## 'data.frame':    807353 obs. of  28 variables:
##  $ 거래금액            : int  100000 110000 26500 30000 25900 25300 25000 27900 27800 26800 ...
##  $ 건축년도            : int  2008 2004 2005 1999 1993 1992 1993 1992 1992 1993 ...
##  $ 년                  : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
##  $ 도로명              : chr  "사직로8길" "경희궁2길" "율곡로2길" "혜화로3길" ...
##  $ 도로명건물본번호코드: int  4 5 7 5 198 19 198 19 19 198 ...
##  $ 도로명건물부번호코드: int  0 5 0 0 0 0 0 0 0 0 ...
##  $ 도로명시군구코드    : int  11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
##  $ 도로명일련번호코드  : int  3 1 1 2 2 1 2 1 1 2 ...
##  $ 도로명지상지하코드  : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ 도로명코드          : int  4100135 4100005 4100234 4100545 4100020 4100065 4100020 4100065 4100065 4100020 ...
##  $ 법정동              : chr  "사직동" "내수동" "수송동" "명륜2가" ...
##  $ 법정동본번코드      : int  9 110 85 237 703 702 703 702 702 703 ...
##  $ 법정동부번코드      : int  0 15 0 0 0 0 0 0 0 0 ...
##  $ 법정동시군구코드    : int  11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
##  $ 법정동읍면동코드    : int  11500 11800 12400 17100 17400 17400 17400 17400 17400 17400 ...
##  $ 법정동지번코드      : chr  "1" "1" "1" "1" ...
##  $ 아파트              : chr  "광화문풍림스페이스본(101동~105동)" "킹스매너" "로얄팰리스스위트" "아남3" ...
##  $ 월                  : int  1 1 1 1 1 1 1 1 1 1 ...
##  $ 일                  : int  20 8 11 13 5 7 8 11 15 18 ...
##  $ 일련번호            : chr  "11110-2203" "11110-118" "11110-205" "11110-26" ...
##  $ 전용면적            : num  136.4 194.4 40.1 47.4 64.7 ...
##  $ 지번                : chr  "9" "110-15" "85" "237" ...
##  $ 지역코드            : int  11110 11110 11110 11110 11110 11110 11110 11110 11110 11110 ...
##  $ 층                  : int  7 6 8 4 3 2 11 11 13 11 ...
##  $ qrt                 : chr  "Q1" "Q1" "Q1" "Q1" ...
##  $ yyyyqrt             : chr  "2010Q1" "2010Q1" "2010Q1" "2010Q1" ...
##  $ 평수                : int  41 59 12 14 20 17 20 17 17 20 ...
##  $ 평단가              : num  2439 1864 2208 2143 1295 ...
  1. 분석 가설 설정 하기

  2. 서울 전체 아파트 VS 강남 아파트 가격의 변화 양상은 다를 것이다.

서울 전체 아파트 평균 평당 매매가 VS 강남구의 평균 평당 매매가

  1. 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다.

반포동 3개월 이전까지의 추세와 유사한 지역을 탐색 - 계층적 군집 분석 수행

## # A tibble: 42 x 2
##    yyyyqrt  mean
##  * <chr>   <dbl>
##  1 2010Q1  2079.
##  2 2010Q2  1906.
##  3 2010Q3  1966.
##  4 2010Q4  2085.
##  5 2011Q1  1934.
##  6 2011Q2  1895.
##  7 2011Q3  1925.
##  8 2011Q4  1961.
##  9 2012Q1  1875.
## 10 2012Q2  1908.
## # ... with 32 more rows

가설 1 : 서울 전체 아파트와 강남 아파트 가격은 변화하는 양상이 다를 것이다.

    서울 전체 VS 강남구 아파트 (반포, 서초, 삼성동, 압구정동)

서초, 삼성, 압구정동의 각 평균 단가 시각화

#-----------------------------------------------------
#    서초동 
#-----------------------------------------------------

df %>%  
  filter(법정동 == '서초동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in Seocho dong")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
   theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank())->plot_1


df %>%  
  filter(법정동 == '삼성동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in 삼성동")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20")) +
   theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank())-> plot_2


df %>%  
  filter(법정동 == '압구정동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in  압구정")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
 theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank()) -> plot_3
 plot_3

가설 2 : 2. 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다.

분석 내용 가정: 2020년 가격하락세는 코로나 여파로 인한 일시적인 현상이며, 이전 수준을 회복할 것으로 예측 -> 2020년 이전의 데이터로 반포동과 유사한 추세지역을 찾기 -> 동별 가격 변화 추세로 계층적 군집 분석

각 동별 가격 추세의 상관관계를 유사도(거리)행렬로 사용 
유사도 행렬로 계층적 군집분석 
      
  1. 법정동 기준, 분기 발생이 없는 지역을 제거

  2. 반포동 데이터/ 반포동 미 데이터만 추려서 데이터 병함 (dcast 함수 사용 )

Cor 함수를 사용한 유사도 행렬 데이터 셋 준비

계층적 군집 분석 실행

반포동과 유사한 패턴을 보이는 지역을 확인

반포동과 유사한 패턴을 보이는 지역을 확인

반포동과 유사한 패턴의 지역 미래 가격 예측

2020년 초 거래 가격으로 수준으로 3개월 내 회복 예측

iii{r}

---
title: "Projects"
author: "DOEUN"
date: "03/03/2021"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE)



library(knitr)
library(dplyr)
library(tidyverse)
library(patchwork)
library(lubridate)
library(extrafont)
library(ggtext)
library(Cairo)
library(ggplot2)
library(waffle)


```


# Understanding Data Analysis {.tabset }


```{r echo=FALSE}

setwd("C:/Users/Administrator/Desktop/R Analysis/Fast Campus")

region_cd <- read.csv('region_cd.csv')

#---------------------------------------------------------
# grep1 : 
#--------------------------------------------------------
#region_cd %>% 
#  filter(grepl('?????듅????', region)) -> LAWD_CD

#LAWD_CD[,2] -> LAWD_CD

#--------------------------------------------------------
# 연/월 생성 
#--------------------------------------------------------


merge(c(2010:2020), c(1:12)) -> temp


if_else(temp$y < 10, 
        paste0(0, temp$y),
        as.character(temp$y)) -> temp$y



paste0(temp$x, temp$y) %>% 
  as.integer() -> DEAL_YMD


#-------------------------------------------------
# API 활용 데이터 끌어오기 
#-----------------------------------------------


#df <- NULL 

#API_KEY <- 'F82VxRSuqNOCbAjmZptHrOwyinOb2c%2Bs3RZ4fqjJNL8yCkwgpohCOc16qVCGqi%2F%2FoA%2BUs7FLotethltx3R5txw%3D%3D'
#library(XML)


#for (i in LAWD_CD) {
##  print(i)
#  for (l in DEAL_YMD) {
    
#    url <- paste0('http://openapi.molit.go.kr/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTradeDev?_wadl&type=xml')
    
#    raw.data <-xmlTreeParse(url, useInternalNodes = TRUE)
#    xml_rootNode <- try(xmlRoot(raw.data))
#    xml_result <- xmlToDataFrame(xml_rootNode[[2]][['items']])
#    df <- rbind(df, xml_result)
    
#  }
#}

```


# PROJECT - Apartment Analysis

1. Preprocessing 

```{r}


setwd("C:/Users/Administrator/Desktop/R Analysis")
read.csv('apt_data_2010_2020.csv')-> df
str(df)

#----------------------------------------------------
# gsub ~바꾸기 
#----------------------------------------------------

#gsub(' ','', df$???뜝?룞?삕??) -> df$???뜝?룞?삕??

#----------------------------------------------------
#    Creating Columns using information 
#----------------------------------------------------

#df[, -c(25,26,27,28)] -> df_1

#ifelse(df_1$?? < 4, 'Q1', 
#       ifelse(df_1$?? < 7, 'Q2', 
#              ifelse(df_1$?? < 10, 'Q3', 'Q4'))) -> df_1$qrt


#df_1$yyyyqrt <- paste0(df_1$??, df_1$qrt)


#df_1$???? <- round(df_1$????????/3.3)


#df_1$???訝?? <- df_1$??궧???셿?/df$????

```


2. 분석 가설 설정 하기 

  1. 서울 전체 아파트 VS 강남 아파트 가격의 변화 양상은 다를 것이다. 
  
  > 서울 전체 아파트 평균 평당 매매가 VS 강남구의 평균 평당 매매가
  
 
  2. 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다. 
  
  > 반포동 3개월 이전까지의 추세와 유사한 지역을 탐색 - 계층적 군집 분석 수행 

```{r}

font <-"Roboto Condensed"

df %>%  
  group_by(yyyyqrt) %>%  
  summarise(mean = mean(평단가)) -> df.1

df.1

ggplot(df.1, aes(yyyyqrt, mean, group=1))+ 
  geom_line(size=0.7)+
  geom_smooth(method = "lm", col= "indianred")+ 
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(df.1$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year Quaters", y= "Means of price", title= "The Average price of apartment in Korea baed on Quarters")
```


가설 1 : 서울 전체 아파트와 강남 아파트 가격은 변화하는 양상이 다를 것이다. 

        
        서울 전체 VS 강남구 아파트 (반포, 서초, 삼성동, 압구정동)

```{r}

library(ggthemes)


df%>%  
  filter(법정동 %in% c("반포동", "서초동?","삼성동","압구정동")) %>% 
  group_by(yyyyqrt, 년) %>% 
  summarise(mean = mean(평단가)) -> gangnam




ggplot(gangnam, aes(yyyyqrt, mean, group=1))+ 
  geom_line(size=0.8, col="#EC1D27") +
  geom_smooth(method = "lm", col=  "cornflowerblue")+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in Gangnam areas")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20")) +
    theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank())-> seoul_plot


seoul_plot
```


서초, 삼성, 압구정동의 각 평균 단가 시각화 

```{r}


#-----------------------------------------------------
#    서초동 
#-----------------------------------------------------

df %>%  
  filter(법정동 == '서초동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in Seocho dong")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
   theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank())->plot_1


df %>%  
  filter(법정동 == '삼성동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in 삼성동")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20")) +
   theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank())-> plot_2


df %>%  
  filter(법정동 == '압구정동') %>% 
  group_by(yyyyqrt) %>% 
  summarise(price = mean(평단가)) %>% 
  ggplot(aes(yyyyqrt, price, group =1))+ 
  geom_line(size=0.8, col="#EC1D27")+
   geom_smooth(method = "lm", col=  "cornflowerblue")+
  theme(axis.text = element_text(angle=90))+
  ylim(0, max(gangnam$mean))+
  theme(text = element_text(family = font), 
        legend.position = "none",
        axis.ticks = element_blank(),
        plot.background = element_rect("#EBEBEB"),
        panel.background = element_blank(),
        axis.title = element_text(color = "#292929", face = "bold"),
        axis.text = element_text(color = "#292929", face = "bold"),
        plot.subtitle = element_markdown(face = "bold", color = "#292929"),
        strip.text.x = element_text(face = "bold", color = "#292929"),
        strip.background = element_blank(),
        panel.spacing = unit(2, "lines"))+ 
  labs(x= "Year/Quarter", y= "Average Price", title= "The Average Price in  압구정")+
  theme(plot.title = element_text(family = font, face ="bold",size = 18, color = "grey20"))+
 theme(axis.title.x=element_blank(),
        axis.text.x=element_blank(),
        axis.ticks.x=element_blank()) -> plot_3
 plot_3


library(gridExtra)



grid.arrange(seoul_plot, plot_1, plot_2, plot_3, nrow=2, ncol=2)
```



가설 2 : 2. 강남 아파트의 가격 변화에 따라서 가격이 변화하는 지역이 있을 것 이다. 
  
  분석 내용 
    가정: 2020년 가격하락세는 코로나 여파로 인한 일시적인 현상이며, 이전 수준을 
          회복할 것으로 예측 
    -> 2020년 이전의 데이터로 반포동과 유사한 추세지역을 찾기 
    -> 동별 가격 변화 추세로 계층적 군집 분석 
    
    각 동별 가격 추세의 상관관계를 유사도(거리)행렬로 사용 
    유사도 행렬로 계층적 군집분석 
          

```{r}
library(TTR)
library(reshape2)

df %>% 
  filter(!yyyyqrt %in% c('2020Q1','2020Q2')) -> df.fil



#-----------------------------------------------------------
#   유사도 행렬 데이터 셋 준비 
#-----------------------------------------------------------



df.fil %>% 
  select(법정동, yyyyqrt,평단가) %>%
  group_by(법정동,yyyyqrt) %>% 
  summarise(price = round(mean(평단가),3)) %>% 
  mutate(ma3 = round(runMean(price,3),3)) %>%  #이동평균 3 계산 
  na.omit() -> df.ts


DT::datatable(df.ts)

```


1. 법정동 기준, 분기 발생이 없는 지역을 제거 


2. 반포동 데이터/ 반포동 미 데이터만 추려서 데이터 병함 (dcast 함수 사용 )
```{r}




df.ts %>% 
  group_by(법정동) %>% 
  summarise(cnt = n_distinct(yyyyqrt)) %>% 
  filter(cnt == 38) %>% 
  select(법정동) -> dong.list



# 반포동만 추출 

df.ts.banpo <- df.ts %>%  filter(법정동 == '반포동')


# 반포동 제외 추출 
df.ts <- df.ts %>% filter(법정동 %in% dong.list$법정동,
                             법정동 != '반포동')



# 반포동 제외 추출 dcast 변환 
dcast(df.ts, yyyyqrt ~ 법정동) -> dcast

dcast[,-1] -> comle_dcast



 
dcast(df.ts.banpo, yyyyqrt ~ 법정동) -> dcast_banpo
dcast_banpo[,-1] -> comple_dcast_banpo


cbind(comle_dcast, comple_dcast_banpo) -> df.trend



```

Cor 함수를 사용한 유사도 행렬 데이터 셋 준비 

```{r}

cor(df.trend) -> df.cor
heatmap(df.cor)
```


계층적 군집 분석 실행 

```{r}


hclust(as.dist(df.cor), method = 'ward.D2') -> hc

plot(hc, hang=-1, cex=0.35)

```


반포동과 유사한 패턴을 보이는 지역을 확인 


```{r}

df.cor[197, 1:197] %>%  as.data.frame() -> cor.banpo


```

반포동과 유사한 패턴을 보이는 지역을 확인 

```{r}

par(mfrow = (c(2,3)))

plot(df.trend$comple_dcast_banpo, type = 'l')
plot(df.trend$양평동5가, type = 'l')
plot(df.trend$사당동, type = 'l')
plot(df.trend$문래동6가, type = 'l')
plot(df.trend$가락동, type = 'l')
plot(df.trend$가산동, type = 'l')
```


반포동과 유사한 패턴의 지역 미래 가격 예측 

2020년 초 거래 가격으로 수준으로 3개월 내 회복 예측 



```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


iii```{r}
```


