현재 제공 중인 4개의 대표적인 상권분석 서비스들은 기업의 자체 데이터 및 공공데이터를 활용하여 단편적인 정보 제공이 그친다. 서울시가 제공하고 있는 ’우리마을 가게 상권분석 서비스’를 바탕으로 추가적인 데이터 분석을 통해, 인사이트를 제공하고자 한다.
점포당 매출액 크기에 따른 다양한 분석을 제공하기 위해 분위회귀분석(Quantile Regression)을 사용한다. Quantile Regression이란 종속변수의 조건부 평균을 추정하는 단일 모형이 아닌 조건부 분위별로 차별화된 모형을 추정하여 대표값만이 아닌 분포패턴 변화를 볼 수 있는 분석 방법이다. 평균에 비해 이상치(outliers)나 비대칭분포(skewed distribution)에 민감하게 반응하지 않는 추정치를 제공한다.
분위회귀분석은 종속변수를 기준으로 분석대상을 줄 세우고 이를 N등분 했을 때, 나뉜 각각의 구간에서 독립변수들이 지니는 효과의 크기가 모두 다를 수 있음을 상정한다. 다시 말해 분석대상들이 수준에 따라 매우 이질적(heterogeneous)일 때, 분위회귀분석을 통해 좀 더 정교한 분석이 가능하다.
기본적으로 서울시 공공데이터 포털에서 제공하는 ‘골목상권영역 및 프로파일링’ 자료를 활용한다. 자료는 43개 생활밀착형 업종에 대한 1,008개 골목상권 영역을 대상으로 한다. 상당수의 결측치가 존재하여 아래의 기준으로 데이터 전처리를 시행하였으며, 2014년 1월부터 2017년 6월 자료를 분석 대상으로 삼았다.
| 분류 | 컬럼 한글 명 | NA 처리 기준 |
|---|---|---|
| Basic | 총 유동인구 수 | 골목별 평균으로 대체 |
| Basic | 총 직장인구 수 | 0으로 대체(관련 컬럼이 모두 NA인 경우 조사되지 않은 것으로 추정) |
| Basic | 총 상주인구 수 | 0으로 대체(관련 컬럼이 모두 NA인 경우 조사되지 않은 것으로 추정) |
| Basic | 월 평균 소득금액 | 골목별 평균으로 대체 |
| Basic | 지출 총금액 | 골목별 평균으로 대체 |
| Basic | 집객시설 수 | 14년도 : 골목별 15년 1월 데이터로 대체, 15년도 이후 : 골목별 평균으로 대체 |
| Basic | 총 가구 수 | 14년도 : 골목별 15년 데이터로 대체, 15년도 이후 : 골목별 평균으로 대체 |
| Basic | 전년도 매출 금액 | 당해년도 동월 동서비스 매출 금액으로 대체 |
| Basic | 전년도 매출 건수 | 당해년도 동월 동서비스 매출 건수로 대체 |
| Basic | 전년도 점포수 | 당해년도 동월 동서비스 점포수로 대체수 |
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
기본 변수를 바탕으로 업종별(외식업, 서비스업, 도소매업), 상권별(마포구, 강남구, 관악구), 성별(남성, 여성), 요일별(주중, 주말), 연령별(10대, 20대, 30대, 40대, 50대, 60대 이상) 시나리오 별로 분위회귀분석을 시행하여 분위별로 변수의 영향력이 크게 변화하는 구간을 포착하고자 한다.
| Basic 변수 | 단위 | 정의 |
|---|---|---|
| 점포당 매출 금액 | 원 | 당월 매출금액을 점포수로 나눈 금액 |
| 총 유동인구 수 | 명 | 골목상권의 유동인구 |
| 총 직장인구 수 | 명 | 골목상권에 위치한 회사에서 근무하는 인구 |
| 총 상주인구 수 | 명 | 골목상권에 주거지를 둔 인구 |
| 당월 매출 건수 | 건 | 골목상권에 해당하는 상점의 거래건수 |
| 월 평균 소득 금액 | 원 | 상주인구의 월 평균 소득 |
| 지출 총 금액 | 원 | 골목상권 구역에 해당하는 가구의 지출 총금액 |
| 집객시설 수 | 개 | 골목상권 상점 수 |
| 총 가구 수 | 개 | 골목상권 인근 가구 수 |
## used (Mb) gc trigger (Mb) max used (Mb)
## Ncells 603740 32.3 1168576 62.5 940480 50.3
## Vcells 1056555 8.1 2060183 15.8 1301600 10.0