Intro

요즘 전기차, 자율주행뿐만 아니라 우리 주변에 전동킥보드, 전기자전거 등 공유 모빌리티 서비스가 우후죽순 생겨나고 있다. 아버지 시대에는 등교하기 위해 1-2시간을 걸어 다녔다고 하시는데, 이제는 아파트 주차장에서 카셰어링 서비스 차량 (e.g. 쏘카) –> 대중교통 (e.g. 지하철/버스) –> 공유자전거/전동킥보드 (e.g. 따릉이, 라임) 를 타고 최종목적지까지 도착할 수 있도록 모빌리티 서비스가 촘촘히 들어서고 있다. 내 뱃살 지방도 촘촘히…

그 중에서 흔히 사람들이 대표적인 공유 모빌리티 서비스로 떠올리는 회사는 당연 우버이지 않을까? 한국에서는 아쉽게도 서비스를 하고 있지 않지만, 나도 미국에서 단기간 여행을 갔을 때, 뚜벅초의 더위를 식혀줄 에어컨 빵빵한 우버를 애용했다. 매번 편하고 쾌적하다고 생각했고, 과연 UBER는 나에게서 어떤 데이터를 가져가서 비즈니스에 사용할지 궁금했다.

  • 내가 자주 이용하는 route 에 따라 나는 학생이라는 걸 알까?
  • 나와 비슷한 cluster에 속한 사람들은 어떤 사람들일까?
  • 여름에는 시카고에서 특정 시간대 특정 구간을 반복해서 이용하는 걸 보고 내가 인턴 중이라는 걸 알까?
  • 비 오는 날이나 눈폭풍이 있는 날 급증하는 (특히 출퇴근 시간!) 수요에 따른 실시간 가격책정은 어떻게 하는 걸까?

위와 같이 꼬리에 꼬리를 무는 궁금증들을 나열하다보면 어느 새 목적지에 도착해있었다.

모빌리티 서비스 산업에 관심이 있어 데이터를 찾아보던 중, 누군가 Kaggle에 자신의 UBER RIDE HISTORY 데이터를 올려놓은 걸 발견했다. Google Sheet에 API 연동해서 자신이 우버와 Gett (러시아 우버 유사 서비스)를 이용할 때마다 event 데이터가 올라가는 형식으로 약 2년간 678번의 ride의 정보를 담은 흥미로운 데이터였다. 데이터 업로더는 Stan Tyan이라는 이름의 러시아 사람인데 혹시 몰라 블로그를 타고 연락처를 알아내어 EDA 및 publish 해도 되겠냐고 물어봤고, 며칠 뒤 흔쾌히 수락하는 메일을 받았다. 정말 감사하다. 아래는 Stan님에게서 받은 이메일이다. C:\Users\82104\Desktop\Side Projects\UBER

약간의 리서치를 해보니 러시아의 우버는 택시 형태로 되어있고 자차를 소유한 누구나가 아닌 허가된 면허를 가진 택시기사에게만 허락된다. 우리나라에서 우버나 타다 Basic이 택시기사노조의 반대에 의해 서비스를 중단한 것처럼, 러시아도 개인택시 면허 거래 제도가 있는지까지는 찾아보지 못했다. 여담으로 우버는 티맵과 손을 잡고 ’우티 UT ’로 플랫폼 중개 서비스를 개시했고, 타다는 타다대리, 타다라이트, 타다플러스 등으로 서비스를 다각화해 고객들에게 이동 서비스를 제공하고 있다.

EDA를 시작하기 전에 UBER는 사용자의 어떤 종류 데이터를 수집할지, 그 데이터를 어떻게 활용할지 등과 같은 질문에 대한 답을 짧게라도 생각해 보면 어떨까 제안해본다.

========================================================================================================================

Data

========================================================================================================================

  • 데이터는 위와 같이 생겼다. 각 변수들은 self-explanatory 하기 때문에 자세히 설명하지는 않겠다.

  • 위치 데이터 (위도, 경도)와 날씨에 대한 정보를 가지고 있다는 것이 특징이다.

========================================================================================================================

EDA - Basic

## [1] "데이터 수집 기간:  1082"
## [1] "데이터 수집 날짜:  2015-05-11 2018-04-27"
## [1] "평균 탄 횟수 per day:  0.626617375231054"

주행시간 & 대기시간

========================================================================================================================

  • trip_min (주행 시간 in munites)의 평균은 21분이고, wait_min의 평균은 9분이다.

  • wait_min (대기 시간 in munites) 이 100분이 넘는 데이터가 2개 존재한다. 기상악화와 연관된 것으로 예상되는데 한번 살펴보자.

========================================================================================================================

대기 시간이 100분 이상인 Ride

========================================================================================================================

  • 역시 비가 왔었다. (precipitation column 확인)

  • trip_start_time 변수의 경우, ride가 시작된 시점이 아니라 ride request를 시작한 시점이라는 걸 알 수 있다.

  • 따라서 trip_end_time = trip_start_time + trip_time + wait_time 이라는 식이 도출된다.

========================================================================================================================

주행 시간이 50분 이상인 Ride

========================================================================================================================

  • trip_min이 50 이상인 데이터 중 가장 적은 거리를 간 ride 역시 비가 왔었다.

  • precipitation 에 따라 다른 변수들도 살펴봐야겠다.

========================================================================================================================

강수 여부에 따른 Ride 특징

========================================================================================================================

  • 기상 (none, rain, snow)에 따른 surge_multiplier의 변화와 평균 속도에 대해 살펴본 결과다. 어느 정도 영향이 있는지 average로만 보아서는 알 수 없다.

  • 아래에서는 precipitation 그룹 (none, rain, snow) 간 특별한 차이가 있는지 살펴보자. 차이가 있는 것처럼 보이면 ANOVA를 통해 그룹 간 차이가 통계적으로 유의미한지도 봐야겠다.

========================================================================================================================

========================================================================================================================

  • 당연하게도 일반 > 비 > 눈 순서로 속도 변화가 조금 존재한다.

  • 하지만 확연한 차이가 없는 듯 하다. 따라서 ANOVA는 패스하기로 한다.

========================================================================================================================

Seasonality

========================================================================================================================

  • 겨울에 ride 횟수가 늘어나는 seasonality를 가진 것으로 보인다.

========================================================================================================================

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

========================================================================================================================

  • 하루 시간대에 따른 ride 횟수이다. 10시쯤 peak를 찍는다. 아마 출근시간이라서 그러지 않을까? 자세한 건 뒤에서 다시 살펴보도록 하자.

========================================================================================================================

운행 요금

========================================================================================================================

  • 꽤 많은 극단치들이 있어서, 굉장히 skewed 되어있다.

  • 봉우리가 2개 있는 분포가 눈에 띈다. 이는 직접 확인해봐야겠다.

========================================================================================================================

사용한 서비스 type에 따른 거리 vs. 운행 요금

========================================================================================================================

  • 오른쪽 legend를 클릭해서 각 type 별로 필러팅해서 볼 수 있다.

  • uberBLACK의 경우, 프리미엄 서비스이기 때문에 uberX보다 거리 대비 비용이 높다.

  • Business의 경우, uberBLACK 보다 더 높은 것으로 보인다.

  • 동일 거리 대비 비용의 순서는 Business > uberBLACK > uberX = EconomyFix 정도로 가늠된다.

  • uberBLACK의 경우, variance가 넓게 포진되어 있다.

  • 반면 uberX의 경우, varaince가 일정하다.

하지만 위의 관찰은 boxplot과 scatter plot 으로 본 시각적 추정에 불과하기 때문에 각 type 별로 통계적으로 유의한 차이가 있는지 One-way ANOVA를 통해 살펴볼 필요가 있다.

========================================================================================================================

========================================================================================================================

  • One-way Anova 모델을 통해 귀무가설을 기각 혹은 채택하기 전에 데이터는 다음의 가정들을 만족해야한다: Independence, Normality, Equal variance, Randomness

  • Normal Q-Q plot (오른쪽 상단): 아래와 위의 데이터 점들이 직선을 따르지 않는다. 따라서 Normality 가정을 만족하지 못한다.

  • 그러므로 우리는 이번 모델을 토대로 “모든 집단의 운행 비용은 동일하다”라는 귀무가설을 기각할 수 없다.

========================================================================================================================

========================================================================================================================

  • 이전 모델이 가정을 만족하지 못했기 때문에 새로운 모델에서는 운행 요금(price_usd)에 log를 씌움으로써 가정을 만족할 수 있도록 데이터를 조정해보았다.

  • Independece: 각 Ride는 서로에게 영향을 끼치지 않으므로 Independence 가정을 만족한다.

  • Normal Q-Q plot (오른쪽 상단): 데이터 점들이 일직선을 따라 고르게 분포해있기 때문에 Normality 가정을 만족한다.

  • Residual vs. Fitted plot (왼쪽 상단): x의 변화에 따라 y 값의 분산이 크게 달라지지 않기 때문에 Equal variance 가정을 만족한다.

  • 모든 가정을 만족하기 때문에 해당 모델에 대한 귀무가설 기각 혹은 채택 과정을 진행하도록 하겠다.

========================================================================================================================

##                       Df Sum Sq Mean Sq F value Pr(>F)    
## as.factor(trip_type)   7  40.47   5.781   18.55 <2e-16 ***
## Residuals            670 208.79   0.312                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

========================================================================================================================

  • F-test = 18.55, p-value < 2 * 10^(-16) 라는 유의수준 0.05 아래를 상회하는 유의미한 값들을 얻었다.

  • 따라서 우리는 “모든 집단의 운행 비용은 동일하다”라는 귀무가설을 기각하고 “적어도 한 집단의 운행 비용은 차이가 있다”라는 결론을 내릴 수 있다.

  • 하지만 어떤 집단 사이에 운행 비용의 차이가 있는지 One-way ANOVA로만은 알 수 없기 때문에 multiple comparison 방법을 통해 알아보도록 하자.

========================================================================================================================

## 
##   Posthoc multiple comparisons of means : Bonferroni 
##     95% family-wise confidence level
## 
## $`as.factor(trip_type)`
##                              diff     lwr.ci      upr.ci    pval    
## Comfort-Business      -1.05984597 -2.2270423  0.10735033 0.12702    
## EconomyFix-Business   -1.04755493 -2.1196932  0.02458334 0.06352 .  
## uberBEAUTY-Business   -1.40880756 -3.4304509  0.61283575 0.81736    
## uberBLACK-Business    -0.06047580 -1.1259754  1.00502378 1.00000    
## uberELKA-Business      0.52819280 -1.4934505  2.54983611 1.00000    
## uberSELECT-Business   -0.32800189 -1.9262513  1.27024748 1.00000    
## uberX-Business        -1.17979153 -2.1930917 -0.16649136 0.00787 ** 
## EconomyFix-Comfort     0.01229105 -0.6720384  0.69662054 1.00000    
## uberBEAUTY-Comfort    -0.34896159 -2.1944610  1.49653782 1.00000    
## uberBLACK-Comfort      0.99937018  0.3254891  1.67325128 0.00011 ***
## uberELKA-Comfort       1.58803877 -0.2574606  3.43353818 0.19977    
## uberSELECT-Comfort     0.73184409 -0.6368149  2.10050307 1.00000    
## uberX-Comfort         -0.11994556 -0.7078262  0.46793507 1.00000    
## uberBEAUTY-EconomyFix -0.36125263 -2.1481497  1.42564448 1.00000    
## uberBLACK-EconomyFix   0.98707913  0.4959081  1.47825016 1.5e-08 ***
## uberELKA-EconomyFix    1.57574773 -0.2111494  3.36264484 0.16342    
## uberSELECT-EconomyFix  0.71955304 -0.5689968  2.00810287 1.00000    
## uberX-EconomyFix      -0.13223661 -0.4965673  0.23209412 1.00000    
## uberBLACK-uberBEAUTY   1.34833176 -0.4345900  3.13125357 0.50348    
## uberELKA-uberBEAUTY    1.93700036 -0.5389969  4.41299763 0.40314    
## uberSELECT-uberBEAUTY  1.08080567 -1.0634709  3.22508221 1.00000    
## uberX-uberBEAUTY       0.22901603 -1.5232106  1.98124263 1.00000    
## uberELKA-uberBLACK     0.58866860 -1.1942532  2.37159041 1.00000    
## uberSELECT-uberBLACK  -0.26752609 -1.5505575  1.01550530 1.00000    
## uberX-uberBLACK       -1.11931573 -1.4636205 -0.77501098 < 2e-16 ***
## uberSELECT-uberELKA   -0.85619469 -3.0004712  1.28808185 1.00000    
## uberX-uberELKA        -1.70798433 -3.4602109  0.04424227 0.06506 .  
## uberX-uberSELECT      -0.85178965 -2.0918128  0.38823352 0.88385    
## 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

========================================================================================================================

  • 가장 널리 알려진 Multiple comparison 방법 중에는 Fisher’s LSD, Tukey’s HSD, Bonferroni 방법이 있다. 왼쪽에서 오른쪽 순으로 갈 수록 그룹 간의 차이에 대해 보수적인 성격을 띄기 때문에 Bonferroni를 선택했다.

  • uberX-uberBLACK, uberBLACK-EconomyFix, uberBLACK-Comfort, uberX-Business 가 유의수준 0.05보다 작은 p-value를 갖고 있기 때문에 해당 그룹들간의 운행비용 차이가 존재한다고 자신있게 말할 수 있다.

========================================================================================================================

Driver마다 최대 속도를 계산하여 운전 습관 살펴보기

driver_name_en max_speed
Abuzar 76.77778
Vadim 71.67097
Valeriy 71.18961
Sergey 67.48052
Vyacheslav 66.71688
Boburzhon 64.21571
Evgeniy 62.52245
Vasiliy 61.83317
Sagynbek 60.57624
Viktor 60.52662

========================================================================================================================

  • 아래 테이블은 Abuzar씨의 trip 데이터인데 공항에 출발해서 딱 한번 운행했다.

  • 최대속력은 거리/주행 시간으로 산출되어 전체 운전 거리에 대한 평균 속도이지 실제 운전 시에는 이보다 더 빠른 속력으로 달렸을 수 있다.

  • 추측: 여러번의 같은 행로에서 Abuzar씨에게 단 한번밖에 배차가 안된 걸로 보아 사용자가 driver의 속력에 불편함을 느껴 ride 후기별점을 적게 줘서 다음부터는 매칭이 안됐을 수도 있겠다는 유추를 해본다. 아쉽게도 후기별점에 대한 데이터는 없다.

  • 그렇다고 마냥 과속을 했다고 단정지을 수 없는 게 운전 시간대가 자정이다. 공항 주변 길은 넓고 한가한 걸 고려하면 빠른 속도가 이해되기도 간다. 단 한번밖에 배차가 안된 이유는 우버의 배차 알고리즘에 따라 다를 수도 있다.

  • 다음은 그럼 비슷한 날씨, 시간에 같은 길을 간 다른 driver들의 속력과 비교해보자

========================================================================================================================

========================================================================================================================

  • 비슷한 시간대에 같은 경로로 운전한 driver는 총 3명인데 drive_speed 차이가 있다.

  • 제공된 데이터에서 최대한 같은 환경에 있는 Driver들을 고려한 건데 Traffic 있지 않는 이상 Abuzar씨는 속력이 좀 빠르지 않았나 싶다.

  • 하지만 위에서 유추했던 ride 후기별점 가설에 대한 실험은 sample size도 적거니와 매번 다른 driver와 매치가 되었기 때문에 진행하지 않기로 한다.

  • 데이터를 보니 이상한 점이 있다. 2017년 11월 25일 자정 즈음에 1분 간격으로 Abuzar과 Leonid가 동일한 시간대에 drive를 한 것으로 나타났다. 데이터 수집 혹은 syncing 과정에서 오류가 있지 않았나 싶다. 따라서 더 깊은 분석은 의미가 없을 것 같다.

========================================================================================================================

상관관계

========================================================================================================================

  • 유의수준 (significance level)을 0.10 으로 정해 상관관계의 p-value가 0.10보다 큰 변수들은 유의하지 않다고 판단해 X 표시가 된 correlation plot 이다.

  • 중간에 기온 (temperature, feels_like) 에 따른 대기시간, 운행시간, 비용, 거리, uberBLACK 이용여부 와의 약한 양의 상관관계가 주목할만하다.

  • 비용 (price_usd) & 거리 (distance_kms): 약한 양의 상관관계.

  • uberBLACK과 같은 프리미엄 서비스 & 비용: 약한 양의 상관관계.

========================================================================================================================

EDA - 위치 데이터

trip_start_address pickup_cnt
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 173
Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 40
Sofyi Kovalevskoy ul., 14克6?, Sankt-Peterburg, Russia, 195256 23
Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 20
Sofyi Kovalevskoy ulitsa, 14 克棘?極?? 6?, Sankt-Peterburg, Russia, 195256 16
Irinovskiy Prospekt, 32 Sankt-Peterburg 195030 10
trip_end_address dropoff_cnt
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 183
Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 59
Sofyi Kovalevskoy ul., 14克6?, Sankt-Peterburg, Russia, 195256 29
Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 28
Sofyi Kovalevskoy ulitsa, 14 克棘?極?? 6?, Sankt-Peterburg, Russia, 195256 15
Kirishskaya ul., 11, Sankt-Peterburg, Russia, 195299 13

========================================================================================================================

  • 출발 지점마다 ride 횟수 (위) vs. 도착 지점마다 ride 횟수 (아래)

  • Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014. 출발과 도착을 가장 많이 한 장소인 여기가 집인 듯하다.

  • Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027. 2번째로 많은 횟수를 기록한 여기는 회사인 것 같다.

  • 다음은 출발 지점과 도착 지점 간 trip에 대해 살펴보자

========================================================================================================================

trip_start_address trip_end_address dropoff_cnt
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 32
Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 28
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 16
Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 11
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Kirishskaya ul., 11, Sankt-Peterburg, Russia, 195299 7
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Yakornaya Ulitsa, 5?, Sankt-Peterburg, Russia, 195027 7
Sofyi Kovalevskoy ul., 14克6?, Sankt-Peterburg, Russia, 195256 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6
ul. Kollontay, 1, Sankt-Peterburg, Russia, 193230 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6
Magnitogorskaya ul., 11, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5
Ulitsa Dzhona Rida, 2, Sankt-Peterburg, Russia, 193318 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5

========================================================================================================================

  • Top 1,2 를 보면 집과 회사로 추정되는 두 위치 사이에 가장 많은 왕래를 볼 수 있다

  • Top 3,4 가 집에서 Airport로 가는 것 흥미롭다. 아마도 Stan은 컨설턴트이거나 여행을 좋아하는 사람이지 않을까?

========================================================================================================================

trip_start_address trip_end_address pickup_cnt avg_time
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 32 10:37:34
Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 28 17:27:04
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 16 15:54:19
Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 11 11:55:05
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Kirishskaya ul., 11, Sankt-Peterburg, Russia, 195299 7 10:15:17
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Yakornaya Ulitsa, 5?, Sankt-Peterburg, Russia, 195027 7 12:08:00
Sofyi Kovalevskoy ul., 14克6?, Sankt-Peterburg, Russia, 195256 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6 15:01:30
ul. Kollontay, 1, Sankt-Peterburg, Russia, 193230 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6 14:59:30
Magnitogorskaya ul., 11, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5 14:27:00
Ulitsa Dzhona Rida, 2, Sankt-Peterburg, Russia, 193318 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5 14:37:36

========================================================================================================================

  • trip_start_time (승차시간)을 고려해 pickup_cnt 아래차순으로 나열한 결과이다.

  • Top 1,2 확인해보면 보통 10시37분에 출근 17시27분에 퇴근.

  • Top 3 확인해보면 주로 16시쯤에 “집에서” 공항으로 출발한다. 위에서 컨설턴트가 아닐까 생각했는데, 회사가 아니라 집에서 출발하는 걸 보니 아닌 것 같다. 프리랜서인가 hoxy…?

========================================================================================================================

trip_start_address trip_end_address dropoff_cnt avg_time
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 32 11:05:30
Sverdlovskaya naberezhnaya, 44?/4?, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 28 17:50:43
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 16 16:38:04
Pulkovo Airport (LED), Unnamed Road, Sankt-Peterburg, Russia, 196210 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 11 12:39:38
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Kirishskaya ul., 11, Sankt-Peterburg, Russia, 195299 7 10:47:00
Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 Yakornaya Ulitsa, 5?, Sankt-Peterburg, Russia, 195027 7 12:31:09
Sofyi Kovalevskoy ul., 14克6?, Sankt-Peterburg, Russia, 195256 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6 15:32:00
ul. Kollontay, 1, Sankt-Peterburg, Russia, 193230 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 6 15:29:50
Magnitogorskaya ul., 11, Sankt-Peterburg, Russia, 195027 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5 14:51:36
Ulitsa Dzhona Rida, 2, Sankt-Peterburg, Russia, 193318 Paradnaya Ulitsa, 3, Sankt-Peterburg, Russia, 191014 5 15:06:12

========================================================================================================================

  • trip_end_time (하차시간)을 고려해 dropoff_cnt 아래차순으로 나열한 결과이다.

  • Top 1을 보면 회사에 평균 11시05분에 도착한다.

  • 지각이라는 개념이 없는 자율출근제 회사가 아닌가 추측해본다.

========================================================================================================================

Interactive Map: 출발 지점의 따른 Ride 횟수

========================================================================================================================

  • 마우스로 클릭/스크롤해서 살펴보자

  • 가장 많은 곳을 클릭해보면 집인 것을 확인할 수 있다.

  • 집 근처 뿐만 아니라 비행기를 타고 주변에 여행 혹은 출장을 갔을 때도 uber를 이용한 것으로 추정된다.

========================================================================================================================

========================================================================================================================

  • 마우스로 스크롤 및 Zoom in 해서 살펴보자

  • 이전 interactive map과 비슷하게 집 근처에서 line이 확산되는 것을 볼 수 있다.

========================================================================================================================

마치며…

이렇게 얼굴 한 번 본적 없지만 오늘도 어디선가 우버를 타고 열심히 살고 있을 Stan님의 우버 사용 이력에 대해 살펴보았다. 사실 EDA를 하면서 집 주변 주소까지 알아내고 위성 구글맵으로 찾아보고 확인하면서 너무 깊게 파는 게 아닌가 우려스러웠지만 Stan님의 배려 덕분에 그동안 궁금했던 부분들을 잠시나마 해소시킬 수 있었던 시간이었다. Driver에 대한 별점 후기 데이터가 있었으면 더 흥미로웠을 것 같다.

UBER 같은 ride hailing service 뿐만 아니라 미국의 Zipcar, 국내의 Socar 같은 ride sharing service 는 넘쳐나는 데이터로 어떤 재미있는 고도의 분석을 할까 무척 궁금하다. 공공데이터 중에 그런 궁금증들을 해소시켜줄만한 데이터를 더 찾아봐야겠다.

마지막으로 Stan님의 Website가 궁금하다면 여기를 클릭하세요 :)