Chapter 3: 왜 매상이 감소하는가?

STEP 1 < 현재의 Fact 와 원하는 Ideal 케이스에 대한 정의를 간단하게 내린다 >

  현재: 매출이 떨어짐 
  해결: 지난달과 비슷한 매출을 확보해야한다 
  

STEP 2 < 매출 감소의 원인에 대해 사실에 기반한 가설을 세워 보자 >

최종가설: 매출의 감소는 신규 회원들이 광고를 안 봐서이다. (그럼 신규 회원들이 돈은 냈나?)

  매출의 감소 원인 1) 광고에 문제가 생김 
                   2) 매월 일관성이 없는 게임의 이벤트에 문제가 있나? 
                   
  사실관계파악 (정보수집) : 1) 광고에 문제가 생겼다 - 알고보니 돈이 없어서 많이 못함 
                            2) 일관성 문제 - 이벤트 내용은 딱히 달라진게 없었다. 
                            
  !! 광고에 문제가 생겨서 매출이 떨어졌다는 가설에 힘이 실린다. 
     돈이 없어서 광고가 많이 안 됐으니까, 홍보가 제대로 이루어지지 않은 문제인거 같다. 
     신규 회원이 늘지 못한 것일수도 있고, 기존 유저가 새로운 이벤트를 시도하지 않은 것일 수도 있다. 
     
     신규 회원의 감소 (= 매출이 증가하지 않음) 과 매출의 감소의 관계를 데이터로 확인해본다. 
     

STEP 3 <어떤 데이터를 봐야하나?>

  문제 * 매출이 떨어졌다. 
       * 광고를 적게 했다. 
       * 그래서 신규 유저가 줄었다. (가설)
       
  해결책 * 광고비를 더 투자한다. 
  
  DAU DATA : 하루에 한 번이상 게임을 이용한 유저 
         
          - log_date :로그인 한 날 
          - 앱 이름 : app_name 
          - 유저 : user_id 
          
  DPU DATA : 하루에 1원 이상 돈을 낸 유저 
  
          - 과금일 : log_date
          - 앱 이름 : app_name 
          - 유저 ID : user_id
          - 과금액 : payment 
          
  INSTALL DATA : 설치 시작 날짜 (즉, 신규회원)
  
          -이용 시작한 날: install_date
          -앱 이름 ; app_name 
          - 유저 : user_id 
          

DATA 이해하기 DAU DATA (Daily Active User)

2013-06-01 날 game-01 앱을 사용한 사람은 id 116 이다. 
>> 접속한 사람들 내역 확인 

DPU DATA (Daily Payment User)

2013-06-01 날 game-01 앱에서 결제한 사람의 id 는 351 이다. 
같은 사람이 같은 날에 여러번 들어와서 게임한 경우에는 그때마다 과금액 데이터가 남는다. 

Install Data

게임을 시작한 유저들 

데이터 전처리 하기

  1. DAU + Install : 신규로 앱을 설치해서 하루에 한번 이상 게임을 이용한 유저들이 있는지 확인

  2. DPU + : 들어와서 과금한 유저가 있을까?

Logical Flow : 하루에 한 번 이상 게임을 한 사람이 (DAU) 새로운 사람인가? (Install) 그 유저들이 있다면 돈을 냈나? (DPU)

< Payment NA 의 이해 >

log_date 는 들어와서 돈을 낸 날짜 install_date 는 앱을 설치한 날짜

즉, 신규로 들어와서 설치를 했는데 돈을 낸 적이 없다는 것.

  1. 비과금 유저의 과금액 0 넣기 (NA= payment)
##     log_date user_id app_name install_date payment
## 1 2013-06-01       1  game-01   2013-04-15       0
## 2 2013-06-01       3  game-01   2013-04-15       0
## 3 2013-06-01       6  game-01   2013-04-15       0
## 4 2013-06-01      11  game-01   2013-04-15       0
## 5 2013-06-01      17  game-01   2013-04-15       0
## 6 2013-06-01      18  game-01   2013-04-15       0
  1. 월차로 집계하기

매월 유저별로 집계한 데이터로 변환 시킨다. -> 월별로

1) 월 만 빼낸다 substr 함수 사용 (log_date, install_date)
2) 월 별 payment 합계를 본다 
##     log_date user_id app_name install_date payment log_month install_month
## 1 2013-06-01       1  game-01   2013-04-15       0   2013-06       2013-04
## 2 2013-06-01       3  game-01   2013-04-15       0   2013-06       2013-04
## 3 2013-06-01       6  game-01   2013-04-15       0   2013-06       2013-04
## 4 2013-06-01      11  game-01   2013-04-15       0   2013-06       2013-04
## 5 2013-06-01      17  game-01   2013-04-15       0   2013-06       2013-04
## 6 2013-06-01      18  game-01   2013-04-15       0   2013-06       2013-04
  1. 신규/유저를 구분하는 항목 추가하기

설치한 달과 들어온 달이 같으면 = 신규(install), 아니면 기존 고객 (existing)

## # A tibble: 6 x 5
## # Groups:   log_month, user_id [6]
##   log_month user_id install_month payment use_type
##   <chr>       <int> <chr>           <dbl> <chr>   
## 1 2013-06         1 2013-04             0 existing
## 2 2013-06         2 2013-04             0 existing
## 3 2013-06         3 2013-04        149940 existing
## 4 2013-06         4 2013-04             0 existing
## 5 2013-06         6 2013-04             0 existing
## 6 2013-06         7 2013-04             0 existing
  1. 그래프 시각화

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##      0.0      0.0      0.0    160.8      0.0 208610.0

Conclustion

1. 매상이 떨어졌다 (사실) 
2. 신규 유저의 매상이 감소했고,그 중에서 20,000원 이하의 라이트 유저의 감소가 컸다 (사실)
3. 광고 비용을 떨어트리면 안된다. 

Chapter 4 : 이탈 고객 분석 (탈퇴하는 이유를 분석) - 크로스 집계

  1. USER 의 수가 감소 했음

원인에 대한 가설 1) 광고 때문에 탈퇴 유저수가 더 많다. - 광고는 지난 달이랑 비슷했고, 신규 유저도 있다. 2) 매월 테마를 바꿔서 개최하던 이벤트가 식상해졌다. - 이벤트 내용도 거의 바뀌지 않았다. 3) 특정 고객층의 이탈이 있다. - 유력 가설

원인을 제대로 알 수 없기 때문에 ‘탐색형’ 데이터 분석을 실시행

  • 크로스 집계를 사용하여 세그먼트 도출 분석
  1. 데이터 선정

    DAU - 1 회 이상 방문 데이터

      - log_date, app_name, id 

    USER.INFO - 사용자 고객 정보 관련 데이터

      - install_date, app_name, id, gender, generation, device_type 
  1. Gender, Generation, Device_type 별 집계하기

3.1 Gender

Gender 별 방문에 대한 집계 이기 때문에, log_month 를 집계한다.

## # A tibble: 4 x 3
## # Groups:   log_month [2]
##   log_month gender     n
##   <chr>     <fct>  <int>
## 1 2013-08   F      47343
## 2 2013-08   M      46842
## 3 2013-09   F      38027
## 4 2013-09   M      38148
##          gender
## log_month     F     M
##   2013-08 47343 46842
##   2013-09 38027 38148

table 함수로 Cross 교차 집계 - 특징: table 함수가 두 factor 의 집계를 보기엔 좋다.

성별에 따른 방문 유저의 수가 준것 같지 않다.

3.2 Generation

##          generation
## log_month    10    20    30    40    50
##   2013-08 18785 33671 28072  8828  4829
##   2013-09 15391 27229 22226  7494  3835

연령 별 차이도 없는 것 같아 보인다.

3.3 Gender x Generation

dcast 함수 사용 : 두 factor 형 크로스 집계 사용

##   log_month F_10  F_20  F_30 F_40 F_50 M_10  M_20  M_30 M_40 M_50
## 1   2013-08 9091 17181 14217 4597 2257 9694 16490 13855 4231 2572
## 2   2013-09 7316 13616 11458 3856 1781 8075 13613 10768 3638 2054

성별 + 나이에서도 뚜렷하게 이탈이 일어난 것 같지 않아 보인다.

3.4 Device

##          device_type
## log_month Android   iOS
##   2013-08   46974 47211
##   2013-09   29647 46528

차이가 나타남

A/B Test

A/B Test 란, 웹 사이트 방문자를 임의의 두 집단으로 나누고, A 집단에게는 기존 사이트를, B 집단에게는 새로운 사이트를 보여준 다음, 두 집단 중 어떤 집단이 더 높은 성과를 보여주는지에 대해 평가하는 방식이다.

성과 기준은 : 회원 가입률, 재방문율, 구매전환률 등의 지표를 확인한다.

인과 관계를 찾기 위한 테스트

주의 할 점 : 임의적 할당 (Random Assignment)

 그룹 A/B를 남/여 혹은 짝수/홀수, 첫 일주일 방문 자/그 다음 일주일 방문자      등 임의적이지 않은 방식으로 구분 하는 경우, 두 집단의 차이가 무엇            때문인지 가려낼 수가 없다. 
 
 임의적 추출 예시) 초등학교 학생들을 대상으로 한 실험의 결과를 초중고         학생에게 모두 적용하거나, 페이스 북 사용자를 대상의 실험을 트위터에          적용시키거나 하면 집단의 성격과 모집단의 성격에 차이가 있기 때문에           기대와 다른 결과를 나타낼 수 있다. 
 
 
 1) 전후 비교 X 
   Before/ After 로 확인하면, 외부 요인을 배제 할 수 없다. 
   
   예를 들어, 배너 B를 광고하는 데 전체 구매율이 좋았다. 
              배너 B를 광고하는데 다른 이벤트가 대박을 쳤다. 
              배너 B를 광고하는데 방송에 소개되었다. 
              
   >> 외부요인이 작용하였기 때문에, 그렇다면 A를 내걸었어도 좋았겠네 
      그건 아무도 모름 

 2) 통계적 가설 T.TEST 는 커트라인으로만 바라보기 
 
 적어도 가설 검정에서는 의미가 있는 차이가 나타났으므로 비지니스 상에서
 의미가 있는 차이인지 검토를 해봐야한다. 

데이터 설명 < 배너 광고의 표시 획수 정보> log_date : 표시 날짜 test_name : test 이름 test_case : A, B user_id transcation_id : 배너 광고가 표시되었을 때 발생하는 id

데이터 설명 <배너 광고의 클릿 횟수 정보> log_date : 클릭한 날짜 test_name : test 이름 test_case : A, B user_id transcation_id : 배너 광고가 표시되었을 때 발생하는 id

Transcation_id 기준 : 배너광고가 표시되었을때 발생하는 id 로 표시로그와 클릭 로그를 결합할 키로 사용

즉, 표시와 클릭 기록이 맞는 기준으로 병합

##   transaction_id   log_date app_name  test_name test_case user_id log_date.g
## 1              1 2013-10-02  game-01 sales_test         A   49017       <NA>
## 2              2 2013-10-02  game-01 sales_test         B   49018       <NA>
## 3              3 2013-10-02  game-01 sales_test         A   44338       <NA>
## 4              4 2013-10-02  game-01 sales_test         A   44339       <NA>
## 5              5 2013-10-02  game-01 sales_test         A   28598       <NA>
## 6              6 2013-10-02  game-01 sales_test         B   30306       <NA>
##   app_name.g test_name.g test_case.g user_id.g
## 1       <NA>        <NA>        <NA>        NA
## 2       <NA>        <NA>        <NA>        NA
## 3       <NA>        <NA>        <NA>        NA
## 4       <NA>        <NA>        <NA>        NA
## 5       <NA>        <NA>        <NA>        NA
## 6       <NA>        <NA>        <NA>        NA
##    transaction_id   log_date app_name  test_name test_case user_id log_date.g
## 36             36 2013-10-02  game-01 sales_test         B   35315 2013-10-02
##    app_name.g test_name.g test_case.g user_id.g
## 36    game-01  sales_test           B     35315

배너 광고 B가 user_id 35315 에게 표시 된 날짜가 10월 2일 이였는데, 해당 유저는 B를 클릭했다. 이 transcation_id 는 36 번이다.

클릭 유무 플래그 작성하기

User_id.g 는 클릭을 한 아이디를 나타내주기 때문에 NA 이면 클릭을 안 했다는 것

클릭률 집계하기

## # A tibble: 2 x 2
##   test_case    cvr
## * <fct>      <dbl>
## 1 A         0.0803
## 2 B         0.115

x2 실행하기

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  ab.test.imp$test_case and ab.test.imp$is_goal
## X-squared = 308.38, df = 1, p-value < 2.2e-16

테스트 케이스별 클릭율 산출하기

  1. 날짜, 테스트 케이스 별 산출
  1. 시각화

Chapter 5 : A/B Test -2

A.B Test : 방문자 수가 비슷한 두 개의 웹 페이지를 비교

일반적으로 새롭게 도입하는 기능이 의도한 바대로 효과가 있을지 확인하기 위해서이다.

CASE STUDY - 두 개의 호텔 예약 사이트 A/B 테스트

Data Summary

  1. Variance A : 기존의 제품 혹은 기능을 묘사하는 통제 집단

  2. Variance B : 새로운 제품 혹은 기능을 묘사하여, 사용자가 좋아하는지 예약 수가 늘었는지 확인하는 예약 집단

  3. Converted - 전환률 T/F

  4. 가설 설정

Ho: A (기존), B(신규) 집단 사이의 전환률은 같다. (= 효과가 없다)

H1: 효과가 있다.

## [1] 20
## [1] 721
## [1] 0.02773925
## [1] 0.05068493
## [1] 82.71918

B 가 A 보다 82% 더 높다.

Pooled Probability for Test Versions A & B

## [1] 5.404837e-05
---
title: "Business Case"
author: "DOEUN"
date: "02/02/2021"
output:
  html_document: 
    code_download: true
    # code_folding: hide
    highlight: zenburn
    # number_sections: yes
    theme: "flatly"
    toc: TRUE
    toc_float: TRUE
---
```{r}
#library(DT)


#library(knitr)
#library(rmarkdown)
#library(markdown)
```


```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, cache = TRUE, fig.height = 7, fig.width = 10)
```


# Chapter 3: 왜 매상이 감소하는가? 

STEP 1 < 현재의 Fact 와 원하는 Ideal 케이스에 대한 정의를 간단하게 내린다 > 

      현재: 매출이 떨어짐 
      해결: 지난달과 비슷한 매출을 확보해야한다 
      
STEP 2 < 매출 감소의 원인에 대해 사실에 기반한 가설을 세워 보자 > 

  최종가설: 매출의 감소는 신규 회원들이 광고를 안 봐서이다. (그럼 신규 회원들이 돈은 냈나?)

      매출의 감소 원인 1) 광고에 문제가 생김 
                       2) 매월 일관성이 없는 게임의 이벤트에 문제가 있나? 
                       
      사실관계파악 (정보수집) : 1) 광고에 문제가 생겼다 - 알고보니 돈이 없어서 많이 못함 
                                2) 일관성 문제 - 이벤트 내용은 딱히 달라진게 없었다. 
                                
      !! 광고에 문제가 생겨서 매출이 떨어졌다는 가설에 힘이 실린다. 
         돈이 없어서 광고가 많이 안 됐으니까, 홍보가 제대로 이루어지지 않은 문제인거 같다. 
         신규 회원이 늘지 못한 것일수도 있고, 기존 유저가 새로운 이벤트를 시도하지 않은 것일 수도 있다. 
         
         신규 회원의 감소 (= 매출이 증가하지 않음) 과 매출의 감소의 관계를 데이터로 확인해본다. 
         
STEP 3 <어떤 데이터를 봐야하나?> 


      문제 * 매출이 떨어졌다. 
           * 광고를 적게 했다. 
           * 그래서 신규 유저가 줄었다. (가설)
           
      해결책 * 광고비를 더 투자한다. 
      
      DAU DATA : 하루에 한 번이상 게임을 이용한 유저 
             
              - log_date :로그인 한 날 
              - 앱 이름 : app_name 
              - 유저 : user_id 
              
      DPU DATA : 하루에 1원 이상 돈을 낸 유저 
      
              - 과금일 : log_date
              - 앱 이름 : app_name 
              - 유저 ID : user_id
              - 과금액 : payment 
              
      INSTALL DATA : 설치 시작 날짜 (즉, 신규회원)
      
              -이용 시작한 날: install_date
              -앱 이름 ; app_name 
              - 유저 : user_id 
              


```{r cars}

setwd('C:/Users/Administrator/Desktop/R Analysis/Business R Aanlysis source/source/DataAnalysis_src/R')

read.csv("section3-dau.csv", header = T, stringsAsFactors = T) -> dau 
read.csv("section3-dpu.csv", header = T, stringsAsFactors = T) -> dpu 
read.csv("section3-install.csv", header = T, stringsAsFactors = T) -> install

```

 DATA 이해하기 
 DAU DATA (Daily Active User)

    2013-06-01 날 game-01 앱을 사용한 사람은 id 116 이다. 
    >> 접속한 사람들 내역 확인 

```{r pressure, echo=FALSE}

DT:: datatable(dau)
```


DPU DATA (Daily Payment User)

    2013-06-01 날 game-01 앱에서 결제한 사람의 id 는 351 이다. 
    같은 사람이 같은 날에 여러번 들어와서 게임한 경우에는 그때마다 과금액 데이터가 남는다. 

```{r}

DT:: datatable(dpu)
```

 Install Data 

    게임을 시작한 유저들 

```{r}

DT:: datatable(install)

```

 데이터 전처리 하기 

1. DAU + Install : 신규로 앱을 설치해서 하루에 한번 이상 게임을 이용한 유저들이 있는지 확인 

2. DPU + : 들어와서 과금한 유저가 있을까? 

Logical Flow : 하루에 한 번 이상 게임을 한 사람이 (DAU)
               새로운 사람인가? (Install)
               그 유저들이 있다면 돈을 냈나? (DPU)


```{r}

#------------------------------------------------------------------
#  DAU + INSTALL = dau_install 
#------------------------------------------------------------------


merge(dau, install, by =c("user_id", "app_name")) ->dau_install


#------------------------------------------------------------------
#  DAU + INSTALL = dau_install + payment = dau_install_payment 
#------------------------------------------------------------------


merge(dau_install, dpu, by= c("log_date" , "user_id", "app_name"), all.x = T ) -> dau_install_payment 


datatable(dau_install_payment)
```

< Payment NA 의 이해 > 
  
log_date 는 들어와서 돈을 낸 날짜 
install_date 는 앱을 설치한 날짜 

즉, 신규로 들어와서 설치를 했는데 돈을 낸 적이 없다는 것. 

3. 비과금 유저의 과금액 0 넣기 (NA= payment)

```{r}

dau_install_payment$payment[is.na(dau_install_payment$payment)] <- 0 

head(dau_install_payment)
```

4. 월차로 집계하기 

매월 유저별로 집계한 데이터로 변환 시킨다. -> 월별로 

    1) 월 만 빼낸다 substr 함수 사용 (log_date, install_date)
    2) 월 별 payment 합계를 본다 

```{r}
#------------------------------------------------------------------
#  Log_month 월 추출 
#------------------------------------------------------------------

dau_install_payment$log_month <- substr(dau_install_payment$log_date, 1, 7 )

#------------------------------------------------------------------
#  Install_month 월 추출 
#------------------------------------------------------------------


dau_install_payment$install_month <- substr(dau_install_payment$install_date, 1, 7 )


head(dau_install_payment)


#------------------------------------------------------------------
#  월별 추출 
#------------------------------------------------------------------

library(dplyr)

dau_install_payment %>%  
  group_by(log_month, user_id, install_month) %>%  
  summarise(payment = sum(payment)) -> mau.payment


```


5. 신규/유저를 구분하는 항목 추가하기 

설치한 달과 들어온 달이 같으면 = 신규(install), 아니면 기존 고객 (existing)

```{r}

ifelse(mau.payment$install_month == mau.payment$log_month, 
       "install", "existing") -> mau.payment$use_type


head(mau.payment)

#------------------------------------------------------------------
#  log_date (구매한 날짜) 와 기존/신규 고객 구분을 기준으로 전체 지불 금액을 살펴본다.  
#------------------------------------------------------------------

mau.payment %>%  
  group_by(log_month, use_type) %>%  
  summarise(total.payment = sum(payment)) -> payment_summary 
```

6. 그래프 시각화 


```{r}
library(ggplot2)
library(scales)

ggplot(payment_summary, aes(x= log_month, y=total.payment, fill= use_type))+
  geom_bar(stat = "identity")+
  scale_y_continuous(label =comma)


```


```{r}

summary(mau.payment$payment)

mau.payment %>% 
  filter(use_type == "install" & 
          payment > 0) %>%      # 신규인데 돈을 낸 사람만 추출 
  ggplot(aes(x=payment, fill=log_month))+
  geom_histogram(position = "dodge", binwidth = 20000)


```


Conclustion 

    1. 매상이 떨어졌다 (사실) 
    2. 신규 유저의 매상이 감소했고,그 중에서 20,000원 이하의 라이트 유저의 감소가 컸다 (사실)
    3. 광고 비용을 떨어트리면 안된다. 


# Chapter 4 : 이탈 고객 분석 (탈퇴하는 이유를 분석) - 크로스 집계 


1. USER 의 수가 감소 했음  
  
  원인에 대한 가설 1) 광고 때문에 탈퇴 유저수가 더 많다. - 광고는 지난 달이랑 비슷했고, 신규 유저도 있다. 
                   2) 매월 테마를 바꿔서 개최하던 이벤트가 식상해졌다. - 이벤트 내용도 거의 바뀌지 않았다. 
                   3) 특정 고객층의 이탈이 있다. - 유력 가설 
                   
                   
  원인을 제대로 알 수 없기 때문에 '탐색형' 데이터 분석을 실시행 
   
  * 크로스 집계를 사용하여 세그먼트 도출 분석 
                   
2. 데이터 선정 

   DAU - 1 회 이상 방문 데이터 
   
         - log_date, app_name, id 
   
   USER.INFO - 사용자 고객 정보 관련 데이터 
   
         - install_date, app_name, id, gender, generation, device_type 
   

```{r}

#------------------------------------------------------------------
#  데이터 불러오기 
#------------------------------------------------------------------

setwd('C:/Users/Administrator/Desktop/R Analysis/Business R Aanlysis source/source/DataAnalysis_src/R')

read.csv("section4-dau.csv", header = T, stringsAsFactors = T) -> dau_4
read.csv("section4-user_info.csv", header = T, stringsAsFactors = T) -> user_info

#------------------------------------------------------------------
#  DAU + USER_INFO 
#  id 와 app_name 기준으로 병합 
#------------------------------------------------------------------


merge(dau_4, user_info, by = c("user_id", "app_name")) -> dau_user_info


#head(dau_user_info)


#------------------------------------------------------------------
#  월별로 보기 위해서 substr 추출  
#------------------------------------------------------------------

substr(dau_user_info$log_date, 1, 7) -> dau_user_info$log_month


```


3. Gender, Generation, Device_type 별 집계하기 

3.1 Gender 

   Gender 별 방문에 대한 집계 이기 때문에, log_month 를 집계한다. 
   
```{r}
# dplr 사용 
dau_user_info %>% 
  group_by(log_month) %>%  
  count(gender)

```


```{r}
#table 함수 사용 

table(dau_user_info[ , c("log_month", "gender")])

```

table 함수로 Cross 교차 집계 - 특징: table 함수가 두 factor 의 집계를 보기엔 좋다. 

성별에 따른 방문 유저의 수가 준것 같지 않다. 

3.2 Generation 

```{r}

table(dau_user_info[, c("log_month", "generation")])
```

연령 별 차이도 없는 것 같아 보인다. 

3.3 Gender x Generation 

dcast 함수 사용 : 두 factor 형 크로스 집계 사용 

```{r}
library(reshape2)


dcast(dau_user_info, log_month ~ gender + generation, # log_month 별 gender 와 generation 의 조합을 더해서 
      value.var = "user_id") #user_id 를 세라 

```

성별 + 나이에서도 뚜렷하게 이탈이 일어난 것 같지 않아 보인다. 

3.4 Device 


```{r}

table(dau_user_info[ ,c("log_month", "device_type")])

```


차이가 나타남 

```{r}


#------------------------------------------------------------------
# 날짜와 단말기 별 user_id 세어보기 
#------------------------------------------------------------------

dau_user_info %>% 
  group_by(log_date, device_type) %>%  
  summarise(n =n()) -> device.summary

device.summary$log_date <- as.Date(device.summary$log_date)



ggplot(device.summary, aes(x= log_date, y = n, 
                           col=device_type, 
                           group=device_type))+
  geom_point(size=3)+
  geom_line(size=0.5)+
  scale_color_brewer(palette = "Set1")
  

```


# A/B Test 

A/B Test 란, 웹 사이트 방문자를 임의의 두 집단으로 나누고, A 집단에게는 기존 사이트를, B 집단에게는 새로운 사이트를 보여준 다음, 두 집단 중 어떤 집단이 더 높은 성과를 보여주는지에 대해 평가하는 방식이다. 

성과 기준은 : 회원 가입률, 재방문율, 구매전환률 등의 지표를 확인한다. 


인과 관계를 찾기 위한 테스트 
   
    주의 할 점 : 임의적 할당 (Random Assignment)
    
     그룹 A/B를 남/여 혹은 짝수/홀수, 첫 일주일 방문 자/그 다음 일주일 방문자      등 임의적이지 않은 방식으로 구분 하는 경우, 두 집단의 차이가 무엇            때문인지 가려낼 수가 없다. 
     
     임의적 추출 예시) 초등학교 학생들을 대상으로 한 실험의 결과를 초중고         학생에게 모두 적용하거나, 페이스 북 사용자를 대상의 실험을 트위터에          적용시키거나 하면 집단의 성격과 모집단의 성격에 차이가 있기 때문에           기대와 다른 결과를 나타낼 수 있다. 
     
     
     1) 전후 비교 X 
       Before/ After 로 확인하면, 외부 요인을 배제 할 수 없다. 
       
       예를 들어, 배너 B를 광고하는 데 전체 구매율이 좋았다. 
                  배너 B를 광고하는데 다른 이벤트가 대박을 쳤다. 
                  배너 B를 광고하는데 방송에 소개되었다. 
                  
       >> 외부요인이 작용하였기 때문에, 그렇다면 A를 내걸었어도 좋았겠네 
          그건 아무도 모름 

     2) 통계적 가설 T.TEST 는 커트라인으로만 바라보기 
     
     적어도 가설 검정에서는 의미가 있는 차이가 나타났으므로 비지니스 상에서
     의미가 있는 차이인지 검토를 해봐야한다. 


```{r}

#------------------------------------------------------------------
#  데이터 불러오기 
#------------------------------------------------------------------

setwd('C:/Users/Administrator/Desktop/R Analysis/Business R Aanlysis source/source/DataAnalysis_src/R')

read.csv("section5-ab_test_imp.csv", header = T, stringsAsFactors = T) -> test_imp
read.csv("section5-ab_test_goal.csv", header = T, stringsAsFactors = T) -> 
  test_goal


```


데이터 설명 < 배너 광고의 표시 획수 정보>
   log_date : 표시 날짜 
   test_name : test 이름 
   test_case : A, B 
   user_id 
   transcation_id : 배너 광고가 표시되었을 때 발생하는 id


```{r}

DT::datatable(test_imp)
```

데이터 설명 <배너 광고의 클릿 횟수 정보> 
   log_date : 클릭한 날짜 
   test_name : test 이름 
   test_case : A, B 
   user_id 
   transcation_id : 배너 광고가 표시되었을 때 발생하는 id

```{r}

DT::datatable(test_goal)
```


Transcation_id 기준 : 배너광고가 표시되었을때 발생하는 id 로 표시로그와 클릭 로그를 결합할 키로 사용 

즉, 표시와 클릭 기록이 맞는 기준으로 병합 

```{r}

#------------------------------------------------------------------
#  데이터 합치기 
#------------------------------------------------------------------


ab.test.imp <- merge(test_imp, test_goal, by = "transaction_id", 
                     all.x = T, suffixes = c("", ".g"))


head(ab.test.imp)
```


```{r}

ab.test.imp[36,]

```

배너 광고 B가 user_id 35315 에게 표시 된 날짜가 10월 2일 이였는데, 해당 유저는 B를 클릭했다. 
이 transcation_id 는 36 번이다. 


클릭 유무 플래그 작성하기 

User_id.g 는 클릭을 한 아이디를 나타내주기 때문에 NA 이면 클릭을 안 했다는 것 

```{r}

ifelse(is.na(ab.test.imp$user_id.g), 0 , 1) -> ab.test.imp$is_goal 

```


클릭률 집계하기 

```{r}

library(dplyr)

ab.test.imp %>%  
  group_by(test_case) %>% 
  summarise(cvr=sum(is_goal)/ length(user_id))  ## 클릭한 사람의 합 / 배너 광고에 표시된 사람 수 


```


x2 실행하기 

```{r}
#------------------------------------------------------------------
#  카이 검정 : A/B (Test cast) 에 대한 클릭률 (0,1) 검정 
#------------------------------------------------------------------

chisq.test(ab.test.imp$test_case, ab.test.imp$is_goal)

```


테스트 케이스별 클릭율 산출하기 

1) 날짜, 테스트 케이스 별 산출 

```{r}

 summary.imp <- ab.test.imp %>%  
  group_by(log_date, test_case) %>% 
  summarise( imp= length(user_id),   # user_id 카운트 
            cv= sum(is_goal),    # is_goal의 합 
            cvr = round(sum(is_goal)/length(user_id),3), #두 수치를 나눈 비율 
            cvr.avg = round(sum(cv)/sum(imp),3))  


DT::datatable(summary.imp)
```


2) 시각화 

```{r}
library(ggplot2)

summary.imp$log_date <-as.Date(summary.imp$log_date)

  ggplot(summary.imp, aes(x=log_date, 
                          y=cvr, 
                          color = test_case))+
    geom_line()+
    geom_point()

```



# Chapter 5 : A/B Test -2 


A.B Test : 방문자 수가 비슷한 두 개의 웹 페이지를 비교 

일반적으로 새롭게 도입하는 기능이 의도한 바대로 효과가 있을지 확인하기 위해서이다. 


CASE STUDY - 두 개의 호텔 예약 사이트 A/B 테스트 

Data Summary 

1. Variance A : 기존의 제품 혹은 기능을 묘사하는 통제 집단 

2. Variance B : 새로운 제품 혹은 기능을 묘사하여, 사용자가 좋아하는지 예약 수가 늘었는지 확인하는 예약 집단 

3. Converted - 전환률 T/F


4. 가설 설정 

  Ho: A (기존), B(신규) 집단 사이의 전환률은 같다. 
      (= 효과가 없다)
      
  H1: 효과가 있다. 

```{r}
#install.packages("tidyverse")
library(tidyverse)
library(extrafont)



load('C:/Users/Administrator/Desktop/R Analysis/Business R Aanlysis source/source/DataAnalysis_src/R/ABTest.rda') 

#-------------------------------------------------
# A 그룹 생성 : Variant = A 와 converted = TRUE 
#  
#-------------------------------------------------

ABTest %>%  
  filter(variant == "A" & converted == "TRUE") -> subset_A


DT::datatable(subset_A)


```


```{r}
## Convertion 숫자 A그룹의 nrow 값 
nrow(subset_A) -> conversion_A

conversion_A   #20 

## Visitor 숫자 : AB_test 전체 테이블에서의 A 값만 추출한 nrow 값 

nrow(ABTest %>%  filter(variant == "A")) -> visitor_A

visitor_A #721 

## A 그룹 사람 수 / 광고 A 에 방문한 사람 수 

conv_rate_A <- (conversion_A/visitor_A)
conv_rate_A  #0.277
```


```{r}

#-------------------------------------------------
# A 그룹 생성 : Variant = A 와 converted = TRUE 
#  
#-------------------------------------------------

ABTest %>% 
  filter(variant == "B" & converted == "TRUE") -> subset_B 


# Convertion 숫자 

nrow(subset_B) -> conversion_B

# B 그룹에 방문한 방문객 

nrow(ABTest %>% filter(variant == "B")) -> visitor_B


# 전환률 

conv_rate_B <- (conversion_B/visitor_B)
conv_rate_B



# Uplift : B 비율 - A 이율 / A 비율 * 100 

(conv_rate_B - conv_rate_A)/ conv_rate_A *100 #82.79
```

B 가 A 보다 82% 더 높다. 

**Pooled Probability for Test Versions A & B**

```{r}

#Pooled Probability 공식: 
# (A 의 전환률 + B의 전환률) / (A 방문객 + B 방문객)

(conv_rate_A + conv_rate_B) / (visitor_A + visitor_B) -> p_pool
p_pool
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```


```{r}
```

