필요한 패키지들을 깐다.

list("ggplot2", "plyr", "dplyr", "car") %>% 
  map(library)
Error in .f(.x[[i]], ...) : 'package' must be of length 1

필요한 라이브러리들을 불러들인다.

requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")
ipak <- function(pkg){
        new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
        if (length(new.pkg))
                install.packages(new.pkg, dependencies = TRUE)
        sapply(pkg, require, character.only = TRUE)
}
ipak(requiredPackages)
Loading required package: MASS

Attaching package: 愼㸱愼㹥MASS愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    select

Loading required package: plyr
-----------------------------------------------------------------------------
You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)
-----------------------------------------------------------------------------

Attaching package: 愼㸱愼㹥plyr愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:

    compact

The following objects are masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize

Loading required package: car
Loading required package: carData

Attaching package: 愼㸱愼㹥car愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:

    some

The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    recode
   MASS   purrr ggplot2    plyr   dplyr     car 
   TRUE    TRUE    TRUE    TRUE    TRUE    TRUE 

각 데이터의 행과 열을 살펴보자

library(purrr)
list(products,search1, search2, custom) %>% 
  map(dim)
[[1]]
[1] 5024906       8

[[2]]
[1] 2884943       4

[[3]]
[1] 8051172       3

[[4]]
[1] 671679      3

Custom테이블 살펴보기

dim(custom) # 67만명의 데이터가 있다.  671,679
[1] 671679      3
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

고객들의 분포를 살펴보자

table(custom$CLNT_AGE, custom$CLNT_GENDER)
    
          F      M
  10   3007    800
  20  82269  13028
  30 271712  41888
  40 180398  35819
  50  28881   7743
  60   3784   1472
  70    542    304
  80     23      9
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
  geom_line()

  • 여성 고객의 비율이 많다.
  • 30대 여성의 비율이 가장 높다.

producst테이블 살펴보기 ——————————————————–

Sys.setlocale("LC_ALL","Korean")
[1] "LC_COLLATE=Korean_Korea.949;LC_CTYPE=Korean_Korea.949;LC_MONETARY=Korean_Korea.949;LC_NUMERIC=C;LC_TIME=Korean_Korea.949"
products <- as.data.frame(products)
dim(products) # 500만건
[1] 5024906       8
colnames(products)
[1] "CLNT_ID"   "SESS_ID"   "HITS_SEQ"  "PD_C"      "PD_ADD_NM" "PD_BRA_NM"
[7] "PD_BUY_AM" "PD_BUY_CT"
head(products)
products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #

# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]

동일한 세션 아이디가 몇개 있는지 살펴보자

고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말…

length(unique(products$SESS_ID)) / nrow(products) 
[1] 0.4827724

master테이블 살펴보기 ———————————————————-

head(master)
Error in head(master) : object 'master' not found
search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)

# search 테이블 살펴보기 ---------------------------------------------------------

하루당 검색건수를 알아보자.

counts <- search2 %>% 
  group_by(SESS_DT) %>% 
  dplyr::summarise(searching_occured = n(), number_of_na = sum(is.na()) )
Error in summarise_impl(.data, dots) : 
  Evaluation error: 0 arguments passed to 'is.na' which requires 1.

YYYYMMDD 형태를 날짜 변수로 바꾸는 방법.

counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)

그래프로 그려보자.

datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")
library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

일주일에 한번씩 검색량의 등락이 보인다. 총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다.

검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자.

검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자.

tmp[tmp$cnt <= 5, ]$group <- "B"
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

t-검정을 실시해보자.

t.test(chr ~ group, data = tmp, var.equal=TRUE)

    Two Sample t-test

data:  chr by group
t = -113.58, df = 8050600, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.2115216 -0.2043454
sample estimates:
mean in group A mean in group B 
       5.867973        6.075906 

두 집단 사이에 차이가 있는 것으로 보인다.

Session 테이블을 살펴보자

head(session)
session <- as.data.frame(session)
sort(table(session$ZON_NM), decreasing = T)

            Seoul       Gyeonggi-do             Busan  Gyeongsangnam-do 
          1019843            469954            295940            128716 
            Daegu           Incheon  Gyeongsangbuk-do      Jeollabuk-do 
           116707            100728             91183             78437 
Chungcheongnam-do           Gwangju           Daejeon      Jeollanam-do 
            78072             70773             60442             49299 
            Ulsan Chungcheongbuk-do        Gangwon-do           Jeju-do 
            46584             44455             42701             19073 
plot(sort(table(session$ZON_NM), decreasing = T))

한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다.

얼마나 오래 머무는지 살펴보자.

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale
abline(v=1800, col="red") # 세션이 만료되는 30분 지점. 

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 아웃라이어로 간주된다. 아니면 매크로 봇이거나….

날짜별 접속한 세션들의 수(고객수)를 집계해보자.

counting_table <- plyr::count(session, 'SESS_DT')
datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")
library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

기기별 사용자수를 살펴보자.

모바일 기기 사용자수가 제일 많다.

