필요한 패키지들을 깐다.
list("ggplot2", "plyr", "dplyr", "car") %>%
map(library)
Error in .f(.x[[i]], ...) : 'package' must be of length 1
필요한 라이브러리들을 불러들인다.
requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")
ipak <- function(pkg){
new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
if (length(new.pkg))
install.packages(new.pkg, dependencies = TRUE)
sapply(pkg, require, character.only = TRUE)
}
ipak(requiredPackages)
Loading required package: MASS
Attaching package: 愼㸱愼㹥MASS愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
select
Loading required package: plyr
-----------------------------------------------------------------------------
You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)
-----------------------------------------------------------------------------
Attaching package: 愼㸱愼㹥plyr愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:
compact
The following objects are masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
arrange, count, desc, failwith, id, mutate, rename, summarise,
summarize
Loading required package: car
Loading required package: carData
Attaching package: 愼㸱愼㹥car愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:
some
The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
recode
MASS purrr ggplot2 plyr dplyr car
TRUE TRUE TRUE TRUE TRUE TRUE
각 데이터의 행과 열을 살펴보자
library(purrr)
list(products,search1, search2, custom) %>%
map(dim)
[[1]]
[1] 5024906 8
[[2]]
[1] 2884943 4
[[3]]
[1] 8051172 3
[[4]]
[1] 671679 3
Custom테이블 살펴보기
dim(custom) # 67만명의 데이터가 있다. 671,679
[1] 671679 3
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
고객들의 분포를 살펴보자
table(custom$CLNT_AGE, custom$CLNT_GENDER)
F M
10 3007 800
20 82269 13028
30 271712 41888
40 180398 35819
50 28881 7743
60 3784 1472
70 542 304
80 23 9
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
geom_line()

- 여성 고객의 비율이 많다.
- 30대 여성의 비율이 가장 높다.
producst테이블 살펴보기 ——————————————————–
Sys.setlocale("LC_ALL","Korean")
[1] "LC_COLLATE=Korean_Korea.949;LC_CTYPE=Korean_Korea.949;LC_MONETARY=Korean_Korea.949;LC_NUMERIC=C;LC_TIME=Korean_Korea.949"
products <- as.data.frame(products)
dim(products) # 500만건
[1] 5024906 8
colnames(products)
[1] "CLNT_ID" "SESS_ID" "HITS_SEQ" "PD_C" "PD_ADD_NM" "PD_BRA_NM"
[7] "PD_BUY_AM" "PD_BUY_CT"
head(products)
products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #
# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]
동일한 세션 아이디가 몇개 있는지 살펴보자
고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말…
length(unique(products$SESS_ID)) / nrow(products)
[1] 0.4827724
master테이블 살펴보기 ———————————————————-
head(master)
Error in head(master) : object 'master' not found
search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)
# search 테이블 살펴보기 ---------------------------------------------------------
하루당 검색건수를 알아보자.
counts <- search2 %>%
group_by(SESS_DT) %>%
dplyr::summarise(searching_occured = n(), number_of_na = sum(is.na()) )
Error in summarise_impl(.data, dots) :
Evaluation error: 0 arguments passed to 'is.na' which requires 1.
YYYYMMDD 형태를 날짜 변수로 바꾸는 방법.
counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)
그래프로 그려보자.
datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")
library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
geom_line()+
scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
theme(axis.text.x = element_text(angle=30, hjust=1))

일주일에 한번씩 검색량의 등락이 보인다. 총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다.
검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자.
검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자.
tmp[tmp$cnt <= 5, ]$group <- "B"
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
t-검정을 실시해보자.
t.test(chr ~ group, data = tmp, var.equal=TRUE)
Two Sample t-test
data: chr by group
t = -113.58, df = 8050600, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2115216 -0.2043454
sample estimates:
mean in group A mean in group B
5.867973 6.075906
두 집단 사이에 차이가 있는 것으로 보인다.

Session 테이블을 살펴보자
head(session)
session <- as.data.frame(session)
sort(table(session$ZON_NM), decreasing = T)
Seoul Gyeonggi-do Busan Gyeongsangnam-do
1019843 469954 295940 128716
Daegu Incheon Gyeongsangbuk-do Jeollabuk-do
116707 100728 91183 78437
Chungcheongnam-do Gwangju Daejeon Jeollanam-do
78072 70773 60442 49299
Ulsan Chungcheongbuk-do Gangwon-do Jeju-do
46584 44455 42701 19073
plot(sort(table(session$ZON_NM), decreasing = T))

한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다.

얼마나 오래 머무는지 살펴보자.
plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
abline(v=1800, col="red") # 세션이 만료되는 30분 지점.

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 아웃라이어로 간주된다. 아니면 매크로 봇이거나….
날짜별 접속한 세션들의 수(고객수)를 집계해보자.
counting_table <- plyr::count(session, 'SESS_DT')
datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")
library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
geom_line()+
scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
theme(axis.text.x = element_text(angle=30, hjust=1))

기기별 사용자수를 살펴보자.
모바일 기기 사용자수가 제일 많다.

