필요한 패키지들을 깐다.
list("ggplot2", "plyr", "dplyr", "car") %>%
map(library)
Error in .f(.x[[i]], ...) : 'package' must be of length 1
필요한 라이브러리들을 불러들인다.
requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")
ipak <- function(pkg){
new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
if (length(new.pkg))
install.packages(new.pkg, dependencies = TRUE)
sapply(pkg, require, character.only = TRUE)
}
ipak(requiredPackages)
Loading required package: MASS
Attaching package: 愼㸱愼㹥MASS愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
select
Loading required package: plyr
-----------------------------------------------------------------------------
You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)
-----------------------------------------------------------------------------
Attaching package: 愼㸱愼㹥plyr愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:
compact
The following objects are masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
arrange, count, desc, failwith, id, mutate, rename, summarise,
summarize
Loading required package: car
Loading required package: carData
Attaching package: 愼㸱愼㹥car愼㸱愼㹦
The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:
some
The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:
recode
MASS purrr ggplot2 plyr dplyr car
TRUE TRUE TRUE TRUE TRUE TRUE
각 데이터의 행과 열을 살펴보자
library(purrr)
list(products,search1, search2, custom) %>%
map(dim)
[[1]]
[1] 5024906 8
[[2]]
[1] 2884943 4
[[3]]
[1] 8051172 3
[[4]]
[1] 671679 3
Custom테이블 살펴보기
dim(custom) # 67만명의 데이터가 있다. 671,679
[1] 671679 3
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
고객들의 분포를 살펴보자
table(custom$CLNT_AGE, custom$CLNT_GENDER)
F M
10 3007 800
20 82269 13028
30 271712 41888
40 180398 35819
50 28881 7743
60 3784 1472
70 542 304
80 23 9
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
geom_line()

- 여성 고객의 비율이 많다.
- 30대 여성의 비율이 가장 높다.
producst테이블 살펴보기 ——————————————————–
Sys.setlocale("LC_ALL","Korean")
[1] "LC_COLLATE=Korean_Korea.949;LC_CTYPE=Korean_Korea.949;LC_MONETARY=Korean_Korea.949;LC_NUMERIC=C;LC_TIME=Korean_Korea.949"
products <- as.data.frame(products)
dim(products) # 500만건
[1] 5024906 8
colnames(products)
[1] "CLNT_ID" "SESS_ID" "HITS_SEQ" "PD_C" "PD_ADD_NM" "PD_BRA_NM"
[7] "PD_BUY_AM" "PD_BUY_CT"
head(products)
products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #
# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]
동일한 세션 아이디가 몇개 있는지 살펴보자
고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말…
length(unique(products$SESS_ID)) / nrow(products)
[1] 0.4827724
master테이블 살펴보기 ———————————————————-
head(master)
Error in head(master) : object 'master' not found
search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)
# search 테이블 살펴보기 ---------------------------------------------------------
하루당 검색건수를 알아보자.
counts <- search2 %>%
group_by(SESS_DT) %>%
dplyr::summarise(searching_occured = n(), number_of_na = sum(is.na()) )
Error in summarise_impl(.data, dots) :
Evaluation error: 0 arguments passed to 'is.na' which requires 1.
YYYYMMDD 형태를 날짜 변수로 바꾸는 방법.
counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)
그래프로 그려보자.
datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")
library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
geom_line()+
scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
theme(axis.text.x = element_text(angle=30, hjust=1))

일주일에 한번씩 검색량의 등락이 보인다. 총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다.
검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자.
검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자.
tmp[tmp$cnt <= 5, ]$group <- "B"
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
t-검정을 실시해보자.
t.test(chr ~ group, data = tmp, var.equal=TRUE)
Two Sample t-test
data: chr by group
t = -113.58, df = 8050600, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.2115216 -0.2043454
sample estimates:
mean in group A mean in group B
5.867973 6.075906
두 집단 사이에 차이가 있는 것으로 보인다.

Session 테이블을 살펴보자
head(session)
session <- as.data.frame(session)
sort(table(session$ZON_NM), decreasing = T)
Seoul Gyeonggi-do Busan Gyeongsangnam-do
1019843 469954 295940 128716
Daegu Incheon Gyeongsangbuk-do Jeollabuk-do
116707 100728 91183 78437
Chungcheongnam-do Gwangju Daejeon Jeollanam-do
78072 70773 60442 49299
Ulsan Chungcheongbuk-do Gangwon-do Jeju-do
46584 44455 42701 19073
plot(sort(table(session$ZON_NM), decreasing = T))

한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다.

얼마나 오래 머무는지 살펴보자.
plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
abline(v=1800, col="red") # 세션이 만료되는 30분 지점.

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 아웃라이어로 간주된다. 아니면 매크로 봇이거나….
날짜별 접속한 세션들의 수(고객수)를 집계해보자.
counting_table <- plyr::count(session, 'SESS_DT')
datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")
library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
geom_line()+
scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
theme(axis.text.x = element_text(angle=30, hjust=1))

기기별 사용자수를 살펴보자.
모바일 기기 사용자수가 제일 많다.

---
title: "R Notebook"
output:
  html_notebook:
    theme: paper
  html_document:
    df_print: paged
---

필요한 패키지들을 깐다. 

```{r}
wants <- c( "dplyr","ggplot2","purrr" )
has   <- wants %in% rownames(installed.packages())
if(any(!has)) install.packages(wants[!has])



```

필요한 라이브러리들을 불러들인다. 
```{r}

requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")


ipak <- function(pkg){
        new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
        if (length(new.pkg))
                install.packages(new.pkg, dependencies = TRUE)
        sapply(pkg, require, character.only = TRUE)
}

ipak(requiredPackages)
```



```{r echo=FALSE, eval=FALSE}


# 2018자료 ------------------------------------------------------------------

library(readr)
products <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/01.Pruduct.csv",
  locale = locale()
)
search1 <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/02.Search1.csv",
  locale = locale()
)
search2 <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/03.Search2.csv",
  locale = locale()
)
custom <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/04.Custom.csv",
  locale = locale()
)
session <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/05.Session.csv",
  locale = locale()
)
master <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/06.Master.csv",
  locale = locale()
)

```


각 데이터의 행과 열을 살펴보자
```{r}

library(purrr)
list(products,search1, search2, custom) %>% 
  map(dim)
```

# Custom테이블 살펴보기

```{r}

# custom테이블 살펴보기 ----------------------------------------------------------
custom <- as.data.frame(custom)

dim(custom) # 67만명의 데이터가 있다.  671,679

```

## 고객들의 분포를 살펴보자 

```{r}
table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
  geom_line()

```
- 여성 고객의 비율이 많다.
- 30대 여성의 비율이 가장 높다. 


# producst테이블 살펴보기 --------------------------------------------------------
```{r}
Sys.setlocale("LC_ALL","Korean")

products <- as.data.frame(products)
dim(products) # 500만건
colnames(products)
head(products)

```


```{r eval=FALSE}

products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #

# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]


```


## 동일한 세션 아이디가 몇개 있는지 살펴보자
고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말...
```{r}
length(unique(products$SESS_ID)) / nrow(products) 
```


# master테이블 살펴보기 ----------------------------------------------------------

```{r}

head(master)
# str(master)

```


```{r eval=FALSE}

search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)

# search 테이블 살펴보기 ---------------------------------------------------------


```



하루당 검색건수를 알아보자. 
```{r}
library(dplyr)

counts <- search2 %>% 
  group_by(SESS_DT) %>% 
  dplyr::summarise(searching_occured = n() )


```


#### YYYYMMDD 형태를 날짜 변수로 바꾸는 방법. 

```{r}
counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)
```



그래프로 그려보자. 
```{r}


datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")

library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

```
일주일에 한번씩 검색량의 등락이 보인다. 
총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다. 


### 검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자. 

검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 
검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자. 

```{r}
tmp <- data.frame(
  cnt = search2$SEARCH_CNT,
  chr = apply(search2, 2, nchar)[,2]
)

# 검색량에 따른 검색어 길이 차이가 있는지 살펴보자.
tmp <- tmp[complete.cases(tmp),]
tmp <- as.data.frame(tmp)
tmp$group <- NA
tmp[tmp$cnt > 5, ]$group <- "A"
tmp[tmp$cnt <= 5, ]$group <- "B"

```


t-검정을 실시해보자. 

```{r  }
t.test(chr ~ group, data = tmp, var.equal=TRUE)


```
두 집단 사이에 차이가 있는 것으로 보인다. 


```{r}
ggplot(tmp, aes(chr, col=group)) +
  geom_density(adjust=5)+
  xlim(0,20)
```

```{r}
head(products)
head(search1)
head(search2)

```



# Session 테이블을 살펴보자
```{r}
head(session)

session$SESS_DT <- as.Date(as.character(session[["SESS_DT"]]), "%Y%m%d")
session <- as.data.frame(session)

sort(table(session$ZON_NM), decreasing = T)
plot(sort(table(session$ZON_NM), decreasing = T))

```

## 한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다. 
```{r}
plot(sort(table(session$TOT_PAG_VIEW_CT), decreasing = T))

```

얼마나 오래 머무는지 살펴보자. 
```{r}
plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
abline(v=1800, col="red") # 세션이 만료되는 30분 지점. 

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

```
한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 
아웃라이어로 간주된다. 아니면 매크로 봇이거나....


## 날짜별 접속한 세션들의 수(고객수)를 집계해보자. 
```{r}

counting_table <- plyr::count(session, 'SESS_DT')

datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")

library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))


```

## 기기별 사용자수를 살펴보자. 

모바일 기기 사용자수가 제일 많다. 

```{r}
barplot(table(session$DVC_CTG_NM))



```





