필요한 패키지들을 깐다.

list("ggplot2", "plyr", "dplyr", "car") %>% 
  map(library)
Error in .f(.x[[i]], ...) : 'package' must be of length 1

필요한 라이브러리들을 불러들인다.

requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")
ipak <- function(pkg){
        new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
        if (length(new.pkg))
                install.packages(new.pkg, dependencies = TRUE)
        sapply(pkg, require, character.only = TRUE)
}
ipak(requiredPackages)
Loading required package: MASS

Attaching package: 愼㸱愼㹥MASS愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    select

Loading required package: plyr
-----------------------------------------------------------------------------
You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)
-----------------------------------------------------------------------------

Attaching package: 愼㸱愼㹥plyr愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:

    compact

The following objects are masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize

Loading required package: car
Loading required package: carData

Attaching package: 愼㸱愼㹥car愼㸱愼㹦

The following object is masked from 愼㸱愼㹥package:purrr愼㸱愼㹦:

    some

The following object is masked from 愼㸱愼㹥package:dplyr愼㸱愼㹦:

    recode
   MASS   purrr ggplot2    plyr   dplyr     car 
   TRUE    TRUE    TRUE    TRUE    TRUE    TRUE 

각 데이터의 행과 열을 살펴보자

library(purrr)
list(products,search1, search2, custom) %>% 
  map(dim)
[[1]]
[1] 5024906       8

[[2]]
[1] 2884943       4

[[3]]
[1] 8051172       3

[[4]]
[1] 671679      3

Custom테이블 살펴보기

dim(custom) # 67만명의 데이터가 있다.  671,679
[1] 671679      3
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

고객들의 분포를 살펴보자

table(custom$CLNT_AGE, custom$CLNT_GENDER)
    
          F      M
  10   3007    800
  20  82269  13028
  30 271712  41888
  40 180398  35819
  50  28881   7743
  60   3784   1472
  70    542    304
  80     23      9
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
  geom_line()

  • 여성 고객의 비율이 많다.
  • 30대 여성의 비율이 가장 높다.

producst테이블 살펴보기 ——————————————————–

Sys.setlocale("LC_ALL","Korean")
[1] "LC_COLLATE=Korean_Korea.949;LC_CTYPE=Korean_Korea.949;LC_MONETARY=Korean_Korea.949;LC_NUMERIC=C;LC_TIME=Korean_Korea.949"
products <- as.data.frame(products)
dim(products) # 500만건
[1] 5024906       8
colnames(products)
[1] "CLNT_ID"   "SESS_ID"   "HITS_SEQ"  "PD_C"      "PD_ADD_NM" "PD_BRA_NM"
[7] "PD_BUY_AM" "PD_BUY_CT"
head(products)
products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #

# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]

동일한 세션 아이디가 몇개 있는지 살펴보자

고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말…

length(unique(products$SESS_ID)) / nrow(products) 
[1] 0.4827724

master테이블 살펴보기 ———————————————————-

head(master)
Error in head(master) : object 'master' not found
search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)

# search 테이블 살펴보기 ---------------------------------------------------------

하루당 검색건수를 알아보자.

counts <- search2 %>% 
  group_by(SESS_DT) %>% 
  dplyr::summarise(searching_occured = n(), number_of_na = sum(is.na()) )
Error in summarise_impl(.data, dots) : 
  Evaluation error: 0 arguments passed to 'is.na' which requires 1.

YYYYMMDD 형태를 날짜 변수로 바꾸는 방법.

counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)

그래프로 그려보자.

datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")
library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

일주일에 한번씩 검색량의 등락이 보인다. 총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다.

검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자.

검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자.

tmp[tmp$cnt <= 5, ]$group <- "B"
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

t-검정을 실시해보자.

t.test(chr ~ group, data = tmp, var.equal=TRUE)

    Two Sample t-test

data:  chr by group
t = -113.58, df = 8050600, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.2115216 -0.2043454
sample estimates:
mean in group A mean in group B 
       5.867973        6.075906 

두 집단 사이에 차이가 있는 것으로 보인다.

Session 테이블을 살펴보자

head(session)
session <- as.data.frame(session)
sort(table(session$ZON_NM), decreasing = T)

            Seoul       Gyeonggi-do             Busan  Gyeongsangnam-do 
          1019843            469954            295940            128716 
            Daegu           Incheon  Gyeongsangbuk-do      Jeollabuk-do 
           116707            100728             91183             78437 
Chungcheongnam-do           Gwangju           Daejeon      Jeollanam-do 
            78072             70773             60442             49299 
            Ulsan Chungcheongbuk-do        Gangwon-do           Jeju-do 
            46584             44455             42701             19073 
plot(sort(table(session$ZON_NM), decreasing = T))

한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다.

얼마나 오래 머무는지 살펴보자.

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale
abline(v=1800, col="red") # 세션이 만료되는 30분 지점. 

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 아웃라이어로 간주된다. 아니면 매크로 봇이거나….

날짜별 접속한 세션들의 수(고객수)를 집계해보자.

counting_table <- plyr::count(session, 'SESS_DT')
datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")
library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

기기별 사용자수를 살펴보자.

모바일 기기 사용자수가 제일 많다.

---
title: "R Notebook"
output:
  html_notebook:
    theme: paper
  html_document:
    df_print: paged
---

필요한 패키지들을 깐다. 

```{r}
wants <- c( "dplyr","ggplot2","purrr" )
has   <- wants %in% rownames(installed.packages())
if(any(!has)) install.packages(wants[!has])



```

필요한 라이브러리들을 불러들인다. 
```{r}

requiredPackages <- c("MASS", "purrr", "ggplot2", "plyr","dplyr","car")


ipak <- function(pkg){
        new.pkg <- pkg[!(pkg %in% installed.packages()[, "Package"])]
        if (length(new.pkg))
                install.packages(new.pkg, dependencies = TRUE)
        sapply(pkg, require, character.only = TRUE)
}

ipak(requiredPackages)
```



```{r echo=FALSE, eval=FALSE}


# 2018자료 ------------------------------------------------------------------

library(readr)
products <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/01.Pruduct.csv",
  locale = locale()
)
search1 <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/02.Search1.csv",
  locale = locale()
)
search2 <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/03.Search2.csv",
  locale = locale()
)
custom <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/04.Custom.csv",
  locale = locale()
)
session <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/05.Session.csv",
  locale = locale()
)
master <- read_csv("E:/Dropbox/2017/06.job_recruitment/13.programming/05.Lpoint/data/2018/06.Master.csv",
  locale = locale()
)

```


각 데이터의 행과 열을 살펴보자
```{r}

library(purrr)
list(products,search1, search2, custom) %>% 
  map(dim)
```

# Custom테이블 살펴보기

```{r}

# custom테이블 살펴보기 ----------------------------------------------------------
custom <- as.data.frame(custom)

dim(custom) # 67만명의 데이터가 있다.  671,679

```

## 고객들의 분포를 살펴보자 

```{r}
table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- table(custom$CLNT_AGE, custom$CLNT_GENDER)
tmp6 <- as.data.frame(tmp6)
colnames(tmp6)[1:2] <- c("age","gender")
library(ggplot2)
ggplot(tmp6, aes(age, Freq, group=gender, col=gender)) +
  geom_line()

```
- 여성 고객의 비율이 많다.
- 30대 여성의 비율이 가장 높다. 


# producst테이블 살펴보기 --------------------------------------------------------
```{r}
Sys.setlocale("LC_ALL","Korean")

products <- as.data.frame(products)
dim(products) # 500만건
colnames(products)
head(products)

```


```{r eval=FALSE}

products$SESS_ID <- sprintf("%08d", as.integer(products$SESS_ID)) #

# tmp <- products[order(products$HITS_SEQ), ] # hits sequence에 따라 정렬
# tmp[order(tmp$SESS_ID), ]


```


## 동일한 세션 아이디가 몇개 있는지 살펴보자
고유한 세션 아이디가 전체의 48프로. 52프로는 반복된 세션이라는 말...
```{r}
length(unique(products$SESS_ID)) / nrow(products) 
```


# master테이블 살펴보기 ----------------------------------------------------------

```{r}

head(master)
# str(master)

```


```{r eval=FALSE}

search1 <- as.data.frame(search1)
search2 <- as.data.frame(search2)

# search 테이블 살펴보기 ---------------------------------------------------------


```



하루당 검색건수를 알아보자. 
```{r}
library(dplyr)

counts <- search2 %>% 
  group_by(SESS_DT) %>% 
  dplyr::summarise(searching_occured = n() )


```


#### YYYYMMDD 형태를 날짜 변수로 바꾸는 방법. 

```{r}
counts$SESS_DT <- as.Date(as.character(counts[["SESS_DT"]]), "%Y%m%d")
counts <- as.data.frame(counts)
```



그래프로 그려보자. 
```{r}


datebreaks <- seq(min(counts$SESS_DT), max(counts$SESS_DT), by="1 month")

library(scales)
ggplot(counts, aes(SESS_DT, searching_occured)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))

```
일주일에 한번씩 검색량의 등락이 보인다. 
총 26번의 등락이 있고, 이는 6개월(26주)를 의미한다. 


### 검색어의 길이에 따라 검색량에 차이가 있는지 살펴보자. 

검색어 길이가 긴 것은 A로 정의하고, 짧은 그룹을 B라고 정의하자. 
검색어 길이가 길면 길수록 특수성이 올라가기 때문에, hit수가 적을 것으로 추정된다. 실제로 그런가, 검정해보자. 

```{r}
tmp <- data.frame(
  cnt = search2$SEARCH_CNT,
  chr = apply(search2, 2, nchar)[,2]
)

# 검색량에 따른 검색어 길이 차이가 있는지 살펴보자.
tmp <- tmp[complete.cases(tmp),]
tmp <- as.data.frame(tmp)
tmp$group <- NA
tmp[tmp$cnt > 5, ]$group <- "A"
tmp[tmp$cnt <= 5, ]$group <- "B"

```


t-검정을 실시해보자. 

```{r  }
t.test(chr ~ group, data = tmp, var.equal=TRUE)


```
두 집단 사이에 차이가 있는 것으로 보인다. 


```{r}
ggplot(tmp, aes(chr, col=group)) +
  geom_density(adjust=5)+
  xlim(0,20)
```

```{r}
head(products)
head(search1)
head(search2)

```



# Session 테이블을 살펴보자
```{r}
head(session)

session$SESS_DT <- as.Date(as.character(session[["SESS_DT"]]), "%Y%m%d")
session <- as.data.frame(session)

sort(table(session$ZON_NM), decreasing = T)
plot(sort(table(session$ZON_NM), decreasing = T))

```

## 한 세션당 클릭수는 얼마나 되나 살펴보자. 카이제곱 분포 모양과 흡사하다. 
```{r}
plot(sort(table(session$TOT_PAG_VIEW_CT), decreasing = T))

```

얼마나 오래 머무는지 살펴보자. 
```{r}
plot(sort(table(session$TOT_SESS_HR_V), decreasing = T))
abline(v=1800, col="red") # 세션이 만료되는 30분 지점. 

plot(sort(table(session$TOT_SESS_HR_V), decreasing = T), xlim=c(0,1440))

```
한 세션에 39329초(32329/60 = 655시간) 머무는 데이터가 있다. 
아웃라이어로 간주된다. 아니면 매크로 봇이거나....


## 날짜별 접속한 세션들의 수(고객수)를 집계해보자. 
```{r}

counting_table <- plyr::count(session, 'SESS_DT')

datebreaks <- seq(min(counting_table$SESS_DT), max(counting_table$SESS_DT), by="1 month")

library(scales)
ggplot(counting_table, aes(SESS_DT,freq)) +
  geom_line()+
  scale_x_date(breaks = datebreaks, labels = date_format("%Y%m"))+
  theme(axis.text.x = element_text(angle=30, hjust=1))


```

## 기기별 사용자수를 살펴보자. 

모바일 기기 사용자수가 제일 많다. 

```{r}
barplot(table(session$DVC_CTG_NM))



```





