소속: 더조은IT아카데미, R을 활용한 빅데이터 분석
팀원: 김민희, 김현경, 문혜정, 박장호, 이한나, 진미란
날짜: 2017년 10월 23일
1.개요
이 분석은 타이타닉 탑승객의 생존률을 예측하는 모형입니다.
먼저 분석에 필요한 패키지를 설치하고 가져오겠습니다.
# Load packages
install.packages('ggplot2')
install.packages('ggthemes')
install.packages('scales')
install.packages('dplyr')
install.packages('mice')
install.packages('randomForest')
library('ggplot2') # visualization
library('ggthemes') # visualization
library('scales') # visualization
library('dplyr') # data manipulation
library('mice') # imputation
library('randomForest') # classification algorithm
데이터는 캐글의 데이터 사이트 https://www.kaggle.com/c/titanic/data 에서 다운로드하여 프로젝트 폴더 아래 저장하고 아래 스크립트를 수행합니다. getwd()함수를 통해 경로를 파악한 후 해당 경로에 파일을 다운받으면 아래와 같이 불러올 때 경로를 명시하지 않고 “파일명.확장자”만 입력해도 데이터를 불러올 수 있습니다.
train데이터를 가지고 test데이터에 승객들의 생사여부를 예측하는 것이 이 분석의 목적입니다.먼저 데이터를 불러오겠습니다.
getwd()
train <- read.csv('train.csv', stringsAsFactors = F)
test <- read.csv('test.csv', stringsAsFactors = F)
full <- bind_rows(train, test) # bind training & test data
train 데이터와 test데이터를 합쳐서 full 데이터셋을 생성합니다.
Check data: Data Dictionary / 변수 정의
Variable: Definition(Key)
survival: 생존여부(0 = 사망, 1 = 생존)
pclass: 티켓 등급(1 = 1등급, 2 = 2등급, 3 = 3등급)
sex: 성별
Age: 나이
sibsp: 형제와 배우자의 수
parch: 부모와 자녀의 수
ticket: 티켓 번호
fare: 탑승 요금
cabin: 탑승칸(Cabin) 번호
embarked: 탑승항구(C = Cherbourg, Q = Queenstown, S = Southampton)
2. 내용 분석(Feature Engineering)
2.1 이름이 포함한 내용 분석하기.
name변수에 타이틀이나 성을 분석해 생존에 영향을 미치는지 확인해보겠습니다.
# Grab title from passenger names
# Pattern Matching and Replacement
full$Title <- gsub('(.*, )|(\\..*)', '', full$Name)
# gsub perform replacement of the first and all matches
# ,앞의 모든 글짜와 .뒤의 모든 글자를 공백으로 대체하고 full$Titile 생성
head(full$Title)
# Show title counts by sex
# Cross Tabulation and Table Creation
table(full$Sex, full$Title)
# 성별에 따른 타이틀 수 집계
# Titles with very low cell counts to be combined to "rare" level
rare_title <- c('Capt', 'Col', 'Don','Dona', 'Dr', 'Jonkheer'
, 'Lady', 'Major','the Countess', 'Rev', 'Sir')
# Also reassign mlle, ms, and mme accordingly
full$Title[full$Title == 'Mlle'] <- 'Miss'
full$Title[full$Title == 'Ms'] <- 'Miss'
full$Title[full$Title == 'Mme'] <- 'Mrs'
full$Title[full$Title %in% rare_title] <- 'Rare Title'
# Show title counts by sex again
table(full$Sex, full$Title)
##
## Master Miss Mr Mrs Rare Title
## female 0 264 0 198 4
## male 61 0 757 0 25
# Finally, grab surname from passenger name
full$Surname <- sapply(full$Name,
function(x) strsplit(x, split = '[,.]')[[1]][1])
head(full$Surname)
# .으로 문자를 잘라서 앞자리 가져와 SurName에 할당
nlevels(factor(full$Surname))
cat(paste('총 ', nlevels(factor(full$Surname)), '개의 성(surnames)을 조회'))
name변수를 통해 Title과 Surname변수를 생성합니다. 가족의 성은 민족성이나 당시 사회적 지위 등의 분석에 사용할 수 있으나 이번 분석에서는 제외합니다. 이번 분석에서는 Title변수를 가지고 생존예측을 해보겠습니다.
2.2 탑승가족 분석
sibsp 변수와 parch 변수를 통해 FamilySize변수를 생성합니다.
# 승객 자신을 포함한 가족 크기 변수 만들기
full$Fsize <- full$SibSp + full$Parch + 1
# 패밀리 변수 작성
full$Family <- paste(full$Surname, full$Fsize, sep='_')
ggplot(full[1:891,], aes(x = Fsize, fill = factor(Survived))) +
geom_bar(stat='count', position='dodge') +
scale_x_continuous(breaks=c(1:11)) +
labs(x = 'Family Size') +
theme_few()
ggplot2를 사용해 가족의 크기와 생존자 수 관계 도표를 작성합니다. 가족수가 2-4명인 소(small)가족의 경우 생존확률이 높은 것 확인됩니다. 현재는 263개의 연령값이 없어서, 추후에 연령분석을 시도하겠습니다.
(그림1) 가족수별 생존 현황(막대도표)
이미지 파일은 URL로부터 불러올 수 있고 자신의 컴퓨터로 부터도 불러올 수 있다. 위에서 text에 링크를 거는것과 비슷하게 []안에 image주석을 달고 []앞에 !표를 붙여준다. 즉, [] 이와 같이 표현하고 그리고 ()안에 image주소를 입력하거나 image파일 경로를 입력한다. •내 컴퓨터에서 파일경로로 불러올때 잘 불러와 지지 않는 다면, R working directory에 image를 넣고 불러오면 된다.
그래프를 통해 혼자거나 대가족인 탑승객인 경우 사망률이 더 높은 것을 알 수 있습니다.
이번엔 가족 수에 대한 설명을 추가해 보겠습니다. 그리고 모자이크 플롯을 이용해 가족 수별 생존형태 그래프를 작성해 보겠습니다.
full$FsizeD[full$Fsize == 1] <- 'singleton'
full$FsizeD[full$Fsize < 5 & full$Fsize > 1] <- 'small'
full$FsizeD[full$Fsize > 4] <- 'large'
mosaicplot(table(full$FsizeD, full$Survived), main='Family Size by Survival', shade=TRUE)
모자이크 그래프를 통해 가족수가 2-4명인 소(small)가족의 경우 생존확률이 높은 것을 명확하게 확인할 수 있습니다. 현재는 263개의 연령값이 없기때문에, 추후에 연령분석도 시도하겠습니다.
(그림2) 가족수별 생존 현황(모자이크 도표)
2.3 기타 정보 탐색
어떤 캐빈(Cabin)에 탑승했는지, 탑승칸들이 모여있는 캐빈의 지역(Deck)은 어떻게 되는지도 기준자료를 기반으로 분석해 보겠습니다. 그리고 탑승 항구(Embarked)에 따라 차이가 있는지도 확인해보겠습니다.
full$Cabin[1:28]
# The first character is the deck. For example:
# Split the Elements of a Character Vector
strsplit(full$Cabin[2], NULL)[[1]]
## [1] "C" "8" "5"
# Create a Deck variable. Get passenger deck A - F:
full$Deck<-factor(sapply(full$Cabin, function(x) strsplit(x, NULL)[[1]][1]))
tabel(full$Embarked)s
Add a new chunk by clicking the Insert Chunk button on the toolbar or by pressing Ctrl+Alt+I.
When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the Preview button or press Ctrl+Shift+K to preview the HTML file).
---
title: "Tutorial with Tatanic Disaster"
output: html_notebook
---
##### 소속: 더조은IT아카데미, R을 활용한 빅데이터 분석
##### 팀원: 김민희, 김현경, 문혜정, 박장호, 이한나, 진미란
##### 날짜: 2017년 10월 23일
##### 참조: http://rpubs.com/moon0704/321612

<br>1.개요
<br>이 분석은 타이타닉 탑승객의 생존률을 예측하는 모형입니다.
<br>먼저 분석에 필요한 패키지를 설치하고 가져오겠습니다.
```{r}
# Load packages
install.packages('ggplot2')
install.packages('ggthemes')
install.packages('scales')
install.packages('dplyr')
install.packages('mice')
install.packages('randomForest')
library('ggplot2') # visualization
library('ggthemes') # visualization
library('scales') # visualization
library('dplyr') # data manipulation
library('mice') # imputation
library('randomForest') # classification algorithm
```
<br>데이터는 캐글의 데이터 사이트 https://www.kaggle.com/c/titanic/data 에서 다운로드하여 프로젝트 폴더 아래 저장하고 아래 스크립트를 수행합니다. getwd()함수를 통해 경로를 파악한 후 해당 경로에 파일을 다운받으면 아래와 같이 불러올 때 경로를 명시하지 않고 "파일명.확장자"만 입력해도 데이터를 불러올 수 있습니다.
<br>train데이터를 가지고 test데이터에 승객들의 생사여부를 예측하는 것이 이 분석의 목적입니다.먼저 데이터를 불러오겠습니다.
```{r}
getwd()
train <- read.csv('train.csv', stringsAsFactors = F)
test  <- read.csv('test.csv', stringsAsFactors = F)
full  <- bind_rows(train, test) # bind training & test data
```
train 데이터와 test데이터를 합쳐서 full 데이터셋을 생성합니다.

### Check data: Data Dictionary / 변수 정의
Variable: Definition(Key)<br>
survival: 생존여부(0 = 사망, 1 = 생존)<br>
pclass: 티켓 등급(1 = 1등급, 2 = 2등급, 3 = 3등급)<br>
sex: 성별	<br>
Age: 나이<br>
sibsp: 형제와 배우자의 수<br>
parch: 부모와 자녀의 수<br>
ticket: 티켓 번호<br>
fare: 탑승 요금<br>
cabin: 탑승칸(Cabin) 번호<br>
embarked: 탑승항구(C = Cherbourg, Q = Queenstown, S = Southampton)<br>

# 2. 내용 분석(Feature Engineering)
### 2.1 이름이 포함한 내용 분석하기.
name변수에 타이틀이나 성을 분석해 생존에 영향을 미치는지 확인해보겠습니다.
```{r}
# Grab title from passenger names
# Pattern Matching and Replacement
full$Title <- gsub('(.*, )|(\\..*)', '', full$Name)
# gsub perform replacement of the first and all matches 
# ,앞의 모든 글짜와 .뒤의 모든 글자를 공백으로 대체하고 full$Titile 생성

head(full$Title)

# Show title counts by sex
# Cross Tabulation and Table Creation
table(full$Sex, full$Title)
# 성별에 따른 타이틀 수 집계


# Titles with very low cell counts to be combined to "rare" level
rare_title <- c('Capt', 'Col', 'Don','Dona', 'Dr', 'Jonkheer'
                , 'Lady', 'Major','the Countess',  'Rev', 'Sir')

# Also reassign mlle, ms, and mme accordingly
full$Title[full$Title == 'Mlle']        <- 'Miss' 
full$Title[full$Title == 'Ms']          <- 'Miss'
full$Title[full$Title == 'Mme']         <- 'Mrs' 
full$Title[full$Title %in% rare_title]  <- 'Rare Title'

# Show title counts by sex again
table(full$Sex, full$Title)

##         
##          Master Miss  Mr Mrs Rare Title
##   female      0  264   0 198          4
##   male       61    0 757   0         25

# Finally, grab surname from passenger name
full$Surname <- sapply(full$Name,  
                       function(x) strsplit(x, split = '[,.]')[[1]][1])
head(full$Surname)
# .으로 문자를 잘라서 앞자리 가져와 SurName에 할당
nlevels(factor(full$Surname))
cat(paste('총 ', nlevels(factor(full$Surname)), '개의 성(surnames)을 조회'))
```

name변수를 통해 Title과 Surname변수를 생성합니다. 가족의 성은 민족성이나 당시 사회적 지위 등의 분석에 사용할 수 있으나 이번 분석에서는 제외합니다. 이번 분석에서는 Title변수를 가지고 생존예측을 해보겠습니다.

### 2.2 탑승가족 분석
sibsp 변수와 parch 변수를 통해 FamilySize변수를 생성합니다.
```{r}
# 승객 자신을 포함한 가족 크기 변수 만들기
full$Fsize <- full$SibSp + full$Parch + 1

# 패밀리 변수 작성
full$Family <- paste(full$Surname, full$Fsize, sep='_')


ggplot(full[1:891,], aes(x = Fsize, fill = factor(Survived))) +
  geom_bar(stat='count', position='dodge') +
  scale_x_continuous(breaks=c(1:11)) +
  labs(x = 'Family Size') +
  theme_few()
```

ggplot2를 사용해 가족의 크기와 생존자 수 관계 도표를 작성합니다.
가족수가 2-4명인 소(small)가족의 경우 생존확률이 높은 것 확인됩니다.
현재는 263개의 연령값이 없어서, 추후에 연령분석을 시도하겠습니다.

(그림1) 가족수별 생존 현황(막대도표)

이미지 파일은 URL로부터 불러올 수 있고 자신의 컴퓨터로 부터도 불러올 수 있다.
위에서 text에 링크를 거는것과 비슷하게 []안에 image주석을 달고 []앞에 !표를 붙여준다.
즉, [] 이와 같이 표현하고 그리고 ()안에 image주소를 입력하거나 image파일 경로를 입력한다.
•내 컴퓨터에서 파일경로로 불러올때 잘 불러와 지지 않는 다면,
R working directory에 image를 넣고 불러오면 된다.



그래프를 통해 혼자거나 대가족인 탑승객인 경우 사망률이 더 높은 것을 알 수 있습니다.
<br>이번엔 가족 수에 대한 설명을 추가해 보겠습니다. 그리고 모자이크 플롯을 이용해 가족 수별 생존형태 그래프를 작성해 보겠습니다.
```{r}
full$FsizeD[full$Fsize == 1] <- 'singleton'
full$FsizeD[full$Fsize < 5 & full$Fsize > 1] <- 'small'
full$FsizeD[full$Fsize > 4] <- 'large'

mosaicplot(table(full$FsizeD, full$Survived), main='Family Size by Survival', shade=TRUE)
```
모자이크 그래프를 통해 가족수가 2-4명인 소(small)가족의 경우 생존확률이 높은 것을 명확하게 확인할 수 있습니다. 현재는 263개의 연령값이 없기때문에, 추후에 연령분석도 시도하겠습니다.

(그림2) 가족수별 생존 현황(모자이크 도표)


###2.3 기타 정보 탐색
어떤 캐빈(Cabin)에 탑승했는지, 탑승칸들이 모여있는 캐빈의 지역(Deck)은 어떻게 되는지도 기준자료를 기반으로 분석해 보겠습니다. 그리고 탑승 항구(Embarked)에 따라 차이가 있는지도 확인해보겠습니다.
```{r}
full$Cabin[1:28]

# The first character is the deck. For example:
# Split the Elements of a Character Vector
strsplit(full$Cabin[2], NULL)[[1]]
## [1] "C" "8" "5"
# Create a Deck variable. Get passenger deck A - F:
full$Deck<-factor(sapply(full$Cabin, function(x) strsplit(x, NULL)[[1]][1]))

tabel(full$Embarked)s

```




Add a new chunk by clicking the *Insert Chunk* button on the toolbar or by pressing *Ctrl+Alt+I*.

When you save the notebook, an HTML file containing the code and output will be saved alongside it (click the *Preview* button or press *Ctrl+Shift+K* to preview the HTML file).
