Data Import

Sample Code

사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"라는 이름의 csv파일이다.
데이터의 행 수는 총 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.
현재 사용한 데이터는 2009년 데이터이지만, 실제는 2000년부터 2009년까지 10년간의 sample data가 있다.
뒤에 데이터 합치기와 같은 부분에서 다른 연도의 데이터도 사용될 것이다.

1.rxImport


# (1-1)data의 위치지정

# Revolution R을 다운할 시, 자동으로 생성되는 Sample data중 하나인
# 데이터로, sampleData폴더의 'mortDefaultSmall2009' csv파일을 사용

text_mort <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"

# (1-2)rxImport를 사용한 data import

data_mort <- rxImport(inData = text_mort, outFile = "mort2009.xdf", overwrite = TRUE)

## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.027 seconds


# Import된 데이터 확인

head(data_mort)

##   creditScore houseAge yearsEmploy ccDebt year default
## 1         701       23           2   3661 2009       0
## 2         683       12           5   3384 2009       0
## 3         705       30           5   3210 2009       0
## 4         769       13           5   2843 2009       0
## 5         741       11           7   1532 2009       0
## 6         731       14           4   5302 2009       0

위의 코드에서 (1-2)에 해당되는 코드는 Data Manipulation없이 전체 데이터를 불러들이는 것에 대한 것이다.

rxImport 함수에서 outFile에는 “airline.xdf"로 지정해주어 xdf 파일(.xdf)로 저장되도록 하였는데, 만약 이를 지정해주지않고 outFile=“airline"이라고만 적었을때는, xdf파일이 아닌 DataFrame형식의 파일로 저장된다.


# (1-3)rxImport를 사용한 data import

# 위의 (1-2)와는 다르게 Data Manipulation을 함.

data_mort_mani <- rxImport(inData = text_mort, outFile = "mort2009_mani.xdf", 
    overwrite = TRUE, varsToKeep = c("creditScore", "yearsEmploy", "ccDebt", 
        "default"), rowSelection = default > 0, numRows = 1000)

## Rows Read: 1000, Total Rows Processed: 1000, Total Chunk Time: 0.003 seconds


# Data의 Header 부분 확인

head(data_mort_mani)

##   creditScore yearsEmploy ccDebt default
## 1         710           0   7527       1
## 2         738           5  10469       1
## 3         684           2  12182       1
## 4         622           4   8925       1
## 5         629           2   7868       1
## 6         730           5   7959       1

위의 코드에서 (1-3)은 전체 데이터가 아니라,

varsToKeep 옵션을 사용하여,"creditScore"과 "yearsEmploy"변수를 포함한 총 4개의 변수의 데이터를 불러오게 된다. 이에 반대되는 옵션은 varsToDrop으로 옵션 안에 쓰인 변수를 제외하고 불러오게 된다.
rowSelection 옵션을 사용하여 "default"변수가 0보다 큰 데이터만 불러오게 된다.
numRows 옵션으로는 상위 1000개의 데이터만 불러오도록 하였다.

이 밖에도 위에 주어진 많은 옵션들을 사용하여 다양한 형태로 데이터를 불러오는 과정이 가능하다.

Appendix

ARGUMENTS

inData : RxXdfData와 xdf파일이외의 파일(text, sas data, spss data, odbc data,…)
outFile : 초기값은 Null. Null이면 data frame 형식으로 Import됨. Null이 아닐 경우 xdf파일로 Import
inSource : RxXdfData와 xdf파일이외의 파일(text, sas data, spss data, odbc data,…)
outSource : 초기값은 Null. Null이면 data frame 형식으로 Import됨. Null이 아닐 경우 xdf파일로 Import
inFile : RxXdfData와 xdf파일이외의 파일(text, sas data, spss data, odbc data,…)
outFile : 초기값은 Null. Null이면 data frame 형식으로 Import됨. Null이 아닐 경우 xdf파일로 Import
data : DataFrame형식의 파일
varsToKeep : 변수 중 남기고 싶은 변수 선택
varsToDrop : 변수 중 버릴 변수 선택
rowSelection : 변수에서 특정 행만(ex. age가 10이상인) select하고 싶을 때
numRows : Import되는 최대 행수, '-1(default)'이면 모든 행을 다 Import함
colClasses : 해당 데이터의 변수 속성 설정
colInfo : 데이터의 변수 이름 설정
maxRowsByCols : 불러오는 데이터의 최대 행의 수
overwrite : 같은 이름의 데이터를 불러왔을 때, 데이터 업그레이드(덮어쓰기 허용)
append : “none”-새로운 xdf파일을 덧붙이는 것/“rows”-존재하는 xdf파일에 행을 추가하는 것
transforms : 변수변환의 첫단계(변수이름=표현, …)
stringAsFactor : string이 factor로 자동적으로 변환될 수 있는지 없는지를 나타내는 논리적 지표
type : inData 파일타입의 문자열 set 지정
rowsPerRead : 한 번에 읽는 row의 수
reportProgress : 0-어떤프로세스도 report되지 않음/ 1-진행된 행의 숫자가 프린트되고 업데이트됨/ 2-진행된 행과 그 시간이 report됨/ 3-진행된 행과 전체 시간이 report됨
_verbose- : 0-추가적인 output이 없음/ 1-(type=auto인경우) import type에 대한 정보가 프린트됨
rowToSkip : 무시할 행의 수를 나타내는 정수 값
missingValueString : 해당되는 문자열이 포함되면 결측값으로 처리하게 하는 것
columnDelimiters : 구분기호로 사용되는 문자가 포함된 문자열, NULL이면 쉼표(,)나 탭 중 하나
firstRowIsColNames : 첫 번째 행이 열의 이름을 나타내는 경우의 논리적 지표, NULL이면 첫 번째 행이 열이름이라고 자동으로 감지됨
rowsToSniff : 열(변수)의 속성을 결정하는데 사용되는 행의 수
defaultReadBufferSize : 임시 Buffer에서 읽을 수 있는 행의 수, 이것이 Data Import의 시간에 영향을 줌
defaultDecimalColType :처음 데이터를 읽을 때 결측값(NA)가 혼합되어 있거나 공백이 있을 때 발생되며, 열 속성에 대한 정보가 colInfo 또는 colClasses를 통해 지정하지 않은 경우 해당 항목의 데이터 형식을 지정하는 데 사용
defaultMissingColType : 위의 defaultDecimalColType와 거의 비슷하지만, 처음 데이터를 읽을 때 결측치가 혼합되어 있는 경우가 아니라 모든 값이 결측치(NAs)일 경우 해당됨
rowVarName : NULL-Data Frame에서 행의 이름 없음/not NULL - 행의 이름을 나타내는 변수가 추가됨

1. rxImport

Usage

rxImport(inData, outFile = NULL, varsToKeep = NULL,
varsToDrop = NULL, rowSelection = NULL,
transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
append = "none”, overwrite = FALSE, numRows = -1,
stringsAsFactors = NULL, colClasses = NULL, colInfo = NULL,
rowsPerRead = NULL, type = “auto”, maxRowsByCols = NULL,
reportProgress = rxGetOption(“reportProgress”),
verbose = 0,
xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”),
…)

2. rxImportToXdf

rxImport의 usage에서 inData -> inSource로, outFile -> outSource로 변환된 것으로 기능적인 측면에서는 rxImport와 거의 같다. rxImport와 다른 점은 outSource가 Null이더라도 xdf파일(.xdf)로 저장이 된다는 것이다.

Usage

rxImportToXdf(inSource, outSource, rowSelection = NULL, transforms = NULL, transformObjects = NULL, transformFunc = NULL, transformVars = NULL, transformPackages = NULL, transformEnvir = NULL, append = “none”, overwrite = FALSE, numRows = -1, reportProgress = rxGetOption(“reportProgress”), verbose = 0, xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), userObjects = NULL)

3. rxTextToXdf

Usage

rxTextToXdf(inFile, outFile, rowSelection = NULL, rowsToSkip = 0,
transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
append = “none”, overwrite = FALSE, numRows = -1,
stringsAsFactors = FALSE, colClasses = NULL, colInfo = NULL,
missingValueString = “NA”,
rowsPerRead = 500000, columnDelimiters = NULL,
autoDetectColNames = TRUE, firstRowIsColNames = NULL,
rowsToSniff = 10000, defaultReadBufferSize = 10000,
defaultDecimalColType = rxGetOption(“defaultDecimalColType”),
defaultMissingColType = rxGetOption(“defaultMissingColType”),
reportProgress = rxGetOption(“reportProgress”),
xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”),
userObjects = NULL)

4. rxDataFrameToXdf

Usage

rxDataFrameToXdf(data, outFile, varsToKeep = NULL, varsToDrop = NULL,
rowVarName = NULL, append = “none”, overwrite = FALSE,
computeLowHigh = TRUE,
xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”))

Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com