Data Transformation

Sample Code


사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"와 "mortDefaultSmall2008"라는 이름의 csv파일이다.
데이터의 각 행 수는 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.

rxDataStep


# (1-1)data의 위치지정 Revolution R을 다운할 시, 자동으로 생성되는 Sample
# data중 하나인 데이터로, sampleData폴더의 'mortDefaultSmall2009'과
# 'mortDefaultSmall2008' csv파일을 사용

mort2008 <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2008.csv"
mort2009 <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"

# (1-2)rxImport를 사용한 data import 이 경우에 outFile을 Null로 하였으므로
# outFile은 xdf파일이 아닌 Data Frame형식의 파일로 생성됨

mort2008 <- rxImport(inData = mort2008, overwrite = TRUE)
mort2009 <- rxImport(inData = mort2009, overwrite = TRUE)


# (1-3)rxDataStep을 사용한 Data Transformation

sample1 <- rxDataStep(inData = mort2008, varsToKeep = c("ccDebt", "houseAge"), 
    rowSelection = default < 1)

# (1-4)rxGetInfo를 사용한 변수정보 보기

rxGetInfo(sample1, getVarInfo = TRUE)

## Data frame: sample1 
## Number of observations: 9852 
## Number of variables: 2 
## Variable information: 
## Var 1: ccDebt, Type: integer, Low/High: (0, 11564)
## Var 2: houseAge, Type: integer, Low/High: (0, 40)

rxMerge


# (1-5) 위 예제의 (1-1)에서 이미 2008년, 2009년의 두 개의 데이터를
# 불러왔으므로, 바로 데이터를 합치는 작업시행 (두 개의 Data Frame형식의
# 파일을 합치기)

mort_Merge <- rxMerge(inData1 = mort2008, inData2 = mort2009, matchVars = c("creditScore", 
    "yearsEmploy"), type = "union")


# (1-6) rxGetInfo를 사용하여 데이터가 잘 합쳐졌나 확인

rxGetInfo(mort_Merge, getVarInfo = TRUE)

## Data frame: mort_Merge 
## Number of observations: 20000 
## Number of variables: 6 
## Variable information: 
## Var 1: creditScore, Type: integer, Low/High: (499, 880)
## Var 2: houseAge, Type: integer, Low/High: (0, 40)
## Var 3: yearsEmploy, Type: integer, Low/High: (0, 14)
## Var 4: ccDebt, Type: integer, Low/High: (0, 12823)
## Var 5: year, Type: integer, Low/High: (2008, 2009)
## Var 6: default, Type: integer, Low/High: (0, 1)

rxGetInfo를 사용하여 보니, 데이터가 총 20,000 rows라고 나온다.
따라서, Merge가 잘 되었음을 확인할 수 있다.

rxSort


# 위 예제의 (1-5)에서 생성한 'mort_Merge' 데이터를 사용.  (1-7) rxSort를
# 사용하여 데이터 정렬하기

mort_Sort <- rxSort(inData = mort_Merge, outFile = "Sortsample.xdf", sortByVars = "creditScore", 
    type = "varByVar", overwrite = TRUE)


# (1-8) rxReadXdf를 사용하여 Sort된 데이터 확인

rxReadXdf(mort_Sort, numRows = 10)

## 
Rows Processed: 10
## Time to read data file: less than .001 secs.
## Time to convert to data frame: less than .001 secs.

##    creditScore houseAge yearsEmploy ccDebt year default
## 1          499       15           4   4789 2009       0
## 2          515       13           5   3635 2008       0
## 3          519       30           4   3949 2008       0
## 4          520        8           2   6787 2008       0
## 5          520       15           4   7389 2009       0
## 6          526        8           4   6327 2008       0
## 7          529       15           4   6376 2008       0
## 8          530       23           6   5031 2008       0
## 9          531       26           8   3344 2008       0
## 10         533        9           8   7154 2008       0

결과로 나온 10개의 데이터를 확인해 보면, 위에서 정렬 기준으로 정한 변수인 'creditScore'를 기준으로 오름차순으로 정렬되었음을 확인할 수 있다.

Appendix

ARGUMENTS

inData : 데이터 프레임, xdf파일(.xdf)이나 RxXdfData가 사용 가능 만약 Null이라면 하나의 변수를 가지는 데이터 셋이 자동으로 생성된다.
inFile : RxXdfData 오브젝트와 xdf파일(.xdf) 둘다 사용 가능
outFile : RxXdfData 오브젝트와 xdf파일(.xdf) 둘다 사용 가능, 만약 returnTransformObjects가 TRUE만 아니라면, rxDatastep으로부터 데이터 프레임 형식으로 반환된다
varsToKeep : 변수 중 남기고 싶은 변수 선택
varsToDrop : 변수 중 버릴 변수 선택
rowSelection : 변수에서 특정 행만(ex. age가 10이상인) select하고 싶을 때
transforms : 변수변환의 첫단계(변수이름=표현, …)
transformObjects : transforms, transformsFuns, rowSelection으로써 참조된 오브젝트를 포함하는 리스트
transformVars : transformation 함수를 위해 필요한 input 데이터 셋의 변수들에 대한 문자 벡터
append : “none”-새로운 xdf파일을 덧붙이는 것/“rows”-존재하는 xdf파일에 행을 추가하는 것
overwrite : 같은 이름의 데이터를 불러왔을 때, 데이터 업그레이드(덮어쓰기 허용)
removeMissings : TRUE이면 행의 결측치는 포함하지 않은 데이터가 input된다
computeLowHigh : FALSE이면 데이터의 가장 작고 큰 값이 자동으로 계산되지 않는다
maxRowsByCols : 불러오는 데이터의 최대 행의 수
rowsPerRead : 한 번에 읽는 row의 수
startRow : 검색을 하기 위한 시작 행을 지정
numRows : Import되는 최대 행수, '-1(default)'이면 모든 행을 다 Import함
__returnTransformObjects : 논리 값. TRUE이면, 데이터 프레임이나 데이터소스 오브젝트 대신에 transformObjects의 리스트가 반환된다
startBlock : 읽어올 데이터의 시작 Block을 설정(startRow가 1보다 크게 되어있을 경우 무시) ( If the input transformObjects have been modified, by using .rxSet or .rxModify in the transformFunc, the updated values will be returned. Any data returned from the transformFunc is ignored. If no transformObjects are used, NULL is returned. This argument allows for user-defined computations within a transformFunc without creating new data.)
numBlocks : 읽어오는 데이터 Block의 수(Ignored if numRows is not set to -1. )
blocksPerRead : 데이터 소스로부터 읽어오는 데이터의 각 chunk에서 읽는 Block의 수(Ignored for data frames or if rowsPerRead is positive.)
reportProgress : 0-어떤프로세스도 report되지 않음/1-진행된 행의 숫자가 프린트되고 업데이트됨/2-진행된 행과 그 시간이 report됨/ 3-진행된 행과 전체 시간이 report됨
xdfCompressionLevel : integer in the range of -1 to 9. The higher the value, the greater the amount of compression - resulting in smaller files but a longer time to create them. If xdfCompressionLevel is set to 0, there will be no compression and files will be compatible with the 6.0 release of Revolution R Enterprise. If set to -1, a default level of compression will be used.
checkVarsToKeep : logical value. If TRUE variable names specified in varsToKeep will be checked against variables in the data set to make sure they exist. An error will be reported if not found. Ignored if more than 500 variables in the data set.
userObjects : 지원하지 않음
cppInterp : 지원하지 않음

1. rxDatastep

Usage

rxDataStep(inData = NULL, outFile = NULL, varsToKeep = NULL, varsToDrop = NULL, rowSelection = NULL, transforms = NULL, transformObjects = NULL, transformFunc = NULL, transformVars = NULL, transformPackages = NULL, transformEnvir = NULL, append = “none”, overwrite = FALSE, removeMissings = FALSE, computeLowHigh = TRUE, maxRowsByCols = 3000000, rowsPerRead = -1, startRow = 1, numRows = -1, returnTransformObjects = FALSE, blocksPerRead = rxGetOption(“blocksPerRead”), reportProgress = rxGetOption(“reportProgress”), xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), …)

rxDataStepXdf(inFile, outFile, varsToKeep = NULL, varsToDrop = NULL, rowSelection = NULL, transforms = NULL, transformObjects = NULL, transformFunc = NULL, transformVars = NULL, transformPackages = NULL, transformEnvir = NULL, append = “none”, overwrite = FALSE, removeMissings = FALSE, computeLowHigh = TRUE, rowsPerRead = -1, startRow = 1, numRows = -1, startBlock = 1, numBlocks = -1, returnTransformObjects = FALSE, blocksPerRead = rxGetOption(“blocksPerRead”), reportProgress = rxGetOption(“reportProgress”), xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), checkVarsToKeep = TRUE, userObjects = NULL, cppInterp = NULL)

2. rxMerge

Usage

rxMerge( inData1, inData2, outFile = NULL, matchVars = NULL, type = “inner”, missingsLow = TRUE, autoSort = TRUE, duplicateVarExt = NULL, varsToKeep1 = NULL, varsToDrop1 = NULL, newVarNames1 = NULL, varsToKeep2 = NULL, varsToDrop2 = NULL, newVarNames2 = NULL, rowsPerOutputBlock = -1, decreasing = FALSE, overwrite = FALSE, maxRowsByCols = 3000000, bufferLimit = -1, reportProgress = rxGetOption(“reportProgress”), verbose = 0, xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), … )

rxMergeXdf( inFile1, inFile2, outFile, matchVars = NULL, type = “inner”, missingsLow = TRUE, duplicateVarExt = NULL, varsToKeep1 = NULL, varsToDrop1 = NULL, newVarNames1 = NULL, varsToKeep2 = NULL, varsToDrop2 = NULL, newVarNames2 = NULL, rowsPerOutputBlock = -1, decreasing = FALSE, overwrite = FALSE, bufferLimit = -1, reportProgress = rxGetOption(“reportProgress”), verbose = 0, xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), … )

3. rxSort

Usage

rxSort(inData, outFile = NULL, sortByVars, decreasing = FALSE, type = “auto”, missingsLow = TRUE, caseSensitive = FALSE, varsToKeep = NULL, varsToDrop = NULL, overwrite = FALSE, maxRowsByCols = 3000000, bufferLimit = -1, reportProgress = rxGetOption(“reportProgress”), verbose = 0, xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), …)

rxSortXdf(inFile, outFile, sortByVars, decreasing = FALSE, type = “auto”, missingsLow = TRUE, caseSensitive = FALSE, varsToKeep = NULL, varsToDrop = NULL, overwrite = FALSE, bufferLimit = -1, reportProgress = rxGetOption(“reportProgress”), verbose = 0, xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), blocksPerRead = -1, …)

Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com