rxTextToXdf

Usage

rxTextToXdf(inFile, outFile, rowSelection = NULL, rowsToSkip = 0, transforms = NULL, transformObjects = NULL, transformFunc = NULL, transformVars = NULL, transformPackages = NULL, transformEnvir = NULL, append = “none”, overwrite = FALSE, numRows = -1, stringsAsFactors = FALSE, colClasses = NULL, colInfo = NULL, missingValueString = “NA”, rowsPerRead = 500000, columnDelimiters = NULL, autoDetectColNames = TRUE, firstRowIsColNames = NULL, rowsToSniff = 10000, defaultReadBufferSize = 10000, defaultDecimalColType = rxGetOption(“defaultDecimalColType”), defaultMissingColType = rxGetOption(“defaultMissingColType”), reportProgress = rxGetOption(“reportProgress”), xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”), userObjects = NULL)

Arguments

rxImport에서 사용한 Argument에 추가되는 Argument들이 정의되어 있다.

inFile : RxXdfData와 xdf파일이외의 파일(text, sas data, spss data, odbc data,…)
outFile : 초기값은 Null. Null이면 data frame 형식으로 Import됨. Null이 아닐 경우 xdf파일로 Import
varsToKeep : 변수 중 남기고 싶은 변수 선택
varsToDrop : 변수 중 버릴 변수 선택
rowSelection : 변수에서 특정 행만(ex. age가 10이상인) select하고 싶을 때
numRows : Import되는 최대 행수, '-1(default)'이면 모든 행을 다 Import함
colClasses : 해당 데이터의 변수 속성 설정
colInfo : 데이터의 변수 이름 설정
maxRowsByCols : 불러오는 데이터의 최대 행의 수
overwrite : 같은 이름의 데이터를 불러왔을 때, 데이터 업그레이드(덮어쓰기 허용)
append : “none”-새로운 xdf파일을 덧붙이는 것/“rows”-존재하는 xdf파일에 행을 추가하는 것
transforms : 변수변환의 첫단계(변수이름=표현, …)
stringAsFactor : string이 factor로 자동적으로 변환될 수 있는지 없는지를 나타내는 논리적 지표
type : inData 파일타입의 문자열 set 지정
rowsPerRead : 한 번에 읽는 row의 수
reportProgress : 0-어떤프로세스도 report되지 않음/1-진행된 행의 숫자가 프린트되고 업데이트됨/2-진행된 행과 그 시간이 report됨/ 3-진행된 행과 전체 시간이 report됨
verbose : 0-추가적인 output이 없음/ 1-(type=auto인경우) import type에 대한 정보가 프린트됨
rowToSkip : 무시할 행의 수를 나타내는 정수 값
missingValueString : 해당되는 문자열이 포함되면 결측값으로 처리하게 하는 것
columnDelimiters : 구분기호로 사용되는 문자가 포함된 문자열, NULL이면 쉼표(,)나 탭 중 하나
firstRowIsColNames : 첫 번째 행이 열의 이름을 나타내는 경우의 논리적 지표, NULL이면 첫 번째 행이 열이름이라고 자동으로 감지됨
rowsToSniff : 열(변수)의 속성을 결정하는데 사용되는 행의 수
defaultReadBufferSize : 임시 Buffer에서 읽을 수 있는 행의 수, 이것이 Data Import의 시간에 영향을 줌
defaultDecimalColType :처음 데이터를 읽을 때 결측값(NA)가 혼합되어 있거나 공백이 있을 때 발생되며, 열 속성에 대한 정보가 colInfo 또는 colClasses를 통해 지정하지 않은 경우 해당 항목의 데이터 형식을 지정하는 데 사용
defaultMissingColType : 위의 defaultDecimalColType와 거의 비슷하지만, 처음 데이터를 읽을 때 결측치가 혼합되어 있는 경우가 아니라 모든 값이 결측치(NAs)일 경우 해당됨

Sample Code


# (1-1)data의 위치지정

text_air <- "C:/Users/Public/Documents/airline/airline.txt"

# (1-2)rxImportToXdf를 사용한 data import

data_air <- rxTextToXdf(inFile = text_air, outFile = "airline", overwrite = TRUE)

Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com