rxTextToXdf
Usage
rxTextToXdf(inFile, outFile, rowSelection = NULL, rowsToSkip = 0,
transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
append = “none”, overwrite = FALSE, numRows = -1,
stringsAsFactors = FALSE, colClasses = NULL, colInfo = NULL,
missingValueString = “NA”,
rowsPerRead = 500000, columnDelimiters = NULL,
autoDetectColNames = TRUE, firstRowIsColNames = NULL,
rowsToSniff = 10000, defaultReadBufferSize = 10000,
defaultDecimalColType = rxGetOption(“defaultDecimalColType”),
defaultMissingColType = rxGetOption(“defaultMissingColType”),
reportProgress = rxGetOption(“reportProgress”),
xdfCompressionLevel = rxGetOption(“xdfCompressionLevel”),
userObjects = NULL)
Arguments
rxImport에서 사용한 Argument에 추가되는 Argument들이 정의되어 있다.
- inFile : RxXdfData와 xdf파일이외의 파일(text, sas data, spss data, odbc data,…)
- outFile : 초기값은 Null. Null이면 data frame 형식으로 Import됨. Null이 아닐 경우 xdf파일로 Import
- varsToKeep : 변수 중 남기고 싶은 변수 선택
- varsToDrop : 변수 중 버릴 변수 선택
- rowSelection : 변수에서 특정 행만(ex. age가 10이상인) select하고 싶을 때
- numRows : Import되는 최대 행수, '-1(default)'이면 모든 행을 다 Import함
- colClasses : 해당 데이터의 변수 속성 설정
- colInfo : 데이터의 변수 이름 설정
- maxRowsByCols : 불러오는 데이터의 최대 행의 수
- overwrite : 같은 이름의 데이터를 불러왔을 때, 데이터 업그레이드(덮어쓰기 허용)
- append : “none”-새로운 xdf파일을 덧붙이는 것/“rows”-존재하는 xdf파일에 행을 추가하는 것
- transforms : 변수변환의 첫단계(변수이름=표현, …)
- stringAsFactor : string이 factor로 자동적으로 변환될 수 있는지 없는지를 나타내는 논리적 지표
- type : inData 파일타입의 문자열 set 지정
- rowsPerRead : 한 번에 읽는 row의 수
- reportProgress : 0-어떤프로세스도 report되지 않음/1-진행된 행의 숫자가 프린트되고 업데이트됨/2-진행된 행과 그 시간이 report됨/ 3-진행된 행과 전체 시간이 report됨
- verbose : 0-추가적인 output이 없음/ 1-(type=auto인경우) import type에 대한 정보가 프린트됨
- rowToSkip : 무시할 행의 수를 나타내는 정수 값
- missingValueString : 해당되는 문자열이 포함되면 결측값으로 처리하게 하는 것
- columnDelimiters : 구분기호로 사용되는 문자가 포함된 문자열, NULL이면 쉼표(,)나 탭 중 하나
- firstRowIsColNames : 첫 번째 행이 열의 이름을 나타내는 경우의 논리적 지표, NULL이면 첫 번째 행이 열이름이라고 자동으로 감지됨
- rowsToSniff : 열(변수)의 속성을 결정하는데 사용되는 행의 수
- defaultReadBufferSize : 임시 Buffer에서 읽을 수 있는 행의 수, 이것이 Data Import의 시간에 영향을 줌
- defaultDecimalColType :처음 데이터를 읽을 때 결측값(NA)가 혼합되어 있거나 공백이 있을 때 발생되며, 열 속성에 대한 정보가 colInfo 또는 colClasses를 통해 지정하지 않은 경우 해당 항목의 데이터 형식을 지정하는 데 사용
- defaultMissingColType : 위의 defaultDecimalColType와 거의 비슷하지만, 처음 데이터를 읽을 때 결측치가 혼합되어 있는 경우가 아니라 모든 값이 결측치(NAs)일 경우 해당됨
Sample Code
# (1-1)data의 위치지정
text_air <- "C:/Users/Public/Documents/airline/airline.txt"
# (1-2)rxImportToXdf를 사용한 data import
data_air <- rxTextToXdf(inFile = text_air, outFile = "airline", overwrite = TRUE)
Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com