rxImport(inData, outFile, varsToKeep, varsToDrop, rowSelection, transforms, transformObjects, transformFunc, transformVars, transformPackages, transformEnvir, append, overwrite, numRows, stringsAsFactors, colClasses, colInfo, rowsPerRead, type, maxRowsByCols, reportProgress, verbose, xdfCompressionLevel,…)
# (1-1)data의 위치지정
text_air <- "C:/Users/Public/Documents/airline/airline.txt"
# (1-2)rxImport를 사용한 data import
data_air <- rxImport(inData = text_air, outFile = "airline.xdf", overwrite = TRUE)
위의 코드에서 (1-2)에 해당되는 코드는 Data Manipulation없이 전체 데이터를 불러들이는 것에 대한 것이다.
rxImport 함수는 텍스트 파일(.txt)이나 엑셀 파일(.csv)와 같은 데이터를 불러들일 수 있다. outFile에서 “airline.xdf"로 지정해주어 xdf 파일(.xdf)로 저장되도록 하였는데, 만약 이를 지정해주지않고 outFile="airline"이라고만 적었을때는, xdf파일이 아닌 DataFrame형식의 파일로 저장된다.
# (1-3)rxImport를 사용한 data import
data_air <- rxImport(inData = text_air, outFile = "airline.xdf", overwrite = TRUE,
varsToDrop = c("ArrTime", "DepTime"), rowSelection = AirTime > 10, numRows = 10000)
# Data의 Header 부분 확인
head(data_air)
위의 코드에서 (1-3)은 전체 데이터가 아니라,
varsToDrop 옵션을 사용하여,"ArrTime"과 "DepTime"변수는 제외하고 데이터를 불러오게 된다. 이에 반대되는 옵션은 varsToKeep으로 옵션 안에 쓰인 변수만 불러오게 된다.
rowSelection 옵션을 사용하여 "AirTime"변수가 10보다 큰 데이터만 불러오게 된다.
numRows 옵션으로는 상위 10000개의 데이터만 불러오도록 하였다.
이 밖에도 위에 주어진 많은 옵션들을 사용하여 다양한 형태로 데이터를 불러오는 과정이 가능하다.
Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com