Variable Information

Sample Code

사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"라는 이름의 csv파일이다.
데이터의 행 수는 총 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.
현재 사용한 데이터는 2009년 데이터이지만, 실제는 2000년부터 2009년까지 10년간의 sample data가 있다.
뒤에 데이터 합치기와 같은 부분에서 다른 연도의 데이터도 사용될 것이다.

# (1-1)data의 위치지정 Revolution R을 다운할 시, 자동으로 생성되는 Sample
# data중 하나인 데이터로, sampleData폴더의 'mortDefaultSmall2009'
# csv파일을 사용

text_mort <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"

# (1-2)rxImport를 사용한 data import

data_mort <- rxImport(inData = text_mort, outFile = "mort2009.xdf", overwrite = TRUE)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.027 seconds

# (1-3)rxReadXdf를 사용한 data 읽기 rxReadXdf 함수를 사용하여서 위에서
# 불러들인 data_mort파일을 읽는 방법 numRows를 100으로 설정하여 상위
# 100개의 데이터만 읽게 하였고, year변수는 제거하고 읽음

rxReadXdf(data_mort, numRows = 100, varsToDrop = c("year"))
## 
Rows Processed: 100
## Time to read data file: less than .001 secs.
## Time to convert to data frame: less than .001 secs.
##     creditScore houseAge yearsEmploy ccDebt default
## 1           701       23           2   3661       0
## 2           683       12           5   3384       0
## 3           705       30           5   3210       0
## 4           769       13           5   2843       0
## 5           741       11           7   1532       0
## 6           731       14           4   5302       0
## 7           723       20           3   4231       0
## 8           728       15           6   3191       0
## 9           694       23           6   4553       0
## 10          726        3           4   4097       0
## 11          710       21           5   4371       0
## 12          673       29           6   4129       0
## 13          692       11           2   2726       0
## 14          641       34           3   7005       0
## 15          713        7           7   5519       0
## 16          694       25           7   6937       0
## 17          751       19           5   3839       0
## 18          619       19           0   3894       0
## 19          665       11           4   6146       0
## 20          631        4           5   3621       0
## 21          684       33           6   6968       0
## 22          659       18           5   6488       0
## 23          649       17           9   7219       0
## 24          644       24           7   7277       0
## 25          612       21           6   2488       0
## 26          683       20           4   5906       0
## 27          749       25           6   3936       0
## 28          579       12           6   5621       0
## 29          626       26           3   6324       0
## 30          693       20           5   6906       0
## 31          740       15           7    133       0
## 32          677       22           3   2873       0
## 33          697       13           5   1731       0
## 34          714       30           6   5438       0
## 35          726       34           7   6676       0
## 36          616       11           4   3623       0
## 37          678       26           6   6127       0
## 38          731        9           6   8160       0
## 39          654       14           8   7656       0
## 40          774       26           5   5154       0
## 41          659       26           5   3567       0
## 42          710       15           0   7527       1
## 43          735       17           7    445       0
## 44          691       12           6   6364       0
## 45          706       15           2   6347       0
## 46          725        5           7   5786       0
## 47          703       27           7   7432       0
## 48          668       13           5   9071       0
## 49          738       20           5  10469       1
## 50          682       17           3   4754       0
## 51          754       29           5   6176       0
## 52          763       19           6   6401       0
## 53          597       36           4   5339       0
## 54          718       32           4   2634       0
## 55          719       18           8   5505       0
## 56          670       17           6   4391       0
## 57          790       16           5   2857       0
## 58          631       24           5   8537       0
## 59          781       23           6   3579       0
## 60          740       14           5   7702       0
## 61          761       16           6   1046       0
## 62          704       24           3   3407       0
## 63          594       19           4   2759       0
## 64          693       17           6   4005       0
## 65          669       18           7   3844       0
## 66          673       13           3   5302       0
## 67          690       22           5   3551       0
## 68          624       34           5   4612       0
## 69          733        8           2   2318       0
## 70          667       13           6   5430       0
## 71          684       31           2  12182       1
## 72          683       22           5   4210       0
## 73          733       21           8   3392       0
## 74          643       14           3   2187       0
## 75          758       18           6   3284       0
## 76          741       26           7   5572       0
## 77          690       24           4   6828       0
## 78          720       15           3   4995       0
## 79          622       19           4   8925       1
## 80          642       11           7   5431       0
## 81          658       13           4   5047       0
## 82          750       25           6   4968       0
## 83          708       17           8   4531       0
## 84          779       31           4   6897       0
## 85          825       21          10   6729       0
## 86          699       26           1   3798       0
## 87          711        4           4   4686       0
## 88          701       33           7   2394       0
## 89          738       19           6   4662       0
## 90          577       30           6   6457       0
## 91          726       20           6   5790       0
## 92          687       19           4   8921       0
## 93          701       22           5   4945       0
## 94          704       31           2   3159       0
## 95          662       24           1   6129       0
## 96          677       19           6   3817       0
## 97          736       32           4   5578       0
## 98          709       19           3   4910       0
## 99          691        9           3   4740       0
## 100         721       17           5   7318       0

# (1-4)rxGetVarInfo를 사용한 Data의 변수정보 보기 rxGetVarInfo를 사용하여
# 본 Data의 변수정보에는, 변수 이름과 변수 속성, 최소값과 최대값을 포함.

rxGetVarInfo(data_mort)
## Var 1: creditScore, Type: integer, Low/High: (499, 872)
## Var 2: houseAge, Type: integer, Low/High: (0, 40)
## Var 3: yearsEmploy, Type: integer, Low/High: (0, 14)
## Var 4: ccDebt, Type: integer, Low/High: (0, 12518)
## Var 5: year, Type: integer, Low/High: (2009, 2009)
## Var 6: default, Type: integer, Low/High: (0, 1)
# (1-5)rxSetVarInfo를 사용한 Data의 변수정보 설정하기 rxSetVarInfo를
# 사용하기 위해서는 varInfo가 지정이 되어야함.

Appendix

ARGUMENTS


1. rxReadXdf

Usage

rxReadXdf(file, varsToKeep = NULL, varsToDrop = NULL, rowVarName = NULL,
startRow = 1, numRows = -1, returnDataFrame = TRUE,
stringsAsFactors = FALSE, maxRowsByCols = NULL,
reportProgress = rxGetOption(“reportProgress”), readByBlock = FALSE,
cppInterp = NULL)

2. rxGetVarInfo

Usage

rxGetVarInfo(data, getValueLabels = TRUE, varsToKeep = NULL,
varsToDrop = NULL, allNodes = TRUE)

rxGetVarInfoXdf(file, getValueLabels = TRUE, varsToKeep = NULL,
varsToDrop = NULL)

3. rxSetVarInfo

Usage

rxSetVarInfo(varInfo, data)
rxSetVarInfoXdf(varInfo, file)


Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com