사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"라는 이름의 csv파일이다.
데이터의 행 수는 총 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.
현재 사용한 데이터는 2009년 데이터이지만, 실제는 2000년부터 2009년까지 10년간의 sample data가 있다.
뒤에 데이터 합치기와 같은 부분에서 다른 연도의 데이터도 사용될 것이다.
# (1-1)data의 위치지정 Revolution R을 다운할 시, 자동으로 생성되는 Sample
# data중 하나인 데이터로, sampleData폴더의 'mortDefaultSmall2009'
# csv파일을 사용
text_mort <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"
# (1-2)rxImport를 사용한 data import
data_mort <- rxImport(inData = text_mort, outFile = "mort2009.xdf", overwrite = TRUE)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.027 seconds
# (1-3)rxReadXdf를 사용한 data 읽기 rxReadXdf 함수를 사용하여서 위에서
# 불러들인 data_mort파일을 읽는 방법 numRows를 100으로 설정하여 상위
# 100개의 데이터만 읽게 하였고, year변수는 제거하고 읽음
rxReadXdf(data_mort, numRows = 100, varsToDrop = c("year"))
##
Rows Processed: 100
## Time to read data file: less than .001 secs.
## Time to convert to data frame: less than .001 secs.
## creditScore houseAge yearsEmploy ccDebt default
## 1 701 23 2 3661 0
## 2 683 12 5 3384 0
## 3 705 30 5 3210 0
## 4 769 13 5 2843 0
## 5 741 11 7 1532 0
## 6 731 14 4 5302 0
## 7 723 20 3 4231 0
## 8 728 15 6 3191 0
## 9 694 23 6 4553 0
## 10 726 3 4 4097 0
## 11 710 21 5 4371 0
## 12 673 29 6 4129 0
## 13 692 11 2 2726 0
## 14 641 34 3 7005 0
## 15 713 7 7 5519 0
## 16 694 25 7 6937 0
## 17 751 19 5 3839 0
## 18 619 19 0 3894 0
## 19 665 11 4 6146 0
## 20 631 4 5 3621 0
## 21 684 33 6 6968 0
## 22 659 18 5 6488 0
## 23 649 17 9 7219 0
## 24 644 24 7 7277 0
## 25 612 21 6 2488 0
## 26 683 20 4 5906 0
## 27 749 25 6 3936 0
## 28 579 12 6 5621 0
## 29 626 26 3 6324 0
## 30 693 20 5 6906 0
## 31 740 15 7 133 0
## 32 677 22 3 2873 0
## 33 697 13 5 1731 0
## 34 714 30 6 5438 0
## 35 726 34 7 6676 0
## 36 616 11 4 3623 0
## 37 678 26 6 6127 0
## 38 731 9 6 8160 0
## 39 654 14 8 7656 0
## 40 774 26 5 5154 0
## 41 659 26 5 3567 0
## 42 710 15 0 7527 1
## 43 735 17 7 445 0
## 44 691 12 6 6364 0
## 45 706 15 2 6347 0
## 46 725 5 7 5786 0
## 47 703 27 7 7432 0
## 48 668 13 5 9071 0
## 49 738 20 5 10469 1
## 50 682 17 3 4754 0
## 51 754 29 5 6176 0
## 52 763 19 6 6401 0
## 53 597 36 4 5339 0
## 54 718 32 4 2634 0
## 55 719 18 8 5505 0
## 56 670 17 6 4391 0
## 57 790 16 5 2857 0
## 58 631 24 5 8537 0
## 59 781 23 6 3579 0
## 60 740 14 5 7702 0
## 61 761 16 6 1046 0
## 62 704 24 3 3407 0
## 63 594 19 4 2759 0
## 64 693 17 6 4005 0
## 65 669 18 7 3844 0
## 66 673 13 3 5302 0
## 67 690 22 5 3551 0
## 68 624 34 5 4612 0
## 69 733 8 2 2318 0
## 70 667 13 6 5430 0
## 71 684 31 2 12182 1
## 72 683 22 5 4210 0
## 73 733 21 8 3392 0
## 74 643 14 3 2187 0
## 75 758 18 6 3284 0
## 76 741 26 7 5572 0
## 77 690 24 4 6828 0
## 78 720 15 3 4995 0
## 79 622 19 4 8925 1
## 80 642 11 7 5431 0
## 81 658 13 4 5047 0
## 82 750 25 6 4968 0
## 83 708 17 8 4531 0
## 84 779 31 4 6897 0
## 85 825 21 10 6729 0
## 86 699 26 1 3798 0
## 87 711 4 4 4686 0
## 88 701 33 7 2394 0
## 89 738 19 6 4662 0
## 90 577 30 6 6457 0
## 91 726 20 6 5790 0
## 92 687 19 4 8921 0
## 93 701 22 5 4945 0
## 94 704 31 2 3159 0
## 95 662 24 1 6129 0
## 96 677 19 6 3817 0
## 97 736 32 4 5578 0
## 98 709 19 3 4910 0
## 99 691 9 3 4740 0
## 100 721 17 5 7318 0
# (1-4)rxGetVarInfo를 사용한 Data의 변수정보 보기 rxGetVarInfo를 사용하여
# 본 Data의 변수정보에는, 변수 이름과 변수 속성, 최소값과 최대값을 포함.
rxGetVarInfo(data_mort)
## Var 1: creditScore, Type: integer, Low/High: (499, 872)
## Var 2: houseAge, Type: integer, Low/High: (0, 40)
## Var 3: yearsEmploy, Type: integer, Low/High: (0, 14)
## Var 4: ccDebt, Type: integer, Low/High: (0, 12518)
## Var 5: year, Type: integer, Low/High: (2009, 2009)
## Var 6: default, Type: integer, Low/High: (0, 1)
# (1-5)rxSetVarInfo를 사용한 Data의 변수정보 설정하기 rxSetVarInfo를
# 사용하기 위해서는 varInfo가 지정이 되어야함.
rxReadXdf(file, varsToKeep = NULL, varsToDrop = NULL, rowVarName = NULL,
startRow = 1, numRows = -1, returnDataFrame = TRUE,
stringsAsFactors = FALSE, maxRowsByCols = NULL,
reportProgress = rxGetOption(“reportProgress”), readByBlock = FALSE,
cppInterp = NULL)
rxGetVarInfo(data, getValueLabels = TRUE, varsToKeep = NULL,
varsToDrop = NULL, allNodes = TRUE)
rxGetVarInfoXdf(file, getValueLabels = TRUE, varsToKeep = NULL,
varsToDrop = NULL)
rxSetVarInfo(varInfo, data)
rxSetVarInfoXdf(varInfo, file)
Hankuk University of Foreign Studies. Dept of Statistics. Daewoo Choi Lab. Yeeseul Han.
한국외국어대학교 통계학과 최대우 연구실 한이슬
e-mail : han.lolove17@gmail.com