rxSummary(formula, data, byTerm = TRUE, pweights = NULL, fweights = NULL, rowSelection = NULL,
transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
removeZeroCounts = FALSE,
blocksPerRead = rxGetOption(“blocksPerRead”),
reportProgress = rxGetOption(“reportProgress”), verbose = 0,
computeContext = rxGetOption(“computeContext”), …)
사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"라는 이름의 csv파일이다.
데이터의 행 수는 총 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.
현재 사용한 데이터는 2009년 데이터이지만, 실제는 2000년부터 2009년까지 10년간의 sample data가 있다.
뒤에 데이터 합치기와 같은 부분에서 다른 연도의 데이터도 사용될 것이다.
# (1-1)data의 위치지정 Revolution R을 다운할 시, 자동으로 생성되는 Sample
# data중 하나인 데이터로, sampleData폴더의 'mortDefaultSmall2009'
# csv파일을 사용
text_mort <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"
# (1-2)rxImport를 사용한 data import
data_mort <- rxImport(inData = text_mort, outFile = "data_mort.xdf", overwrite = TRUE)
# (1-3)rxSummary를 사용한 데이터 정보 보기
# (1-4)yearsEmploy와 creditScore에 대한 기본 summary 제공
rxSummary(~yearsEmploy + creditScore, data = data_mort)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: Less than .001 seconds
## Computation time: 0.006 seconds.
## Call:
## rxSummary(formula = ~yearsEmploy + creditScore, data = data_mort)
##
## Summary Statistics Results for: ~yearsEmploy + creditScore
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000
##
## Name Mean StdDev Min Max ValidObs MissingObs
## yearsEmploy 5.034 2.023 0 14 10000 0
## creditScore 700.632 50.826 499 872 10000 0
# (1-5)obtain within yearsEmploy-category statistics of the creditScore
# variable
rxSummary(creditScore ~ yearsEmploy, data = data_mort)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.001 seconds
## Computation time: 0.006 seconds.
## Call:
## rxSummary(formula = creditScore ~ yearsEmploy, data = data_mort)
##
## Summary Statistics Results for: creditScore ~ yearsEmploy
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000
##
## Name Mean StdDev Min Max ValidObs MissingObs
## creditScore:yearsEmploy 3528 1447 0 9854 10000 0
# (1-6)transforms을 사용하여 범주형 변수를 생성과 계산을 제공
# creditScore변수를 20개의 범주로 transform 시킴
rxSummary(~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore,
breaks = 20)))
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.009 seconds
## Computation time: 0.018 seconds.
## Call:
## rxSummary(formula = ~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore,
## breaks = 20)))
##
## Summary Statistics Results for: ~creditScore
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000
##
##
## Category Counts for creditScore
## Number of categories: 20
## Number of valid observations: 10000
## Number of missing observations: 0
##
## creditScore Counts
## (683,687] 1
## (687,692] 1
## (692,696] 19
## (696,700] 49
## (700,704] 98
## (704,709] 212
## (709,713] 442
## (713,717] 684
## (717,722] 999
## (722,726] 1333
## (726,730] 1467
## (730,735] 1362
## (735,739] 1222
## (739,743] 898
## (743,748] 575
## (748,752] 348
## (752,756] 174
## (756,760] 75
## (760,765] 31
## (765,769] 10
# (1-7)rxHistogram을 이용하여 위의 (1-6)에서 tranforms로 생성한 데이터
# 확인
rxHistogram(~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore,
breaks = 20)))
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.002 seconds
## Computation time: 0.007 seconds.