STATISTICAL ANALYTICS

rxSummary

Usage

rxSummary(formula, data, byTerm = TRUE, pweights = NULL, fweights = NULL, rowSelection = NULL,
transforms = NULL, transformObjects = NULL,
transformFunc = NULL, transformVars = NULL,
transformPackages = NULL, transformEnvir = NULL,
removeZeroCounts = FALSE,
blocksPerRead = rxGetOption(“blocksPerRead”),
reportProgress = rxGetOption(“reportProgress”), verbose = 0,
computeContext = rxGetOption(“computeContext”), …)

Sample Code


사용할 데이터는 Revolution 폴더안의 Sample Data로, "mortDefaultSmall2009"라는 이름의 csv파일이다.
데이터의 행 수는 총 10000개 이고, 'creditScore', 'houseAge', 'yearsEmploy', 'ccDebt', 'year', 'default' 로 총 6개의 변수(열)를 가지고 있다.
현재 사용한 데이터는 2009년 데이터이지만, 실제는 2000년부터 2009년까지 10년간의 sample data가 있다.
뒤에 데이터 합치기와 같은 부분에서 다른 연도의 데이터도 사용될 것이다.


# (1-1)data의 위치지정 Revolution R을 다운할 시, 자동으로 생성되는 Sample

# data중 하나인 데이터로, sampleData폴더의 'mortDefaultSmall2009'
# csv파일을 사용

text_mort <- "C:/Revolution/R-Enterprise-6.1/R-2.14.2/library/RevoScaleR/SampleData/mortDefaultSmall2009.csv"


# (1-2)rxImport를 사용한 data import

data_mort <- rxImport(inData = text_mort, outFile = "data_mort.xdf", overwrite = TRUE)


# (1-3)rxSummary를 사용한 데이터 정보 보기

# (1-4)yearsEmploy와 creditScore에 대한 기본 summary 제공

rxSummary(~yearsEmploy + creditScore, data = data_mort)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: Less than .001 seconds 
## Computation time: 0.006 seconds.
## Call:
## rxSummary(formula = ~yearsEmploy + creditScore, data = data_mort)
## 
## Summary Statistics Results for: ~yearsEmploy + creditScore
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000 
##  
##  Name        Mean    StdDev Min Max ValidObs MissingObs
##  yearsEmploy   5.034  2.023   0  14 10000    0         
##  creditScore 700.632 50.826 499 872 10000    0

# (1-5)obtain within yearsEmploy-category statistics of the creditScore
# variable

rxSummary(creditScore ~ yearsEmploy, data = data_mort)
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.001 seconds 
## Computation time: 0.006 seconds.
## Call:
## rxSummary(formula = creditScore ~ yearsEmploy, data = data_mort)
## 
## Summary Statistics Results for: creditScore ~ yearsEmploy
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000 
##  
##  Name                    Mean StdDev Min Max  ValidObs MissingObs
##  creditScore:yearsEmploy 3528 1447   0   9854 10000    0

# (1-6)transforms을 사용하여 범주형 변수를 생성과 계산을 제공

# creditScore변수를 20개의 범주로 transform 시킴

rxSummary(~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore, 
    breaks = 20)))
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.009 seconds 
## Computation time: 0.018 seconds.
## Call:
## rxSummary(formula = ~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore, 
##     breaks = 20)))
## 
## Summary Statistics Results for: ~creditScore
## File name: C:\Users\dox\Documents\data_mort.xdf
## Number of valid observations: 10000 
##  
## 
## Category Counts for creditScore
## Number of categories: 20
## Number of valid observations: 10000
## Number of missing observations: 0
## 
##  creditScore Counts
##  (683,687]      1  
##  (687,692]      1  
##  (692,696]     19  
##  (696,700]     49  
##  (700,704]     98  
##  (704,709]    212  
##  (709,713]    442  
##  (713,717]    684  
##  (717,722]    999  
##  (722,726]   1333  
##  (726,730]   1467  
##  (730,735]   1362  
##  (735,739]   1222  
##  (739,743]    898  
##  (743,748]    575  
##  (748,752]    348  
##  (752,756]    174  
##  (756,760]     75  
##  (760,765]     31  
##  (765,769]     10

# (1-7)rxHistogram을 이용하여 위의 (1-6)에서 tranforms로 생성한 데이터
# 확인

rxHistogram(~creditScore, data = data_mort, transforms = list(creditScore = cut(creditScore, 
    breaks = 20)))
## Rows Read: 10000, Total Rows Processed: 10000, Total Chunk Time: 0.002 seconds 
## Computation time: 0.007 seconds.

plot of chunk unnamed-chunk-2