AS4-3 Predicting Earnings from Census Data (temp.)

主要議題：使用普查資料預測收入

學習重點：

多類別的預測變數
正確性 (Accuracy) vs. 可解釋性 (Interpretability)
多模型之間的ACC,AUC比較 caTools::colAUC()
多模型之間的ROC, DPP比較 caTools::colAUC()
交叉驗證與參數調校流程
開啟平行運算功能
模型組合 Model Ensemble

rm(list=ls(all=T))
options(digits=4, scipen=12)
library(dplyr)
library(rpart)
library(rpart.plot)
library(caret)
library(randomForest)
library(caTools)
source('DPP.R')

1 邏輯式回歸模型

1.1 整理資料、建立模型

D =  read.csv('data/census.csv')
table(D$over50)


 <=50K   >50K 
 24283   7695

table(D$over50) %>% prop.table    # Acc.base = 0.7594


 <=50K   >50K 
0.7594 0.2406

Let’s begin by building a logistic regression model to predict whether an individual’s earnings are above $50,000 (the variable “over50k”) using all of the other variables as independent variables. First, read the dataset census.csv into R.

Then, split the data randomly into a training set and a testing set, setting the seed to 2000 before creating the split. Split the data so that the training set contains 60% of the observations, while the testing set contains 40% of the observations.

Next, build a logistic regression model to predict the dependent variable “over50k”, using all of the other variables in the dataset as independent variables. Use the training set to build the model.

Which variables are significant, or have factors that are significant? (Use 0.1 as your significance threshold, so variables with a period or dot in the stars column should be counted too. You might see a warning message here - you can ignore it and proceed. This message is a warning that we might be overfitting our model to the training set.) Select all that apply.

set.seed(2000)
spl = sample.split(D$over50k, SplitRatio = 0.6)
TR = subset(D, spl)
TS = subset(D, !spl)
glm1 = glm(over50k ~ ., TR, family=binomial)

glm.fit: fitted probabilities numerically 0 or 1 occurred

summary(glm1)


Call:
glm(formula = over50k ~ ., family = binomial, data = TR)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-5.107  -0.504  -0.180  -0.001   3.338  

Coefficients: (1 not defined because of singularities)
                                             Estimate   Std. Error
(Intercept)                                -8.6580686    1.3788706
age                                         0.0254838    0.0021386
workclass Federal-gov                       1.1054468    0.2013806
workclass Local-gov                         0.3674591    0.1821340
workclass Never-worked                    -12.8346355  845.2523702
workclass Private                           0.6011672    0.1625780
workclass Self-emp-inc                      0.7575120    0.1950482
workclass Self-emp-not-inc                  0.1855059    0.1773792
workclass State-gov                         0.4012276    0.1960758
workclass Without-pay                     -13.9465612  659.7417182
education 11th                              0.2224997    0.2867198
education 12th                              0.6380314    0.3596574
education 1st-4th                          -0.7075223    0.7759998
education 5th-6th                          -0.3169764    0.4880227
education 7th-8th                          -0.3498391    0.3126433
education 9th                              -0.1258224    0.3539479
education Assoc-acdm                        1.6018145    0.2426784
education Assoc-voc                         1.5407709    0.2368386
education Bachelors                         2.1771055    0.2217585
education Doctorate                         2.7609054    0.2892933
education HS-grad                           1.0059548    0.2168943
education Masters                           2.4209952    0.2353036
education Preschool                       -22.3738158  686.3835140
education Prof-school                       2.9379640    0.2752976
education Some-college                      1.3651010    0.2194962
maritalstatus Married-AF-spouse             2.5398125    0.7144642
maritalstatus Married-civ-spouse            2.4577534    0.3572546
maritalstatus Married-spouse-absent        -0.0948616    0.3203725
maritalstatus Never-married                -0.4514599    0.1139338
maritalstatus Separated                     0.0360919    0.1984310
maritalstatus Widowed                       0.1858398    0.1961635
occupation Adm-clerical                     0.0947036    0.1287693
occupation Armed-Forces                    -1.0075457    1.4874332
occupation Craft-repair                     0.2173818    0.1108975
occupation Exec-managerial                  0.9400239    0.1138446
occupation Farming-fishing                 -1.0682985    0.1907972
occupation Handlers-cleaners               -0.6236839    0.1946320
occupation Machine-op-inspct               -0.1861551    0.1375888
occupation Other-service                   -0.8183427    0.1641061
occupation Priv-house-serv                -12.9680365  226.7111870
occupation Prof-specialty                   0.6331276    0.1222333
occupation Protective-serv                  0.6267195    0.1710320
occupation Sales                            0.3276305    0.1174584
occupation Tech-support                     0.6172622    0.1532519
occupation Transport-moving                        NA           NA
relationship Not-in-family                  0.7881330    0.3529788
relationship Other-relative                -0.2194104    0.3136846
relationship Own-child                     -0.7488937    0.3506796
relationship Unmarried                      0.7040592    0.3719778
relationship Wife                           1.3235292    0.1331228
race Asian-Pac-Islander                     0.4829511    0.3548419
race Black                                  0.3644091    0.2881529
race Other                                  0.2204231    0.4513125
race White                                  0.4107806    0.2736717
sex Male                                    0.7729257    0.1024396
capitalgain                                 0.0003280    0.0000137
capitalloss                                 0.0006445    0.0000485
hoursperweek                                0.0289687    0.0021006
nativecountry Canada                        0.2592983    1.3081815
nativecountry China                        -0.9694567    1.3273303
nativecountry Columbia                     -1.9536188    1.5260114
nativecountry Cuba                          0.0573462    1.3232329
nativecountry Dominican-Republic          -14.3541804  309.1918510
nativecountry Ecuador                      -0.0355005    1.4773834
nativecountry El-Salvador                  -0.6094544    1.3949399
nativecountry England                      -0.0670676    1.3268340
nativecountry France                        0.5300878    1.4185608
nativecountry Germany                       0.0547429    1.3062787
nativecountry Greece                       -2.6462729    1.7136241
nativecountry Guatemala                   -12.9256999  334.5490941
nativecountry Haiti                        -0.9221282    1.6153771
nativecountry Holand-Netherlands          -12.8233705 2399.5450821
nativecountry Honduras                     -0.9584148    3.4117488
nativecountry Hong                         -0.2362308    1.4915130
nativecountry Hungary                       0.1412328    1.5554598
nativecountry India                        -0.8218220    1.3139233
nativecountry Iran                         -0.0329858    1.3660665
nativecountry Ireland                       0.1578963    1.4728709
nativecountry Italy                         0.6100024    1.3328606
nativecountry Jamaica                      -0.2279150    1.3868928
nativecountry Japan                         0.5072432    1.3748989
nativecountry Laos                         -0.6830937    1.6608892
nativecountry Mexico                       -0.9181782    1.3032487
nativecountry Nicaragua                    -0.1986816    1.5072985
nativecountry Outlying-US(Guam-USVI-etc)  -13.7304783  850.1773422
nativecountry Peru                         -0.9659994    1.6778652
nativecountry Philippines                   0.0439341    1.2809516
nativecountry Poland                        0.2410229    1.3827481
nativecountry Portugal                      0.7275811    1.4771572
nativecountry Puerto-Rico                  -0.5768595    1.3573180
nativecountry Scotland                     -1.1875885    1.7188532
nativecountry South                        -0.8182850    1.3412764
nativecountry Taiwan                       -0.2590169    1.3502647
nativecountry Thailand                     -1.6932131    1.7370523
nativecountry Trinadad&Tobago              -1.3461940    1.7210641
nativecountry United-States                -0.0859373    1.2692747
nativecountry Vietnam                      -1.0084987    1.5227937
nativecountry Yugoslavia                    1.4017916    1.6475929
                                         z value          Pr(>|z|)
(Intercept)                                -6.28 0.000000000340535
age                                        11.92           < 2e-16
workclass Federal-gov                       5.49 0.000000040343445
workclass Local-gov                         2.02           0.04364
workclass Never-worked                     -0.02           0.98789
workclass Private                           3.70           0.00022
workclass Self-emp-inc                      3.88           0.00010
workclass Self-emp-not-inc                  1.05           0.29565
workclass State-gov                         2.05           0.04073
workclass Without-pay                      -0.02           0.98313
education 11th                              0.78           0.43774
education 12th                              1.77           0.07606
education 1st-4th                          -0.91           0.36190
education 5th-6th                          -0.65           0.51601
education 7th-8th                          -1.12           0.26315
education 9th                              -0.36           0.72223
education Assoc-acdm                        6.60 0.000000000040960
education Assoc-voc                         6.51 0.000000000077398
education Bachelors                         9.82           < 2e-16
education Doctorate                         9.54           < 2e-16
education HS-grad                           4.64 0.000003518059170
education Masters                          10.29           < 2e-16
education Preschool                        -0.03           0.97400
education Prof-school                      10.67           < 2e-16
education Some-college                      6.22 0.000000000499549
maritalstatus Married-AF-spouse             3.55           0.00038
maritalstatus Married-civ-spouse            6.88 0.000000000006004
maritalstatus Married-spouse-absent        -0.30           0.76716
maritalstatus Never-married                -3.96 0.000074177081437
maritalstatus Separated                     0.18           0.85567
maritalstatus Widowed                       0.95           0.34345
occupation Adm-clerical                     0.74           0.46206
occupation Armed-Forces                    -0.68           0.49817
occupation Craft-repair                     1.96           0.04997
occupation Exec-managerial                  8.26           < 2e-16
occupation Farming-fishing                 -5.60 0.000000021542855
occupation Handlers-cleaners               -3.20           0.00135
occupation Machine-op-inspct               -1.35           0.17606
occupation Other-service                   -4.99 0.000000614290460
occupation Priv-house-serv                 -0.06           0.95439
occupation Prof-specialty                   5.18 0.000000222286503
occupation Protective-serv                  3.66           0.00025
occupation Sales                            2.79           0.00528
occupation Tech-support                     4.03 0.000056310004688
occupation Transport-moving                   NA                NA
relationship Not-in-family                  2.23           0.02556
relationship Other-relative                -0.70           0.48426
relationship Own-child                     -2.14           0.03272
relationship Unmarried                      1.89           0.05839
relationship Wife                           9.94           < 2e-16
race Asian-Pac-Islander                     1.36           0.17350
race Black                                  1.26           0.20600
race Other                                  0.49           0.62526
race White                                  1.50           0.13336
sex Male                                    7.55 0.000000000000045
capitalgain                                23.90           < 2e-16
capitalloss                                13.28           < 2e-16
hoursperweek                               13.79           < 2e-16
nativecountry Canada                        0.20           0.84288
nativecountry China                        -0.73           0.46516
nativecountry Columbia                     -1.28           0.20047
nativecountry Cuba                          0.04           0.96543
nativecountry Dominican-Republic           -0.05           0.96297
nativecountry Ecuador                      -0.02           0.98083
nativecountry El-Salvador                  -0.44           0.66218
nativecountry England                      -0.05           0.95969
nativecountry France                        0.37           0.70864
nativecountry Germany                       0.04           0.96657
nativecountry Greece                       -1.54           0.12253
nativecountry Guatemala                    -0.04           0.96918
nativecountry Haiti                        -0.57           0.56811
nativecountry Holand-Netherlands           -0.01           0.99574
nativecountry Honduras                     -0.28           0.77877
nativecountry Hong                         -0.16           0.87415
nativecountry Hungary                       0.09           0.92765
nativecountry India                        -0.63           0.53166
nativecountry Iran                         -0.02           0.98074
nativecountry Ireland                       0.11           0.91463
nativecountry Italy                         0.46           0.64719
nativecountry Jamaica                      -0.16           0.86947
nativecountry Japan                         0.37           0.71218
nativecountry Laos                         -0.41           0.68087
nativecountry Mexico                       -0.70           0.48110
nativecountry Nicaragua                    -0.13           0.89513
nativecountry Outlying-US(Guam-USVI-etc)   -0.02           0.98711
nativecountry Peru                         -0.58           0.56480
nativecountry Philippines                   0.03           0.97264
nativecountry Poland                        0.17           0.86162
nativecountry Portugal                      0.49           0.62233
nativecountry Puerto-Rico                  -0.42           0.67084
nativecountry Scotland                     -0.69           0.48962
nativecountry South                        -0.61           0.54181
nativecountry Taiwan                       -0.19           0.84788
nativecountry Thailand                     -0.97           0.32968
nativecountry Trinadad&Tobago              -0.78           0.43410
nativecountry United-States                -0.07           0.94602
nativecountry Vietnam                      -0.66           0.50780
nativecountry Yugoslavia                    0.85           0.39487
                                            
(Intercept)                              ***
age                                      ***
workclass Federal-gov                    ***
workclass Local-gov                      *  
workclass Never-worked                      
workclass Private                        ***
workclass Self-emp-inc                   ***
workclass Self-emp-not-inc                  
workclass State-gov                      *  
workclass Without-pay                       
education 11th                              
education 12th                           .  
education 1st-4th                           
education 5th-6th                           
education 7th-8th                           
education 9th                               
education Assoc-acdm                     ***
education Assoc-voc                      ***
education Bachelors                      ***
education Doctorate                      ***
education HS-grad                        ***
education Masters                        ***
education Preschool                         
education Prof-school                    ***
education Some-college                   ***
maritalstatus Married-AF-spouse          ***
maritalstatus Married-civ-spouse         ***
maritalstatus Married-spouse-absent         
maritalstatus Never-married              ***
maritalstatus Separated                     
maritalstatus Widowed                       
occupation Adm-clerical                     
occupation Armed-Forces                     
occupation Craft-repair                  *  
occupation Exec-managerial               ***
occupation Farming-fishing               ***
occupation Handlers-cleaners             ** 
occupation Machine-op-inspct                
occupation Other-service                 ***
occupation Priv-house-serv                  
occupation Prof-specialty                ***
occupation Protective-serv               ***
occupation Sales                         ** 
occupation Tech-support                  ***
occupation Transport-moving                 
relationship Not-in-family               *  
relationship Other-relative                 
relationship Own-child                   *  
relationship Unmarried                   .  
relationship Wife                        ***
race Asian-Pac-Islander                     
race Black                                  
race Other                                  
race White                                  
sex Male                                 ***
capitalgain                              ***
capitalloss                              ***
hoursperweek                             ***
nativecountry Canada                        
nativecountry China                         
nativecountry Columbia                      
nativecountry Cuba                          
nativecountry Dominican-Republic            
nativecountry Ecuador                       
nativecountry El-Salvador                   
nativecountry England                       
nativecountry France                        
nativecountry Germany                       
nativecountry Greece                        
nativecountry Guatemala                     
nativecountry Haiti                         
nativecountry Holand-Netherlands            
nativecountry Honduras                      
nativecountry Hong                          
nativecountry Hungary                       
nativecountry India                         
nativecountry Iran                          
nativecountry Ireland                       
nativecountry Italy                         
nativecountry Jamaica                       
nativecountry Japan                         
nativecountry Laos                          
nativecountry Mexico                        
nativecountry Nicaragua                     
nativecountry Outlying-US(Guam-USVI-etc)    
nativecountry Peru                          
nativecountry Philippines                   
nativecountry Poland                        
nativecountry Portugal                      
nativecountry Puerto-Rico                   
nativecountry Scotland                      
nativecountry South                         
nativecountry Taiwan                        
nativecountry Thailand                      
nativecountry Trinadad&Tobago               
nativecountry United-States                 
nativecountry Vietnam                       
nativecountry Yugoslavia                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 21175  on 19186  degrees of freedom
Residual deviance: 12104  on 19090  degrees of freedom
AIC: 12298

Number of Fisher Scoring iterations: 15

#significant:age,workclass,education,maritalstatus,occupation,relationship,sex,capitalgain,capitalloss,hoursperweek,nativecountry

1.2 Test Accuracy

What is the accuracy of the model on the testing set? Use a threshold of 0.5.

p.glm = pred = predict(glm1, TS, 'response')

prediction from a rank-deficient fit may be misleading

table(TS$over50k, pred > 0.5)

        
         FALSE TRUE
   <=50K  9051  662
   >50K   1190 1888

table(TS$over50k, pred > 0.5) %>% {sum(diag(.))/sum(.)} # ACC = 0.8552

[1] 0.8552

1.3 Baseline Accuracy

What is the baseline accuracy for the testing set?

mean(TS$over50k == " <=50K")

[1] 0.7594

1.4 Test AUC

What is the area-under-the-curve (AUC) for this model on the test set?

colAUC(pred, TS$over50k)

                   [,1]
 <=50K vs.  >50K 0.9062

2. 決策樹模型

2.1 CART Model

We have just seen how the logistic regression model for this data achieves a high accuracy. Moreover, the significances of the variables give us a way to gauge which variables are relevant for this prediction task. However, it is not immediately clear which variables are more important than the others, especially due to the large number of factor variables in this problem.

Let us now build a classification tree to predict “over50k”. Use the training set to build the model, and all of the other variables as independent variables. Use the default parameters, so don’t set a value for minbucket or cp. Remember to specify method=“class” as an argument to rpart, since this is a classification problem. After you are done building the model, plot the resulting tree.

How many splits does the tree have in total?

cart1 = rpart(over50k ~ ., TR, method='class')
prp(cart1, cex=0.75) #4個分歧點

2.2 決策(樹中使用的預測)變數

Which variable does the tree split on at the first level (the very first split of the tree)?

relationship

2.3 決策變數

Which variables does the tree split on at the second level (immediately after the first split of the tree)? Select all that apply.

education
capitalgain

2.4 Test Accuracy

What is the accuracy of the model on the testing set? Use a threshold of 0.5. (You can either add the argument type=“class”, or generate probabilities and use a threshold of 0.5 like in logistic regression.)

p.cart = pred = predict(cart1, TS)[,2]
table(TS$over50k, pred > 0.5)

        
         FALSE TRUE
   <=50K  9243  470
   >50K   1482 1596

table(TS$over50k, pred > 0.5) %>% {sum(diag(.))/sum(.)} # 0.8474

[1] 0.8474

2.5 ROC Comparison

Let us now consider the ROC curve and AUC for the CART model on the test set. You will need to get predicted probabilities for the observations in the test set to build the ROC curve and compute the AUC. Remember that you can do this by removing the type=“class” argument when making predictions, and taking the second column of the resulting object.

Plot the ROC curve for the CART model you have estimated. Observe that compared to the logistic regression ROC curve, the CART ROC curve is less smooth than the logistic regression ROC curve. Which of the following explanations for this behavior is most correct? (HINT: Think about what the ROC curve is plotting and what changing the threshold does.)

par(cex=0.8)
colAUC(cbind(p.glm, p.cart), TS$over50k, T)

                  p.glm p.cart
 <=50K vs.  >50K 0.9062  0.847

2.6 AUC & DPP Comparison

What is the AUC of the CART model on the test set?

par(cex=0.8)
auc.glm  = DPP(p.glm,  TS$over50k, " >50K") #ACU=0.9062

par(cex=0.8)
auc.cart = DPP(p.cart, TS$over50k, " >50K")

3 Random Forest 模型

Problem 3.1 減少訓練資料量

Before building a random forest model, we’ll down-sample our training set. While some modern personal computers can build a random forest model on the entire training set, others might run out of memory when trying to train the model since random forests is much more computationally intensive than CART or Logistic Regression. For this reason, before continuing we will define a new training set to be used when building our random forest model, that contains 2000 randomly selected obervations from the original training set. Do this by running the following commands in your R console (assuming your training set is called “train”):

set.seed(1)
small = TR[sample(nrow(TR), 2000), ]

Let us now build a random forest model to predict “over50k”, using the dataset “trainSmall” as the data used to build the model. Set the seed to 1 again right before building the model, and use all of the other variables in the dataset as independent variables. (If you get an error that random forest “can not handle categorical predictors with more than 32 categories”, re-build the model without the nativecountry variable as one of the independent variables.)

Then, make predictions using this model on the entire test set. What is the accuracy of the model on the test set, using a threshold of 0.5? (Remember that you don’t need a “type” argument when making predictions with a random forest model if you want to use a threshold of 0.5. Also, note that your accuracy might be different from the one reported here, since random forest models can still differ depending on your operating system, even when the random seed is set. )

[1] 0.8515

#每次的ACC都有可能不同，因為隨機森林里每顆森林每次被給予的資料都可能是不同的"

3.2 預測變數的重要性

As we discussed in lecture, random forest models work by building a large collection of trees. As a result, we lose some of the interpretability that comes with CART in terms of seeing how predictions are made and which variables are important. However, we can still compute metrics that give us insight into which variables are important.

One metric that we can look at is the number of times, aggregated over all of the trees in the random forest model, that a certain variable is selected for a split. To view this metric, run the following lines of R code (replace “MODEL” with the name of your random forest model):

vu = varUsed(rf1, count=TRUE)
vusorted = sort(vu, decreasing = FALSE, index.return = TRUE)
par(cex=0.8, mar=c(3,7,1,1))
dotchart(vusorted$x, names(rf1$forest$xlevels[vusorted$ix]))

This code produces a chart that for each variable measures the number of times that variable was selected for splitting (the value on the x-axis). Which of the following variables is the most important in terms of the number of splits?

There are many other ‘importance’ metrics, for example

par(cex=0.8)
varImpPlot(rf1)

【Q】What’d happen if we use the entire training data?

跑的時間約16-20秒

t0 = Sys.time()
set.seed(1)
rf2 = randomForest(over50k ~ ., TR)
Sys.time() - t0

Time difference of 16.26 secs

Compare the accuracy of models

p.rf1 = predict(rf1, TS, "prob")[,2]
p.rf2 = predict(rf2, TS, "prob")[,2]

px = cbind(glm=p.glm, cart=p.cart, rf_small=p.rf1, rf_full=p.rf2)
apply(px, 2, function(x) {
  table(TS$over50k, x > 0.5) %>% {sum(diag(.))/sum(.)} 
  }) %>% sort

    cart rf_small      glm  rf_full 
  0.8474   0.8514   0.8552   0.8658

#使用全部資料的隨機森林ACC是最高的

colAUC(px, TS$over50k, T)

                    glm  cart rf_small rf_full
 <=50K vs.  >50K 0.9062 0.847   0.8972  0.9069

#使用全部資料的隨機森林AUC是最高的

開啟平行運算

library(doParallel)

package 㤼㸱doParallel㤼㸲 was built under R version 3.4.4Loading required package: foreach
package 㤼㸱foreach㤼㸲 was built under R version 3.4.4Loading required package: iterators
package 㤼㸱iterators㤼㸲 was built under R version 3.4.4Loading required package: parallel

clust = makeCluster(detectCores())
registerDoParallel(clust); getDoParWorkers()

[1] 4

4 使用交叉驗證流程調校參數

Problem 4.1 - Selecting cp by Cross-Validation

We now conclude our study of this data set by looking at how CART behaves with different choices of its parameters.

Let us select the cp parameter for our CART model using k-fold cross validation, with k = 10 folds. Do this by using the train function. Set the seed beforehand to 2. Test cp values from 0.002 to 0.1 in 0.002 increments, by using the following command:

cartGrid = expand.grid( .cp = seq(0.002,0.1,0.002))

Also, remember to use the entire training set “train” when building this model. The train function might take some time to run.

t0 = Sys.time()
set.seed(2)
cv1 = train(
  over50k ~ ., data = TR, method = "rpart", 
  trControl = trainControl(method = "cv", number=10), 
  tuneGrid = expand.grid(cp = seq(0.002,0.1,0.002)) 
  )
Sys.time() - t0

Time difference of 27.98 secs

plot(cv1, main = sprintf("optimal cp at %f", cv1$bestTune$cp) )

Which value of cp does the train function recommend?

0.002

【Q】How many model have been built in the cross-validation process?

0.1/0.002 = 50

【Q】Is the “optimal” `cp` covered in the range specified above? If negative, what should we do?

這次CV的範圍是0.002~0.1(以0.002遞增)，在此範圍內找到的最佳cp是0.002，但因為我們指定了範圍，所以也只有找到在此範圍內的最佳解。

4.2 Final Model (CV1)

Fit a CART model to the training data using this value of cp. What is the prediction accuracy on the test set?

cart1 = rpart(over50k ~ ., TR, method='class', cp=cv1$bestTune$cp)
p.cart1 = pred = predict(cart1, TS)[,2]
table(TS$over50k, pred > 0.5) %>% {sum(diag(.))/sum(.)} # 0.8612

[1] 0.8612

4.3 The Final Decision Tree

Plot the CART tree for this model.

prp(cart1)

How many splits are there?

5 參數調校與模型選擇

Repeated Cross-Validation

(試著看看如果cp比0.002更小，有沒有可能更好)

t0 = Sys.time()
set.seed(2)
cv2 = train(
  over50k ~ ., data = TR, method = "rpart", 
  trControl = trainControl(method="repeatedcv", number=10, repeats=8), 
  tuneGrid = expand.grid(cp = seq(0,0.002,0.00005)) 
  )
Sys.time() - t0

Time difference of 1.573 mins

plot(cv2, main = sprintf("optimal cp at %f", cv2$bestTune$cp) )

cart2 = rpart(over50k ~ ., TR, method='class', cp=cv2$bestTune$cp)
p.cart2 = pred = predict(cart2, TS)[,2]
px = cbind(px, cart.cv1 = p.cart1, cart.cv2 = p.cart2)

rbind(
  Accuracy = apply(px, 2, function(x) {
    table(TS$over50k, x > 0.5) %>% {sum(diag(.))/sum(.)} }),
  AUC = colAUC(px, TS$over50k) %>% `rownames<-`("AUC")
  ) %>% t

         Accuracy    AUC
glm        0.8552 0.9062
cart       0.8474 0.8470
rf_small   0.8514 0.8972
rf_full    0.8658 0.9069
cart.cv1   0.8612 0.8714
cart.cv2   0.8631 0.8925

【Q】Does `cv2$bestTune$cp` perform better?

cp=0.0006比0.002表現更好了，ACC和AUC都是上升的。不過當中最好的還是用全部資料訓練和隨機森林訓練出來的rf_full

【Q】Is the difference ($\Delta_{accuracy}$=0.19%, $\Delta_{auc}$=2.11%) important?

很重要。如同老師說的，如果是在kaggle競賽中，小數點的差別也會大大影響排名

Comparing ROC’s

par(cex=1.25)
auc = colAUC(px[,c(2,4,5,6)], TS$over50k, T)

Comparing DPP’s

par(mfcol=c(3,2), mar=c(3,3,4,1), cex=0.7)
for(i in c(1,3,4,2,5,6)) {
  DPP(px[,i], TS$over50k, " >50K")
  }

Correlation Among Predictions

cor(px)

            glm   cart rf_small rf_full cart.cv1 cart.cv2
glm      1.0000 0.8614   0.8908  0.9107   0.9058   0.9023
cart     0.8614 1.0000   0.8334  0.8164   0.9189   0.8615
rf_small 0.8908 0.8334   1.0000  0.9163   0.8802   0.8747
rf_full  0.9107 0.8164   0.9163  1.0000   0.8862   0.9139
cart.cv1 0.9058 0.9189   0.8802  0.8862   1.0000   0.9401
cart.cv2 0.9023 0.8615   0.8747  0.9139   0.9401   1.0000

Model Ensemble

glm_cart = (px[,"glm"] + px[,"cart.cv2"])/2
glm_rf = (px[,"glm"] + px[,"rf_full"])/2
px2 = cbind(px, glm_cart, glm_rf)
rbind(apply(px2, 2, function(x) {
        table(TS$over50k, x > 0.5) %>% {sum(diag(.))/sum(.)} }),
      colAUC(px2, TS$over50k)) %>% t %>% 
      data.frame %>% setNames(c("Accuracy", "AUC"))

停止平行運算

stopCluster(clust)

LS0tDQp0aXRsZTogIkFTNC0zIFByZWRpY3RpbmcgRWFybmluZ3MgZnJvbSBDZW5zdXMgRGF0YSAodGVtcC4pIg0KYXV0aG9yOiAi6Zmz6Z+75Y2JIEIwMzQwMjAwMjciDQpvdXRwdXQ6IGh0bWxfbm90ZWJvb2sNCmVkaXRvcl9vcHRpb25zOiANCiAgY2h1bmtfb3V0cHV0X3R5cGU6IGlubGluZQ0KLS0tDQoNCjxicj4NCg0KKirkuLvopoHorbDpoYzvvJrkvb/nlKjmma7mn6Xos4fmlpnpoJDmuKzmlLblhaUqKg0KDQoqKuWtuOe/kumHjem7nu+8mioqDQoNCisg5aSa6aGe5Yil55qE6aCQ5ris6K6K5pW4DQorIOato+eiuuaApyAoQWNjdXJhY3kpIHZzLiDlj6/op6Pph4vmgKcgKEludGVycHJldGFiaWxpdHkpDQorIOWkmuaooeWei+S5i+mWk+eahEFDQyxBVUPmr5TovIMgYGNhVG9vbHM6OmNvbEFVQygpYA0KKyDlpJrmqKHlnovkuYvplpPnmoRST0MsIERQUOavlOi8gyBgY2FUb29sczo6Y29sQVVDKClgDQorIOS6pOWPiempl+itieiIh+WPg+aVuOiqv+agoea1geeoiw0KKyDplovllZ/lubPooYzpgYvnrpflip/og70NCisg5qih5Z6L57WE5ZCIIE1vZGVsIEVuc2VtYmxlDQoNCg0KYGBge3IgZWNobz1ULCBtZXNzYWdlPUYsIGNhY2hlPUYsIHdhcm5pbmc9Rn0NCnJtKGxpc3Q9bHMoYWxsPVQpKQ0Kb3B0aW9ucyhkaWdpdHM9NCwgc2NpcGVuPTEyKQ0KbGlicmFyeShkcGx5cikNCmxpYnJhcnkocnBhcnQpDQpsaWJyYXJ5KHJwYXJ0LnBsb3QpDQpsaWJyYXJ5KGNhcmV0KQ0KbGlicmFyeShyYW5kb21Gb3Jlc3QpDQpsaWJyYXJ5KGNhVG9vbHMpDQpzb3VyY2UoJ0RQUC5SJykNCmBgYA0KDQotIC0gLQ0KIyMjIDEg6YKP6Lyv5byP5Zue5q245qih5Z6LDQoNCiMjIyMjIDEuMSDmlbTnkIbos4fmlpnjgIHlu7rnq4vmqKHlnosNCmBgYHtyfQ0KRCA9ICByZWFkLmNzdignZGF0YS9jZW5zdXMuY3N2JykNCnRhYmxlKEQkb3ZlcjUwKQ0KdGFibGUoRCRvdmVyNTApICU+JSBwcm9wLnRhYmxlICAgICMgQWNjLmJhc2UgPSAwLjc1OTQNCmBgYA0KTGV0J3MgYmVnaW4gYnkgYnVpbGRpbmcgYSBsb2dpc3RpYyByZWdyZXNzaW9uIG1vZGVsIHRvIHByZWRpY3Qgd2hldGhlciBhbiBpbmRpdmlkdWFsJ3MgZWFybmluZ3MgYXJlIGFib3ZlICQ1MCwwMDAgKHRoZSB2YXJpYWJsZSAib3ZlcjUwayIpIHVzaW5nIGFsbCBvZiB0aGUgb3RoZXIgdmFyaWFibGVzIGFzIGluZGVwZW5kZW50IHZhcmlhYmxlcy4gRmlyc3QsIHJlYWQgdGhlIGRhdGFzZXQgY2Vuc3VzLmNzdiBpbnRvIFIuDQoNClRoZW4sIHNwbGl0IHRoZSBkYXRhIHJhbmRvbWx5IGludG8gYSB0cmFpbmluZyBzZXQgYW5kIGEgdGVzdGluZyBzZXQsIHNldHRpbmcgdGhlIHNlZWQgdG8gMjAwMCBiZWZvcmUgY3JlYXRpbmcgdGhlIHNwbGl0LiBTcGxpdCB0aGUgZGF0YSBzbyB0aGF0IHRoZSB0cmFpbmluZyBzZXQgY29udGFpbnMgNjAlIG9mIHRoZSBvYnNlcnZhdGlvbnMsIHdoaWxlIHRoZSB0ZXN0aW5nIHNldCBjb250YWlucyA0MCUgb2YgdGhlIG9ic2VydmF0aW9ucy4NCg0KTmV4dCwgYnVpbGQgYSBsb2dpc3RpYyByZWdyZXNzaW9uIG1vZGVsIHRvIHByZWRpY3QgdGhlIGRlcGVuZGVudCB2YXJpYWJsZSAib3ZlcjUwayIsIHVzaW5nIGFsbCBvZiB0aGUgb3RoZXIgdmFyaWFibGVzIGluIHRoZSBkYXRhc2V0IGFzIGluZGVwZW5kZW50IHZhcmlhYmxlcy4gVXNlIHRoZSB0cmFpbmluZyBzZXQgdG8gYnVpbGQgdGhlIG1vZGVsLg0KDQpXaGljaCB2YXJpYWJsZXMgYXJlIHNpZ25pZmljYW50LCBvciBoYXZlIGZhY3RvcnMgdGhhdCBhcmUgc2lnbmlmaWNhbnQ/IChVc2UgMC4xIGFzIHlvdXIgc2lnbmlmaWNhbmNlIHRocmVzaG9sZCwgc28gdmFyaWFibGVzIHdpdGggYSBwZXJpb2Qgb3IgZG90IGluIHRoZSBzdGFycyBjb2x1bW4gc2hvdWxkIGJlIGNvdW50ZWQgdG9vLiBZb3UgbWlnaHQgc2VlIGEgd2FybmluZyBtZXNzYWdlIGhlcmUgLSB5b3UgY2FuIGlnbm9yZSBpdCBhbmQgcHJvY2VlZC4gVGhpcyBtZXNzYWdlIGlzIGEgd2FybmluZyB0aGF0IHdlIG1pZ2h0IGJlIG92ZXJmaXR0aW5nIG91ciBtb2RlbCB0byB0aGUgdHJhaW5pbmcgc2V0LikgU2VsZWN0IGFsbCB0aGF0IGFwcGx5Lg0KYGBge3J9DQpzZXQuc2VlZCgyMDAwKQ0Kc3BsID0gc2FtcGxlLnNwbGl0KEQkb3ZlcjUwaywgU3BsaXRSYXRpbyA9IDAuNikNClRSID0gc3Vic2V0KEQsIHNwbCkNClRTID0gc3Vic2V0KEQsICFzcGwpDQoNCmdsbTEgPSBnbG0ob3ZlcjUwayB+IC4sIFRSLCBmYW1pbHk9Ymlub21pYWwpDQpzdW1tYXJ5KGdsbTEpDQoNCmBgYA0KYGBge3J9DQojc2lnbmlmaWNhbnQ6YWdlLHdvcmtjbGFzcyxlZHVjYXRpb24sbWFyaXRhbHN0YXR1cyxvY2N1cGF0aW9uLHJlbGF0aW9uc2hpcCxzZXgsY2FwaXRhbGdhaW4sY2FwaXRhbGxvc3MsaG91cnNwZXJ3ZWVrLG5hdGl2ZWNvdW50cnkNCmBgYA0KDQoNCiMjIyMjIDEuMiBUZXN0IEFjY3VyYWN5DQpXaGF0IGlzIHRoZSBhY2N1cmFjeSBvZiB0aGUgbW9kZWwgb24gdGhlIHRlc3Rpbmcgc2V0PyBVc2UgYSB0aHJlc2hvbGQgb2YgMC41Lg0KYGBge3J9DQpwLmdsbSA9IHByZWQgPSBwcmVkaWN0KGdsbTEsIFRTLCAncmVzcG9uc2UnKQ0KdGFibGUoVFMkb3ZlcjUwaywgcHJlZCA+IDAuNSkNCnRhYmxlKFRTJG92ZXI1MGssIHByZWQgPiAwLjUpICU+JSB7c3VtKGRpYWcoLikpL3N1bSguKX0gIyBBQ0MgPSAwLjg1NTINCmBgYA0KDQojIyMjIyAxLjMgQmFzZWxpbmUgQWNjdXJhY3kNCldoYXQgaXMgdGhlIGJhc2VsaW5lIGFjY3VyYWN5IGZvciB0aGUgdGVzdGluZyBzZXQ/DQpgYGB7cn0NCm1lYW4oVFMkb3ZlcjUwayA9PSAiIDw9NTBLIikNCmBgYA0KDQojIyMjIyAxLjQgVGVzdCBBVUMNCldoYXQgaXMgdGhlIGFyZWEtdW5kZXItdGhlLWN1cnZlIChBVUMpIGZvciB0aGlzIG1vZGVsIG9uIHRoZSB0ZXN0IHNldD8NCmBgYHtyfQ0KY29sQVVDKHByZWQsIFRTJG92ZXI1MGspDQpgYGANCjxicj4NCg0KLSAtIC0NCg0KIyMjIDIuIOaxuuetluaoueaooeWeiw0KDQojIyMjIyAyLjEgQ0FSVCBNb2RlbA0KV2UgaGF2ZSBqdXN0IHNlZW4gaG93IHRoZSBsb2dpc3RpYyByZWdyZXNzaW9uIG1vZGVsIGZvciB0aGlzIGRhdGEgYWNoaWV2ZXMgYSBoaWdoIGFjY3VyYWN5LiBNb3Jlb3ZlciwgdGhlIHNpZ25pZmljYW5jZXMgb2YgdGhlIHZhcmlhYmxlcyBnaXZlIHVzIGEgd2F5IHRvIGdhdWdlIHdoaWNoIHZhcmlhYmxlcyBhcmUgcmVsZXZhbnQgZm9yIHRoaXMgcHJlZGljdGlvbiB0YXNrLiBIb3dldmVyLCBpdCBpcyBub3QgaW1tZWRpYXRlbHkgY2xlYXIgd2hpY2ggdmFyaWFibGVzIGFyZSBtb3JlIGltcG9ydGFudCB0aGFuIHRoZSBvdGhlcnMsIGVzcGVjaWFsbHkgZHVlIHRvIHRoZSBsYXJnZSBudW1iZXIgb2YgZmFjdG9yIHZhcmlhYmxlcyBpbiB0aGlzIHByb2JsZW0uDQoNCkxldCB1cyBub3cgYnVpbGQgYSBjbGFzc2lmaWNhdGlvbiB0cmVlIHRvIHByZWRpY3QgIm92ZXI1MGsiLiBVc2UgdGhlIHRyYWluaW5nIHNldCB0byBidWlsZCB0aGUgbW9kZWwsIGFuZCBhbGwgb2YgdGhlIG90aGVyIHZhcmlhYmxlcyBhcyBpbmRlcGVuZGVudCB2YXJpYWJsZXMuIFVzZSB0aGUgZGVmYXVsdCBwYXJhbWV0ZXJzLCBzbyBkb24ndCBzZXQgYSB2YWx1ZSBmb3IgbWluYnVja2V0IG9yIGNwLiBSZW1lbWJlciB0byBzcGVjaWZ5IG1ldGhvZD0iY2xhc3MiIGFzIGFuIGFyZ3VtZW50IHRvIHJwYXJ0LCBzaW5jZSB0aGlzIGlzIGEgY2xhc3NpZmljYXRpb24gcHJvYmxlbS4gQWZ0ZXIgeW91IGFyZSBkb25lIGJ1aWxkaW5nIHRoZSBtb2RlbCwgcGxvdCB0aGUgcmVzdWx0aW5nIHRyZWUuDQoNCkhvdyBtYW55IHNwbGl0cyBkb2VzIHRoZSB0cmVlIGhhdmUgaW4gdG90YWw/DQpgYGB7cn0NCmNhcnQxID0gcnBhcnQob3ZlcjUwayB+IC4sIFRSLCBtZXRob2Q9J2NsYXNzJykNCnBycChjYXJ0MSwgY2V4PTAuNzUpICM05YCL5YiG5q2n6bueDQpgYGANCg0KIyMjIyMgMi4yIOaxuuetlijmqLnkuK3kvb/nlKjnmoTpoJDmuKwp6K6K5pW4DQpXaGljaCB2YXJpYWJsZSBkb2VzIHRoZSB0cmVlIHNwbGl0IG9uIGF0IHRoZSBmaXJzdCBsZXZlbCAodGhlIHZlcnkgZmlyc3Qgc3BsaXQgb2YgdGhlIHRyZWUpPw0KDQorIHJlbGF0aW9uc2hpcA0KDQo8YnI+IA0KDQojIyMjIyAyLjMg5rG6562W6K6K5pW4DQpXaGljaCB2YXJpYWJsZXMgZG9lcyB0aGUgdHJlZSBzcGxpdCBvbiBhdCB0aGUgc2Vjb25kIGxldmVsIChpbW1lZGlhdGVseSBhZnRlciB0aGUgZmlyc3Qgc3BsaXQgb2YgdGhlIHRyZWUpPyBTZWxlY3QgYWxsIHRoYXQgYXBwbHkuDQoNCisgZWR1Y2F0aW9uDQorIGNhcGl0YWxnYWluDQoNCjxicj4NCg0KIyMjIyMgMi40IFRlc3QgQWNjdXJhY3kNCldoYXQgaXMgdGhlIGFjY3VyYWN5IG9mIHRoZSBtb2RlbCBvbiB0aGUgdGVzdGluZyBzZXQ/IFVzZSBhIHRocmVzaG9sZCBvZiAwLjUuIChZb3UgY2FuIGVpdGhlciBhZGQgdGhlIGFyZ3VtZW50IHR5cGU9ImNsYXNzIiwgb3IgZ2VuZXJhdGUgcHJvYmFiaWxpdGllcyBhbmQgdXNlIGEgdGhyZXNob2xkIG9mIDAuNSBsaWtlIGluIGxvZ2lzdGljIHJlZ3Jlc3Npb24uKQ0KYGBge3J9DQpwLmNhcnQgPSBwcmVkID0gcHJlZGljdChjYXJ0MSwgVFMpWywyXQ0KdGFibGUoVFMkb3ZlcjUwaywgcHJlZCA+IDAuNSkNCnRhYmxlKFRTJG92ZXI1MGssIHByZWQgPiAwLjUpICU+JSB7c3VtKGRpYWcoLikpL3N1bSguKX0gIyAwLjg0NzQNCmBgYA0KDQojIyMjIyAyLjUgUk9DIENvbXBhcmlzb24NCkxldCB1cyBub3cgY29uc2lkZXIgdGhlIFJPQyBjdXJ2ZSBhbmQgQVVDIGZvciB0aGUgQ0FSVCBtb2RlbCBvbiB0aGUgdGVzdCBzZXQuIFlvdSB3aWxsIG5lZWQgdG8gZ2V0IHByZWRpY3RlZCBwcm9iYWJpbGl0aWVzIGZvciB0aGUgb2JzZXJ2YXRpb25zIGluIHRoZSB0ZXN0IHNldCB0byBidWlsZCB0aGUgUk9DIGN1cnZlIGFuZCBjb21wdXRlIHRoZSBBVUMuIFJlbWVtYmVyIHRoYXQgeW91IGNhbiBkbyB0aGlzIGJ5IHJlbW92aW5nIHRoZSB0eXBlPSJjbGFzcyIgYXJndW1lbnQgd2hlbiBtYWtpbmcgcHJlZGljdGlvbnMsIGFuZCB0YWtpbmcgdGhlIHNlY29uZCBjb2x1bW4gb2YgdGhlIHJlc3VsdGluZyBvYmplY3QuDQoNClBsb3QgdGhlIFJPQyBjdXJ2ZSBmb3IgdGhlIENBUlQgbW9kZWwgeW91IGhhdmUgZXN0aW1hdGVkLiBPYnNlcnZlIHRoYXQgY29tcGFyZWQgdG8gdGhlIGxvZ2lzdGljIHJlZ3Jlc3Npb24gUk9DIGN1cnZlLCB0aGUgQ0FSVCBST0MgY3VydmUgaXMgbGVzcyBzbW9vdGggdGhhbiB0aGUgbG9naXN0aWMgcmVncmVzc2lvbiBST0MgY3VydmUuIFdoaWNoIG9mIHRoZSBmb2xsb3dpbmcgZXhwbGFuYXRpb25zIGZvciB0aGlzIGJlaGF2aW9yIGlzIG1vc3QgY29ycmVjdD8gKEhJTlQ6IFRoaW5rIGFib3V0IHdoYXQgdGhlIFJPQyBjdXJ2ZSBpcyBwbG90dGluZyBhbmQgd2hhdCBjaGFuZ2luZyB0aGUgdGhyZXNob2xkIGRvZXMuKQ0KYGBge3IgZmlnLmhlaWdodD00LCBmaWcud2lkdGg9NH0NCnBhcihjZXg9MC44KQ0KY29sQVVDKGNiaW5kKHAuZ2xtLCBwLmNhcnQpLCBUUyRvdmVyNTBrLCBUKQ0KI2dsbeavlGNhcnTnmoRBVUPlpKfvvIzkuJRST0PovIPlubPmu5ENCiNUaGUgcHJvYmFiaWxpdGllcyBmcm9tIHRoZSBDQVJUIG1vZGVsIHRha2Ugb25seSBhIGhhbmRmdWwgb2YgdmFsdWVzIChmaXZlLCBvbmUgZm9yIGVhY2ggZW5kIGJ1Y2tldC9sZWFmIG9mIHRoZSB0cmVlKTsgdGhlIGNoYW5nZXMgaW4gdGhlIFJPQyBjdXJ2ZSBjb3JyZXNwb25kIHRvIHNldHRpbmcgdGhlIHRocmVzaG9sZCB0byBvbmUgb2YgdGhvc2UgdmFsdWVzLg0KI+WboOeCuuaxuuetluaouXByZWRpY3Tlh7rkvobnmoTntZDmnpzlj6rmnInkupTlgIsodGVybWluYWwgbm9kZSkNCmBgYA0KDQojIyMjIyAyLjYgQVVDICYgRFBQIENvbXBhcmlzb24NCldoYXQgaXMgdGhlIEFVQyBvZiB0aGUgQ0FSVCBtb2RlbCBvbiB0aGUgdGVzdCBzZXQ/DQpgYGB7ciBmaWcuaGVpZ2h0PTMsIGZpZy53aWR0aD03fQ0KIw0KcGFyKGNleD0wLjgpDQphdWMuZ2xtICA9IERQUChwLmdsbSwgIFRTJG92ZXI1MGssICIgPjUwSyIpICNBQ1U9MC45MDYyDQpgYGANCmBgYHtyIGZpZy5oZWlnaHQ9MywgZmlnLndpZHRoPTd9DQpwYXIoY2V4PTAuOCkNCmF1Yy5jYXJ0ID0gRFBQKHAuY2FydCwgVFMkb3ZlcjUwaywgIiA+NTBLIikNCmBgYA0KPGJyPg0KDQotIC0gLQ0KDQojIyMgMyBSYW5kb20gRm9yZXN0IOaooeWeiw0KDQojIyMjIyBQcm9ibGVtIDMuMSDmuJvlsJHoqJPnt7Tos4fmlpnph48NCkJlZm9yZSBidWlsZGluZyBhIHJhbmRvbSBmb3Jlc3QgbW9kZWwsIHdlJ2xsIGRvd24tc2FtcGxlIG91ciB0cmFpbmluZyBzZXQuIFdoaWxlIHNvbWUgbW9kZXJuIHBlcnNvbmFsIGNvbXB1dGVycyBjYW4gYnVpbGQgYSByYW5kb20gZm9yZXN0IG1vZGVsIG9uIHRoZSBlbnRpcmUgdHJhaW5pbmcgc2V0LCBvdGhlcnMgbWlnaHQgcnVuIG91dCBvZiBtZW1vcnkgd2hlbiB0cnlpbmcgdG8gdHJhaW4gdGhlIG1vZGVsIHNpbmNlIHJhbmRvbSBmb3Jlc3RzIGlzIG11Y2ggbW9yZSBjb21wdXRhdGlvbmFsbHkgaW50ZW5zaXZlIHRoYW4gQ0FSVCBvciBMb2dpc3RpYyBSZWdyZXNzaW9uLiBGb3IgdGhpcyByZWFzb24sIGJlZm9yZSBjb250aW51aW5nIHdlIHdpbGwgZGVmaW5lIGEgbmV3IHRyYWluaW5nIHNldCB0byBiZSB1c2VkIHdoZW4gYnVpbGRpbmcgb3VyIHJhbmRvbSBmb3Jlc3QgbW9kZWwsIHRoYXQgY29udGFpbnMgMjAwMCByYW5kb21seSBzZWxlY3RlZCBvYmVydmF0aW9ucyBmcm9tIHRoZSBvcmlnaW5hbCB0cmFpbmluZyBzZXQuIERvIHRoaXMgYnkgcnVubmluZyB0aGUgZm9sbG93aW5nIGNvbW1hbmRzIGluIHlvdXIgUiBjb25zb2xlIChhc3N1bWluZyB5b3VyIHRyYWluaW5nIHNldCBpcyBjYWxsZWQgInRyYWluIik6DQpgYGB7cn0NCnNldC5zZWVkKDEpDQpzbWFsbCA9IFRSW3NhbXBsZShucm93KFRSKSwgMjAwMCksIF0NCmBgYA0KTGV0IHVzIG5vdyBidWlsZCBhIHJhbmRvbSBmb3Jlc3QgbW9kZWwgdG8gcHJlZGljdCAib3ZlcjUwayIsIHVzaW5nIHRoZSBkYXRhc2V0ICJ0cmFpblNtYWxsIiBhcyB0aGUgZGF0YSB1c2VkIHRvIGJ1aWxkIHRoZSBtb2RlbC4gU2V0IHRoZSBzZWVkIHRvIDEgYWdhaW4gcmlnaHQgYmVmb3JlIGJ1aWxkaW5nIHRoZSBtb2RlbCwgYW5kIHVzZSBhbGwgb2YgdGhlIG90aGVyIHZhcmlhYmxlcyBpbiB0aGUgZGF0YXNldCBhcyBpbmRlcGVuZGVudCB2YXJpYWJsZXMuIChJZiB5b3UgZ2V0IGFuIGVycm9yIHRoYXQgcmFuZG9tIGZvcmVzdCAiY2FuIG5vdCBoYW5kbGUgY2F0ZWdvcmljYWwgcHJlZGljdG9ycyB3aXRoIG1vcmUgdGhhbiAzMiBjYXRlZ29yaWVzIiwgcmUtYnVpbGQgdGhlIG1vZGVsIHdpdGhvdXQgdGhlIG5hdGl2ZWNvdW50cnkgdmFyaWFibGUgYXMgb25lIG9mIHRoZSBpbmRlcGVuZGVudCB2YXJpYWJsZXMuKQ0KDQpUaGVuLCBtYWtlIHByZWRpY3Rpb25zIHVzaW5nIHRoaXMgbW9kZWwgb24gdGhlIGVudGlyZSB0ZXN0IHNldC4gV2hhdCBpcyB0aGUgYWNjdXJhY3kgb2YgdGhlIG1vZGVsIG9uIHRoZSB0ZXN0IHNldCwgdXNpbmcgYSB0aHJlc2hvbGQgb2YgMC41PyAoUmVtZW1iZXIgdGhhdCB5b3UgZG9uJ3QgbmVlZCBhICJ0eXBlIiBhcmd1bWVudCB3aGVuIG1ha2luZyBwcmVkaWN0aW9ucyB3aXRoIGEgcmFuZG9tIGZvcmVzdCBtb2RlbCBpZiB5b3Ugd2FudCB0byB1c2UgYSB0aHJlc2hvbGQgb2YgMC41LiBBbHNvLCBub3RlIHRoYXQgeW91ciBhY2N1cmFjeSBtaWdodCBiZSBkaWZmZXJlbnQgZnJvbSB0aGUgb25lIHJlcG9ydGVkIGhlcmUsIHNpbmNlIHJhbmRvbSBmb3Jlc3QgbW9kZWxzIGNhbiBzdGlsbCBkaWZmZXIgZGVwZW5kaW5nIG9uIHlvdXIgb3BlcmF0aW5nIHN5c3RlbSwgZXZlbiB3aGVuIHRoZSByYW5kb20gc2VlZCBpcyBzZXQuICkNCmBgYHtyfQ0Kc2V0LnNlZWQoMSkgDQoj5YWI55So5bCR6YeP5qij5pys6Kmm6Kmm55yL6Zqo5qmf5qOu5p6XDQpyZjEgPSByYW5kb21Gb3Jlc3Qob3ZlcjUwayB+IC4sIHNtYWxsKQ0KcHJlZCA9IHByZWRpY3QocmYxLCBUUykNCnRhYmxlKFRTJG92ZXI1MGssIHByZWQpICU+JSB7c3VtKGRpYWcoLikpL3N1bSguKX0gIyAwLjgzNDg4DQoj5q+P5qyh55qEQUND6YO95pyJ5Y+v6IO95LiN5ZCM77yM5Zug54K66Zqo5qmf5qOu5p6X6YeM5q+P6aGG5qOu5p6X5q+P5qyh6KKr57Wm5LqI55qE6LOH5paZ6YO95Y+v6IO95piv5LiN5ZCM55qEDQpgYGANCg0KIyMjIyMgMy4yIOmgkOa4rOiuiuaVuOeahOmHjeimgeaApw0KQXMgd2UgZGlzY3Vzc2VkIGluIGxlY3R1cmUsIHJhbmRvbSBmb3Jlc3QgbW9kZWxzIHdvcmsgYnkgYnVpbGRpbmcgYSBsYXJnZSBjb2xsZWN0aW9uIG9mIHRyZWVzLiBBcyBhIHJlc3VsdCwgd2UgbG9zZSBzb21lIG9mIHRoZSBpbnRlcnByZXRhYmlsaXR5IHRoYXQgY29tZXMgd2l0aCBDQVJUIGluIHRlcm1zIG9mIHNlZWluZyBob3cgcHJlZGljdGlvbnMgYXJlIG1hZGUgYW5kIHdoaWNoIHZhcmlhYmxlcyBhcmUgaW1wb3J0YW50LiBIb3dldmVyLCB3ZSBjYW4gc3RpbGwgY29tcHV0ZSBtZXRyaWNzIHRoYXQgZ2l2ZSB1cyBpbnNpZ2h0IGludG8gd2hpY2ggdmFyaWFibGVzIGFyZSBpbXBvcnRhbnQuDQoNCk9uZSBtZXRyaWMgdGhhdCB3ZSBjYW4gbG9vayBhdCBpcyB0aGUgbnVtYmVyIG9mIHRpbWVzLCBhZ2dyZWdhdGVkIG92ZXIgYWxsIG9mIHRoZSB0cmVlcyBpbiB0aGUgcmFuZG9tIGZvcmVzdCBtb2RlbCwgdGhhdCBhIGNlcnRhaW4gdmFyaWFibGUgaXMgc2VsZWN0ZWQgZm9yIGEgc3BsaXQuIFRvIHZpZXcgdGhpcyBtZXRyaWMsIHJ1biB0aGUgZm9sbG93aW5nIGxpbmVzIG9mIFIgY29kZSAocmVwbGFjZSAiTU9ERUwiIHdpdGggdGhlIG5hbWUgb2YgeW91ciByYW5kb20gZm9yZXN0IG1vZGVsKToNCmBgYHtyIGZpZy5oZWlnaHQ9My4yfQ0KdnUgPSB2YXJVc2VkKHJmMSwgY291bnQ9VFJVRSkNCnZ1c29ydGVkID0gc29ydCh2dSwgZGVjcmVhc2luZyA9IEZBTFNFLCBpbmRleC5yZXR1cm4gPSBUUlVFKQ0KcGFyKGNleD0wLjgsIG1hcj1jKDMsNywxLDEpKQ0KZG90Y2hhcnQodnVzb3J0ZWQkeCwgbmFtZXMocmYxJGZvcmVzdCR4bGV2ZWxzW3Z1c29ydGVkJGl4XSkpDQpgYGANClRoaXMgY29kZSBwcm9kdWNlcyBhIGNoYXJ0IHRoYXQgZm9yIGVhY2ggdmFyaWFibGUgbWVhc3VyZXMgdGhlIG51bWJlciBvZiB0aW1lcyB0aGF0IHZhcmlhYmxlIHdhcyBzZWxlY3RlZCBmb3Igc3BsaXR0aW5nICh0aGUgdmFsdWUgb24gdGhlIHgtYXhpcykuIFdoaWNoIG9mIHRoZSBmb2xsb3dpbmcgdmFyaWFibGVzIGlzIHRoZSBtb3N0IGltcG9ydGFudCBpbiB0ZXJtcyBvZiB0aGUgbnVtYmVyIG9mIHNwbGl0cz8NCg0KKyBhZ2UNCg0KPGJyPg0KVGhlcmUgYXJlIG1hbnkgb3RoZXIgJ2ltcG9ydGFuY2UnIG1ldHJpY3MsIGZvciBleGFtcGxlDQpgYGB7ciBmaWcuaGVpZ2h0PTMuMn0NCnBhcihjZXg9MC44KQ0KdmFySW1wUGxvdChyZjEpDQpgYGANCjxicj4NCg0KLSAtIC0NCg0KIyMjIyMg44CQUeOAkVdoYXQnZCBoYXBwZW4gaWYgd2UgdXNlIHRoZSBlbnRpcmUgdHJhaW5pbmcgZGF0YT8gDQrot5HnmoTmmYLplpPntIQxNi0yMOenkg0KYGBge3J9DQp0MCA9IFN5cy50aW1lKCkNCnNldC5zZWVkKDEpDQpyZjIgPSByYW5kb21Gb3Jlc3Qob3ZlcjUwayB+IC4sIFRSKQ0KU3lzLnRpbWUoKSAtIHQwDQpgYGANCg0KQ29tcGFyZSB0aGUgYWNjdXJhY3kgb2YgbW9kZWxzIA0KYGBge3J9DQpwLnJmMSA9IHByZWRpY3QocmYxLCBUUywgInByb2IiKVssMl0NCnAucmYyID0gcHJlZGljdChyZjIsIFRTLCAicHJvYiIpWywyXQ0KYGBgDQoNCmBgYHtyfQ0KcHggPSBjYmluZChnbG09cC5nbG0sIGNhcnQ9cC5jYXJ0LCByZl9zbWFsbD1wLnJmMSwgcmZfZnVsbD1wLnJmMikNCmFwcGx5KHB4LCAyLCBmdW5jdGlvbih4KSB7DQogIHRhYmxlKFRTJG92ZXI1MGssIHggPiAwLjUpICU+JSB7c3VtKGRpYWcoLikpL3N1bSguKX0gDQogIH0pICU+JSBzb3J0DQoj5L2/55So5YWo6YOo6LOH5paZ55qE6Zqo5qmf5qOu5p6XQUND5piv5pyA6auY55qEDQpgYGANCg0KYGBge3IgZmlnLmhlaWdodD01LCBmaWcud2lkdGg9NX0NCmNvbEFVQyhweCwgVFMkb3ZlcjUwaywgVCkNCiPkvb/nlKjlhajpg6jos4fmlpnnmoTpmqjmqZ/mo67mnpdBVUPmmK/mnIDpq5jnmoQNCmBgYA0KDQoNCg0KLSAtIC0NCg0KIyMjIyMg6ZaL5ZWfKirlubPooYzpgYvnrpcqKg0KYGBge3J9DQpsaWJyYXJ5KGRvUGFyYWxsZWwpDQpjbHVzdCA9IG1ha2VDbHVzdGVyKGRldGVjdENvcmVzKCkpDQpyZWdpc3RlckRvUGFyYWxsZWwoY2x1c3QpOyBnZXREb1BhcldvcmtlcnMoKQ0KYGBgDQoNCiMjIyA0IOS9v+eUqOS6pOWPiempl+itiea1geeoi+iqv+agoeWPg+aVuCAgDQoNCiMjIyMjIFByb2JsZW0gNC4xIC0gU2VsZWN0aW5nIGNwIGJ5IENyb3NzLVZhbGlkYXRpb24NCldlIG5vdyBjb25jbHVkZSBvdXIgc3R1ZHkgb2YgdGhpcyBkYXRhIHNldCBieSBsb29raW5nIGF0IGhvdyBDQVJUIGJlaGF2ZXMgd2l0aCBkaWZmZXJlbnQgY2hvaWNlcyBvZiBpdHMgcGFyYW1ldGVycy4NCg0KTGV0IHVzIHNlbGVjdCB0aGUgY3AgcGFyYW1ldGVyIGZvciBvdXIgQ0FSVCBtb2RlbCB1c2luZyBrLWZvbGQgY3Jvc3MgdmFsaWRhdGlvbiwgd2l0aCBrID0gMTAgZm9sZHMuIERvIHRoaXMgYnkgdXNpbmcgdGhlIHRyYWluIGZ1bmN0aW9uLiBTZXQgdGhlIHNlZWQgYmVmb3JlaGFuZCB0byAyLiBUZXN0IGNwIHZhbHVlcyBmcm9tIDAuMDAyIHRvIDAuMSBpbiAwLjAwMiBpbmNyZW1lbnRzLCBieSB1c2luZyB0aGUgZm9sbG93aW5nIGNvbW1hbmQ6DQoNCiAgICBjYXJ0R3JpZCA9IGV4cGFuZC5ncmlkKCAuY3AgPSBzZXEoMC4wMDIsMC4xLDAuMDAyKSkNCg0KQWxzbywgcmVtZW1iZXIgdG8gdXNlIHRoZSBlbnRpcmUgdHJhaW5pbmcgc2V0ICJ0cmFpbiIgd2hlbiBidWlsZGluZyB0aGlzIG1vZGVsLiBUaGUgdHJhaW4gZnVuY3Rpb24gbWlnaHQgdGFrZSBzb21lIHRpbWUgdG8gcnVuLg0KDQoNCmBgYHtyfQ0KdDAgPSBTeXMudGltZSgpDQpzZXQuc2VlZCgyKQ0KY3YxID0gdHJhaW4oDQogIG92ZXI1MGsgfiAuLCBkYXRhID0gVFIsIG1ldGhvZCA9ICJycGFydCIsIA0KICB0ckNvbnRyb2wgPSB0cmFpbkNvbnRyb2wobWV0aG9kID0gImN2IiwgbnVtYmVyPTEwKSwgDQogIHR1bmVHcmlkID0gZXhwYW5kLmdyaWQoY3AgPSBzZXEoMC4wMDIsMC4xLDAuMDAyKSkgI+aUueiuimNw77yM5YWx5pyD6LeRNeWAi+aooeWeiw0KICApDQpTeXMudGltZSgpIC0gdDANCmBgYA0KDQpgYGB7cn0NCnBsb3QoY3YxLCBtYWluID0gc3ByaW50Zigib3B0aW1hbCBjcCBhdCAlZiIsIGN2MSRiZXN0VHVuZSRjcCkgKQ0KYGBgDQpXaGljaCB2YWx1ZSBvZiBgY3BgIGRvZXMgdGhlIHRyYWluIGZ1bmN0aW9uIHJlY29tbWVuZD8NCg0KKyAwLjAwMg0KDQo8YnI+DQoNCiMjIyMjIOOAkFHjgJFIb3cgbWFueSBtb2RlbCBoYXZlIGJlZW4gYnVpbHQgaW4gdGhlIGNyb3NzLXZhbGlkYXRpb24gcHJvY2Vzcz8gDQoNCisgMC4xLzAuMDAyID0gNTANCg0KPGJyPg0KDQojIyMjIyDjgJBR44CRSXMgdGhlICJvcHRpbWFsIiBgY3BgIGNvdmVyZWQgaW4gdGhlIHJhbmdlIHNwZWNpZmllZCBhYm92ZT8gSWYgbmVnYXRpdmUsIHdoYXQgc2hvdWxkIHdlIGRvPyANCg0KKyDpgJnmrKFDVueahOevhOWcjeaYrzAuMDAyfjAuMSjku6UwLjAwMumBnuWininvvIzlnKjmraTnr4TlnI3lhafmib7liLDnmoTmnIDkvbNjcOaYrzAuMDAy77yM5L2G5Zug54K65oiR5YCR5oyH5a6a5LqG56+E5ZyN77yM5omA5Lul5Lmf5Y+q5pyJ5om+5Yiw5Zyo5q2k56+E5ZyN5YWn55qE5pyA5L2z6Kej44CCDQoNCjxicj4NCg0KIyMjIyMgNC4yIEZpbmFsIE1vZGVsIChDVjEpDQpGaXQgYSBDQVJUIG1vZGVsIHRvIHRoZSB0cmFpbmluZyBkYXRhIHVzaW5nIHRoaXMgdmFsdWUgb2YgYGNwYC4gV2hhdCBpcyB0aGUgcHJlZGljdGlvbiBhY2N1cmFjeSBvbiB0aGUgdGVzdCBzZXQ/DQpgYGB7cn0NCmNhcnQxID0gcnBhcnQob3ZlcjUwayB+IC4sIFRSLCBtZXRob2Q9J2NsYXNzJywgY3A9Y3YxJGJlc3RUdW5lJGNwKQ0KcC5jYXJ0MSA9IHByZWQgPSBwcmVkaWN0KGNhcnQxLCBUUylbLDJdDQp0YWJsZShUUyRvdmVyNTBrLCBwcmVkID4gMC41KSAlPiUge3N1bShkaWFnKC4pKS9zdW0oLil9ICMgMC44NjEyDQpgYGANCg0KIyMjIyMgNC4zIFRoZSBGaW5hbCBEZWNpc2lvbiBUcmVlDQpQbG90IHRoZSBDQVJUIHRyZWUgZm9yIHRoaXMgbW9kZWwuIA0KYGBge3J9DQpwcnAoY2FydDEpDQpgYGANCkhvdyBtYW55IHNwbGl0cyBhcmUgdGhlcmU/DQoNCisgMTgNCg0KPGJyPjxicj4NCg0KLSAtIC0NCg0KIyMjIDUg5Y+D5pW46Kq/5qCh6IiH5qih5Z6L6YG45pOHDQoNCiMjIyMjIFJlcGVhdGVkIENyb3NzLVZhbGlkYXRpb24NCijoqabokZfnnIvnnIvlpoLmnpxjcOavlDAuMDAy5pu05bCP77yM5pyJ5rKS5pyJ5Y+v6IO95pu05aW9KQ0KYGBge3J9DQp0MCA9IFN5cy50aW1lKCkNCnNldC5zZWVkKDIpDQpjdjIgPSB0cmFpbigNCiAgb3ZlcjUwayB+IC4sIGRhdGEgPSBUUiwgbWV0aG9kID0gInJwYXJ0IiwgDQogIHRyQ29udHJvbCA9IHRyYWluQ29udHJvbChtZXRob2Q9InJlcGVhdGVkY3YiLCBudW1iZXI9MTAsIHJlcGVhdHM9OCksIA0KICB0dW5lR3JpZCA9IGV4cGFuZC5ncmlkKGNwID0gc2VxKDAsMC4wMDIsMC4wMDAwNSkpIA0KICApDQpTeXMudGltZSgpIC0gdDANCmBgYA0KDQpgYGB7cn0NCnBsb3QoY3YyLCBtYWluID0gc3ByaW50Zigib3B0aW1hbCBjcCBhdCAlZiIsIGN2MiRiZXN0VHVuZSRjcCkgKQ0KYGBgDQoNCmBgYHtyfQ0KY2FydDIgPSBycGFydChvdmVyNTBrIH4gLiwgVFIsIG1ldGhvZD0nY2xhc3MnLCBjcD1jdjIkYmVzdFR1bmUkY3ApDQpwLmNhcnQyID0gcHJlZCA9IHByZWRpY3QoY2FydDIsIFRTKVssMl0NCnB4ID0gY2JpbmQocHgsIGNhcnQuY3YxID0gcC5jYXJ0MSwgY2FydC5jdjIgPSBwLmNhcnQyKQ0KYGBgDQoNCmBgYHtyfQ0KcmJpbmQoDQogIEFjY3VyYWN5ID0gYXBwbHkocHgsIDIsIGZ1bmN0aW9uKHgpIHsNCiAgICB0YWJsZShUUyRvdmVyNTBrLCB4ID4gMC41KSAlPiUge3N1bShkaWFnKC4pKS9zdW0oLil9IH0pLA0KICBBVUMgPSBjb2xBVUMocHgsIFRTJG92ZXI1MGspICU+JSBgcm93bmFtZXM8LWAoIkFVQyIpDQogICkgJT4lIHQgDQpgYGANCg0KIyMjIyMg44CQUeOAkURvZXMgYGN2MiRiZXN0VHVuZSRjcGAgcGVyZm9ybSBiZXR0ZXI/DQoNCisgY3A9MC4wMDA25q+UMC4wMDLooajnj77mm7Tlpb3kuobvvIxBQ0PlkoxBVUPpg73mmK/kuIrljYfnmoTjgILkuI3pgY7nlbbkuK3mnIDlpb3nmoTpgoTmmK/nlKjlhajpg6jos4fmlpnoqJPnt7TlkozpmqjmqZ/mo67mnpfoqJPnt7Tlh7rkvobnmoRyZl9mdWxsDQoNCjxicj4NCg0KIyMjIyMg44CQUeOAkUlzIHRoZSBkaWZmZXJlbmNlICgkXERlbHRhX3thY2N1cmFjeX0kPTAuMTklLCAkXERlbHRhX3thdWN9JD0yLjExJSkgaW1wb3J0YW50Pw0KDQorIOW+iOmHjeimgeOAguWmguWQjOiAgeW4q+iqqueahO+8jOWmguaenOaYr+WcqGthZ2dsZeertuizveS4re+8jOWwj+aVuOm7nueahOW3ruWIpeS5n+acg+Wkp+Wkp+W9semfv+aOkuWQjQ0KDQo8YnI+DQoNCg0KIyMjIyMgQ29tcGFyaW5nIFJPQydzDQoNCmBgYHtyIGZpZy5oZWlnaHQ9NSwgZmlnLndpZHRoPTV9DQpwYXIoY2V4PTEuMjUpDQphdWMgPSBjb2xBVUMocHhbLGMoMiw0LDUsNildLCBUUyRvdmVyNTBrLCBUKQ0KYGBgDQoNCiMjIyMjIENvbXBhcmluZyBEUFAncw0KYGBge3IgZmlnLmhlaWdodD04LCBmaWcud2lkdGg9OX0NCnBhcihtZmNvbD1jKDMsMiksIG1hcj1jKDMsMyw0LDEpLCBjZXg9MC43KQ0KZm9yKGkgaW4gYygxLDMsNCwyLDUsNikpIHsNCiAgRFBQKHB4WyxpXSwgVFMkb3ZlcjUwaywgIiA+NTBLIikNCiAgfQ0KYGBgDQoNCiMjIyMjIENvcnJlbGF0aW9uIEFtb25nIFByZWRpY3Rpb25zDQpgYGB7cn0NCmNvcihweCkNCmBgYA0KDQojIyMjIyBNb2RlbCBFbnNlbWJsZQ0KYGBge3J9DQpnbG1fY2FydCA9IChweFssImdsbSJdICsgcHhbLCJjYXJ0LmN2MiJdKS8yDQpnbG1fcmYgPSAocHhbLCJnbG0iXSArIHB4WywicmZfZnVsbCJdKS8yDQpweDIgPSBjYmluZChweCwgZ2xtX2NhcnQsIGdsbV9yZikNCnJiaW5kKGFwcGx5KHB4MiwgMiwgZnVuY3Rpb24oeCkgew0KICAgICAgICB0YWJsZShUUyRvdmVyNTBrLCB4ID4gMC41KSAlPiUge3N1bShkaWFnKC4pKS9zdW0oLil9IH0pLA0KICAgICAgY29sQVVDKHB4MiwgVFMkb3ZlcjUwaykpICU+JSB0ICU+JSANCiAgICAgIGRhdGEuZnJhbWUgJT4lIHNldE5hbWVzKGMoIkFjY3VyYWN5IiwgIkFVQyIpKQ0KYGBgDQo8YnI+DQoNCi0gLSAtDQoNCuWBnOatoioq5bmz6KGM6YGL566XKioNCmBgYHtyfQ0Kc3RvcENsdXN0ZXIoY2x1c3QpDQpgYGANCjxicj4NCg0KLSAtIC0NCg0KPGJyPjxicj48YnI+PGJyPjxicj4NCg0KPHN0eWxlPg0KLmNhcHRpb24gew0KICBjb2xvcjogIzc3NzsNCiAgbWFyZ2luLXRvcDogMTBweDsNCn0NCnAgY29kZSB7DQogIHdoaXRlLXNwYWNlOiBpbmhlcml0Ow0KfQ0KcHJlIHsNCiAgd29yZC1icmVhazogbm9ybWFsOw0KICB3b3JkLXdyYXA6IG5vcm1hbDsNCiAgbGluZS1oZWlnaHQ6IDE7DQp9DQpwcmUgY29kZSB7DQogIHdoaXRlLXNwYWNlOiBpbmhlcml0Ow0KfQ0KcCxsaSB7DQogIGZvbnQtZmFtaWx5OiAiVHJlYnVjaGV0IE1TIiwgIuW+rui7n+ato+m7kemrlCIsICJNaWNyb3NvZnQgSmhlbmdIZWkiOw0KfQ0KDQoucnsNCiAgbGluZS1oZWlnaHQ6IDEuMjsNCn0NCg0KdGl0bGV7DQogIGNvbG9yOiAjY2MwMDAwOw0KICBmb250LWZhbWlseTogIlRyZWJ1Y2hldCBNUyIsICLlvq7ou5/mraPpu5Hpq5QiLCAiTWljcm9zb2Z0IEpoZW5nSGVpIjsNCn0NCg0KYm9keXsNCiAgZm9udC1mYW1pbHk6ICJUcmVidWNoZXQgTVMiLCAi5b6u6Luf5q2j6buR6auUIiwgIk1pY3Jvc29mdCBKaGVuZ0hlaSI7DQp9DQoNCmgxLGgyLGgzLGg0LGg1ew0KICBjb2xvcjogIzAwNjZmZjsNCiAgZm9udC1mYW1pbHk6ICJUcmVidWNoZXQgTVMiLCAi5b6u6Luf5q2j6buR6auUIiwgIk1pY3Jvc29mdCBKaGVuZ0hlaSI7DQp9DQoNCmg0LGg1ew0KICBiYWNrZ3JvdW5kOiAjY2NmZmZmOw0KfQ0KDQo8L3N0eWxlPg0KDQo=

AS4-3 Predicting Earnings from Census Data (temp.)

陳韻卉 B034020027

1 邏輯式回歸模型

1.1 整理資料、建立模型

1.2 Test Accuracy

1.3 Baseline Accuracy

1.4 Test AUC

2. 決策樹模型

2.1 CART Model

2.2 決策(樹中使用的預測)變數

2.3 決策變數

2.4 Test Accuracy

2.5 ROC Comparison

2.6 AUC & DPP Comparison

3 Random Forest 模型

Problem 3.1 減少訓練資料量

3.2 預測變數的重要性

【Q】What’d happen if we use the entire training data?

開啟平行運算

4 使用交叉驗證流程調校參數

Problem 4.1 - Selecting cp by Cross-Validation

【Q】How many model have been built in the cross-validation process?

【Q】Is the “optimal” `cp` covered in the range specified above? If negative, what should we do?

4.2 Final Model (CV1)

4.3 The Final Decision Tree

5 參數調校與模型選擇

Repeated Cross-Validation

【Q】Does `cv2$bestTune$cp` perform better?

【Q】Is the difference (\(\Delta_{accuracy}\)=0.19%, \(\Delta_{auc}\)=2.11%) important?

Comparing ROC’s

Comparing DPP’s

Correlation Among Predictions

Model Ensemble

AS4-3 Predicting Earnings from Census Data (temp.)

陳韻卉 B034020027

1 邏輯式回歸模型

1.1 整理資料、建立模型

1.2 Test Accuracy

1.3 Baseline Accuracy

1.4 Test AUC

2. 決策樹模型

2.1 CART Model

2.2 決策(樹中使用的預測)變數

2.3 決策變數

2.4 Test Accuracy

2.5 ROC Comparison

2.6 AUC & DPP Comparison

3 Random Forest 模型

Problem 3.1 減少訓練資料量

3.2 預測變數的重要性

【Q】What’d happen if we use the entire training data?

開啟平行運算

4 使用交叉驗證流程調校參數

Problem 4.1 - Selecting cp by Cross-Validation

【Q】How many model have been built in the cross-validation process?

【Q】Is the “optimal” cp covered in the range specified above? If negative, what should we do?

4.2 Final Model (CV1)

4.3 The Final Decision Tree

5 參數調校與模型選擇

Repeated Cross-Validation

【Q】Does cv2$bestTune$cp perform better?

【Q】Is the difference (\(\Delta_{accuracy}\)=0.19%, \(\Delta_{auc}\)=2.11%) important?

Comparing ROC’s

Comparing DPP’s

Correlation Among Predictions

Model Ensemble

【Q】Is the “optimal” `cp` covered in the range specified above? If negative, what should we do?

【Q】Does `cv2$bestTune$cp` perform better?