Some useful information

This is a summary of a set of 1 experiments using a LONI pipeline workflow file that performs 3000 independent jobs, each one with the CBDA-SL and the knockoff filter feature mining strategies. Each experiments has a total of 9000 jobs and is uniquely identified by 6 input arguments: # of jobs [M], % of missing values [misValperc], min [Kcol_min] and max [Kcol_max] % for FSR-Feature Sampling Range, min [Nrow_min] and max [Nrow_max] % for SSR-Subject Sampling Range.

This document has the final results, by experiment. See https://drive.google.com/file/d/0B5sz_T_1CNJQWmlsRTZEcjBEOEk/view?ths=true for some general documentation of the CBDA-SL project and github https://github.com/SOCR/CBDA for some of the code.

Features selected by both the knockoff filter and the CBDA-SL algorithms are shown as spikes in the histograms shown below. I list the top features selected, set to 15 here.

## [1] EXPERIMENT 1
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0          1          5         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 1 9000          0        1        5       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "1"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  800      93    0.3163803 800 121   0.4042766 800      144   8.4955752
##  900      93    0.3163803 900 115   0.3842299 600      132   7.7876106
##  300      85    0.2891648 300  94   0.3140662 900      124   7.3156342
##  400      76    0.2585474 600  72   0.2405613 100      100   5.8997050
##  500      69    0.2347338 400  68   0.2271968 500       88   5.1917404
##  100      62    0.2109202 200  65   0.2171734 300       75   4.4247788
##  409      59    0.2007144 500  63   0.2104911   1       69   4.0707965
##  496      55    0.1871067 100  62   0.2071500 200       58   3.4218289
##  738      55    0.1871067 409  59   0.1971266 400       39   2.3008850
##  32       53    0.1803028 386  57   0.1904444 108       36   2.1238938
##  486      52    0.1769008 431  55   0.1837621 574       22   1.2979351
##  600      52    0.1769008 486  55   0.1837621 700       19   1.1209440
##  365      51    0.1734989 344  52   0.1737387 424       16   0.9439528
##  257      50    0.1700970 88   51   0.1703976 650       16   0.9439528
##  718      50    0.1700970 138  51   0.1703976 139       15   0.8849558
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 2
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0          5         15         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 2 9000          0        5       15       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "2"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  300      231   0.2415383 300 252   0.2625602 600      208   8.3467095
##  800      211   0.2206259 900 233   0.2427640 900      203   8.1460674
##  900      204   0.2133066 800 210   0.2188001 800      199   7.9855538
##  600      189   0.1976223 400 184   0.1917106 100      187   7.5040128
##  100      176   0.1840292 600 180   0.1875430   1      164   6.5810594
##  400      176   0.1840292 100 164   0.1708725 300      136   5.4574639
##  782      143   0.1495237 1   151   0.1573277 500      122   4.8956661
##  200      137   0.1432500 500 149   0.1552439 108       74   2.9695024
##  222      137   0.1432500 200 148   0.1542020 200       70   2.8089888
##  409      137   0.1432500 409 146   0.1521182 400       54   2.1669342
##  574      136   0.1422044 496 141   0.1469087 574       43   1.7255217
##  654      136   0.1422044 79  138   0.1437830 700       39   1.5650080
##  1        135   0.1411588 556 138   0.1437830 424       32   1.2841091
##  52       134   0.1401131 266 135   0.1406572 765       24   0.9630819
##  79       134   0.1401131 782 133   0.1385734 379       23   0.9229535
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 3
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0         15         30         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 3 9000          0       15       30       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "3"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  800      426   0.2000864 800 448   0.2103425 500      5     14.705882
##  300      408   0.1916321 300 440   0.2065863   1      3      8.823529
##  900      408   0.1916321 900 417   0.1957875 100      3      8.823529
##  600      345   0.1620418 600 376   0.1765374 800      3      8.823529
##  100      340   0.1596934 100 353   0.1657386 900      3      8.823529
##  400      336   0.1578146 400 342   0.1605739 139      2      5.882353
##  1        294   0.1380878 1   318   0.1493056 548      2      5.882353
##  200      292   0.1371484 200 311   0.1460190 574      2      5.882353
##  500      289   0.1357394 500 302   0.1417934  14      1      2.941176
##  549      288   0.1352697 700 284   0.1333421 112      1      2.941176
##  681      281   0.1319819 10  281   0.1319336 246      1      2.941176
##  321      277   0.1301031 282 277   0.1300555 563      1      2.941176
##  845      276   0.1296335 736 274   0.1286470 590      1      2.941176
##  269      274   0.1286941 424 272   0.1277079 596      1      2.941176
##  47       273   0.1282244 191 270   0.1267689 676      1      2.941176
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 4
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0          1          5         60         80 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 4 9000          0        1        5       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "4"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density 
##  300      93    0.3177640 300 112   0.3706155 600      216   9.751693
##  496      76    0.2596781 1    72   0.2382528 800      205   9.255079
##  222      62    0.2118427 600  72   0.2382528 100      186   8.397291
##  409      61    0.2084259 496  71   0.2349437 900      185   8.352144
##  782      61    0.2084259 782  69   0.2283256 500      157   7.088036
##  718      59    0.2015922 718  68   0.2250165 300      151   6.817156
##  400      56    0.1913418 900  68   0.2250165   1      145   6.546275
##  556      56    0.1913418 765  66   0.2183984 200      104   4.695260
##  765      55    0.1879250 800  66   0.2183984 400       76   3.431151
##  63       54    0.1845081 200  62   0.2051621 108       72   3.250564
##  650      53    0.1810913 409  62   0.2051621 700       54   2.437923
##  611      52    0.1776745 556  62   0.2051621 574       33   1.489842
##  717      52    0.1776745 222  61   0.2018531 738       27   1.218962
##  386      51    0.1742577 133  58   0.1919259 424       24   1.083521
##  486      51    0.1742577 400  57   0.1886168 548       24   1.083521
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 5
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0          5         15         60         80 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 5 9000          0        5       15       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "5"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density   
##  300      231   0.2407077 300 245   0.2501864 600      557   13.1027993
##  900      188   0.1959007 900 212   0.2164878 800      508   11.9501294
##  400      167   0.1740182 496 171   0.1746199 900      469   11.0326982
##  496      159   0.1656820 400 162   0.1654294 100      451   10.6092684
##  764      158   0.1646399 800 160   0.1633870   1      375    8.8214538
##  650      155   0.1615139 650 158   0.1613447 300      369    8.6803105
##  800      154   0.1604718 556 153   0.1562388 500      346    8.1392614
##  845      149   0.1552617 845 151   0.1541965 200      221    5.1987768
##  409      144   0.1500516 738 150   0.1531753 108      143    3.3639144
##  556      144   0.1500516 643 149   0.1521542 400      132    3.1051517
##  593      144   0.1500516 764 148   0.1511330 700       87    2.0465773
##  643      143   0.1490096 782 148   0.1511330 424       56    1.3173371
##  553      137   0.1427574 409 146   0.1490906 379       34    0.7998118
##  279      135   0.1406734 600 144   0.1470483 762       32    0.7527641
##  706      135   0.1406734 1   143   0.1460271 738       31    0.7292402
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 6
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000          0         15         30         60         80 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 6 9000          0       15       30       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "6"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  300      425   0.2035967 300 422   0.1989909 600      169   10.910265
##  800      378   0.1810813 800 411   0.1938039 100      159   10.264687
##  400      337   0.1614402 400 379   0.1787146 800      151    9.748225
##  900      327   0.1566497 900 358   0.1688122 900      135    8.715300
##  100      323   0.1547335 100 352   0.1659829   1      126    8.134280
##  600      314   0.1504220 600 334   0.1574952 300      100    6.455778
##  650      305   0.1461106 1   322   0.1518367 500      100    6.455778
##  700      297   0.1422782 700 312   0.1471212 200       89    5.745642
##  1        281   0.1346134 500 306   0.1442920 108       61    3.938025
##  194      279   0.1336553 200 301   0.1419343 400       57    3.679793
##  312      279   0.1336553 409 295   0.1391050 700       28    1.807618
##  79       278   0.1331762 496 292   0.1376904 574       26    1.678502
##  474      273   0.1307809 650 291   0.1372188 762       21    1.355713
##  5        269   0.1288647 574 280   0.1320319 379       19    1.226598
##  496      268   0.1283857 832 279   0.1315603 424       19    1.226598
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 7
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20          1          5         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 7 9000         20        1        5       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "7"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  400      87    0.2939090 900 105   0.3471189 600      147   8.5614444
##  300      86    0.2905307 300 103   0.3405071 800      128   7.4548631
##  900      84    0.2837742 800  87   0.2876128 900      125   7.2801398
##  600      71    0.2398568 600  79   0.2611657 100      108   6.2900408
##  800      70    0.2364785 400  78   0.2578598   1       94   5.4746651
##  1        59    0.1993176 1    72   0.2380244 500       71   4.1351194
##  279      56    0.1891828 100  60   0.1983537 300       63   3.6691904
##  450      56    0.1891828 200  58   0.1917419 200       58   3.3779849
##  845      54    0.1824263 500  58   0.1917419 108       40   2.3296447
##  100      53    0.1790480 623  57   0.1884360 400       40   2.3296447
##  298      53    0.1790480 496  56   0.1851301 574       20   1.1648224
##  623      53    0.1790480 845  56   0.1851301 700       19   1.1065812
##  200      52    0.1756697 450  53   0.1752124 379       18   1.0483401
##  379      51    0.1722915 717  53   0.1752124 112       15   0.8736168
##  496      51    0.1722915 212  51   0.1686006 496       14   0.8153757
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 8
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20          5         15         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 8 9000         20        5       15       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "8"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density 
##  300      227   0.2323201 300 240   0.2478264 600      235   9.468171
##  800      216   0.2210623 900 221   0.2282068 800      182   7.332796
##  900      201   0.2057108 800 213   0.2199459 100      179   7.211926
##  400      174   0.1780780 600 190   0.1961959 900      175   7.050766
##  600      169   0.1729608 400 185   0.1910328   1      158   6.365834
##  100      165   0.1688671 1   172   0.1776089 500      136   5.479452
##  500      160   0.1637499 500 160   0.1652176 300      128   5.157131
##  200      150   0.1535155 738 155   0.1600545 200       79   3.182917
##  496      146   0.1494218 100 153   0.1579893 400       65   2.618856
##  1        145   0.1483983 496 148   0.1528263 108       61   2.457695
##  593      142   0.1453280 650 142   0.1466306 700       49   1.974214
##  738      140   0.1432811 200 138   0.1425002 574       27   1.087832
##  16       137   0.1402108 700 137   0.1414675 379       22   0.886382
##  574      135   0.1381640 623 136   0.1404349 424       22   0.886382
##  209      134   0.1371405 824 136   0.1404349 548       22   0.886382
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 9
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20         15         30         30         60 
##      M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9 9000         20       15       30       30       60
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "9"         
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density
##  800      434   0.2026664 800 442   0.2055088 600       3    18.75  
##  300      404   0.1886572 300 418   0.1943499 112       2    12.50  
##  400      388   0.1811856 900 405   0.1883055 200       2    12.50  
##  600      367   0.1713792 400 400   0.1859808 900       2    12.50  
##  900      366   0.1709122 600 392   0.1822612   1       1     6.25  
##  100      359   0.1676434 100 367   0.1706374  65       1     6.25  
##  1        319   0.1489645 500 343   0.1594785 222       1     6.25  
##  500      303   0.1414929 1   323   0.1501795 227       1     6.25  
##  200      295   0.1377571 200 323   0.1501795 300       1     6.25  
##  623      283   0.1321534 574 283   0.1315814 798       1     6.25  
##  155      276   0.1288846 76  279   0.1297216 800       1     6.25  
##  560      275   0.1284177 478 278   0.1292566  NA      NA       NA  
##  267      274   0.1279507 496 278   0.1292566  NA      NA       NA  
##  853      274   0.1279507 611 276   0.1283267  NA      NA       NA  
##  371      272   0.1270167 648 276   0.1283267  NA      NA       NA  
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 10
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20          1          5         60         80 
##       M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 10 9000         20        1        5       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "10"        
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density   
##  300      92    0.3153385 300 123   0.4001822 600      251   10.6990622
##  409      63    0.2159383 900  87   0.2830557 800      227    9.6760443
##  496      61    0.2090831 600  83   0.2700416 100      196    8.3546462
##  556      60    0.2056555 800  70   0.2277460   1      184    7.8431373
##  765      60    0.2056555 400  67   0.2179854 900      171    7.2890026
##  138      59    0.2022279 409  66   0.2147319 300      153    6.5217391
##  416      56    0.1919452 556  65   0.2114784 500      149    6.3512361
##  150      55    0.1885176 1    64   0.2082249 200      111    4.7314578
##  270      55    0.1885176 200  64   0.2082249 400       82    3.4953112
##  400      55    0.1885176 496  64   0.2082249 108       62    2.6427962
##  222      53    0.1816624 765  61   0.1984643 700       60    2.5575448
##  236      53    0.1816624 623  60   0.1952108 424       38    1.6197783
##  493      53    0.1816624 133  59   0.1919573 762       33    1.4066496
##  650      53    0.1816624 236  59   0.1919573 574       29    1.2361466
##  709      53    0.1816624 410  59   0.1919573 738       23    0.9803922
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 11
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20          5         15         60         80 
##       M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 11 9000         20        5       15       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "11"        
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density   
##  300      228   0.2352359 300 219   0.2255151 600      545   12.6714718
##  496      177   0.1826173 900 209   0.2152176 800      508   11.8112067
##  650      171   0.1764269 496 176   0.1812359 900      487   11.3229482
##  400      166   0.1712682 400 166   0.1709384 100      469   10.9044408
##  900      166   0.1712682 650 161   0.1657897   1      390    9.0676587
##  643      161   0.1661095 556 159   0.1637302 500      336    7.8121367
##  845      161   0.1661095 1   158   0.1627004 300      313    7.2773774
##  800      155   0.1599191 800 156   0.1606409 200      226    5.2545920
##  556      153   0.1578556 600 154   0.1585814 400      155    3.6038131
##  738      147   0.1516652 845 154   0.1585814 108      129    2.9993025
##  570      144   0.1485700 782 151   0.1554922 700       88    2.0460358
##  782      142   0.1465065 409 143   0.1472542 424       63    1.4647756
##  855      142   0.1465065 765 142   0.1462244 574       51    1.1857708
##  146      141   0.1454748 138 140   0.1441649 738       38    0.8835155
##  897      140   0.1444431 322 139   0.1431352 379       34    0.7905138
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900
## 
## 
## 
## 
## 
## 
## [1] EXPERIMENT 12
##          M misValperc   Kcol_min   Kcol_max   Nrow_min   Nrow_max 
##       9000         20         15         30         60         80 
##       M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 12 9000         20       15       30       60       80
##  [1]   1 100 200 300 400 500 600 700 800 900

## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "12"        
##  Accuracy Count Density   MSE Count Density   Knockoff Count Density  
##  300      432   0.2052725 300 444   0.2099946 600      190   12.393999
##  800      352   0.1672590 800 391   0.1849277 800      145    9.458578
##  400      343   0.1629825 900 379   0.1792522 100      143    9.328115
##  900      332   0.1577557 400 373   0.1764144   1      137    8.936725
##  500      298   0.1416000 100 360   0.1702659 900      133    8.675799
##  100      293   0.1392241 600 339   0.1603337 500      106    6.914547
##  743      290   0.1377986 500 321   0.1518204 300       81    5.283757
##  700      288   0.1368483 496 314   0.1485097 200       79    5.153294
##  574      287   0.1363731 700 311   0.1470908 400       63    4.109589
##  496      286   0.1358980 1   310   0.1466179 108       52    3.392042
##  600      281   0.1335221 200 310   0.1466179 700       32    2.087410
##  623      278   0.1320966 138 295   0.1395234 424       24    1.565558
##  409      277   0.1316215 556 287   0.1357398 574       23    1.500326
##  650      276   0.1311463 574 285   0.1347938 379       18    1.174168
##  414      273   0.1297208 650 284   0.1343209 112       17    1.108937
## [1] "Nonzero Features"
##  [1]   1 100 200 300 400 500 600 700 800 900