This is a summary of a set of 1 experiments using a LONI pipeline workflow file that performs 3000 independent jobs, each one with the CBDA-SL and the knockoff filter feature mining strategies. Each experiments has a total of 9000 jobs and is uniquely identified by 6 input arguments: # of jobs [M], % of missing values [misValperc], min [Kcol_min] and max [Kcol_max] % for FSR-Feature Sampling Range, min [Nrow_min] and max [Nrow_max] % for SSR-Subject Sampling Range.
This document has the final results, by experiment. See https://drive.google.com/file/d/0B5sz_T_1CNJQWmlsRTZEcjBEOEk/view?ths=true for some general documentation of the CBDA-SL project and github https://github.com/SOCR/CBDA for some of the code.
Features selected by both the knockoff filter and the CBDA-SL algorithms are shown as spikes in the histograms shown below. I list the top features selected, set to 15 here.
## [1] EXPERIMENT 1
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 1 5 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 1 9000 0 1 5 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "1"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 800 93 0.3163803 800 121 0.4042766 800 144 8.4955752
## 900 93 0.3163803 900 115 0.3842299 600 132 7.7876106
## 300 85 0.2891648 300 94 0.3140662 900 124 7.3156342
## 400 76 0.2585474 600 72 0.2405613 100 100 5.8997050
## 500 69 0.2347338 400 68 0.2271968 500 88 5.1917404
## 100 62 0.2109202 200 65 0.2171734 300 75 4.4247788
## 409 59 0.2007144 500 63 0.2104911 1 69 4.0707965
## 496 55 0.1871067 100 62 0.2071500 200 58 3.4218289
## 738 55 0.1871067 409 59 0.1971266 400 39 2.3008850
## 32 53 0.1803028 386 57 0.1904444 108 36 2.1238938
## 486 52 0.1769008 431 55 0.1837621 574 22 1.2979351
## 600 52 0.1769008 486 55 0.1837621 700 19 1.1209440
## 365 51 0.1734989 344 52 0.1737387 424 16 0.9439528
## 257 50 0.1700970 88 51 0.1703976 650 16 0.9439528
## 718 50 0.1700970 138 51 0.1703976 139 15 0.8849558
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 2
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 5 15 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 2 9000 0 5 15 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "2"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 231 0.2415383 300 252 0.2625602 600 208 8.3467095
## 800 211 0.2206259 900 233 0.2427640 900 203 8.1460674
## 900 204 0.2133066 800 210 0.2188001 800 199 7.9855538
## 600 189 0.1976223 400 184 0.1917106 100 187 7.5040128
## 100 176 0.1840292 600 180 0.1875430 1 164 6.5810594
## 400 176 0.1840292 100 164 0.1708725 300 136 5.4574639
## 782 143 0.1495237 1 151 0.1573277 500 122 4.8956661
## 200 137 0.1432500 500 149 0.1552439 108 74 2.9695024
## 222 137 0.1432500 200 148 0.1542020 200 70 2.8089888
## 409 137 0.1432500 409 146 0.1521182 400 54 2.1669342
## 574 136 0.1422044 496 141 0.1469087 574 43 1.7255217
## 654 136 0.1422044 79 138 0.1437830 700 39 1.5650080
## 1 135 0.1411588 556 138 0.1437830 424 32 1.2841091
## 52 134 0.1401131 266 135 0.1406572 765 24 0.9630819
## 79 134 0.1401131 782 133 0.1385734 379 23 0.9229535
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 3
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 15 30 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 3 9000 0 15 30 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "3"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 800 426 0.2000864 800 448 0.2103425 500 5 14.705882
## 300 408 0.1916321 300 440 0.2065863 1 3 8.823529
## 900 408 0.1916321 900 417 0.1957875 100 3 8.823529
## 600 345 0.1620418 600 376 0.1765374 800 3 8.823529
## 100 340 0.1596934 100 353 0.1657386 900 3 8.823529
## 400 336 0.1578146 400 342 0.1605739 139 2 5.882353
## 1 294 0.1380878 1 318 0.1493056 548 2 5.882353
## 200 292 0.1371484 200 311 0.1460190 574 2 5.882353
## 500 289 0.1357394 500 302 0.1417934 14 1 2.941176
## 549 288 0.1352697 700 284 0.1333421 112 1 2.941176
## 681 281 0.1319819 10 281 0.1319336 246 1 2.941176
## 321 277 0.1301031 282 277 0.1300555 563 1 2.941176
## 845 276 0.1296335 736 274 0.1286470 590 1 2.941176
## 269 274 0.1286941 424 272 0.1277079 596 1 2.941176
## 47 273 0.1282244 191 270 0.1267689 676 1 2.941176
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 4
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 1 5 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 4 9000 0 1 5 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "4"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 93 0.3177640 300 112 0.3706155 600 216 9.751693
## 496 76 0.2596781 1 72 0.2382528 800 205 9.255079
## 222 62 0.2118427 600 72 0.2382528 100 186 8.397291
## 409 61 0.2084259 496 71 0.2349437 900 185 8.352144
## 782 61 0.2084259 782 69 0.2283256 500 157 7.088036
## 718 59 0.2015922 718 68 0.2250165 300 151 6.817156
## 400 56 0.1913418 900 68 0.2250165 1 145 6.546275
## 556 56 0.1913418 765 66 0.2183984 200 104 4.695260
## 765 55 0.1879250 800 66 0.2183984 400 76 3.431151
## 63 54 0.1845081 200 62 0.2051621 108 72 3.250564
## 650 53 0.1810913 409 62 0.2051621 700 54 2.437923
## 611 52 0.1776745 556 62 0.2051621 574 33 1.489842
## 717 52 0.1776745 222 61 0.2018531 738 27 1.218962
## 386 51 0.1742577 133 58 0.1919259 424 24 1.083521
## 486 51 0.1742577 400 57 0.1886168 548 24 1.083521
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 5
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 5 15 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 5 9000 0 5 15 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "5"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 231 0.2407077 300 245 0.2501864 600 557 13.1027993
## 900 188 0.1959007 900 212 0.2164878 800 508 11.9501294
## 400 167 0.1740182 496 171 0.1746199 900 469 11.0326982
## 496 159 0.1656820 400 162 0.1654294 100 451 10.6092684
## 764 158 0.1646399 800 160 0.1633870 1 375 8.8214538
## 650 155 0.1615139 650 158 0.1613447 300 369 8.6803105
## 800 154 0.1604718 556 153 0.1562388 500 346 8.1392614
## 845 149 0.1552617 845 151 0.1541965 200 221 5.1987768
## 409 144 0.1500516 738 150 0.1531753 108 143 3.3639144
## 556 144 0.1500516 643 149 0.1521542 400 132 3.1051517
## 593 144 0.1500516 764 148 0.1511330 700 87 2.0465773
## 643 143 0.1490096 782 148 0.1511330 424 56 1.3173371
## 553 137 0.1427574 409 146 0.1490906 379 34 0.7998118
## 279 135 0.1406734 600 144 0.1470483 762 32 0.7527641
## 706 135 0.1406734 1 143 0.1460271 738 31 0.7292402
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 6
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 0 15 30 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 6 9000 0 15 30 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "6"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 425 0.2035967 300 422 0.1989909 600 169 10.910265
## 800 378 0.1810813 800 411 0.1938039 100 159 10.264687
## 400 337 0.1614402 400 379 0.1787146 800 151 9.748225
## 900 327 0.1566497 900 358 0.1688122 900 135 8.715300
## 100 323 0.1547335 100 352 0.1659829 1 126 8.134280
## 600 314 0.1504220 600 334 0.1574952 300 100 6.455778
## 650 305 0.1461106 1 322 0.1518367 500 100 6.455778
## 700 297 0.1422782 700 312 0.1471212 200 89 5.745642
## 1 281 0.1346134 500 306 0.1442920 108 61 3.938025
## 194 279 0.1336553 200 301 0.1419343 400 57 3.679793
## 312 279 0.1336553 409 295 0.1391050 700 28 1.807618
## 79 278 0.1331762 496 292 0.1376904 574 26 1.678502
## 474 273 0.1307809 650 291 0.1372188 762 21 1.355713
## 5 269 0.1288647 574 280 0.1320319 379 19 1.226598
## 496 268 0.1283857 832 279 0.1315603 424 19 1.226598
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 7
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 1 5 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 7 9000 20 1 5 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "7"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 400 87 0.2939090 900 105 0.3471189 600 147 8.5614444
## 300 86 0.2905307 300 103 0.3405071 800 128 7.4548631
## 900 84 0.2837742 800 87 0.2876128 900 125 7.2801398
## 600 71 0.2398568 600 79 0.2611657 100 108 6.2900408
## 800 70 0.2364785 400 78 0.2578598 1 94 5.4746651
## 1 59 0.1993176 1 72 0.2380244 500 71 4.1351194
## 279 56 0.1891828 100 60 0.1983537 300 63 3.6691904
## 450 56 0.1891828 200 58 0.1917419 200 58 3.3779849
## 845 54 0.1824263 500 58 0.1917419 108 40 2.3296447
## 100 53 0.1790480 623 57 0.1884360 400 40 2.3296447
## 298 53 0.1790480 496 56 0.1851301 574 20 1.1648224
## 623 53 0.1790480 845 56 0.1851301 700 19 1.1065812
## 200 52 0.1756697 450 53 0.1752124 379 18 1.0483401
## 379 51 0.1722915 717 53 0.1752124 112 15 0.8736168
## 496 51 0.1722915 212 51 0.1686006 496 14 0.8153757
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 8
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 5 15 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 8 9000 20 5 15 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "8"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 227 0.2323201 300 240 0.2478264 600 235 9.468171
## 800 216 0.2210623 900 221 0.2282068 800 182 7.332796
## 900 201 0.2057108 800 213 0.2199459 100 179 7.211926
## 400 174 0.1780780 600 190 0.1961959 900 175 7.050766
## 600 169 0.1729608 400 185 0.1910328 1 158 6.365834
## 100 165 0.1688671 1 172 0.1776089 500 136 5.479452
## 500 160 0.1637499 500 160 0.1652176 300 128 5.157131
## 200 150 0.1535155 738 155 0.1600545 200 79 3.182917
## 496 146 0.1494218 100 153 0.1579893 400 65 2.618856
## 1 145 0.1483983 496 148 0.1528263 108 61 2.457695
## 593 142 0.1453280 650 142 0.1466306 700 49 1.974214
## 738 140 0.1432811 200 138 0.1425002 574 27 1.087832
## 16 137 0.1402108 700 137 0.1414675 379 22 0.886382
## 574 135 0.1381640 623 136 0.1404349 424 22 0.886382
## 209 134 0.1371405 824 136 0.1404349 548 22 0.886382
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 9
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 15 30 30 60
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9 9000 20 15 30 30 60
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "9"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 800 434 0.2026664 800 442 0.2055088 600 3 18.75
## 300 404 0.1886572 300 418 0.1943499 112 2 12.50
## 400 388 0.1811856 900 405 0.1883055 200 2 12.50
## 600 367 0.1713792 400 400 0.1859808 900 2 12.50
## 900 366 0.1709122 600 392 0.1822612 1 1 6.25
## 100 359 0.1676434 100 367 0.1706374 65 1 6.25
## 1 319 0.1489645 500 343 0.1594785 222 1 6.25
## 500 303 0.1414929 1 323 0.1501795 227 1 6.25
## 200 295 0.1377571 200 323 0.1501795 300 1 6.25
## 623 283 0.1321534 574 283 0.1315814 798 1 6.25
## 155 276 0.1288846 76 279 0.1297216 800 1 6.25
## 560 275 0.1284177 478 278 0.1292566 NA NA NA
## 267 274 0.1279507 496 278 0.1292566 NA NA NA
## 853 274 0.1279507 611 276 0.1283267 NA NA NA
## 371 272 0.1270167 648 276 0.1283267 NA NA NA
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 10
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 1 5 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 10 9000 20 1 5 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "10"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 92 0.3153385 300 123 0.4001822 600 251 10.6990622
## 409 63 0.2159383 900 87 0.2830557 800 227 9.6760443
## 496 61 0.2090831 600 83 0.2700416 100 196 8.3546462
## 556 60 0.2056555 800 70 0.2277460 1 184 7.8431373
## 765 60 0.2056555 400 67 0.2179854 900 171 7.2890026
## 138 59 0.2022279 409 66 0.2147319 300 153 6.5217391
## 416 56 0.1919452 556 65 0.2114784 500 149 6.3512361
## 150 55 0.1885176 1 64 0.2082249 200 111 4.7314578
## 270 55 0.1885176 200 64 0.2082249 400 82 3.4953112
## 400 55 0.1885176 496 64 0.2082249 108 62 2.6427962
## 222 53 0.1816624 765 61 0.1984643 700 60 2.5575448
## 236 53 0.1816624 623 60 0.1952108 424 38 1.6197783
## 493 53 0.1816624 133 59 0.1919573 762 33 1.4066496
## 650 53 0.1816624 236 59 0.1919573 574 29 1.2361466
## 709 53 0.1816624 410 59 0.1919573 738 23 0.9803922
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 11
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 5 15 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 11 9000 20 5 15 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "11"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 228 0.2352359 300 219 0.2255151 600 545 12.6714718
## 496 177 0.1826173 900 209 0.2152176 800 508 11.8112067
## 650 171 0.1764269 496 176 0.1812359 900 487 11.3229482
## 400 166 0.1712682 400 166 0.1709384 100 469 10.9044408
## 900 166 0.1712682 650 161 0.1657897 1 390 9.0676587
## 643 161 0.1661095 556 159 0.1637302 500 336 7.8121367
## 845 161 0.1661095 1 158 0.1627004 300 313 7.2773774
## 800 155 0.1599191 800 156 0.1606409 200 226 5.2545920
## 556 153 0.1578556 600 154 0.1585814 400 155 3.6038131
## 738 147 0.1516652 845 154 0.1585814 108 129 2.9993025
## 570 144 0.1485700 782 151 0.1554922 700 88 2.0460358
## 782 142 0.1465065 409 143 0.1472542 424 63 1.4647756
## 855 142 0.1465065 765 142 0.1462244 574 51 1.1857708
## 146 141 0.1454748 138 140 0.1441649 738 38 0.8835155
## 897 140 0.1444431 322 139 0.1431352 379 34 0.7905138
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900
##
##
##
##
##
##
## [1] EXPERIMENT 12
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 9000 20 15 30 60 80
## M misValperc Kcol_min Kcol_max Nrow_min Nrow_max
## 12 9000 20 15 30 60 80
## [1] 1 100 200 300 400 500 600 700 800 900
## [1] "TABLE with CBDA-SL & KNOCKOFF FILTER RESULTS"
## [1] "EXPERIMENT" "12"
## Accuracy Count Density MSE Count Density Knockoff Count Density
## 300 432 0.2052725 300 444 0.2099946 600 190 12.393999
## 800 352 0.1672590 800 391 0.1849277 800 145 9.458578
## 400 343 0.1629825 900 379 0.1792522 100 143 9.328115
## 900 332 0.1577557 400 373 0.1764144 1 137 8.936725
## 500 298 0.1416000 100 360 0.1702659 900 133 8.675799
## 100 293 0.1392241 600 339 0.1603337 500 106 6.914547
## 743 290 0.1377986 500 321 0.1518204 300 81 5.283757
## 700 288 0.1368483 496 314 0.1485097 200 79 5.153294
## 574 287 0.1363731 700 311 0.1470908 400 63 4.109589
## 496 286 0.1358980 1 310 0.1466179 108 52 3.392042
## 600 281 0.1335221 200 310 0.1466179 700 32 2.087410
## 623 278 0.1320966 138 295 0.1395234 424 24 1.565558
## 409 277 0.1316215 556 287 0.1357398 574 23 1.500326
## 650 276 0.1311463 574 285 0.1347938 379 18 1.174168
## 414 273 0.1297208 650 284 0.1343209 112 17 1.108937
## [1] "Nonzero Features"
## [1] 1 100 200 300 400 500 600 700 800 900