Characteristic | Liver, N = 991 | Non-Liver, N = 4661 | p-value2 |
---|---|---|---|
Ionizable % | 35 (25, 50) | 39 (35, 50) | <0.001 |
Helper % | 16 (10, 24) | 16 (10, 24) | 0.6 |
Unknown | 0 | 11 | |
Sterol % | 39 (38, 48) | 39 (30, 47) | <0.001 |
Unknown | 11 | 33 | |
PEGylated % | 2.50 (1.50, 4.76) | 2.50 (1.50, 3.42) | 0.3 |
Unknown | 0 | 3 | |
1 Median (IQR) | |||
2 Wilcoxon rank sum test |
Meta analysis of lipid nanoparticle biodistribution
Liver only vs non-liver
An alternative analysis of majority liver vs non-liver: report.
Descrptive analysis
A total of 675 records were included in the data. Consider two classes:
- Class 1 (\(N=\) 99): liver only meaning that liver=1 and all others=0
- Class 2 (\(N=\) 466): non-liver included meaning that any other > 0 regardless of liver = 0 or 1
Model building
- Outcome: Liver only (\(n=\) 99) vs non-liver (\(n=\) 466);
- Predictors (\(p\) = 2885):
- Helper %, Ionizable %, PE-gylated %;
- IL: 963 descriptors;
- Helper: 963 descriptors;
- PE-gylated: 956 descriptors.
Data splitting & preprocessing
Data are randomly split 3:1 into:
- Training set \(n=\) 423 (74 liver only \(+\) 349 non-liver);
- Test set \(n=\) 142 (25 liver only \(+\) 117 non-liver).
After removing zero-variance predictors, the training set contains \(p\) = 1420 predictors.
- Helper %, Ionizable %, PE-gylated %;
- IL: 612 descriptors;
- Helper: 435 descriptors;
- PE-gylated: 370 descriptors.
Random forests
- 10-fold cross-validation on training set to tune:
mtry
(number of variables randomly sampled at each split);min_n
(minimum number of observations in terminal nodes);
- Tuning results:
- Performance insensitive to
mtry
; use default (square root of the number of predictors); min_n
= 9 yields the best AUC (0.811; Figure 2).
- Performance insensitive to
- Performance of final model on test set (\(n\) = 142) and variance importance (Figure 3):
- AUC = 0.85;
- Accuracy = 0.831.
Gradient boosted trees (XGBoost)
- 10-fold cross-validation on training set to tune:
min_n
(minimum number of observations in terminal nodes);mtry
(number of variables randomly sampled at each split).
- Tuning results:
min_n
= 7 andmtry
= 681 yields the best AUC (0.824).
- Performance of final model on test set (\(n\) = 142) and variance importance (Figure 4):
- AUC = 0.821;
- Accuracy = 0.838.
Single tree
- 10-fold cross-validation on training set to tune:
min_n
(minimum number of observations in terminal nodes);tree_depth
(maximum depth of the tree).
- Tuning results:
min_n
= 10 andtree_depth
= 11 yields the best AUC (0.75).
- Performance of final model on test set (\(n\) = 142) and variance importance (Figure 5):
- AUC = 0.749;
- Accuracy = 0.782.
The final tree structure is below:
Discussion
The final models are compared in terms of cross-validated (CV) and test-set AUC:
Model | CV AUC | Test AUC |
---|---|---|
Random forests | 0.811 | 0.850 |
XGBoost | 0.824 | 0.821 |
Decision tree | 0.750 | 0.749 |
The test ROC curves are plotted below:
- Performance: Random forests \(\approx\) XGBoost \(>\) Decision tree;
- Variance importance:
- Common variables on the top \(k\) \((k=10, 20, 50)\) lists of both random forests and XGBoost are shown below (Table 3);
- Besides the % of ionizable, helper, and PE-gylated, most important descriptors are IL-related.
k | Common variables |
---|---|
10 | Ionizable %, Helper %, IL ECCEN, PEGylated %, IL JGI9 |
20 | Ionizable %, Helper %, IL ECCEN, PEGylated %, IL JGI9, IL ETA_EtaP_L, IL WTPT-4, IL Kier2 |
50 | Ionizable %, Helper %, IL ECCEN, PEGylated %, IL JGI9, IL ETA_EtaP_L, IL WTPT-4, IL Kier2, IL BCUTc-1h, IL CrippenLogP, IL BCUTp-1l, IL AVP-3, IL nAtomLC, IL topoDiameter, IL MAXDN, IL AVP-2, IL BCUTc-1l, IL ETA_EtaP, IL hmin, IL sumI, IL MAXDP2 |
The top 50 lists of most important variables for all three models are provided below.
Rank | Random Forests | XGBoost | Decision Tree |
---|---|---|---|
1 | Ionizable % | Ionizable % | IL Mp |
2 | IL Mp | PEGylated % | IL Mi |
3 | Helper % | Helper % | IL BCUTc-1h |
4 | IL AMW | IL C2SP3 | IL ndO |
5 | IL ECCEN | IL JGI9 | IL AMW |
6 | IL WTPT-3 | IL ECCEN | IL ETA_Eta_F_L |
7 | PEGylated % | IL AVP-2 | Ionizable % |
8 | IL Mi | IL ETA_Eta_F_L | IL C1SP2 |
9 | IL ALogp2 | IL RotBtFrac | IL ETA_Eta_F |
10 | IL JGI9 | IL Kier2 | IL nAtomLC |
11 | IL MW | IL ETA_EtaP_L | IL nHBAcc_Lipinski |
12 | IL BCUTw-1h | IL sumI | IL nHBAcc2 |
13 | IL ETA_EtaP_L | IL ETA_Shape_P | IL ETA_Beta |
14 | IL WTPT-4 | IL nAtomLC | IL WTPT-4 |
15 | IL Kier2 | IL WTPT-4 | IL SP-2 |
16 | IL Kier1 | IL RotBFrac | IL MAXDP2 |
17 | IL hmax | IL ASP-3 | IL MAXDP |
18 | IL BCUTc-1h | IL ETA_EtaP | IL BCUTp-1l |
19 | IL CrippenLogP | IL nAtomLAC | IL ETA_AlphaP |
20 | IL ETA_AlphaP | IL MDEC-11 | IL ETA_dAlpha_A |
21 | IL DELS2 | IL BCUTc-1h | IL gmax |
22 | IL ETA_Eta_F | IL AVP-3 | IL HybRatio |
23 | IL BCUTp-1l | IL AVP-5 | IL hmin |
24 | IL AMR | IL JGI8 | IL C2SP2 |
25 | IL ETA_EtaP_F_L | IL BCUTc-1l | IL nBondsD |
26 | IL DELS | IL AVP-0 | IL nBondsD2 |
27 | IL AVP-3 | IL WTPT-2 | IL nBondsM |
28 | IL nAtomLC | Helper-SP-3 | IL nwHBa |
29 | IL topoDiameter | IL ASP-1 | IL AMR |
30 | IL MAXDN | IL topoDiameter | IL apol |
31 | IL ALogP | IL MDEN-33 | IL nAtom |
32 | IL VP-1 | PEGylated- SC-3 | IL nHeavyAtom |
33 | IL ETA_EtaP_F | IL MAXDN | IL ETA_BetaP_s |
34 | IL AVP-2 | IL JGI1 | IL ETA_dBetaP |
35 | IL SP-1 | IL C3SP3 | IL MDEN-13 |
36 | IL BCUTc-1l | PEGylated- SPC-5 | IL hmax |
37 | IL ETA_EtaP | IL hmin | IL BCUTp-1h |
38 | IL MLogP | IL JGI10 | IL GGI7 |
39 | IL WPATH | IL MAXDP2 | IL WTPT-5 |
40 | IL fragC | IL CrippenLogP | IL BCUTw-1h |
41 | IL hmin | IL JGI4 | IL SPC-4 |
42 | IL VP-2 | Helper-nHsNH2 | IL ALogP |
43 | IL nHBa | IL ETA_EtaP_B | IL ALogp2 |
44 | IL sumI | IL gmin | IL AVP-1 |
45 | IL BCUTw-1l | IL VP-0 | IL AVP-2 |
46 | IL ETA_Epsilon_1 | IL gmax | IL Mv |
47 | IL SP-4 | IL BCUTp-1l | IL ASP-4 |
48 | IL VABC | IL MDEO-11 | IL DELS |
49 | IL JGI7 | IL nBondsD | IL ASP-2 |
50 | IL MAXDP2 | IL ASP-2 | IL ASP-6 |
Rank | RF | RF_score | XGB | XGB_score | Tree | Tree_score |
---|---|---|---|---|---|---|
1 | Ionizable % | 1.35 | Ionizable % | 12.76 | IL Mp | 13.84 |
2 | IL Mp | 0.74 | PEGylated % | 6.91 | IL Mi | 11.67 |
3 | Helper % | 0.67 | Helper % | 5.71 | IL BCUTc-1h | 9.19 |
4 | IL AMW | 0.64 | IL C2SP3 | 2.88 | IL ndO | 8.08 |
5 | IL ECCEN | 0.63 | IL JGI9 | 2.35 | IL AMW | 7.99 |
6 | IL WTPT-3 | 0.61 | IL ECCEN | 2.30 | IL ETA_Eta_F_L | 7.24 |
7 | PEGylated % | 0.60 | IL AVP-2 | 2.21 | Ionizable % | 7.05 |
8 | IL Mi | 0.58 | IL ETA_Eta_F_L | 2.00 | IL C1SP2 | 6.95 |
9 | IL ALogp2 | 0.51 | IL RotBtFrac | 1.88 | IL ETA_Eta_F | 6.76 |
10 | IL JGI9 | 0.48 | IL Kier2 | 1.87 | IL nAtomLC | 6.57 |
11 | IL MW | 0.48 | IL ETA_EtaP_L | 1.79 | IL nHBAcc_Lipinski | 6.32 |
12 | IL BCUTw-1h | 0.47 | IL sumI | 1.70 | IL nHBAcc2 | 6.32 |
13 | IL ETA_EtaP_L | 0.47 | IL ETA_Shape_P | 1.63 | IL ETA_Beta | 6.28 |
14 | IL WTPT-4 | 0.46 | IL nAtomLC | 1.51 | IL WTPT-4 | 6.28 |
15 | IL Kier2 | 0.46 | IL WTPT-4 | 1.48 | IL SP-2 | 5.73 |
16 | IL Kier1 | 0.46 | IL RotBFrac | 1.46 | IL MAXDP2 | 5.21 |
17 | IL hmax | 0.45 | IL ASP-3 | 1.42 | IL MAXDP | 5.16 |
18 | IL BCUTc-1h | 0.45 | IL ETA_EtaP | 1.40 | IL BCUTp-1l | 5.13 |
19 | IL CrippenLogP | 0.44 | IL nAtomLAC | 1.38 | IL ETA_AlphaP | 5.00 |
20 | IL ETA_AlphaP | 0.43 | IL MDEC-11 | 1.37 | IL ETA_dAlpha_A | 5.00 |
21 | IL DELS2 | 0.42 | IL BCUTc-1h | 1.27 | IL gmax | 4.97 |
22 | IL ETA_Eta_F | 0.41 | IL AVP-3 | 1.27 | IL HybRatio | 4.68 |
23 | IL BCUTp-1l | 0.41 | IL AVP-5 | 1.21 | IL hmin | 4.29 |
24 | IL AMR | 0.40 | IL JGI8 | 1.19 | IL C2SP2 | 3.74 |
25 | IL ETA_EtaP_F_L | 0.39 | IL BCUTc-1l | 1.11 | IL nBondsD | 3.74 |
26 | IL DELS | 0.39 | IL AVP-0 | 1.08 | IL nBondsD2 | 3.74 |
27 | IL AVP-3 | 0.39 | IL WTPT-2 | 1.02 | IL nBondsM | 3.74 |
28 | IL nAtomLC | 0.39 | Helper-SP-3 | 1.01 | IL nwHBa | 3.74 |
29 | IL topoDiameter | 0.38 | IL ASP-1 | 0.99 | IL AMR | 3.59 |
30 | IL MAXDN | 0.38 | IL topoDiameter | 0.96 | IL apol | 3.59 |
31 | IL ALogP | 0.38 | IL MDEN-33 | 0.93 | IL nAtom | 3.59 |
32 | IL VP-1 | 0.37 | PEGylated- SC-3 | 0.85 | IL nHeavyAtom | 3.59 |
33 | IL ETA_EtaP_F | 0.36 | IL MAXDN | 0.81 | IL ETA_BetaP_s | 3.51 |
34 | IL AVP-2 | 0.36 | IL JGI1 | 0.81 | IL ETA_dBetaP | 3.51 |
35 | IL SP-1 | 0.36 | IL C3SP3 | 0.79 | IL MDEN-13 | 3.51 |
36 | IL BCUTc-1l | 0.35 | PEGylated- SPC-5 | 0.79 | IL hmax | 2.79 |
37 | IL ETA_EtaP | 0.35 | IL hmin | 0.77 | IL BCUTp-1h | 2.66 |
38 | IL MLogP | 0.35 | IL JGI10 | 0.77 | IL GGI7 | 2.66 |
39 | IL WPATH | 0.35 | IL MAXDP2 | 0.76 | IL WTPT-5 | 2.66 |
40 | IL fragC | 0.35 | IL CrippenLogP | 0.76 | IL BCUTw-1h | 2.59 |
41 | IL hmin | 0.34 | IL JGI4 | 0.73 | IL SPC-4 | 2.53 |
42 | IL VP-2 | 0.34 | Helper-nHsNH2 | 0.72 | IL ALogP | 1.74 |
43 | IL nHBa | 0.34 | IL ETA_EtaP_B | 0.71 | IL ALogp2 | 1.74 |
44 | IL sumI | 0.33 | IL gmin | 0.67 | IL AVP-1 | 1.74 |
45 | IL BCUTw-1l | 0.33 | IL VP-0 | 0.64 | IL AVP-2 | 1.74 |
46 | IL ETA_Epsilon_1 | 0.33 | IL gmax | 0.62 | IL Mv | 1.74 |
47 | IL SP-4 | 0.33 | IL BCUTp-1l | 0.61 | IL ASP-4 | 1.73 |
48 | IL VABC | 0.33 | IL MDEO-11 | 0.57 | IL DELS | 1.73 |
49 | IL JGI7 | 0.33 | IL nBondsD | 0.56 | IL ASP-2 | 1.63 |
50 | IL MAXDP2 | 0.33 | IL ASP-2 | 0.54 | IL ASP-6 | 1.63 |