Мифы

За ваши заблуждения

Бьём без предупреждения.

А наши заблуждения

Достойны снисхождения.

Герман Лукомников

.

Disclaimer: картинки с чужих презентаций взяты в ознакомительных целях.

Эксперимент

Котики

Витамины

Вопрос: увеличивают ли витамины красоту?

Как поставить эксперимент?

“Если бы, да кабы” (counterfactuals)

Средний эффект

Различия групп: случайные и систематические

Конфаундеры

Рандомизация

Все совпадения случайны

Все различия случайны

В долгосрочной перспективе…

“Начнем с таблицы 1…” (примеры из ЖК)

Дисбаланс (17 и 11% – это довольно много)
https://www.youtube.com/watch?v=uiybI6MP6gU&t=2357s

По таблице 1 мы можем оценить наличие или отсутствие каких-то искажений https://vk.com/video-142233093_456239175 (11:48)

ищем вмешивающиеся факторы в таблице 1 https://youtu.be/33NvzvbQacI?si=VcdyUtecVd4mVIr8&t=5271

Нужны p-values, чтобы показать, что различия статистически незначимы
https://www.youtube.com/watch?v=33NvzvbQacI&t=5075s

Есть ли искажения?

https://www.youtube.com/watch?v=OWZdQQlNj9w

Таблица 1

Fox et al. (2025)

В чем проблема дисбаланса?

Как повлияет на исходы?
Котики Лечение (n = 50) Контроль (n = 50)
Трехцветные 10 30
Обычные 30 10

Рандомизация не удалась (миф?)

Пример 1 (Mareev and Mareev 2020)

Распределение p-values

Пример 2 (Li et al. 2022)

P-values

Пример 3 (Fitilev et al. 2022)

Посчитаем P-values

'data.frame':   30 obs. of  4 variables:
 $ Показатель   : chr  "Женщины, %" "Возраст (Ме (Q1-Q3)), лет" "Стабильная стенокардия, %" "Инфаркт миокарда, %" ...
 $ Общая_выборка: chr  "44.7" "64.5 (70.0-75.0)" "43.9" "68.3" ...
 $ Вмешательство: chr  "61.9" "70.0 (65.0-75.0)" "46.0" "65.1" ...
 $ Контроль     : chr  "48.3" "70.0 (62.8-74.2)" "41.7" "71.7" ...
# A tibble: 24 × 5
   Characteristic                  Total Treatment Control      p
   <chr>                           <dbl>     <dbl>   <dbl>  <dbl>
 1 Женщины, %                       44.7      61.9    48.3 0.183 
 2 Стабильная стенокардия, %        43.9      46      41.7 0.760 
 3 Инфаркт миокарда, %              68.3      65.1    71.7 0.555 
 4 Артериальная гипертензия, %      89.4      90.5    88.3 0.926 
 5 Фибрилляция предсердий, %        22.8      15.9    30   0.0984
 6 Хроническая болезнь почек, %     21.1      15.9    26.7 0.213 
 7 Сахарный диабет, %               28.4      20.6    36.7 0.0768
 8 Заболевания органов дыхания, %    7.3       9.5     5   0.537 
 9 Бета-блокаторы, %                83.7      77.8    90   0.111 
10 Блокаторы кальциевых каналов, %  41.5      46      36.7 0.384 
# ℹ 14 more rows

Распределение p-values

Распределение p-values для ковариат

Characteristic 0
N = 4861
1
N = 5141
p-value2
A 95 (20%) 99 (19%) >0.9
B 145 (30%) 174 (34%) 0.2
C 197 (41%) 210 (41%) >0.9
D 247 (51%) 252 (49%) 0.6
E 303 (62%) 312 (61%) 0.6
FF 340 (70%) 374 (73%) 0.3
G 393 (81%) 399 (78%) 0.2
H 448 (92%) 464 (90%) 0.3
I 397 (82%) 403 (78%) 0.2
J 322 (66%) 343 (67%) 0.9
K 300 (62%) 295 (57%) 0.2
L 246 (51%) 259 (50%) >0.9
M 192 (40%) 210 (41%) 0.7
N 144 (30%) 140 (27%) 0.4
O 83 (17%) 110 (21%) 0.083
P 38 (7.8%) 54 (11%) 0.14
Q 90 (19%) 95 (18%) >0.9
R 123 (25%) 169 (33%) 0.008
S 200 (41%) 200 (39%) 0.5
TT 221 (45%) 255 (50%) 0.2
U 291 (60%) 305 (59%) 0.9
V 356 (73%) 384 (75%) 0.6
W 401 (83%) 419 (82%) 0.7
X 434 (89%) 464 (90%) 0.6
Y 402 (83%) 407 (79%) 0.2
Z 346 (71%) 349 (68%) 0.3
1 n (%)
2 Pearson’s Chi-squared test

Распределение p-values для ковариат

Рандомизация работает только на больших группах (миф?)

https://youtu.be/OWZdQQlNj9w

Дисбаланс и размер выборки (p = 0.05)

(спасибо DeepSeek)

Промежуточный итог

Дисбаланc ковариат — это нормально, это свойство рандомизации.

Рандомизация позволяет предсказать вероятность дисбаланса (p<0.05 – в 5%)

Вероятность “дисбаланса” исхода (при H0) c p < 0.05 тоже 5%

Большая выборка (а не рандомизация сама по себе) позволяет сделать статистически значимый баланс незначимым клинически (а значимый клинически – совсем невероятным, но не невозможным)

Зависимость p-values от размера эффекта при разных выборках (ссылка на ppt)

Что такое сопоставимость групп?

Altman (1985)

Надо ли уравновешивать ковариаты?

Уменьшит ли это ошибки?

Ошибка I рода (значимость, специфичность)

Ошибка II рода (мощность, чувствительность)

Улучшит ли это точность оценки?

Прогностически значимые ковариаты

Котики Лечение (n = 50) Контроль (n = 50)
Трехцветные
(красота 5)
10 20
Черные
(красота 1)
40 30
Средняя красота
(без витаминов)
\(\frac{10 \times 5 + 40 \times 1}{50} =\) 1,8 \(\frac{20 \times 5 + 30 \times 1}{50} =\) 2,6

Прогностически значимые ковариаты

Котики Лечение (n = 50) Контроль (n = 50)
Трехцветные
(красота 5)
15 15
Черные
(красота 1)
35 35
Средняя красота
(без витаминов)
\(\frac{15 \times 5 + 35 \times 1}{50} =\) 2,2 \(\frac{15 \times 5 + 35 \times 1}{50} =\) 2,2

Как уравновесить ковариаты?

https://md.school/blog/randomizirovannoe-klinicheskoe-issledovanie

Стратифицированная рандомизация: участники сначала разделяются на страты на основе определенных характеристик, например, возраста или стадии заболевания, а затем внутри каждой страты происходит случайное распределение по группам исследования. Это позволяет убедиться, что группы сбалансированы по наиболее важным характеристикам. В исследовании эффекта диеты на снижение веса стратификация может быть выполнена по полу и возрасту.

Как работает стратификация

“реально получаем хорошие выборки, которые можно между собой сравнивать” https://youtu.be/OWZdQQlNj9w

Как работает стратификация

Блоковая рандомизация (permutated blocks)

AB BA

AABB ABAB ABBA BAAB BABA BBAA

AAABBB AABBBA AABBAB AABABB …

Стратификация обеспечивает сопоставимость групп (миф?)

(Altman 1985)

Все группы сопоставимы

Стратификация снижает риск ошибки первого рода (миф?)

Ошибка первого рода – фальшивый результат (с “p < 0.05”).

Stratified randomization prevents imbalance between treatment groups for known factors that influence prognosis or treatment responsiveness. As a result, stratification may prevent type I error and improve power for small trials (400 patients), but only when the stratification factors have a large effect on prognosis.

(Feinstein and Landis 1976)

Снижение ошибки I рода

(Feinstein and Landis 1976)

Ошибка первого рода задается исследователем

Уровень значимости, \(\alpha\).

(Fox et al. 2025)

Cтратификация

Что будет с оценкой эффекта?

Что будет с p-values при стратификации?

Нужные другие отсечки для p-values

Стратификация снижает риск ошибки II рода

Более маленькие эффекты выходят за границу, соответствующую “p = 0,05”

См. симулятор. https://datamedicine.ru/randomyze-analyze/

Что случится с p-values? (H0 верна)

Второй промежуточный итог

Стратификация устраняет дисбаланс (но только на выбранные ковариаты)

Если они прогностически значимы, повышается точнось оценки эффекта (растет мощность)

Обязательно анализировать с поправкой на ковариаты, по которым проводилась стратификация (иначе будет хуже, чем было)

Поправка на ковариаты повышает точность оценки и мощность исследования

При больших выборках (несколько сотен) эффект стратифицированной рандомизации исчезает, а эффект анализа с поправкой на ковариаты сохраняется

В таблице 1 надо репортировать p-values (миф?)

p-values репортировать не надо, потому что p-values тестируют гипотезу об отсутствии систематических различий. Но мы и так знаем, что она верна (если рандомизация действительно проводилась).

Тем не менее, мы можем сами посчитать p-values, если нам гипотеза о рандомизации кажется сомнительной.

Нужна ли вообще рандомизация

Минимизация

(Senn 2004) (все на самом деле сложно)

Антимифы

Неудачная рандомизация бывает!

И ее признак – дисбаланс ковариат.

И его оценивают с помощью p-values.

T. C. Chalmers (1975) Неслепая рандомизация ассоциирована с дисбалансом в пользу лечения

Clark et al. (2022) Маленькие блоки ассоциированы с дисбалансом в пользу лечения

Данные иногда подделывают (метод Карлайла)!

Неслепая рандомизация (Thomas C. Chalmers et al. 1983)

Итоги

Не начинайте критику исследования с таблицы 1

Не помещайте в таблицу 1 p-values и не ищите их там

Стратифицируйте для увеличения мощности и точности оценки (если повезет с ковариатами)

Как рандомизируете, так и анализируйте

Если результат получен несмотря на “дисбаланс”, это никак его не умаляет

Рандомизация – не перемешивание, а способ получения выборок с известными вероятностями получения случайных эффектов

Рандомизация исключает конфаундеры (заменяет их случайностью)

Фишер и Сенн

Ссылки

Altman, Douglas G. 1985. “Comparability of Randomised Groups.” The Statistician 34 (1): 125. https://doi.org/10.2307/2987510.
Chalmers, T. C. 1975. “Randomization of the First Patient.” Medical Clinics of North America 59 (4): 1035–38. https://doi.org/10.1016/S0025-7125(16)32001-6.
Chalmers, Thomas C., Paul Celano, Henry S. Sacks, and Harry Smith. 1983. “Bias in Treatment Assignment in Controlled Clinical Trials.” New England Journal of Medicine 309 (22): 1358–61. https://doi.org/10.1056/nejm198312013092204.
Clark, Laura, Lauren Burke, Rachel Margaret Carr, Elizabeth Coleman, Gareth Roberts, and David J. Torgerson. 2022. “A Review Found Small Variable Blocking Schemes May Not Protect Against Selection Bias in Randomized Controlled Trials.” Journal of Clinical Epidemiology 141 (January): 90–98. https://doi.org/10.1016/j.jclinepi.2021.09.009.
Feinstein, Alvan R., and J.Richard Landis. 1976. “The Role of Prognostic Stratification in Preventing the Bias Permitted by Random Allocation of Treatment.” Journal of Chronic Diseases 29 (4): 277–84. https://doi.org/10.1016/0021-9681(76)90080-1.
Fitilev, S. B., A. V. Vozzhaev, D. A. Klyuev, I. I. Shkrebniova, N. N. Shindryaeva, L. N. Saakova, and Yu. V. Shkirando. 2022. “Effects of Pharmacy Care Program on Medication Adherence in Outpatients with Stable Coronary Artery Disease: A Randomized Controlled Study.” Cardiovascular Therapy and Prevention 20 (8): 3069. https://doi.org/10.15829/1728-8800-2021-3069.
Fox, Robert J., Amit Bar-Or, Anthony Traboulsee, Celia Oreja-Guevara, Gavin Giovannoni, Patrick Vermersch, Sana Syed, et al. 2025. “Tolebrutinib in Nonrelapsing Secondary Progressive Multiple Sclerosis.” New England Journal of Medicine, April. https://doi.org/10.1056/nejmoa2415988.
Li, V. V., Ye. D. Dalenov, L. K. Dzeranova, S. V. Kim, A. V. Bazarova, S. K. Tarjibayeva, N. V. Slivkina, and I. S. Kim. 2022. “The Effect of a Structured Non-Pharmacological Treatment of Type 2 Diabetes on Glycated Hemoglobin and Body Weight: A Randomized Controlled Trial.” Diabetes Mellitus 25 (6): 523–34. https://doi.org/10.14341/dm12882.
Mareev, V. Yu., and Yu. V. Mareev. 2020. “Influence of Omega-3 PUFA on Non-Invasive Factors Determining the Risk of arrhYthmias eXcess and Sudden Cardiac Death in Patients with HFpEF with Ischemic Etiology (ONYX).” Kardiologiia 60 (10): 86–98. https://doi.org/10.18087/cardio.2020.10.n1327.
Senn, Stephen. 2004. “Controversies Concerning Randomization and Additivity in Clinical Trials.” Statistics in Medicine 23 (24): 3729–53. https://doi.org/10.1002/sim.2074.