Мифы
За ваши заблуждения
Бьём без предупреждения.
А наши заблуждения
Достойны снисхождения.
Герман Лукомников
.
Disclaimer: картинки с чужих презентаций взяты в ознакомительных целях.
Эксперимент
Котики
Витамины
Вопрос: увеличивают ли витамины красоту?
Как поставить эксперимент?
“Если бы, да кабы” (counterfactuals)
Средний эффект
Различия групп: случайные и систематические
Конфаундеры
Рандомизация
Все совпадения случайны
Все различия случайны
В долгосрочной перспективе…
Таблица 1
Fox et al. (2025)
В чем проблема дисбаланса?
Как повлияет на исходы?
| Трехцветные |
10 |
30 |
| Обычные |
30 |
10 |
Рандомизация не удалась (миф?)
Распределение p-values
P-values
Посчитаем P-values
'data.frame': 30 obs. of 4 variables:
$ Показатель : chr "Женщины, %" "Возраст (Ме (Q1-Q3)), лет" "Стабильная стенокардия, %" "Инфаркт миокарда, %" ...
$ Общая_выборка: chr "44.7" "64.5 (70.0-75.0)" "43.9" "68.3" ...
$ Вмешательство: chr "61.9" "70.0 (65.0-75.0)" "46.0" "65.1" ...
$ Контроль : chr "48.3" "70.0 (62.8-74.2)" "41.7" "71.7" ...
# A tibble: 24 × 5
Characteristic Total Treatment Control p
<chr> <dbl> <dbl> <dbl> <dbl>
1 Женщины, % 44.7 61.9 48.3 0.183
2 Стабильная стенокардия, % 43.9 46 41.7 0.760
3 Инфаркт миокарда, % 68.3 65.1 71.7 0.555
4 Артериальная гипертензия, % 89.4 90.5 88.3 0.926
5 Фибрилляция предсердий, % 22.8 15.9 30 0.0984
6 Хроническая болезнь почек, % 21.1 15.9 26.7 0.213
7 Сахарный диабет, % 28.4 20.6 36.7 0.0768
8 Заболевания органов дыхания, % 7.3 9.5 5 0.537
9 Бета-блокаторы, % 83.7 77.8 90 0.111
10 Блокаторы кальциевых каналов, % 41.5 46 36.7 0.384
# ℹ 14 more rows
Распределение p-values
Распределение p-values для ковариат
| A |
95 (20%) |
99 (19%) |
>0.9 |
| B |
145 (30%) |
174 (34%) |
0.2 |
| C |
197 (41%) |
210 (41%) |
>0.9 |
| D |
247 (51%) |
252 (49%) |
0.6 |
| E |
303 (62%) |
312 (61%) |
0.6 |
| FF |
340 (70%) |
374 (73%) |
0.3 |
| G |
393 (81%) |
399 (78%) |
0.2 |
| H |
448 (92%) |
464 (90%) |
0.3 |
| I |
397 (82%) |
403 (78%) |
0.2 |
| J |
322 (66%) |
343 (67%) |
0.9 |
| K |
300 (62%) |
295 (57%) |
0.2 |
| L |
246 (51%) |
259 (50%) |
>0.9 |
| M |
192 (40%) |
210 (41%) |
0.7 |
| N |
144 (30%) |
140 (27%) |
0.4 |
| O |
83 (17%) |
110 (21%) |
0.083 |
| P |
38 (7.8%) |
54 (11%) |
0.14 |
| Q |
90 (19%) |
95 (18%) |
>0.9 |
| R |
123 (25%) |
169 (33%) |
0.008 |
| S |
200 (41%) |
200 (39%) |
0.5 |
| TT |
221 (45%) |
255 (50%) |
0.2 |
| U |
291 (60%) |
305 (59%) |
0.9 |
| V |
356 (73%) |
384 (75%) |
0.6 |
| W |
401 (83%) |
419 (82%) |
0.7 |
| X |
434 (89%) |
464 (90%) |
0.6 |
| Y |
402 (83%) |
407 (79%) |
0.2 |
| Z |
346 (71%) |
349 (68%) |
0.3 |
Распределение p-values для ковариат
Рандомизация работает только на больших группах (миф?)
![]()
https://youtu.be/OWZdQQlNj9w
Дисбаланс и размер выборки (p = 0.05)
![]()
(спасибо DeepSeek)
Промежуточный итог
Дисбаланc ковариат — это нормально, это свойство рандомизации.
Рандомизация позволяет предсказать вероятность дисбаланса (p<0.05 – в 5%)
Вероятность “дисбаланса” исхода (при H0) c p < 0.05 тоже 5%
Большая выборка (а не рандомизация сама по себе) позволяет сделать статистически значимый баланс незначимым клинически (а значимый клинически – совсем невероятным, но не невозможным)
Зависимость p-values от размера эффекта при разных выборках (ссылка на ppt)
Что такое сопоставимость групп?
Altman (1985)
Надо ли уравновешивать ковариаты?
Ошибка I рода (значимость, специфичность)
Ошибка II рода (мощность, чувствительность)
Улучшит ли это точность оценки?
Прогностически значимые ковариаты
Трехцветные
(красота 5) |
10 |
20 |
Черные
(красота 1) |
40 |
30 |
Средняя красота
(без витаминов) |
\(\frac{10 \times 5 + 40 \times 1}{50} =\) 1,8 |
\(\frac{20 \times 5 + 30 \times 1}{50} =\) 2,6 |
Прогностически значимые ковариаты
Трехцветные
(красота 5) |
15 |
15 |
Черные
(красота 1) |
35 |
35 |
Средняя красота
(без витаминов) |
\(\frac{15 \times 5 + 35 \times 1}{50} =\) 2,2 |
\(\frac{15 \times 5 + 35 \times 1}{50} =\) 2,2 |
Как уравновесить ковариаты?
https://md.school/blog/randomizirovannoe-klinicheskoe-issledovanie
Стратифицированная рандомизация: участники сначала разделяются на страты на основе определенных характеристик, например, возраста или стадии заболевания, а затем внутри каждой страты происходит случайное распределение по группам исследования. Это позволяет убедиться, что группы сбалансированы по наиболее важным характеристикам. В исследовании эффекта диеты на снижение веса стратификация может быть выполнена по полу и возрасту.
Как работает стратификация
![]()
“реально получаем хорошие выборки, которые можно между собой сравнивать” https://youtu.be/OWZdQQlNj9w
Как работает стратификация
Блоковая рандомизация (permutated blocks)
AB BA
AABB ABAB ABBA BAAB BABA BBAA
AAABBB AABBBA AABBAB AABABB …
Стратификация обеспечивает сопоставимость групп (миф?)
(Altman 1985)
Стратификация снижает риск ошибки первого рода (миф?)
Ошибка первого рода – фальшивый результат (с “p < 0.05”).
Stratified randomization prevents imbalance between treatment groups for known factors that influence prognosis or treatment responsiveness. As a result, stratification may prevent type I error and improve power for small trials (400 patients), but only when the stratification factors have a large effect on prognosis.
(Feinstein and Landis 1976)
Ошибка первого рода задается исследователем
Уровень значимости, \(\alpha\).
![]()
(Fox et al. 2025)
Cтратификация
Что будет с оценкой эффекта?
Что будет с p-values при стратификации?
Нужные другие отсечки для p-values
Что случится с p-values? (H0 верна)
Второй промежуточный итог
Стратификация устраняет дисбаланс (но только на выбранные ковариаты)
Если они прогностически значимы, повышается точнось оценки эффекта (растет мощность)
Обязательно анализировать с поправкой на ковариаты, по которым проводилась стратификация (иначе будет хуже, чем было)
Поправка на ковариаты повышает точность оценки и мощность исследования
При больших выборках (несколько сотен) эффект стратифицированной рандомизации исчезает, а эффект анализа с поправкой на ковариаты сохраняется
В таблице 1 надо репортировать p-values (миф?)
p-values репортировать не надо, потому что p-values тестируют гипотезу об отсутствии систематических различий. Но мы и так знаем, что она верна (если рандомизация действительно проводилась).
Тем не менее, мы можем сами посчитать p-values, если нам гипотеза о рандомизации кажется сомнительной.
Нужна ли вообще рандомизация
Минимизация
(Senn 2004) (все на самом деле сложно)
Антимифы
Неудачная рандомизация бывает!
И ее признак – дисбаланс ковариат.
И его оценивают с помощью p-values.
T. C. Chalmers (1975) Неслепая рандомизация ассоциирована с дисбалансом в пользу лечения
Clark et al. (2022) Маленькие блоки ассоциированы с дисбалансом в пользу лечения
Данные иногда подделывают (метод Карлайла)!
Итоги
Не начинайте критику исследования с таблицы 1
Не помещайте в таблицу 1 p-values и не ищите их там
Стратифицируйте для увеличения мощности и точности оценки (если повезет с ковариатами)
Как рандомизируете, так и анализируйте
Если результат получен несмотря на “дисбаланс”, это никак его не умаляет
Рандомизация – не перемешивание, а способ получения выборок с известными вероятностями получения случайных эффектов
Рандомизация исключает конфаундеры (заменяет их случайностью)
Фишер и Сенн