Miminimum p-value to assess cut-off for HIPEC efficacy

Author

Artemiy Okhotin

Published

November 3, 2024

Обсуждение вот этого протокола: https://t.me/sir_William_Osler/800

Введение

Есть метод лечения метастазов в брюшной полости с помощью горячей химиотерапии (HIPEC). Авторы хотят оценить эффективность метода в зависимости от используемого температурного режима.

D – температурное воздействие химиотерапии. Y – излечение от рака.

В качестве измеряемой переменной, соответствующей воздействию (D*), авторы берут процент времени, при котором химиотерапевтический препарат выходит из брюшной полости с определенной температурой. Все фактически случившиеся температурные режимы они делят на 16 комбинаций по температуре и времени, в течение которого эта температура была достигнута.

Temperature regimens
> 40 > 40.5 > 41 > 41.5
> 65% 1 5 9 13
> 70% 2 6 10 14
> 75% 3 7 11 15
> 80% 4 8 12 16

В качестве меры исхода они берут безрецидивную выживаемость (то есть время до смерти или прогрессирования рака).

Почему бы не посчитать регрессию?

Простым (привычным) способом сравнения было бы сделать регрессию и посмотреть как выживаемость зависит от двух переменных (процент времени и температура) и их взаимодействия. Что-нибудь вроде:

\[Y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \beta_3x_1x_2 + \epsilon\]

где \(x_1\) – минимальное время, \(x_2\) – минимальная температура, характеризуюшие режим терапии.

Но авторы используют другой подход. Они проверяют множество гипотез и ищут минимальный \(p\)-value. Законно ли это, спросите вы? Не есть ли это \(p\)-fishing? Да, это \(p\)-fishing, но это законно.

Такие подходы иногда используются, и авторы приводят примеры.

Примеры законного p-fishing

Первый пример – это генетика. Когда надо найти ген (аллель), ассоциированный с болезнь, а генов очень много, то используется такой подход. Оценивается p-value для ассоциации аллеля с болезнью для всех аллелей (их могут быть тысячи), в надежде, что если ассоциация существенная, то p-value будет настолько мал, что эффект множественности сравнений нам не повредит и не нивелирует эффект.

Вот пример такого анализа:

Здесь на верхнем графие красными обозначены ассоциации с p < 2.6 x 10^{-8}, а на нижне – с p < 5 x 10^{-6}. Всего же проанализовано 19021 генов. То есть это такой p-fishing огромным неводом. Похоже на браконьерство, но это все еще законно. Small et al. (2023)

Второй пример, который приводят авторы – это инженерия. С помощью такого p-фишинга ищут порог прочности детали. Допустим, есть болт, который срывает гайку при определенном усилии. Проведем 10 000 экспериментов с разным усилием. Если мы проведем статистический анализ такого эксперимента обычными медицинскими методами, то есть посчитаем p-value для ассоциации между усилием и риском сорвать гайку, результат будет предсказуем, но бесполезен: да, усилие ассоциировано с риском сорвать гайку. Но инженера интересует другое: где то усилие, выше которого риск сорвать гайку резко возрастает.

Можно поделить все эксперименты на разбиения в зависимости от порога и посчитать p-value для каждого из них (скажем, методом ^{2}). Самым маленьким p-value будет то, при котором экесперименты разделятся так, что ниже порога гайка будет срываться очень редко, а выше – очень часто. Это вполне вероятно, потому что так устроены гайки. И инженер будет знать, что стоит держаться подальше от этого порога.

Наш случай

Авторы приводят эти два примера через запятую, чтобы оправдать применение метода. Но мне кажется, что эти примеры совершенно разные, потому что за ними стоят совершенно разные гипотезы.

За первым, генетическим примером, стоит гипотеза, что среди тысяч генов есть один или несколько, ассоциированных с болезнь и нам надо найти их перебором. Тут применение p-фишинга выглядит оправданным: а как еще, кроме как перебором, искать иголку в стоге сена?

Второй, инженерный пример, основан на совершенно иных предположениях. Он предполагает как данность, что есть ассоциация между воздействием и исходом. Инженеру очевидно, что есликак слишком сильно затянуть болт, гайка в какой-то момент не выдержит. Задача – только найти этот момент.

Вопрос, на какой пример, первый или второй, больше похоже исследование авторов? Авторы не ищут случайную комбинацию температуры и времени воздействия, которая волшебным образом окажется самой эффективной. Они предполагают, что есть порог, выше которого воздействие эффективно. То есть они, как инженер, не сомневаются в эффективности метода. Иначе им было бы достаточно провести регрессионный анализ и показать, что метод работает, p < 0.05. Но они так не делают, они ищут порог, чтобы потом не снижать температурный режим лечения ниже этого порога.

Что же конкретно они делают?

Они берут 16 возможных разделений режимов на две группы:

Считают p-value лог-ранг теста для кривых безрецидивной выживаемости для режимов ниже порога и режимов выше порога. И затем смотрят, какой p-value самый маленький.

Но есть некоторый признаки того, что они все-таки сомневаются в эффективности метода и побаиваются, что их p-fishing выловит им какую-нибудь консервную банку или башмак. Для этого они делают довольно интересную коррекцию на множественность сравнений. А именно, они к тем 16 разбиениям температурных режимов на 2 группы добавляют еще 1000 совершенно случайных разбиений, типа такого:

и говорят, если наши p-value будут случайными, они потеряются в этих 1000 случайных сравнений. А если они настоящие, то они будут торчать на их фоне пиками как в генетических графиках.

Непонятно

Тут я возможно не все понял, но мне это кажется сомнительным. Потому что p-value уже содержит в себе информацию о том, насколько найденная ассоциация отличается от белого шума. От того, что мы добавим этого белого шума, ничего не поменяется. Результат или значим или нет. Можно скорректировать его на множественность 16 сравнений, но зачем добавлять еще 1000 заведомо случайных комбинаций? Разве, что если есть сомнения, что p-values сичтают корректно, и сделать таким образом контроль. Кроме того, мне кажется, что такая проверка выглядт так, как будто авторы не до конца уверены в эффективности метода. Но тогда сам по себе поиск порога с помощью минимального значения p выглядит сомнительным. Может быть тогда стоит сначала показать обычными методами (пусть и обсервационныыми), что метод эффективен: то есть с помощью просто регрессии показать, что есть дозозависимость (это, кстати, очень важный критерий Хилла причинности для обсервационных исследований). Но мне кажется, что в отличие от инженера, который из физических законов знает, что любую гайку можно сорвать, мы не знаем, всегда ли можно так нагреть химиотерапию, что она улучшит прогноз.

Итак

  1. Воздействие – горячая химиотерапия. Мера воздействия – процент времени выше определенной температуры на выходе (два параметра, поделенных на 4 интервала, дающих вместе 16 групп режимов).

  2. Исход – излечение рака. Мера исхода – безрецидивная выживаемость.

  3. Гипотеза – есть порог, выше которого эффективность очень резко повышается.

  4. Предпосылка – горячая химиотерапия эффективна beyond reasonable doubt.

  5. Задача – найти этот порог.

На мой скромный взгляд рядового читателя, методы описаны непонятно. Без длительных обсуждений с автором статьи и его консультантом по статистическим методам понять ничего бы не удалось. И нет уверенности, что я все понял правильно. Интересно будет почитать изложение методов в финальной версии статьи.

Обсуждение методов можно почитать в комментариях к посту в чат-канале Data Medicine (там об этом пишут более знающие люди, чем я, но тоже не всегда понятно).

References

Small, Aeron M., Gina M. Peloso, Jason Linefsky, Jayashri Aragam, Ashley Galloway, Vidisha Tanukonda, Lu-Chen Wang, et al. 2023. “Multiancestry Genome-Wide Association Study of Aortic Stenosis Identifies Multiple Novel Loci in the Million Veteran Program.” Circulation 147 (12): 942–55. https://doi.org/10.1161/circulationaha.122.061451.