Пусть мы наблюдаем когорту из 6000 человек. За год умерла половина и осталось 3000 человек. Какова mortality в этой когорте? Простой ответ — 50% или 500 на 1000 человек в год.
Для начала я объясню, чем плох этот ответ, за тем мы разберем, как точнее и какими способами оценивать mortality.
Рассмотрим более простой пример: пусть у нас есть 24 коровы и за год умерла половина. Предположим, что они умирали равномерно (линейно) — по 1 корове в месяц.
Мы можем это представить себе такой картинкой:
Если мы будем использовать “простой” способ расчета mortality, то у нас в первые полгода и во вторые полгода получатся разные результаты, потому что умерло одинаковое число коров, но исходно коров было разное количество — в начале года 24, а в начале второго полугодия — 18:
\[\frac{6}{24} = 0.25 \text{ за 6 месяцев} \]
\[\frac{6}{18} = 0.33 \text{ за 6 месяцев} \]
Если мы посмотрим месячную смертность, то она составит: 1/24 в первом месяце, 1/23 во втором, 1/22 в третьем и так далее, в декабре она составит 1/13. Получается, что mortality в начале года у нас значительно меньше, чем в конце (в этом примере почти в 2 раза – 1/24 и 1/13).
Таким образом, мы видим, что мера mortality за большой период может плохо оценивать меру mortality за составные части этого периода.
В чем же дело? Дело в том, что нас часто интересует не только, сколько всего пациентов умерло или заболело, а каков риск заболеть у других таких же пациентов. Данный конкретный пациент всегда или умер или нет, поэтому когда мы говорим о вероятности умереть, мы абстрагируемся от конкретных пациентов и пытаемся получить некоторую гипотетическую величину — скорость умирания или силу фактора смерти (mortality force). Эта величина называется mortality rate. Посчитать ее, в отличие от пропорции, нельзя, ее можно только оценить. Зная сколько умерло, мы можем предположить и оценить, какова была mortality rate.
Для оценки mortality rate мы берем число смертей по отношению к тому времени, когда этим смерти могли случиться. В знаменателе — не число пациентов, а то суммарное время, которое пациенты были живы и, значит, могли умереть. Потому что, чем дольше пациент подвергался риску, тем вероятнее, что он умрет. Это суммарное время называется time at risk.
Если мы вернемся к нашим коровам, то мы можем графически представить жизненные пути каждой коровы вот так:
Горизонтальные полоски – это отдельные коровы (они на графике умирают в конце месяца). К концу года в живых осталось 12 коров. Корова, которая уже умерла, не могла умереть второй раз, и ее time at risk считается только, пока она была жива (могла умереть, но не умерла). Выходит, что каждая корова имела возможность умереть разное время. Когда мы смотрели mortality в каждом месяце, мы считали число живых коров в начале этого месяца. Но мы можем поступить иначе: мы можем взять сумму всех времен жизни всех коров, когда они были под воздействием риска умереть. Это будет суммарное time at risk. Затем мы можем взять все случаи смерти и поделить на это время. Это будет mortality rate и измеряется оно в числе смертей на time-at-risk. Time-at-risk получают суммированием времен пациентов, а если у них времена одинаковые, то умножением числа пациентов на время, поэтому принято его измерять не просто во времени, а в пациенто-времени — patient-time.
При таком расчете мы получаем усредненное за время наблюдения mortality rate, а на самом деле он мог быть высоким в начале, низким в конце или наоборот, как в примере с коровами. Но если мы не знаем, как он был распределен, то это вполне хорошая оценка.
Если мы знаем про каждую корову, когда она умерла, мы можем довольно точно посчитать ее time-at-risk (с той же точностью, до которой мы указываем время смерти — месяц, день или час). Если корова умирает в конце месяца, то это будет
\[1+2+3+4+5+6+7+8+9+10+11+12+(12 \times 12) = 220 \text{ корово-месяцев} = 18.5 \text{ корово-лет}\]
Если мы знаем только, сколько было коров в начале и сколько в конце, мы можем оценить общее time-at-risk, но довольно приблизительно. Обычно в качестве такой оценки берут среднее число коров за время наблюдения и умножают его на время наблюдения:
\[ \text{time at risk} = \frac{24+12}{2} \times \text{ 1 год} = \text{ 18 корово-лет}\]
Если коровы умирали равномерно, как на нашей картинке, то эти оценки почти совпадут (но так обычно не бывает, см. ниже). Тогда поделив число смертей на число корово-лет получим:
\[ \text{mortality rate} = \frac{12}{18 \text{ корово-лет}} = 666 \text{ смертей на 1000 корово-лет}\]
Если cumulative mortality (пропорция умерших) за период наблюдения небольшое, то есть общая численность популяции за период менялась несильно, то это даст очень неплохую оценку. На практике используют или среднее между началом и концом периода наблюдения или, если известно — численность на середину периода наблюдения.
На этом принципе основан анализ выживаемости. При тщательном наблюдении за когортой, когда мы знаем достаточно точно когда кто умер, мы можем более точно посчитать общее time-at-risk и раcсчитать mortality rate и его соотношение в группах.
Итак, есть две принципиально разных меры mortality:
Первая — это пропорция умерших за определенный период времени. Она измеряется в долях или процентах, в числителе у нее умершие, в знаменателе — умершие и выжившие. Она может принимать значения от 0 до 100% (или от 0 до 1, если в долях). И ее иногда можно посчитать абсолютно точно.
Вторая — это скорость или rate. Она измеряется в случаях на единицу пациенто-времени. Эта мера лучше характеризует вероятность умереть в течение определенного времени, но ее можно только оценить. И чем мы точнее знаем жизненные траектории пациентов (сколько времени они были живы, то есть находились at risk), тем точнее мы можем ее оценить.
При этом сами термины в литературе используются довольно беспорядочно. Есть идея, что слово rate должно использоваться только в применении к скорости (mortality rate), а risk — в применении к cumulative mortality, но это не всегда соблюдается. Поэтому при чтении статей надо ориентироваться на единицы измерения: если % — это cumulative mortality, если deaths per patient-years — это mortality rate.
Все вышесказанное относится и к понятию incidence — когда оцениваются не смерти, а заболеваемость. Точно так же бывает cumulative incidence и incidence rate, и измеряются они в таких же единицах.
Вот пример из New England Journal of Medicine:
The rate of death from any cause was also reduced with ticagrelor (4.5%, vs. 5.9% with clopidogrel; P<0.001).
Данные приводятся в процентах, значит речь идет о cumulative mortality, слово rate сбивает с толку.
A total of 1052 deaths occurred during a median of 4.7 years of follow-up. The risk of death from any cause was 12.7 events per 1000 person-years in the aspirin group and 11.1 events per 1000 person-years in the placebo group
Здесь речь идет о mortality rate, потому что единицы – events per 1000 person-years, но употреблено амбивалентное слово risk. Это тоже New England Journal of Medicine.
А вот цитата из JACC. Здесь все правильно:
The unweighted incidence rate for the primary outcome was 20.8 per 1,000 person-years in statin users and 21.9 per 1,000 person-years in nonusers.
Это не mortality, а incidence, но принцип тот же самый. Это incidence rate (скорость заболевания) и измеряется в случаях на пациенто-годы.
| Сколько умерло (пропорция) | Как быстро умирали (скорость) |
|---|---|
| Cumulative mortality | Mortality risk |
| Mortality incidence | Mortality rate |
| % (за определенный период) | Deaths per patient-time of follow-up |
| От 0 до 100% | От 0 и выше (может быть больше 1) |
| Сколько заболело (пропорция) | Как быстро заболевали (скорость) |
|---|---|
| Cumulative incidence | Incidence rate |
| Incidence proportion | Incidence density |
| Incidence risk | |
| % (за определенный период) | cases per patient-time |
| От 0 до 100% | От 0 и выше (может быть больше 1) |
Мы увидели, как зная cumulative mortality можно примерно оценить mortality rate. А что можно сказать об обратной оценке?
Заметим, что mortality rate — это соотношение, и как любое соотношение, оно не меняется, если мы умножаем/делим на одно и то же число числитель и знаменатель.
Поэтому, например,
\[\text{ 5 смертей на 100 человеко-лет = 0.05 смертей на 1 человеко-год,}\] \[\text{ 0.5 смертей на человеко-год = 50 смертей на 100 человеко-лет. }\]
Поэтому mortality rate может быть больше единицы, все зависит от выбора единиц времени (год, 100 лет, месяц или час).
Можем ли мы оценить cumulative mortality, если знаем mortality rate?
Например, если мы знаем, что mortality rate = 5 на 100 человеко-лет, то какая доля умрет за 1 год, за 10 лет и за 100 лет?
Хочется просто взять и умножить mortality rate на время наблюдения:
Тогда за 1 год умрет
\[\text{1} \times \text{5 на 100 человеко-лет = 5 из 100 = 5%}\]
За 10 лет умрет
\[10 \times 5/100 = 50 \text{ из } 100 = 50\%\]
А вот за 100 лет уже выходит странно:
\[\text{100 лет }\times 50/100 \text{ человеко-лет } = 500 \text{ из } 100 = 500\%.\]
Такого быть не может.
Здесь мы сталкиваемся с проблемой, похожей на ту, что в начале: относительная скорость умирания (mortality rate) постоянна, но доля пациентов at risk постоянно уменьшается.
Возьмем такой пример: пусть у нас было 4000 пациентов и за год умирает половина. Тогда в первый год умрет 2000, во второй — 1000 (половина от оставшихся 2000), в третий 500 (половина от оставшихся 500), в четвертый и пятый — 250 и 125. Через пять лет останется 125.
Такая зависимость называется убывающей экспонентой: когда в равные промежутки времени величина снижается на пропорциональные величины (в нашем случае в 2 раза каждый год). Именно по такому закону будет снижаться численность популяции при постоянной mortality rate.
Именно так чаще всего выглядят кривые выживаемости в научных статьях: сначала снижение идет быстрее, потом медленнее, а не по линейке, как в примере с коровами.
Если немного упростить ситуацию и не прибегать к математических формулам (логарифмам и экспоненте), то можно сказать, что на небольшом отрезке времени (таком, за который умирает очень маленькая доля, и численность популяции в начале и конце периода почти не отличаются; почти — это условно менее 5-10%) cumulative mortality за время наблюдения и mortality rate за то же время почти совпадают.
Это позволяет нам посчитать cumulative mortality за более длинный период, зная mortality rate. Например, пусть mortality rate составляет 600 на 1000 человеко-лет, то есть 0,6 на человеко-год. Пересчитаем mortality rate на один месяц:
\[\text{ 0,6 / человеко-год = 0,6 / 12 человеко-месяцев = 0,05 / человеко-месяц }\]
Мы получили малое значение (0,05), поэтому можем сказать, что за месяц умрет доля, очень близкая к 0,05, т. е. 5%. А дальше мы можем рассчитать, сколько умрет за 12 месяцев (то есть за год).
Если за месяц умерло 5%, то осталось 95%. В следующий месяц умрет 5% от 95% и останется 95% от 95% (т. е. 0,95 \(\times\) 0,95). В третий месяц останется 95% от 95% от 95% (т. е. доля в 0,95 \(\times\) 0,95 \(\times\) 0,95). За 12 месяцев в живых останется 0,95 \(\times\) 0,95 … \(\times\) 0,95 12 раз, то есть \(0.95^{12} = 0.54\) или 54%. Соответственно, умрет \(100 - 54 = 46\%\) или доля \(1 - 0.95^{12} = 0.44\). Это чуть меньше, чем если бы мы взяли просто 0,6 на человеко-год.
Но если мы продолжим умножать и прикинем cumulative mortality при такой же mortality rate на 10 лет (120 месяцев), то получим:
\[1- 0.95^{12\times10} \approx 0.998 = 99,8\%\]
Это высокая смертность, но если бы мы попытались перевести mortality rate в cumulative mortality напрямую, ничего бы не вышло:
\[\text{ 0,6/человеко-год = 6/человеко-десятилетие = 6 смертей на человека за 10 лет, то есть 600%.} \]
На практике нельзя быть уверенным в том, что mortality rate остается постоянным в течение всего времени. Кроме того, люди выбывают из исследования по другим причинам — теряются, умирают от других заболеваний и так далее. Кроме того, не все наблюдаемые пациенты на самом деле могут быть at risk (например, если мы исследуем смерть от рака предстательной железы в общей популяции — половина популяции будет как бы бессмертна). Поэтому для оценки и сравнения mortality в группах используют или cumulative mortality — это грубая мера, но ее можно точно подсчитать, или отслеживают жизненные траектории каждого испытуемого, вычисляют общее time-at-risk и оценивают mortality rate.
Если мы не знаем численность популяции в середине периода наблюдения, то мы можем взять формулу со средним в знаменателе:
\[\text{mortality rate} = \frac{deaths}{\frac{1}{2}(population + (population - deaths))} = \frac{3000}{\frac{1}{2}(3000+6000)} = 0.666 = 666 \text{ на 1000 человеко-лет}\]
Mortality rate и incidence rate – меры, которые лучше отражают вероятность умереть. Их можно приводить к общему знаменателю при сравнении разных исследований, при оценке эффективности или вредности разных воздействий, они позволяют расчитать эффект той или иной интервенции, как медицинской, так и связанной с общественным здоровьем. Из данных о различии в cumulative mortality в группах труднее сделать вывод об эффективности препарата, чем зная различия в mortality rate. Если мы знаем, насколько, например, статин снижает mortality rate за 2-3 года, мы можем посчитать более долговременный эффект. Если много больных теряется во время исследования, то мы все еще можем оценить mortality rate, а cumulative mortality не можем. Именно mortality rate и incidence rate расчитываются при анализе и построении кривых выживаемости. Ну и к тому же это просто интересно.
Если записать то, что мы сделали для расчета cumulative mortality (M_C) из mortality rate (M_R), то будет вот так: \[M_C = 1 - (1 - \frac{M_R}{n})^n,\] где n – то, насколько мы дробили \(M_R\), в нашем примере на 12 месяцев. Но чем больше n, тем ближе формула к такой (это одно из определений числа \(e\)):
\[M_C = 1 - e^{-M_R},\] где \(M_C\) взято за тот же период, что пациенто-время в знаменателе у mortality rate. Отсюда можно получить и обратную формулу:
\[M_R = -ln(1-M_C).\]
Если cumulative mortality не очень высока, то эта оценка дает очень близкие значения к той оценке, когда мы считали time-at-risk по среднему числу коров за время наблюдения.
\[-ln(1-M_С) \approx \frac{M_C}{\frac{1}{2}(1+(1 - M_C))},\] где \(M_C\) – cumulative mortality (или доля умерших), \(1 - M_C\) – доля выживших, а в знаментале – среднее между долей выживших и величиной исходной популяции (100% или в долях 1).
Если мы решим исходную задачку по этой формуле, то получим:
\[M_R = -ln(1-M_C) = -ln(1-0.5) = 0.693.\] Если исходить из гипотезы, что mortality rate была постоянной, то она будет равна 639 на 1000 человеко-лет.
Какая гипотеза должна быть гипотезой по умолчанию – что mortality rate была постоянной в течение периода наблюдения, или что средняя численность популяции за время наблюдения соответствует средне-взвешенному – вопрос договоренности. Но при малых величинах cumulative mortality эти две оценки дают практически идентичные значения (менее 1% разницы при cumulative mortality менее 10%). В задачке cumulative mortality очень высока (50%), поэтому разница между двумя оценками вышла существенной.