Вступ

Дослідження причинно-наслідкових зв’язків між поведінковими чинниками та ризиком виникнення онкологічних захворювань залишається одним із пріоритетних напрямів сучасної епідеміології та медичної статистики. Особливу увагу приділяють факторам способу життя, зокрема тютюнопалінню та вживанню алкоголю, які в багатьох наукових роботах виявлялися як потенційні чинники ризику розвитку раку стравоходу. Аналіз таких зв’язків на рівні узагальнених (групових) даних дає змогу не лише виявляти асоціації, а й формувати гіпотези щодо взаємодії різних чинників, враховуючи вплив віку як можливого супровідного фактора.

Метою цієї роботи є систематичний опис, візуалізація та статистичний аналіз даних набору esoph із базового пакета R, який містить групові спостереження за кількістю випадків раку стравоходу (хворих і контрольних осіб) у підгрупах, сформованих за віком, рівнем споживання алкоголю та інтенсивністю тютюнопаління.


Перегляд таблиці даних

Дані набору esoph подано у вигляді зведеної таблиці, де кожен рядок представляє певну підгрупу респондентів, сформовану за віком, рівнем споживання алкоголю та інтенсивністю тютюнопаління. Для кожної підгрупи наведено кількість зафіксованих випадків раку стравоходу та число осіб у контрольній групі. Такий формат дає змогу дослідити статистичні залежності між поведінковими чинниками та частотою захворюваності.

Опис результатів дослідження

Box Plot

На представленій Box Plot (ящиковій діаграмі) вісь абсцис відображає вікові групи: 25-34, 35-44, 45-54, 55-64, 65-74 та 75+ років, тоді як вісь ординат показує кількість випадків. Кожен Box (“коробка”) представляє інтерквартильний розмах (IQR), де нижня межа “коробки” відповідає першому квартилю (Q1), верхня — третьому квартилю (Q3), а горизонтальна лінія всередині — медіані. “Вуса” простягаються до мінімальних і максимальних значень у межах 1.5 × IQR, а точки за межами вусів позначають викиди.

Аналіз графіка свідчить про наступне:

У молодших вікових групах (25-34 та 35-44 роки) розподіл характеризується низькою медіаною (близько 0-1 випадку), вузьким інтерквартильним розмахом та наявністю окремих викидів, що вказує на рідкісність захворювання в цій популяції. Найвищі значення медіани спостерігаються у групах середнього віку (45-54 та 55-64 роки), де медіана сягає приблизно 4-5 випадків, з помірною варіабельністю та викидами, що може свідчити про пік захворюваності, пов’язаний з кумулятивним впливом факторів ризику.

У старших групах (65-74 роки) медіана дещо знижується (близько 3-4 випадків), але розмах залишається помітним, тоді як у групі 75+ років значення повертаються до низьких рівнів з медіаною близько 0, що може відображати зменшення вибірки або інші демографічні фактори.

Загалом, асиметрія розподілу (з викидами у верхній частині) підкреслює гетерогенність даних, де окремі підгрупи (наприклад, з високим споживанням алкоголю чи тютюну) демонструють аномально високі показники.

Scater Plot

На представленій Scater Plot (точковій діаграмі) по осі абсцис відображено кількість випадків (від 0 до 15), а по осі ординат — кількість контролів (від 0 до 60). Кожна точка відповідає окремій комбінації факторів ризику, а колір точок вказує на рівень споживання тютюну: фіолетовий для 0-9 г/день, синій для 10-19 г/день, зелений для 20-29 г/день та жовтий для 30+ г/день.

Аналіз графіка розкриває такі ключові аспекти:

Більшість спостережень зосереджена в зоні низьких значень кількості випадків (0-5), де кількість контролів демонструє значну варіабельність (від низьких до максимальних значень близько 60), що свідчить про переважання контрольних груп у підгрупах з мінімальною захворюваністю.

Спостерігається тенденція до зменшення кількості контролів зі зростанням кількості випадків: при ncases понад 5, значення ncontrols рідко перевищують 20-30, що може відображати інверсну залежність, зумовлену структурою вибірки або епідеміологічними особливостями (наприклад, менша чисельність контрольних груп у високоризикових підгрупах).

Щодо колірного кодування: групи з низьким споживанням тютюну (фіолетовий) представлені в широкому спектрі значень, включаючи високі рівні контролів і помірні випадки, тоді як вищі рівні (зелений та жовтий) переважно асоційовані з нижчими значеннями обох змінних, з концентрацією в лівій нижній частині графіка. Це може вказувати на посилення ризику захворювання при інтенсивному курінні, з відповідним зменшенням пропорції контрольних спостережень.

Загалом, відсутня чітка лінійна кореляція, але простежується нелінійна закономірність з елементами кластеризації, де високі значення контролів переважно пов’язані з низькими випадками, а розкид точок підкреслює гетерогенність даних, можливо, через взаємодію з іншими факторами (наприклад, alcgp чи agegp).

Bar Plot

На поданому Bar Plot (стовпчиковому графіку) по осі абсцис показані вікові групи (25–34, 35–44, 45–54, 55–64, 65–74, 75+), по осі ординат — сумарна кількість осіб у кожній групі (контроли + випадки). Стовпчики є стекованими: бірюзовим позначено ncontrols (контрольні спостереження), коралово/рожевим — ncases (випадки захворювання). Праворуч — легенда з підписами типів.

Аналіз графіка розкриває такі ключові аспекти та можливі інтерпретації:

Домінування контрольних спостережень у всіх вікових групах помітне за тим, що бірюзова частина стовпчиків (ncontrols) значно перевищує рожеву (ncases), особливо у молодших категоріях 25–34 та 35–44 років. Це може вказувати на нижчу захворюваність у молодшому віці або більшу представленість контрольних спостережень у цих групах.

Зростання кількості випадків у середньому віці проявляється у поступовому збільшенні частки ncases у групах 45–54 та 55–64, де досягається пік загальної кількості випадків. Така тенденція ймовірно пов’язана з накопиченням впливу факторів ризику — наприклад, тривалішого куріння чи вживання алкоголю, що підвищують ймовірність розвитку захворювання.

Поступове зниження у старших групах спостерігається у категорії 65–74, де загальна чисельність респондентів зменшується, але частка випадків залишається помітною. У групі 75+ як загальна кількість, так і кількість випадків є найменшими, що може бути наслідком зменшення вибірки або ефекту виживання, коли до старшого віку доживають переважно здоровіші особи.

Вікова асоціація між кількістю випадків і контролів проявляється у тому, що зі зростанням віку спочатку підвищується загальна кількість спостережень, після чого спостерігається спад, а частка випадків досягає максимуму у середньо-старшому віці (55–64 роки). Це підтверджує можливу вікову залежність ризику захворювання, характерну для багатьох епідеміологічних процесів.

Density Plot

На представленій Density Plot (діаграмі щільності) по осі абсцис відображено кількість спостережень (від 0 до 60), а по осі ординат — щільність розподілу. Графік ілюструє розподіл значень для двох типів даних: червона область відповідає випадкам (ncases), синя — контрольним спостереженням (ncontrols).

Аналіз графіка розкриває такі ключові аспекти та можливі інтерпретації:

Переважна частина як випадків, так і контролів зосереджена в діапазоні малих значень кількості (до 10), що відображається у вигляді різко виражених піків щільності в лівій частині графіка. Це свідчить про те, що більшість підгруп у наборі даних характеризуються невеликою кількістю випадків і контрольних осіб.

Для розподілу випадків (ncases) спостерігається більш концентрований пік з високою щільністю біля нульових значень, після чого частота різко спадає. Така форма розподілу вказує на те, що в більшості груп зафіксовано лише поодинокі випадки захворювання, а більші значення зустрічаються рідко.

Розподіл контрольних спостережень (ncontrols) є ширшим і більш розтягнутим вправо: окрім основного піку при малих значеннях, він має кілька менш виражених хвиль на рівнях 15–40, що відображає більшу варіабельність і неоднорідність контрольних груп у різних підгрупах дослідження.

Загалом, форма обох кривих демонструє асиметричний, правосторонньо-скошений розподіл, характерний для епідеміологічних даних, де велика частина спостережень припадає на низькі значення показника. Така структура може бути наслідком відбору вибірки або природного співвідношення між кількістю випадків та контрольною групою — більшість комбінацій факторів ризику містить небагато осіб, серед яких випадки є поодинокими.

Correlation Plot

На представленій Correlation Plot (графіку кореляції) зображено взаємозв’язок між кількістю випадків (ncases) та кількістю контрольних спостережень (ncontrols). По осі абсцис відкладено кількість випадків, а по осі ординат — кількість контролів. Кожна червона точка відповідає окремій комбінації факторів ризику у вибірці набору даних esoph. Синя лінія тренду відображає лінійну регресію, яка демонструє напрямок та силу кореляції між змінними.

Аналіз графіка розкриває такі ключові аспекти та можливі інтерпретації:

Розподіл точок має виражену концентрацію у зоні малих значень кількості випадків (0–5), де кількість контролів варіює у широких межах — від мінімальних до близько 60. Це свідчить про переважання підгруп з незначною захворюваністю, у яких водночас може бути досить велика кількість контрольних спостережень. Така ситуація є типовою для епідеміологічних вибірок, де контрольна група зазвичай чисельніша для підвищення статистичної потужності.

Лінія регресії демонструє слабку позитивну тенденцію: зі збільшенням кількості випадків незначно зростає середня кількість контролів. Проте розсіювання точок доволі значне, а щільність скупчення спостережень біля осі X (низькі значення ncases) вказує на низький рівень кореляції між цими змінними. Такий характер взаємозв’язку свідчить, що кількість контрольних спостережень не є прямо пропорційною кількості випадків у межах комбінацій факторів ризику, а може визначатися особливостями дизайну дослідження або структурою вибірки.

Відсутність чіткої лінійної залежності доповнює загальну картину даних esoph, де переважають комбінації з невеликими значеннями ncases та варіативними ncontrols Це узгоджується з логікою формування контрольних груп у клінічних або популяційних дослідженнях, коли на одну чи кілька захворілих осіб припадає більша кількість контрольних учасників для зменшення впливу випадкових коливань.

## `geom_smooth()` using formula = 'y ~ x'

Heatmap

На представленій Heatmap (тепловій карті) зображено розподіл випадків раку стравоходу залежно від вікової групи (по осі абсцис) та рівня споживання алкоголю в грамах на день (по осі ординат). Кольорова шкала відображає кількість зареєстрованих випадків: від світло-жовтого кольору (мінімальні значення) до насичено-червоного і темно-фіолетового (максимальні значення, до 16 випадків).

Аналіз графіка розкриває такі ключові аспекти та можливі інтерпретації:

Найвища концентрація випадків спостерігається у вікових групах 45–54 та 55–64 років за помірного та високого рівня споживання алкоголю (40–79 г/день і 120+ г/день відповідно). Ці комірки на тепловій карті мають найінтенсивніше забарвлення, що свідчить про підвищений рівень захворюваності саме серед середньо-старших учасників із вищими дозами алкоголю. Така тенденція узгоджується з відомими епідеміологічними закономірностями, за якими тривале й інтенсивне вживання алкоголю є значущим фактором ризику раку стравоходу.

У молодших вікових групах (25–34, 35–44) спостерігається низька кількість випадків незалежно від рівня споживання алкоголю, що може бути пов’язано як із меншим кумулятивним впливом шкідливих факторів, так і з нижчою поширеністю захворювання в цьому віці. Аналогічно, у найстаршій групі (75+) випадки трапляються рідше, можливо, через меншу чисельність вибірки або ефект виживання, коли до цього віку доживають переважно здоровіші індивіди.

Середні рівні споживання (40–79 г/день) демонструють стабільно вищі показники випадків у кількох вікових категоріях, що може вказувати на нелінійну залежність між рівнем алкоголю і ризиком: збільшення кількості випадків при переході від низького до середнього рівня вживання, з подальшою стабілізацією або спадом при екстремальних дозах.

Загалом, теплова карта виявляє чіткий віково-дозовий градієнт: ризик випадків зростає із віком і рівнем споживання алкоголю, досягаючи максимуму серед осіб середнього та старшого віку, які споживають понад 40 г алкоголю на день. Такий патерн підтримує гіпотезу про синергічний ефект віку та алкогольної експозиції у формуванні ризику раку стравоходу.

Висновки

У цьому дослідженні на агрегованих даних набору esoph виявлено послідовні епідеміологічні закономірності, які свідчать про асоціації між віком, рівнем споживання алкоголю, інтенсивністю тютюнопаління та частотою випадків раку стравоходу. Зокрема, спостерігається концентрація абсолютних значень випадків у середньо-старших вікових когортах (45–54 та 55–64 роки) та у підгрупах із помірним–високим споживанням алкоголю.

Аналіз розподілів (Box Plot - ящикові діаграми; Density Plot - діаграми щільності) вказує на виражену гетерогенність і правосторонню скошеність даних: більшість підгруп характеризується невеликою кількістю випадків та контрольних спостережень, тоді як окремі комбінації факторів демонструють аномально високі значення. Стековані стовпчикові діаграми підтверджують, що в багатьох вікових категоріях абсолютна чисельність контрольних спостережень перевищує число випадків, що відображає структуру зведених (групових) спостережень у наборі даних.

Взаємозв’язок між кількістю випадків (ncases) і кількістю контролів (ncontrols) є слабким: лінія тренду демонструє незначну позитивну тенденцію, проте значне розсіювання точок свідчить про низьку силу кореляції та ймовірний вплив модераторів (вік, рівень алкоголю, інтенсивність куріння). Теплова карта підкреслює ефект взаємодії факторів: найвищі інтенсивності випадків спостерігаються в комбінаціях середнього/високого віку та підвищеної алкогольної експозиції, що узгоджується з гіпотезою синергічної дії експозицій.

Методологічні обмеження заслуговують на окрему увагу. Дані є агрегованими, тому існує ризик агрегаційної хиби — асоціації на рівні підгруп не обов’язково відповідають індивідуальним зв’язкам. До того ж можливі невиміряні змішувальні фактори, ефект виживання у старших когортах та нерівномірний розподіл розмірів підгруп. Через асиметричні розподіли класичні параметричні тести можуть вимагати попередньої трансформації даних або заміни на непараметричні підходи.