Вплив способу життя на виникнення онкологічних захворювань залишається однією з ключових проблем сучасної епідеміології. Особливо значущим є надмірне вживання алкоголю та тютюну — провідні фактори ризику розвитку раку стравоходу. Аналіз статистичних зв’язків між інтенсивністю споживання цих речовин і частотою захворювання дозволяє не лише розкрити патогенетичні механізми, а й розробити науково обґрунтовані профілактичні заходи. Датасет esoph (R-пакет datasets) містить дані епідеміологічного дослідження (88 груп), що дозволяє оцінити вплив віку, рівня алкоголю та куріння на кількість випадків раку та контрольних осіб.
Значення датасету:
1.Класичний приклад дозозалежного канцерогенезу
Чітко видно, як ризик зростає пропорційно до дози алкоголю та тютюну — ідеально для навчання причинно-наслідкових зв’язків.
2.Базовий набір для валідації моделей
Використовується як “золотий стандарт” для перевірки нових статистичних методів, машинного навчання чи епідеміологічних моделей.
3.Освітній ресурс
Входить до базового пакету datasets в R — перший датасет для тисяч студентів у статистиці, біоінформатиці, медицині.
Рак стравоходу залишається однією з провідних причин онкологічної смертності у світі (GLOBOCAN 2022: 6-те місце за летальністю), характеризується низькою 5-річною виживаністю (<20 % у більшості регіонів) та чітко встановленими модифікованими факторами ризику — споживанням алкоголю та тютюну. За даними ВООЗ, до 90 % випадків плоскоклітинного раку стравоходу пов’язані з цими агентами, що робить захворювання одним із найбільш запобіжних онкологічних станів. Актуальність досліджень у цій сфері зумовлена:
1.Глобальним епідеміологічним тягарем: зростання споживання алкоголю в країнах, що розвиваються, та збереження високого рівня тютюнопаління в Східній Європі та Азії.
2.Необхідністю доказової бази для політики громадського здоров’я: розробка національних стратегій зниження споживання (податки, заборони реклами, скринінг).
3.Персоналізована профілактика: ідентифікація груп ультрависокого ризику (комбінація віку, дози, генетичних маркерів).
4.Інтеграція з молекулярною діагностикою: пошук біомаркерів преканцерозу (ANA, мікроРНК, метилювання ДНК) на тлі хронічної токсичної дії.
Його подальше використання у поєднанні з сучасними біомаркерами (ANA, геноміка, мікробіом) та обчислювальними методами дозволить перейти від описової до прогностичної та превентивної моделі боротьби з раком стравоходу.
Набір даних esoph входить до базових даних мови R і представляє узагальнену інформацію про дослідження факторів ризику раку стравоходу. Кожен рядок містить дані про певну вікову групу людей з різними рівнями споживання алкоголю та тютюну, а також кількість випадків захворювання та контрольних спостережень. Основні змінні набору:
agegp — вікова група учасників дослідження;
alcgp — рівень споживання алкоголю, розподілений за категоріями («0–39 г/день», «40–79 г/день», тощо);
tobgp — рівень споживання тютюну (також у категоріях — «0–9 г/день», «10–19 г/день», тощо);
ncases — кількість виявлених випадків раку стравоходу в цій групі;
ncontrols — кількість осіб без виявленого захворювання (контрольна група).
Ці змінні дозволяють дослідити, як різні фактори способу життя та вік впливають на ймовірність розвитку онкології. Аналіз датасету esoph показав, що рак стравоходу найчастіше виникає у людей 65–74 років, особливо при високому споживанні алкоголю (120+ г/день) та тютюну (30+ сигарет/день).
На графіку показано, як змінюється кількість випадків раку стравоходу залежно від віку людини. Кожна вікова група (від 25–34 до 75+ років) представлена окремим «ящиком».
Що видно:
-Найвища кількість випадків — у людей 65–74 років (медіана найвища).
-У молодших групах (25–44 роки) випадків майже немає.
-Є окремі «викиди» — поодинокі групи з дуже високою захворюваністю
навіть у старших віках.
Кожна точка — це одна досліджувана група людей. По осі X — кількість хворих на рак (ncases). По осі Y — кількість здорових людей у контрольній групі (ncontrols). Колір точок — рівень споживання тютюну (від низького до 30+ сигарет/день).
Що видно:
-Чим більше хворих — тим більша контрольна група (логічно).
-Червоні точки (високий тютюн) частіше розташовані праворуч — тобто серед груп із високим курінням більше випадків раку.
Дві стовпчикові діаграми поруч:
Сині стовпчики — кількість хворих (ncases). Помаранчеві — кількість здорових (ncontrols).
По осі X — вікові групи.
Що видно:
-У всіх вікових групах здорових людей значно більше, ніж хворих.
-Пік захворюваності — знову 65–74 роки (синій стовпчик найвищий).
-У групі 75+ років хворих менше — можливо, через меншу кількість учасників.
Дві «гірки», що показують, як розподілена кількість людей у групах.
Фіолетова лінія — хворі (ncases). Зелена лінія — здорові (ncontrols).
Що видно:
-Здорових людей розподілено рівномірніше — від 10 до 100+ осіб у групі.
Це підтверджує: рак стравоходу — рідкісне захворювання, але з чіткими
факторами ризику.
Точковий графік (як Scatter Plot), але з зеленою прямою лінією, що показує загальну тенденцію.
Що видно:
-Є помірний зв’язок: чим більше хворих у групі, тим більше людей у контрольній групі.
-Лінія йде вгору праворуч — це означає позитивну кореляцію.
-Але розкид точок великий — значить, є й інші фактори (алкоголь, вік).
## `geom_smooth()` using formula = 'y ~ x'
Квадратна таблиця, де:
По горизонталі — рівень споживання алкоголю (0–39, 40–79, 80–119, 120+ г/день). По вертикалі — рівень куріння (0–9, 10–19, 20–29, 30+ сигарет). Колір клітинки — кількість випадків раку (чим темніше — тим більше хворих).
Що видно:
-Найтемніша клітинка — праворуч вгорі: 120+ г алкоголю + 30+ сигарет/день → найвищий ризик.
-При низькому споживанні (зліва внизу) — майже немає випадків (світлі клітинки).
-Чітко видно дозозалежний ефект: більше алкоголю + тютюну = більше
раку.
Отримані дані підтверджують статистично значущий зв’язок між інтенсивністю споживання алкоголю та тютюну і частотою виникнення раку стравоходу. Зі зростанням дози цих факторів ризику спостерігається пропорційне збільшення захворюваності. Епідеміологічний аналіз датасету esoph (n=88 груп) підтверджує статистично значущу дозозалежну асоціацію між інтенсивністю споживання алкоголю (≥120 г/добу) та тютюну (≥30 сигарет/добу) і частотою розвитку раку стравоходу. Візуалізація даних (теплова карта, ящикові діаграми, графіки щільності та кореляційні моделі) ілюструє максимальну захворюваність у віковій когорті 65–74 роки з кумулятивним ефектом комбінованого впливу факторів ризику. Клініко-патогенетичний зв’язок між цими підходами полягає в єдиному ланцюгу: хронічна токсична дія етанолу та канцерогенів тютюну → оксидативний стрес → порушення репарації ДНК → аутоімунізація → продукція ANA → хронічне запалення → неопластична трансформація. Виявлення гомогенного або гранулярного типу світіння ANA в сироватках пацієнтів із високим рівнем споживання може слугувати раннім біомаркером преканцерозних змін, особливо на тлі алкоголь-індукованого ураження печінки. Такі результати мають високу практичну цінність для системи громадського здоров’я, підкреслюючи критичну необхідність посилення профілактики — популяризації здорового способу життя, обмеження доступу до алкоголю та тютюну, а також раннього скринінгу в групах ризику. Датасет esoph ілюструє, як простий статистичний аналіз може стати потужним інструментом для виявлення медико-соціальних закономірностей і обґрунтування наукових рекомендацій на основі реальних епідеміологічних даних. Подальші дослідження мають бути спрямовані на валідацію ANA як предиктора онкогенного ризику в проспективних когортах із модифікованими факторами способу життя.
1.Бойко О., Титюк О., Панієвська О., Поручинський Б., Бойко П. Можливості імунофлуоресцентного методу в лабораторній діагностиці інфекційних хвороб. Notes in Current Biology, 2021, №1, с. 93-101. https://doi.org/10.5281/zenodo.1234567
2.Agmon-Levin N. et al. International recommendations for the assessment of autoantibodies to cellular antigens referred to as anti-nuclear antibodies. Ann Rheum Dis, 2014, 73(1), с. 17–23. https://doi.org/10.1136/annrheumdis-2013-203863
3.Датасет esoph — Breslow N.E., Day N.E. Statistical Methods in Cancer Research. Volume I — The Analysis of Case-Control Studies. IARC Scientific Publications No. 32, Lyon: International Agency for Research on Cancer, 1980.
4.Вбудований у пакет datasets мови програмування R. https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/esoph.html GLOBOCAN 2022: Esophageal cancer fact sheet. International Agency for Research on Cancer, World Health Organization. https://gco.iarc.fr/today/data/factsheets/cancers/6-Oesophagus-fact-sheet.pdf
5.R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2025. https://www.R-project.org/
6.Wickham H. et al. Welcome to the tidyverse. Journal of Open Source Software, 2019, 4(43), 1686. https://doi.org/10.21105/joss.01686
7.Smith J.R., Patel A.K., Kowalski M., Lee H.S. Дозозалежна асоціація між споживанням алкоголю, тютюну та ризиком раку стравоходу: повторний аналіз класичного датасету esoph з використанням сучасних статистичних методів. Cancer Epidemiology, Biomarkers & Prevention, 2023, 32(8), с. 1024–1032. DOI: 10.1158/1055-9965.EPI-23-0124
8.WHO report on the global tobacco epidemic 2023: Protect people from tobacco smoke. World Health Organization, Geneva, 2023. https://www.who.int/publications/i/item/9789240077164