1. Wprowadzenie
1.1. Cel projektu
Celem projektu jest przygotowanie kompletnej analizy danych w języku R dotyczącej osób chorujących na raka płuc. Dane przedstawiają charakterystykę chorych ze względu na takie zmienne, jak płeć i wiek, czy ogólny poziom zmęczenia lub otyłość. Zaprezentowano kompleksową analizę eksploracyjną oraz wizualizację rozkładów zmiennych, po wnioskowanie statystyczne oraz oszacowanie modelu logitowego. Praca z danymi może posłużyć osiągnięciu takich celów, jak analiza czynników wpływających na stadium raka płuc.
1.2. Charakterystyka raka płuc i żródło danych do analizy
Rak płuc to rodzaj nowotworu złośliwego, który powstaje w wyniku nieprawidłowego rozrostu komórek w płucach. W początkowym stadium najczęściej przebiega bezobjawowo, a jego wykrycie może być przypadkowe np. podczas badań obrazowych. Ze względu na szybkie tempo progresji, często diagnozowany jest dopiero w zaaawansowanym stadium klinicznym, kiedy pojawiają się wyraźne symptomy takie jak:
- krwioplucia,
- duszności,
- przewlekły kaszel,
- nawracające zapalenia płuc,
- dysfagia,
Ze względu na utrudnione i późne diagnozowanie, rak płuc pozostaje najbardziej śmiertelnym ze wszystkich nowotworów na świecie. Pięcioletni współczynnik przeżycia (survival rate) wynosi zaledwie 22%, co odzwierciedla agresywny przebieg choroby i ograniczone możliwości leczenia w późnych stadiach.
Według statystyk Międzynarodowej Agencji Badań nad Rakiem (IARC), co roku nowotwór płuc diagnozowany jest u około 2,5 miliona osób na całym świecie. Jednocześnie szacuje się, że ponad 1,8 miliona z nich umiera, co stanowi około 20% wszystkich zgonów z powodu nowotworów na świecie.
Poniższa analiza opiera się na danych z artykułu naukowego “Effect of Long-Term Fine Particulate Matter Exposure on Lung Cancer Incidence and Mortality in Chinese Nonsmokers” opublikowanego w czasopiśmie Nature Medicine. Analizą objęto ponad 462 000 osób z różnych części Chin, których obserwowano średnio przez 6 lat. Pod uwagę wzięto m.in. czynniki takie jak:
- wiek,
- płeć,
- poziom zanieczyszczenia powietrza,
- nawyki zdrowotne i styl życia,
- występowanie chorób przewlekłych,
- objawy związane z układem oddechowym,
Wyniki wykazały, że mieszkańcy z obszarów o wysokim poziomie zanieczyszczenia powietrza częściej chorowali na raka płuc niż osoby z terenów o niższym poziomie zanieczyszczeń. Zaobserwowano również, że ryzyko zachorowania było wyższe wśród osób niepalących niż palących oraz że wzrastało ono wraz z wiekiem. Mimo dokładnej analizy porównawczej, badaczom nie udało się wykazać, że zanieczyszczenie powietrza jest bezpośrednią przyczyną raka płuc.
Podczas pracy nad danymi spostrzeżono jednak pewne nieprawidłowości, które sugerują, że dane mogą być pochodzenia syntetycznego. Niektóre wyniki nie pokrywały się z wynikami uzyskanymi w źródle. Pomimo to zdecydowano się na kontynuacje prowadzonych prac.
1.3. Opis danych
Wśród danych można wyróżnić trzy kategorie zmiennych objaśniających. Pierwszą z nich są zmienne klasyfikowane jako przyczynowe, np. otyłość. Drugą kategorie stanowią zmienne, które mozna uznać za objawy raka płuc, np. krwioplucie. Trzecią kategorią są zmienne opisujące osoby biorące udział w badaniu, np. wiek i płeć. Zmienną objaśnianą jest zmienna Level, która oznacza stadium zaawansowania raka płuc podzielona na kategorie: Low, Medium, High. Zmienne objaśniające z pierwszych dwóch kategorii przyjmują wartości od 1 do 8 (w większości), co odpowiada stopniu natężenia danej cechy.
2. Data Wrangling
2.1. Wykrywanie, czyszczenie i wypełnianie braków
Za pomocą funkcji n_miss() z pakietu Naniar sprawdziliśmy dane pod względem braków- okazało się, że nasze dane są kompletne i nie zawierają żadnych braków. W danych znajduje się 0 brakujących wartości.
2.2. Spójność danych
## name items passes fails nNA error warning expression
## 1 V1 1000 1000 0 0 FALSE FALSE Age - 0 >= -1e-08
## 2 V2 1000 1000 0 0 FALSE FALSE Age - 120 <= 1e-08
Za pomocą pakietu validate określiliśmy reguły dotyczące tego w jakich przedziałach ma się kształtować zmienna wiek (przedział między 0 a 120). Następnie za pomocą funkcji confront uzyskaliśmy informacje, że wszystkie nasze obserwacje spełniły ten warunek.
3. Wizualizacja danych
3.1. Zmienna Level
Wykresy przedstawiają rozkład liczebności oraz procentowy udział pacjentów w poszczególnych kategoriach zmiennej Level, odpowiadającej stopniowi zaawansowania raka płuc. Najliczniejszą grupę stanowią pacjenci z wysokim poziomem zaawansowania choroby (High – 365 osób, co stanowi 36,5% próby), następnie grupa Medium (332 osoby, 33,2%), natomiast najmniej liczna jest grupa Low (303 osoby, 30,3%). Rozkład wskazuje na stosunkowo wyrównaną strukturę zbioru danych pod względem stopnia zaawansowania choroby, z niewielką przewagą stadium wysokiego.
3.2. Zmienna Age
Wykres przedstawia rozkład wieku pacjentów w zależności od stopnia zaawansowania raka płuc (Low, Medium, High). We wszystkich trzech grupach największa liczebność pacjentów koncentruje się w przedziałach wiekowych od około 25 do 45 lat, co wskazuje, że w analizowanym zbiorze dominują osoby w wieku produkcyjnym. Rozkłady wieku w poszczególnych poziomach zaawansowania są do siebie zbliżone, co sugeruje brak wyraźnej zależności pomiędzy wiekiem a stopniem zaawansowania choroby.
3.3. Pozostałe zmienne objaśniające
Wykres przedstawia rozkład liczby pacjentów według płci w zależności od poziomu zaawansowania raka płuc (Low, Medium, High). W przypadku niskiego poziomu zaawansowania liczba kobiet i mężczyzn jest zbliżona, natomiast wraz ze wzrostem stopnia zaawansowania choroby obserwuje się wyraźną przewagę liczby kobiet nad mężczyznami. Największa dysproporcja występuje w grupie pacjentów z wysokim poziomem zaawansowania raka płuc.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu zanieczyszczenia powietrza oraz poziomu zaawansowania raka płuc. Dla niskiego poziomu zaawansowania choroby najczęściej obserwowane są niższe wartości wskaźnika zanieczyszczenia, natomiast wraz ze wzrostem poziomu zaawansowania raka rośnie udział pacjentów narażonych na wyższe poziomy zanieczyszczenia powietrza. W grupie z wysokim poziomem zaawansowania choroby dominują najwyższe wartości wskaźnika Air Pollution.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu spożycia alkoholu oraz stopnia zaawansowania raka płuc (Low, Medium, High). Dla niskiego poziomu zaawansowania choroby dominują niższe wartości zmiennej Alcohol Use, natomiast wraz ze wzrostem stopnia zaawansowania obserwuje się coraz większy udział pacjentów o wyższym poziomie spożycia alkoholu. W grupie High wyraźnie przeważają najwyższe wartości zmiennej, co wskazuje na współwystępowanie zaawansowanego stadium choroby i intensywniejszego spożycia alkoholu.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu alergii na kurz (Dust Allergy) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niższe wartości zmiennej Dust Allergy, natomiast wraz ze wzrostem stopnia zaawansowania obserwuje się przesunięcie rozkładu w stronę wyższych poziomów tej zmiennej. W grupie High wyraźnie przeważają najwyższe wartości alergii na kurz.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu narażenia na zagrożenia zawodowe (Occupational Hazards) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W przypadku niskiego poziomu zaawansowania choroby najczęściej występują niższe i umiarkowane wartości zmiennej, natomiast wraz ze wzrostem stopnia zaawansowania obserwuje się coraz większy udział pacjentów o wysokim poziomie narażenia zawodowego. W grupie High wyraźnie dominują najwyższe wartości zmiennej Occupational Hazards.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu ryzyka genetycznego (Genetic Risk) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niższe wartości ryzyka genetycznego, natomiast wraz ze wzrostem stopnia zaawansowania obserwuje się wyraźne przesunięcie rozkładu w stronę wyższych poziomów tej zmiennej. W grupie High zdecydowanie przeważają najwyższe wartości ryzyka genetycznego.
Wykres przedstawia rozkład liczby pacjentów w zależności od występowania przewlekłych chorób płuc (Chronic Lung Disease) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W grupie pacjentów z niskim poziomem zaawansowania choroby częściej występują niższe wartości tej zmiennej, natomiast wraz ze wzrostem stopnia zaawansowania obserwuje się wyraźny wzrost udziału pacjentów z wyższym poziomem chorób przewlekłych. W grupie High dominują najwyższe wartości zmiennej Chronic Lung Disease.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu zbilansowania diety (Balanced Diet) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niższe i umiarkowane wartości zmiennej Balanced Diet, natomiast w kolejnych stadiach obserwuje się przesunięcie rozkładu w stronę wyższych poziomów zbilansowania diety. Taki kierunek zależności może na pierwszy rzut oka może wydawać się zaskakujący, jednakże zgodnie z medycyną, pacjenci z zaawansowanym stadium raka płuc są zmuszeni do stosowania zbilansowanej diety.
Wykres przedstawia rozkład liczby pacjentów w zależności od poziomu otyłości (Obesity) oraz stopnia zaawansowania raka płuc (Low, Medium, High). W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niższe wartości zmiennej Obesity, natomiast w stadium średnim widoczne jest przesunięcie rozkładu w stronę wartości umiarkowanych. W grupie High obserwuje się wyraźną koncentrację pacjentów przy najwyższym poziomie otyłości, co odróżnia tę grupę od pozostałych.
Wykres ilustruje zależność pomiędzy poziomem palenia tytoniu a stopniem zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania dominują wartości niskie i umiarkowane, natomiast w stadium wysokim obserwuje się wyraźną koncentrację pacjentów o najwyższym poziomie palenia.
Wykres obrazuje rozkład liczby pacjentów w zależności od poziomu narażenia na bierne palenie (Passive Smoker) w poszczególnych stadiach zaawansowania raka płuc. W stadium niskim i średnim dominują niższe oraz umiarkowane wartości zmiennej, natomiast w przypadku wysokiego poziomu zaawansowania choroby widoczna jest wyraźna koncentracja pacjentów przy najwyższych poziomach narażenia na dym tytoniowy. Różnice pomiędzy grupami Low i High wskazują na współwystępowanie zaawansowanego stadium choroby z większym stopniem biernej ekspozycji na palenie.
Wykres ilustruje rozkład nasilenia bólu w klatce piersiowej (Chest Pain) w zależności od stopnia zaawansowania raka płuc. Rozkłady dla grup Low i Medium są do siebie zbliżone i charakteryzują się przewagą niskich oraz umiarkowanych wartości zmiennej. Wyraźna zmiana struktury rozkładu pojawia się dopiero w grupie High, gdzie dominują wysokie poziomy nasilenia bólu.
Wykres przedstawia rozkład częstości występowania kaszlu z krwią (Coughing of Blood) w zależności od stopnia zaawansowania raka płuc. Rozkłady dla poziomów Low i Medium są do siebie zbliżone i charakteryzują się przewagą głównie niskich w low oraz głównie umiarkowanych w medium wartości zmiennej. Wyraźne nasilenie objawu obserwuje się dopiero w grupie High, gdzie dominują najwyższe poziomy występowania kaszlu z krwią.
Wykres ilustruje poziom odczuwanego zmęczenia (Fatigue) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania dominują niższe wartości zmiennej,natomiast w stadium średnim obserwuje się większe zróżnicowanie nasilenia zmęczenia. Najwyższe wartości zmiennej Fatigue koncentrują się w grupie High, co wskazuje na wyraźne nasilenie objawu w najbardziej zaawansowanym stadium choroby.
Wykres przedstawia rozkład nasilenia utraty masy ciała (Weight Loss) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niskie wartości zmiennej, natomiast w stadium średnim obserwuje się przesunięcie rozkładu w stronę wartości umiarkowanych i wysokich. W grupie High rozkład jest bardziej zróżnicowany, z wyraźną koncentracją pacjentów zarówno przy wysokim poziomie utraty masy ciała (wartość 7), jak i przy wartościach niskich (wartość 2).
Wykres przedstawia rozkład nasilenia duszności (Shortness of Breath) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niskie wartości zmiennej, natomiast w stadium średnim rozkład jest silnie spolaryzowany, z wyraźnymi koncentracjami przy wybranych poziomach nasilenia. W grupie High obserwuje się bardziej wyrównany rozkład z częstym występowaniem umiarkowanych i wysokich wartości duszności.
Wykres ilustruje rozkład nasilenia świszczącego oddechu (Wheezing) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niskie oraz umiarkowane wartości zmiennej, natomiast w stadium średnim widoczna jest wyraźna koncentracja pacjentów przy poziomach umiarkowanych. W grupie High rozkład jest bardziej zróżnicowany, z obecnością zarówno niskich, jak i wysokich poziomów nasilenia objawu.
Wykres przedstawia rozkład nasilenia trudności w połykaniu (Swallowing Difficulty) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania dominują niskie wartości zmiennej, natomiast w stadium średnim obserwuje się wyraźne zwiększenie zróżnicowania poziomu objawu. W grupie High trudności w połykaniu występują częściej na poziomach umiarkowanych i wysokich, co wskazuje na większe nasilenie objawu w zaawansowanym stadium choroby.
Wykres przedstawia rozkład nasilenia pałeczkowatości palców (Clubbing of Finger Nails) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania dominują niskie wartości zmiennej, natomiast w stadium średnim obserwuje się większe zróżnicowanie rozkładu, obejmujące również wyższe poziomy nasilenia objawu. W grupie High rozkład koncentruje się głównie wokół wartości niskich i umiarkowanych, bez wyraźnej dominacji najwyższych poziomów zmiennej.
Wykres przedstawia rozkład częstości występowania przeziębień (Frequent Cold) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niskie wartości zmiennej, natomiast w stadium średnim rozkład jest bardziej zróżnicowany, z widoczną koncentracją obserwacji na poziomach umiarkowanych. W grupie High najwyższa liczebność pacjentów występuje przy wartościach umiarkowanych i wyższych.
Wykres przedstawia rozkład nasilenia suchego kaszlu (Dry Cough) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują wartości niskie i umiarkowane, natomiast w stadium średnim obserwuje się większe zróżnicowanie rozkładu z obecnością wyższych poziomów nasilenia objawu. W grupie High widoczna jest wyraźna koncentracja pacjentów przy wysokich wartościach zmiennej, choć nadal obecne są również poziomy umiarkowane.
Wykres przedstawia rozkład nasilenia chrapania (Snoring) w zależności od stopnia zaawansowania raka płuc. W grupie pacjentów z niskim poziomem zaawansowania choroby dominują niskie i umiarkowane wartości zmiennej, natomiast w stadium średnim rozkład staje się bardziej wyrównany, z obecnością zarówno niższych, jak i wyższych poziomów chrapania. W grupie High największa liczebność obserwacji występuje przy wartościach niskich i umiarkowanych, bez jednoznacznej dominacji najwyższych poziomów zmiennej.
4. Analiza opisowa
4.1. Statystyki opisowe
| Characteristic | N = 1,0001 |
|---|---|
| Age | 37±12, (14) 28-36-45 (73) |
| 1 Mean±SD, (Min) Q1-Median-Q3 (Max) | |
W tabeli przedstawiono charakterystykę wieku badanej populacji. Średni wiek uczestników wynosił 37 lat przy odchyleniu standardowym równym 12 lat. Najmłodszy uczestnik miał 14 lat, natomiast najstarszy 73 lata, co świadczy o szerokim zakresie wieku badanych pacjentów. Mediana wieku wynosiła 36 lat, ponadto 25% badanych miało nie więcej niż 28 lat oraz 25% badanych miało co najmniej 45 lat. Uzyskany rozkład wieku wskazuje, że większość próby obejmowała osoby we wczesnej dorosłości oraz w wieku średnim, przy jednoczesnej obecności zarówno bardzo młodych uczestników, jak i osób starszych.
4.2. Korelacja zmiennych objaśniających
Aby zobrazować siłę powiązań pomiędzy analizowanymi zmiennymi, wykorzystano mapę ciepła (heatmapę) opartą na wartościach współczynnika V Cramera. Na osiach wykresu umieszczono zestaw wszystkich badanych cech pacjentów, obejmujących czynniki demograficzne, środowiskowe, elementy stylu życia, choroby współistniejące oraz objawy kliniczne. Zastosowana skala barw odzwierciedla siłę zależności między parami zmiennych od słabych powiązań, przez zależności umiarkowane, aż do silnych relacji statystycznych.
Analiza mapy ciepła wskazuje na istnienie grup zmiennych, które częściej współwystępują ze sobą, tworząc charakterystyczne układy powiązań zdrowotnych charakterystycznych dla raka płuc.
Zauważalna jest silna współzależność między czynnikami genetycznymi a obecnością przewlekłych chorób układu oddechowego. Oznacza to, że pacjenci obciążeni wyższym ryzykiem genetycznym częściej wykazują obecność przewlekłych schorzeń płuc oraz długotrwałe, nakładające sięf na siebie problemy zdrowotne. Zmienna wiek pozostaje w relacji z wieloma elementami stylu życia oraz stanu zdrowia takimi jak otyłość, palenie tytoniu czy ból w klatce piersiowej. Sugeruje to, że wraz z wiekiem u pacjentów narasta liczba współistniejących czynników ryzyka i dolegliwości zdrowotnych. Istotne powiązania obserwuje się również pomiędzy czynnikami środowiskowymi i zawodowymi a nawykami zdrowotnymi badanych osób. Podejmowane ryzyko zawodowe częściej współwystępuje z innymi obciążeniami środowiskowymi oraz niezdrowymi elementami stylu życia takimi jak spożycie alkoholu, co może wskazywać na obecność określonych profili ryzyka w badanej populacji.
Z wykresu wynika również wyraźna tendencja do współwystępowania objawów klinicznych związanych z układem oddechowym. Duszność, świsty oddechowe, przewlekły kaszel oraz krwioplucie często pojawiają się jednocześnie, tworząc spójny obraz zaburzeń funkcjonowania układu oddechowego. Podobną współzależność obserwuje się w przypadku objawów ogólnoustrojowych, takich jak zmęczenie, utrata masy ciała oraz częste infekcje, których wspólne występowanie odzwierciedla pogorszenie się ogólnego stanu organizmu. Zauważalna jest także zależność między otyłością a występowaniem bólu w klatce piersiowej, co wskazuje na zwiększone obciążenie układu krążeniowo-oddechowego u pacjentów z nadmierną masą ciała.
Analiza mapy ciepła potwierdza, że badane zmienne tworzą wzajemnie powiązane układy czynników ryzyka i objawów klinicznych. Najsilniejsze współzależności dotyczą objawów oddechowych, wskaźników pogorszenia ogólnego stanu zdrowia oraz wybranych elementów stylu życia i środowiska, co wskazuje na współwystępowanie wielu niekorzystnych czynników u tych samych pacjentów.
5. Wnioskowanie statystyczne
W celu zbadania zależności pomiędzy poziomem choroby nowotworowej a wybranymi zmiennymi objaśniającymi, obejmującymi czynniki ryzyka, warunki środowiskowe oraz objawy kliniczne, przeprowadzono analizę statystyczną z wykorzystaniem testu niezależności χ² Pearsona. Pozwala on ocenić czy zależność między dwiema zmiennymi jakościowymi jest istotna statystycznie, czy też zaobserwowane różnice w rozkładach mają charakter przypadkowy. Dla każdej pary analizowanych zmiennych sformułowano hipotezę zerową zakładającą brak związku pomiędzy badanymi cechami oraz hipotezę alternatywną mówiącą o istnieniu takiej zależności. W przypadku uzyskania wartości p mniejszej od przyjętego poziomu istotności (α = 0,05) hipoteza zerowa była odrzucana na rzecz hipotezy alternatywnej. Oprócz istotności statystycznej oceniano również siłę zależności pomiędzy zmiennymi przy użyciu współczynnika V Cramera. Pozwala on określić, czy wykryta zależność ma charakter słaby, umiarkowany czy silny, co umożliwia bardziej pogłębioną interpretację wyników. Uzyskane wyniki pozwoliły określić, które z analizowanych zmiennych wykazują najsilniejszy związek z poziomem zaawansowania choroby nowotworowej.
Analiza wykazała istotną zależność między płcią a stopniem zaawansowania choroby nowotworowej (χ²(2) = 27,22; p < 0,001), dlatego odrzucono hipotezę zerową. Siła związku była relatywnie słaba (V = 0,16), co oznacza, że płeć różnicuje poziom choroby, ale w ograniczonym stopniu.
Przeprowadzona analiza wykazała istotną statystycznie zależność pomiędzy statusem czynnego palenia a stopniem zaawansowania choroby nowotworowej(χ²(14) = 684,50; p <0,001). Na tej podstawie odrzucono hipotezę zerową. Wartość współczynnika V Cramera wyniosła 0,58, co wskazuje na silną zależność pomiędzy badanymi zmiennymi. Analiza struktury procentowej wykazała, że wysoki poziom czynnego palenia był najczęściej obserwowany wśród pacjentów ze znacznie zaawansowanym stadium choroby nowotworowej, natomiast niski poziom palenia przeważał w grupie osób z niskim stopniem zaawansowania choroby.
Testy wykazały bardzo silną, istotną statystycznie zależność pomiędzy biernym paleniem a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 977.64, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Cramer = 0.69), co wskazuje na wyjątkowo silną relację między analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że u pacjentów bardziej narażonych na bycie biernymi palaczami częściej występowało wysokie stadium choroby nowotworowej, natomiast niższe poziomy tej zmiennej dominowały w grupie pacjentów z niskim stadium choroby.
Wykazano istotną statystycznie zależność pomiędzy poziomem zanieczyszczenia powietrza a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 665.47, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer = 0.57), co wskazuje na silną zależność pomiędzy analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że wyższe poziomy zanieczyszczenia powietrza częściej obserwowano w grupie pacjentów z zaawansowanym poziomem choroby nowotworowej, natomiast niższe poziomy tej zmiennej dominowały w grupie pacjentów z niskim stadium choroby.
Wykazano bardzo silną i istotną statystycznie zależność między spożyciem alkoholu a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 872.69, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Wartość współczynnika V Cramera wyniosła 0.66, co wskazuje na bardzo silną zależność pomiędzy badanymi zmiennymi. Analiza rozkładów procentowych wykazała, że wysokie poziomy spożycia alkoholu dominowały w grupie pacjentów z wysokim poziomem choroby nowotworowej, natomiast niskie poziomy spożycia alkoholu częściej występowały w grupie pacjentów z niskim stadium choroby.
Stwierdzono istotną statystycznie zależność pomiędzy alergią na roztocza a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 736.31, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer = 0.60), co wskazuje na silną relację pomiędzy zmiennymi. Analiza struktury procentowej wykazała, że wyższe poziomy alergii na roztocza częściej obserwowano w grupie pacjentów z wysokim stadium zaawansowania choroby nowotworowej, natomiast niższe wartości tej zmiennej dominowały u pacjentów z niskim stadium choroby.
Wykazano istotną statystycznie zależność pomiędzy podejmowanym ryzykiem zawodowym a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 701.82, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer = 0.59), co wskazuje na silną zależność pomiędzy analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że wysokie poziomy podejmowania ryzyka zawodowego dominowały w grupie pacjentów z bardzo zaawansowanym stadium choroby nowotworowej, natomiast niższe poziomy tej zmiennej częściej występowały w grupie pacjentów z niskim stadium choroby.
Stwierdzono istotną statystycznie zależność między ryzykiem genetycznym a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 632.14, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Wartość współczynnika V Cramera wyniosła 0.56, co wskazuje na silną zależność pomiędzy badanymi zmiennymi. Analiza struktury procentowej wykazała, że u pacjentów z zaawansowanym poziomem choroby nowotworowej częściej występowało wysokie ryzyko genetyczne, natomiast niższe poziomy ryzyka genetycznego dominowały w grupie pacjentów z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność między przewlekłą chorobą płuc a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 585.13, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer= 0.54), co wskazuje na silną zależność pomiędzy analizowanymi zmiennymi. Analiza struktury procentowej wykazała, że wśród pacjentów z bardziej zaawansowanym stadium choroby nowotworowej częściej obserwowano wysoki poziom ryzyka genetycznego, natomiast niższe ryzyko genetyczne przeważało w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy stosowaniem zbilansowanej diety a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 783.42, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer = 0.62), co wskazuje na silną zależność pomiędzy analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że wysoki poziom stosowania zbilansowanej diety częściej występował u pacjentów z wysokim poziomem zaawansowania choroby, natomiast niski poziom tej zmiennej dominował w grupie pacjentów z niskim stopniem zaawansowania choroby nowotworowej.
Stwierdzono istotną statystycznie zależność pomiędzy otyłością a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 985.18, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Cramer = 0.70), co wskazuje na wyjątkowo silną relację pomiędzy analizowanymi zmiennymi. Analiza struktury procentowej wykazała, że wysoki stopień otyłości był wyraźnie częściej obserwowany wśród pacjentów z bardziej zaawansowanym stadium choroby nowotworowej, natomiast niższy poziom otyłości przeważał w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy bólami w klatce piersiowej a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(16) = 880.62, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Craméra = 0.66), co wskazuje na silną zależność pomiędzy analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że duże nasilenie bólu w klatce piersiowej częściej występowało u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast niewielkie nasilenie tego objawu było typowe dla osób z niskim poziomem zaawansowania choroby.
Wykazano bardzo silną, istotną statystycznie zależność pomiędzy krwiopluciem a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(16) = 1036.06, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Craméra = 0.71), co wskazuje na wyjątkowo silną relację pomiędzy analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że nasilone krwioplucie znacznie częściej występowało u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast jego brak lub niewielkie nasilenie dominowały w grupie pacjentów z niskim poziomem zaawansowania choroby.
Stwierdzono istotną statystycznie zależność pomiędzy zmęczeniem a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 669.26, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była duża (V Cramer = 0.57). Analiza struktury procentowej wykazała, że większe nasilenie zmęczenia było częstsze wśród pacjentów w bardziej zaawansowanym stadium choroby nowotworowej oraz na poziomie pośrednim, natomiast mniejsze nasilenie zmęczenia przeważało u osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy utratą masy ciała a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 363.29, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła zależności miała charakter umiarkowany (V Cramer = 0,42). Analiza rozkładów procentowych wykazała, że większa utrata masy ciała częściej dotyczyła pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast mniejsza utrata masy ciała przeważała w grupie osób z niskim poziomem zaawansowania choroby.
Stwierdzono istotną statystycznie zależność pomiędzy dusznościami a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 822.36, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Cramer = 0.64). Analiza struktury procentowej wykazała, że nasilone duszności częściej występowały u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej oraz na poziomie pośrednim, natomiast łagodne duszności przeważały w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy świstami oddechowymi a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 887.40, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była bardzo duża (V Cramer = 0.66), co wskazuje na silną zależność między analizowanymi zmiennymi. Analiza rozkładów procentowych wykazała, że większe nasilenie świstów oddechowych częściej występowało u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast mniejsze nasilenie tego objawu przeważało w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy trudnościami w połykaniu a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(14) = 262.52, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła zależności była umiarkowana (V Cramer = 0,35). Analiza struktury procentowej wykazała, że nasilone trudności w połykaniu częściej występowały u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast brak lub niewielkie nasilenie tego objawu przeważały w grupie osób z niskim poziomem zaawansowania choroby.
Stwierdzono istotną statystycznie zależność pomiędzy występowanie palców pałeczkowatych a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(16) = 460.18, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła zależności miała charakter umiarkowany (V Cramer = 0,47). Analiza rozkładów procentowych wykazała, że obecność palców pałeczkowatych była częstsza u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej, natomiast ich brak przeważał w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy częstymi przeziębieniami a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 456.28, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła zależności miała charakter umiarkowany (V Cramer = 0.47). Analiza rozkładów procentowych wskazała, że częściej przeziębienia występowały u pacjentów z wysokim i średnim poziomem choroby nowotworowej, natomiast rzadsze infekcje dominowały w grupie pacjentów z niskim poziomem choroby.
Stwierdzono istotną statystycznie zależność pomiędzy występowaniem suchego kaszlu a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 404.44, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła zależności miała charakter umiarkowany (V Cramer = 0.44). Analiza struktury procentowej wykazała, że nasilony suchy kaszel częściej występował u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej oraz na poziomie pośrednim, natomiast łagodny lub sporadyczny kaszel przeważał w grupie osób z niskim poziomem zaawansowania choroby.
Wykazano istotną statystycznie zależność pomiędzy chrapaniem a stopniem zaawansowania choroby nowotworowej (test χ² Pearsona: χ²(12) = 188.87, p < 0.001). Na tej podstawie odrzucono hipotezę zerową. Siła związku była umiarkowana (V Cramer = 0.30). Analiza rozkładów procentowych wykazała, że umiarkowane i duże nasilenie chrapania częściej występowało u pacjentów w bardziej zaawansowanym stadium choroby nowotworowej oraz na poziomie pośrednim, natomiast niewielkie nasilenie tego objawu przeważało w grupie osób z niskim poziomem zaawansowania choroby.
Podsumowanie wnioskowania statystycznego
Uzyskane wyniki pozwoliły określić, które z analizowanych zmiennych wykazują najsilniejszy związek ze stopniem zaawansowania choroby nowotworowej. Wśród wszystkich badanych czynników zdecydowanie najsilniejsze zależności odnotowano dla zmiennych związanych ze stanem klinicznym pacjenta oraz wybranymi czynnikami stylu życia.
Najsilniejsze zależności (bardzo duża siła efektu, V Cramer > 0,65) stwierdzono w przypadku:
- krwioplucia (V = 0,71),
- otyłości (V = 0,70),
- biernego palenia (V = 0,69),
- bólu w klatce piersiowej (V = 0,66),
- świstów oddechowych (V = 0,66),
- spożycia alkoholu (V = 0,66).
Zmienne te były wyraźnie częściej związane z bardziej zaawansowanym stadium choroby nowotworowej, co wskazuje na ich silny związek z nasileniem procesu chorobowego. Silne zależności (V Cramer między 0,54 a 0,64) odnotowano dla: statusu czynnego palenia, zbilansowanej diety (zależność odwrotna), podejmowanego ryzyka zawodowego, alergii na roztocza, poziomem zanieczyszczenia powietrza, ryzyka genetycznego, przewlekłej choroby płuc, duszności oraz zmęczenia. Czynniki te również istotnie różnicowały stadium choroby, ich wyższe nasilenie (lub w przypadku diety niższy poziom) częściej towarzyszyło bardziej zaawansowanemu stadium nowotworu.
Zależności o umiarkowanej sile związku, mimo istotności statystycznej, miały o wiele mniejszy wpływ w porównaniu do wcześniej wymienionych czynników. Zmienne o najsłabszej zależności (chrapanie oraz płeć), w niewielkim stopniu różnicowały stopień zaawansowania choroby nowotworowej w badanej grupie.
Największą siłę związku ze stopniem zaawansowania choroby nowotworowej wykazały objawy bezpośrednio powiązane z układem oddechowym oraz ogólnym stanem organizmu, a także wybrane czynniki stylu życia i środowiskowe. Z kolei czynniki demograficzne, takie jak płeć, odgrywały znacznie mniejszą rolę w różnicowaniu stadium choroby.
6. Model ekonometryczny
Dodatkowo podjęta została próba stworzenia modelu ekonometrycznego, który uzależniłby zmienną Level świadczącą o poziomie raka płuc wśród pacjentów od zmiennych objaśniających, które można uznać za przyczyny bądź czynniki sprzyjające zachorowaniu na raka płuc. Stąd w modelu znajdzie się tylko część wszystkich dostępnych zmiennych. Ze względu na charakter zmiennej Level (jakościowa zmienna porządkowa) zastosowano model logtiowy uporządkowany. Wyniki estymacji modelu przedstawiono poniżej.
## Value Std..Error OR pval
## Age 0.003469588 0.0103585 1.003476e+00 7.376621e-01
## GenderMale -0.507410699 0.2504575 6.020525e-01 4.277144e-02 *
## Air.Pollution -0.450542432 0.1114651 6.372824e-01 5.299653e-05 ***
## Alcohol.use 0.430204802 0.1323932 1.537572e+00 1.156291e-03 **
## Dust.Allergy 1.821953315 0.2454622 6.183926e+00 1.148948e-13 ***
## OccuPational.Hazards -1.796568178 0.2482061 1.658671e-01 4.546456e-13 ***
## Genetic.Risk -0.747369251 0.1511090 4.736109e-01 7.579501e-07 ***
## chronic.Lung.Disease 2.351403818 0.2666326 1.050030e+01 1.155973e-18 ***
## Balanced.Diet -0.463332140 0.1102323 6.291836e-01 2.631267e-05 ***
## Obesity 1.537300416 0.1347921 4.652015e+00 3.948898e-30 ***
## Smoking 0.219711443 0.0984290 1.245717e+00 2.560294e-02 *
## Frequent.Cold 1.264030891 0.1043846 3.539661e+00 9.422700e-34 ***
## Passive.Smoker 0.805673056 0.1308523 2.238202e+00 7.408149e-10 ***
## Low|Medium 17.074155406 1.3049857 2.601426e+07 4.076132e-39 ***
## Medium|High 23.732666139 1.6543292 2.027524e+10 1.131967e-46 ***
W oszacowanym modelu powyżej nieistotnie statystycznie okazała się zmienna Age. Z tego powodu została usunięta w następnym oszacowaniu modelu.
## Value Std..Error OR pval
## GenderMale -0.5066759 0.25038008 6.024950e-01 4.300853e-02 *
## Air.Pollution -0.4506979 0.11121037 6.371833e-01 5.063834e-05 ***
## Alcohol.use 0.4347647 0.13149072 1.544600e+00 9.449339e-04 ***
## Dust.Allergy 1.8232524 0.24522466 6.191964e+00 1.045454e-13 ***
## OccuPational.Hazards -1.8009310 0.24731819 1.651451e-01 3.293017e-13 ***
## Genetic.Risk -0.7513784 0.15084594 4.717159e-01 6.322450e-07 ***
## chronic.Lung.Disease 2.3533674 0.26584831 1.052094e+01 8.573851e-19 ***
## Balanced.Diet -0.4665740 0.10984411 6.271472e-01 2.160716e-05 ***
## Obesity 1.5413317 0.13433818 4.670806e+00 1.792193e-30 ***
## Smoking 0.2276144 0.09559761 1.255601e+00 1.726743e-02 *
## Frequent.Cold 1.2602365 0.10368993 3.526255e+00 5.469686e-34 ***
## Passive.Smoker 0.7950552 0.12643395 2.214563e+00 3.209522e-10 ***
## Low|Medium 16.9261827 1.22131942 2.243612e+07 1.123334e-43 ***
## Medium|High 23.5698872 1.57226832 1.722947e+10 8.406737e-51 ***
Finalny model charakteryzuje się istotnością statystyczną wszystkich analizowanych zmiennych. Można na jego podstawie przystąpić do interpretacji wyników. Najwyższymi wynikami ilorazów szans (OR) charakteryzują się zmienne Dust Allergy, Chronic Lung Disease, Obesity, Frequent Cold oraz Passive Smoker (czynniki najbardziej zagrażające wyższemu stopniowi raka płuc). Oznacza to, że wraz ze wzrostem wartości w środku tych kategorii (stopniem natężenia tego zjawiska) wzrasta szansa na znalezienie się w wyższej kategorii raka płuc. Najsilniejszym spośród wymienionych czynników okazał się być Chronic Lung Disease, gdzie wraz ze wzrostem stopnia natężenia tej choroby o 1 jednostkę szansa na znalezienie się w wyższej kategorii raka płuc wzrasta o około 950%. Intersującym może być też obecność czynnika Passive Smoker w kategorii czynników najbardziej zagrażających wyższemu stopniowi raka. Wśród czynników wpływających na spadek szansy na znalezienie się w wyższej kategorii raka płuc znajdują się Gender, Air Pollution, Occupational Hazzards, Genetic Risk, Balanced Diet. Spośród nich to Occupational Hazzards okazał się być najważniejszym z nich – wraz ze wzrostem znalezienia się w wyższej kategorii ryzyka zawodowego o 1 jednostkę maleje szansa na znalezienie się w wyższej kategorii raka płuc o około 85%. Nie są to oczywiście czynniki, które hamują ryzyko zachorowania na raka, ale są dla niego najbardziej „łagodne”. Zaskakującym może być tutaj czynnik Genetic Risk, gdzie według logiki genetyczne predyspozycje do raka płuc powinny znajdować się wśród czynników mających silne oddziaływanie na zwiększenie stopnia raka płuc.
7. Podsumowanie
Celem projektu było przeprowadzenie kompletnej analizy danych w środowisku R dotyczących raka płuc – od przygotowania i oczyszczenia danych, przez analizę eksploracyjną i wizualizacje, aż po wnioskowanie statystyczne oraz budowę modelu umożliwiającego identyfikację czynników sprzyjających wyższemu poziomowi zaawansowania choroby (zmienna Level).
W części eksploracyjnej i wnioskowaniu statystycznym wykazano, że na stopień zaawansowania raka płuc najsilniej wpływają objawy oraz czynniki związane z funkcjonowaniem układu oddechowego i ogólnym stanem zdrowia, a także wybrane elementy stylu życia i środowiska. Do zmiennych o bardzo silnej zależności zaliczono m.in. krwioplucie, otyłość, bierne palenie, ból w klatce piersiowej, świsty oddechowe oraz spożycie alkoholu, natomiast czynniki demograficzne (np. płeć) miały znaczenie wyraźnie słabsze.
Następnie oszacowano uporządkowany model logitowy dla zmiennej Level. W pierwszej wersji modelu zmienna Age okazała się nieistotna statystycznie i została pominięta w specyfikacji końcowej. Po tej modyfikacji wszystkie uwzględnione zmienne były istotne statystycznie, co umożliwiło interpretację wyników w kategoriach ilorazów szans (OR).
Z punktu widzenia interpretacji finalny model wskazuje, że czynnikiem najsilniej zwiększającym szanse przejścia do wyższego poziomu zaawansowania raka płuc była przewlekła choroba płuc (Chronic Lung Disease). Wysokie wartości OR uzyskano również dla zmiennych Dust Allergy, Obesity, Frequent Cold oraz Passive Smoker, co oznacza, że większe nasilenie tych zjawisk wiąże się z większym prawdopodobieństwem klasyfikacji do wyższej kategorii zaawansowania. Jednocześnie część zmiennych miała charakter ochronny, obniżając szanse przejścia do wyższej kategorii, w szczególności Balanced Diet, a także wybrane czynniki środowiskowe i ryzyka (m.in. Air Pollution, Occupational Hazards, Genetic Risk).
Uzyskane wyniki potwierdzają złożony, wieloczynnikowy charakter zaawansowania choroby nowotworowej, wynikający z nakładania się czynników zdrowotnych i środowiskowych. Model uporządkowany może stanowić użyteczne narzędzie wspomagające identyfikację kluczowych czynników ryzyka, przy czym interpretacja wyników powinna uwzględniać charakter danych obserwacyjnych oraz fakt, że opisują one zależności statystyczne, a nie bezpośrednie relacje przyczynowo-skutkowe.