1 Wprowadzenie

Celem naszego projektu jest analiza zbioru danych dotyczących pacjentów z rakiem płuc. Zbiór danych zawiera informacje demograficzne, kliniczne oraz wyniki leczenia pacjentów. W ramach analizy przeprowadzimy eksploracyjną analizę danych (EDA), a także zastosujemy różne metody statystyczne i uczenia maszynowego w celu zidentyfikowania czynników wpływających na przebieg choroby oraz prognozowania wyników leczenia. Zbiór danych zawiera 1000 wierszy oraz 26 kolumn.

1.1 Opis danych

W danych uwzględniono m.in. wiek i płeć pacjentów, czynniki stylu życia takie jak palenie tytoniu, bierne palenie, spożycie alkoholu, dieta oraz występowanie otyłości. Zbiór obejmuje również informacje o narażeniu środowiskowym i zawodowym, w tym poziom zanieczyszczenia powietrza, alergię na kurz oraz ekspozycję zawodową. Dodatkowo uwzględniono objawy kliniczne i choroby współistniejące, takie jak przewlekła choroba płuc, kaszel z krwią, duszność, zmęczenie czy utrata masy ciała. Zmienną wynikową jest poziom zaawansowania choroby nowotworowej, sklasyfikowany jako niski (Low), średni (Medium) lub wysoki (High). Zebrane dane umożliwiają analizę zależności pomiędzy czynnikami ryzyka a stopniem zaawansowania choroby oraz ich graficzną prezentację.

1.2 Problemy badawcze

1.2.1 Główny problem badawczy

Jakie czynniki demograficzne, środowiskowe oraz związane ze stylem życia mają wpływ na poziom zaawansowania choroby nowotworowej u badanych pacjentów?

1.2.2 Szczegółowe problemy badawcze

  1. Jaki jest rozkład poziomu zaawansowania choroby nowotworowej (Low, Medium, High) w badanej grupie pacjentów?

  2. Czy poziom zaawansowania choroby nowotworowej różni się w zależności od płci pacjentów?

  3. Czy wiek pacjentów ma związek z poziomem zaawansowania choroby nowotworowej?

  4. Czy palenie tytoniu wpływa na poziom zaawansowania choroby nowotworowej?

  5. Czy występowanie wybranych objawów klinicznych (np. kaszel z krwią, duszność, zmęczenie) wiąże się z wyższym poziomem choroby?

2 Data Wrangling

2.1 Braki danych

W danych znajduje się 100 % kompletnych wartości, nie stwierdzono brakujących wartości w żadnej z badanych zmiennych.

2.2 Wzorzec braków danych

##  /\     /\
## {  `---'  }
## {  O   O  }
## ==>  V <==  No need for mice. This data set is completely observed.
##  \  \|/  /
##   `-----'

##      index Patient.Id Age Gender Air.Pollution Alcohol.use Dust.Allergy
## 1000     1          1   1      1             1           1            1
##          0          0   0      0             0           0            0
##      OccuPational.Hazards Genetic.Risk chronic.Lung.Disease Balanced.Diet
## 1000                    1            1                    1             1
##                         0            0                    0             0
##      Obesity Smoking Passive.Smoker Chest.Pain Coughing.of.Blood Fatigue
## 1000       1       1              1          1                 1       1
##            0       0              0          0                 0       0
##      Weight.Loss Shortness.of.Breath Wheezing Swallowing.Difficulty
## 1000           1                   1        1                     1
##                0                   0        0                     0
##      Clubbing.of.Finger.Nails Frequent.Cold Dry.Cough Snoring Level  
## 1000                        1             1         1       1     1 0
##                             0             0         0       0     0 0

W celu sprawdzenia, czy w zbiorze danych występują braki danych, przeprowadzono analizę wzorca braków danych z wykorzystaniem funkcji missing_pattern.

Wyniki analizy pokazują, że zbiór danych jest kompletny i nie zawiera wartości brakujących. Oznacza to, że dla wszystkich zmiennych dostępne są dane dla wszystkich 1000 pacjentów. Informację tę potwierdza wygenerowany komunikat, wskazuje że nie ma potrzeby stosowania metod uzupełniania braków danych.

Również tabela z podsumowaniem danych wskazuje, że liczba brakujących wartości dla każdej zmiennej wynosi 0.

2.3 Walidacja danych

W ramach walidacji danych sprawdzono, czy wiek pacjentów w badanej grupie mieści się w logicznym przedziale od 0 do 120 lat.

Wyniki walidacji pokazują, że wszystkie obserwacje spełniają przyjęte kryterium. Na wykresie walidacji widoczny jest wyłącznie kolor zielony, co oznacza, że 100% danych przeszło poprawnie proces sprawdzania.Dane mogą być bezpiecznie wykorzystane w dalszych etapach naszego projektu.

3 Wizualizacja danych

3.1 Charakterystyka badanej grupy

Płeć

Rozkład wieku

3.2 Szczegółowe problemy badawcze:

Rozkład poziomu zaawansowania choroby

Z wykresu wynika, że najwięcej pacjentów znajduje się w grupie o wysokim poziomie zaawansowania nowotworu.

Zaawansowanie choroby a płeć U kobiet występuje większa równowaga między różnymi etapami choroby, podczas gdy u mężczyzn przeważa zaawansowany poziom choroby.

Zaawansowanie choroby a wiek

W grupie pacjentów z niskim poziomem zaawansowania choroby (Low) dominują osoby młodsze, a rozkład wieku koncentruje się w niższych przedziałach wiekowych.

W grupie średniego zaawansowania choroby (Medium) obserwuje się przesunięcie rozkładu wieku w kierunku wyższych wartości oraz większe zróżnicowanie wieku pacjentów, co wskazuje na stopniowy wzrost wieku wraz z postępem choroby.

w grupie wysokiego zaawansowania choroby (High) widoczne są najwyższe wartości mediany wieku, a większość obserwacji skupia się w górnych zakresach skali, co sugeruje, że zaawansowane stadium choroby częściej dotyczy pacjentów starszych.

Wpływ palenia na poziom zaawansowania nowotworu Z wykresu wynika że intensywniejsze palenie tytoniu wiąże się z wyższym zaawansowaniem nowotworu.

Objawy towarzyszące a zaawansowanie choroby - Kaszel z krwią

W grupie pacjentów z niskim poziomem zaawansowania choroby (Low) obserwuje się najniższe wartości nasilenia objawu, większość wyników skupia się w dolnym zakresie skali, co wskazuje, że kaszel z krwią występuje rzadko lub ma niewielkie nasilenie.

W grupie średniego zaawansowania choroby (Medium) widoczny jest wzrost mediany oraz większe zróżnicowanie wyników, co sugeruje, że objaw pojawia się częściej, jednak jego intensywność jest zróżnicowana pomiędzy pacjentami.

w grupie wysokiego zaawansowania choroby (High) wartości nasilenia kaszlu z krwią są najwyższe, a większość obserwacji koncentruje się w górnym zakresie skali, co wskazuje na częste i silne występowanie tego objawu w zaawansowanym stadium choroby.

Zmęczenie a poziom zaawansowania choroby Zmęczenie może być wskaźnikiem nasilenia choroby co sugeruje związek między rosnącym poziomem zmęczenia a zaawansowaniem choroby.

Duszności Wraz ze wzrostem częstotliwości duszności, zwiększa się odsetek osób z zaawansowanym poziomem choroby. Wskazuje to na związek między nasileniem duszności a pogarszającym się stanem zdrowia pacjentów.

4 Statystyki opisowe

Płeć a poziom zaawansowania choroby (procenty w obrębie płci)
Płeć
Level
Total
Low Medium High
Gender



    Mężczyzna 149 (25%) 197 (33%) 252 (42%) 598 (100%)
    Kobieta 154 (38%) 135 (34%) 113 (28%) 402 (100%)
Total 303 (30%) 332 (33%) 365 (37%) 1,000 (100%)

Poziom zaawansowania choroby nowotworowej różni się w zależności od płci pacjentów. Wśród mężczyzn największy odsetek stanowią osoby z wysokim poziomem zaawansowania choroby, natomiast wśród kobiet częściej występuje niski poziom choroby. Poziom średni występuje z podobną częstością w obu grupach

Characteristic N Low
N = 303
1
Medium
N = 332
1
High
N = 365
1
Age 1,000 35.4 ± 12.1 | 33.0 [25.0; 44.0] 38.6 ± 13.0 | 38.0 [32.0; 46.0] 37.3 ± 10.7 | 36.0 [29.0; 44.0]
1 Mean ± SD | Median [Q1; Q3]

Z tabel wynika, że wiek pacjentów różni się w zależności od poziomu zaawansowania choroby nowotworowej. Najmłodsi pacjenci znajdują się w grupie z niskim poziomem choroby, gdzie średni wiek wynosi 35,4 roku. Najwyższy średni wiek zaobserwowano w grupie ‘Medium’ - 38,6 roku.

Mediana wieku również jest najwyższa w grupie w średniozaawansowanym poziomem choroby (38 lat), a najniższa w grupie niskiego zaawansowania (33 lata). W grupie ‘High’ średni i medianowy wiek są nieco niższe niż w grupie ‘Medium’, ale wyższe niż w grupie ‘Low’. Rozkład wieku w poszczególnych grupach jest podobny, co potwierdzają zbliżone wartości kwartylowe.

Na podstawie statystyk opisowych można zauważyć, że wyższy poziom zaawansowania choroby wiąże się z nieco wyższym wiekiem pacjentów.

Kobiety wykazywały niższy odsetek wysokiego ryzyka genetycznego w porównaniu do mężczyzn. Różnice te mogą sugerować odmienne predyspozycje genetyczne lub wpływ czynników środowiskowych związanych z płcią.

Palenie tytoniu w grupach poziomu zaawansowania choroby
Level Liczba Średnia ± SD Mediana [Q1; Q3] Zakres (min–max)
Low 303 3.0 ± 1.8 3 [2; 4] 1–7
Medium 332 2.5 ± 1.7 2 [1; 3] 1–8
High 365 6.1 ± 2.2 7 [6; 7] 2–8

Na podstawie tabeli można wywnioskować, że wyższy poziom zaawansowania choroby wiąże się z większym nasileniem palenia tytoniu.

Nasilenie wybranych objawów w grupach wg. poziomu zaawansowania choroby
Level Kaszel z krwią (średnia ± SD) Duszność (średnia ± SD) Zmęczenie (średnia ± SD)
Low 2.9 ± 1.7 2.5 ± 1.5 2.2 ± 0.9
Medium 3.8 ± 1.3 4.6 ± 2.0 3.5 ± 1.5
High 7.4 ± 1.1 5.3 ± 2.3 5.6 ± 2.4

Nasilenie objawów klinicznych rośnie wraz z poziomem zaawansowania choroby nowotworowej. Pacjenci z wyższym poziomem choroby częściej zgłaszają silniejszy kaszel z krwią, duszność oraz zmęczenie.

Wykres pokazuje, że wraz ze wzrostem poziomu zaawansowania choroby rośnie nasilenie większości analizowanych objawów i czynników. Najwyższe wartości widoczne są w grupie High, szczególnie dla kaszlu z krwią, duszności oraz zmęczenia. Wyniki te sugerują, że bardziej zaawansowana choroba wiąże się z silniejszym występowaniem objawów.

Wyniki mogą sugerować, że osoby starsze częściej zamieszkują obszary o wyższym poziomie zanieczyszczeń lub są dłużej narażone na ich oddziaływanie.

Wynik testu korelacji Spearmana dla wieku i palenia
Test rho p.value N
Korelacja rang Spearmana 0.041 0.1972 1000

Chociaż według wcześniejszych statystyk opisowych średni wiek pacjentów różni się pomiędzy grupami poziomu zaawansowania choroby, test korelacji Spearmana nie wykazał istotnej zależności pomiędzy wiekiem a poziomem palenia tytoniu.

Korelacje rang Spearmana pomiędzy wybranymi czynnikami a poziomem zaawansowania choroby
Zmienna rho p.value N
Smoking 0.484 < 0.001 1000
Air.Pollution_num 0.621 < 0.001 1000
Genetic.Risk 0.676 < 0.001 1000

Wyniki powyższych trzech testów korelacji rang Spearmana pokazują, że wraz ze wzrostem palenia tytoniu, poziomu zanieczyszczenia powietrza oraz ryzyka genetycznego rośnie również poziom zaawansowania choroby. Najsłabszą zależność zaobserwowano dla palenia tytoniu, natomiast najsilniejszą dla ryzyka genetycznego. Wszystkie zależności są istotne statystycznie (p < 0,001).

5 Wnioskowanie statystyczne

W ramach wnioskowania statystycznego przeprowadzono analizę mającą na celu weryfikację postawionych na początku projektu problemów badawczych dotyczących wpływu czynników demograficznych, środowiskowych oraz związanych ze stylem życia na poziom zaawansowania choroby nowotworowej.

1. Do porównania wieku pacjentów w zależności od płci zastosowano test porównawczy dla dwóch prób niezależnych.

Analiza zachorowalności na nowotwór płuca wykazała istotne różnice wieku zachorowania pomiędzy kobietami i mężczyznami. Badaniem objęto 1000 przypadków, w tym 598 mężczyzn oraz 402 kobiety. Średni wiek zachorowania u mężczyzn wyniósł 39 lat, natomiast u kobiet 34 lata. Różnica ta była statystycznie istotna (p < 0,001).

2.Do oceny zależności pomiędzy wiekiem pacjentów a poziomem zaawansowania choroby nowotworowej zastosowano korelację rang Spearmana. Analiza nie wykazała istotnej zależności między wiekiem pacjentów a poziomem zaawansowania choroby nowotworowej. Współczynnik korelacji Spearmana był bardzo niski (r = 0,04), a wartość p = 0,18 wskazuje na brak istotności statystycznej. Przedział ufności obejmujący zero dodatkowo potwierdza, że obserwowany słaby trend może być przypadkowy. Oznacza to, że w badanej grupie wiek nie jest istotnym czynnikiem różnicującym stopień zaawansowania choroby.

3. Do oceny zależności pomiędzy płcią a poziomem biernego palenia zastosowano test chi-kwadrat niezależności. Rozkład poziomu biernego palenia istotnie różni się pomiędzy kobietami i mężczyznami. Potwierdza to silny wynik testu chi-kwadrat. W grupie badanych kobiet wyraźnie przeważaja niskie i umiarkowane poziomy (szczególnie 2 i 4), które łącznie obejmują ponad połowę badanych kobiet. Najwyższe poziomy występują w tej grupie relatywnie rzadko. W grupie badanych mężczyzn rozkład przesunięty jest w stronę wyższych poziomów. Blisko 40% mężczyzn znajduje się w dwóch najwyższych kategoriach narażenia, niski poziom biernego palenia występuje rzadziej niż u kobiet. Mężczyźni są istotnie częściej narażeni na intensywne bierne palenie, co może stanowić ważny czynnik różnicujący ryzyko zdrowotne pomiędzy płciami.

4. Zależność pomiędzy płcią a poziomem zaawansowania choroby (test chi-kwadrat)
Test Zmienna_1 Zmienna_2 χ. df p.value
X-squared Chi-kwadrat niezależności Płeć Poziom zaawansowania choroby 27.22 2 1.23e-06

Wynik testu chi-kwadrat wskazuje na istotną statystycznie zależność pomiędzy płcią a poziomem zaawansowania choroby (p < 0,001). Oznacza to, że rozkład stopni zaawansowania choroby różni się pomiędzy kobietami i mężczyznami, a płeć może być czynnikiem związanym z przebiegiem choroby.

5. Zależność pomiędzy paleniem tytoniu a poziomem zaawansowania choroby
Test Zmienna rho p.value N
Korelacja rang Spearmana Palenie tytoniu -0.586 2.70e-93 1000

Analiza korelacji rang Spearmana wykazała istotną statystycznie zależność pomiędzy nasileniem palenia tytoniu a poziomem zaawansowania choroby. Wraz ze wzrostem intensywności palenia obserwuje się wyższy poziom zaawansowania choroby.

6. Zależność pomiędzy zanieczyszczeniem powietrza a poziomem zaawansowania choroby
Test Zmienna rho p.value N
Korelacja rang Spearmana Zanieczyszczenie powietrza -0.582 1.12e-91 1000

Wyniki korelacji Spearmana wskazują na istotną statystycznie zależność pomiędzy poziomem zanieczyszczenia powietrza a zaawansowaniem choroby. Wyższe wartości zanieczyszczenia powietrza wiążą się z wyższym poziomem zaawansowania choroby.

7. Zależność pomiędzy nasileniem zmęczenia a poziomem zaawansowania choroby
Test Zmienna rho p.value N
Korelacja rang Spearmana Zmęczenie -0.339 2.89e-28 1000

Wyniki korelacji rang Spearmana wskazują na istotną statystycznie zależność pomiędzy nasileniem zmęczenia a poziomem zaawansowania choroby.

8. Różnice w nasileniu zmęczenia pomiędzy poziomami zaawansowania choroby
Test Zmienna Grupy H df p.value
df Test Kruskala–Wallisa Zmęczenie Poziom zaawansowania choroby 398.55 2 0

Test Kruskala–Wallisa wykazał istotne statystycznie różnice w nasileniu zmęczenia pomiędzy poszczególnymi poziomami zaawansowania choroby.Pacjenci na różnych etapach choroby różnią się poziomem odczuwanego zmęczenia, a zmęczenie rośnie wraz z zaawansowaniem choroby.

6 Wnioski

Celem przeprowadzonej analizy było udzielenie odpowiedzi na główny problem badawczy dotyczący identyfikacji czynników demograficznych, środowiskowych oraz związanych ze stylem życia, które mają wpływ na poziom zaawansowania choroby nowotworowej u badanych pacjentów. Dane nie zawierały istotnych braków, co pozwoliło na przeprowadzenie analiz na pełnej próbie 1000 obserwacji. Analiza opisowa wykazała wyraźne różnice pomiędzy grupami pacjentów o różnym poziomie zaawansowania choroby. Wraz ze wzrostem stopnia zaawansowania nowotworu obserwowano:

-wyższe nasilenie objawów klinicznych, takich jak kaszel z krwią, duszność oraz zmęczenie,

-większą intensywność palenia tytoniu,

-wyższe średnie wartości zanieczyszczenia powietrza i ryzyka genetycznego.

Wiek pacjentów był zróżnicowany pomiędzy grupami, jednak różnice te miały umiarkowany charakter. Analiza płci wykazała, że mężczyźni częściej znajdują się w grupie wysokiego zaawansowania choroby, natomiast kobiety częściej w grupie niskiego stopnia zaawansowania. Wykorzystane wizualizacje (wykresy pudełkowe, wykresy słupkowe, heatmapy) pozwoliły na czytelne przedstawienie zależności pomiędzy badanymi zmiennymi. Szczególnie wyraźnie widoczny był wzrost nasilenia objawów klinicznych wraz z postępem choroby. Wykresy potwierdziły również różnice w rozkładach palenia tytoniu i biernego palenia pomiędzy płciami oraz zróżnicowanie wieku pacjentów w zależności od poziomu zanieczyszczenia powietrza. W ramach wnioskowania statystycznego przeprowadzono szereg testów odpowiadających postawionym problemom badawczym.

Test porównawczy dla dwóch prób niezależnych wykazał istotne statystycznie różnice wieku pomiędzy kobietami i mężczyznami.

Korelacja rang Spearmana nie potwierdziła istotnej zależności pomiędzy wiekiem pacjentów a poziomem zaawansowania choroby.

Test chi-kwadrat wykazał istotną zależność pomiędzy płcią a poziomem biernego palenia oraz pomiędzy płcią a poziomem zaawansowania choroby.

Analizy korelacji Spearmana potwierdziły istotne dodatnie zależności pomiędzy:

-paleniem tytoniu a poziomem zaawansowania choroby,

-zanieczyszczeniem powietrza a poziomem zaawansowania choroby,

-ryzykiem genetycznym a poziomem zaawansowania choroby.

Najsilniejszą zależność zaobserwowano dla ryzyka genetycznego, a najsłabszą dla palenia tytoniu.

Test Kruskala–Wallisa potwierdził istotne różnice w nasileniu zmęczenia pomiędzy poziomami zaawansowania choroby, co wskazuje, że zmęczenie rośnie wraz z postępem choroby. Na podstawie przeprowadzonych analiz można stwierdzić, że poziom zaawansowania choroby nowotworowej jest istotnie związany z czynnikami środowiskowymi, stylem życia oraz objawami klinicznymi. Szczególną rolę odgrywają palenie tytoniu, zanieczyszczenie powietrza oraz ryzyko genetyczne. Wiek pacjentów sam w sobie nie stanowi istotnego czynnika różnicującego stopień zaawansowania choroby, jednak różnice wieku są widoczne w zależności od płci.