Celem naszego projektu jest analiza zbioru danych dotyczących pacjentów z rakiem płuc. Zbiór danych zawiera informacje demograficzne, kliniczne oraz wyniki leczenia pacjentów. W ramach analizy przeprowadzimy eksploracyjną analizę danych (EDA), a także zastosujemy różne metody statystyczne i uczenia maszynowego w celu zidentyfikowania czynników wpływających na przebieg choroby oraz prognozowania wyników leczenia. Zbiór danych zawiera 1000 wierszy oraz 26 kolumn.
W danych uwzględniono m.in. wiek i płeć pacjentów, czynniki stylu życia takie jak palenie tytoniu, bierne palenie, spożycie alkoholu, dieta oraz występowanie otyłości. Zbiór obejmuje również informacje o narażeniu środowiskowym i zawodowym, w tym poziom zanieczyszczenia powietrza, alergię na kurz oraz ekspozycję zawodową. Dodatkowo uwzględniono objawy kliniczne i choroby współistniejące, takie jak przewlekła choroba płuc, kaszel z krwią, duszność, zmęczenie czy utrata masy ciała. Zmienną wynikową jest poziom zaawansowania choroby nowotworowej, sklasyfikowany jako niski (Low), średni (Medium) lub wysoki (High). Zebrane dane umożliwiają analizę zależności pomiędzy czynnikami ryzyka a stopniem zaawansowania choroby oraz ich graficzną prezentację.
Jakie czynniki demograficzne, środowiskowe oraz związane ze stylem życia mają wpływ na poziom zaawansowania choroby nowotworowej u badanych pacjentów?
Jaki jest rozkład poziomu zaawansowania choroby nowotworowej (Low, Medium, High) w badanej grupie pacjentów?
Czy poziom zaawansowania choroby nowotworowej różni się w zależności od płci pacjentów?
Czy wiek pacjentów ma związek z poziomem zaawansowania choroby nowotworowej?
Czy palenie tytoniu wpływa na poziom zaawansowania choroby nowotworowej?
Czy występowanie wybranych objawów klinicznych (np. kaszel z krwią, duszność, zmęczenie) wiąże się z wyższym poziomem choroby?
W danych znajduje się 100 % kompletnych wartości, nie stwierdzono
brakujących wartości w żadnej z badanych zmiennych.
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## index Patient.Id Age Gender Air.Pollution Alcohol.use Dust.Allergy
## 1000 1 1 1 1 1 1 1
## 0 0 0 0 0 0 0
## OccuPational.Hazards Genetic.Risk chronic.Lung.Disease Balanced.Diet
## 1000 1 1 1 1
## 0 0 0 0
## Obesity Smoking Passive.Smoker Chest.Pain Coughing.of.Blood Fatigue
## 1000 1 1 1 1 1 1
## 0 0 0 0 0 0
## Weight.Loss Shortness.of.Breath Wheezing Swallowing.Difficulty
## 1000 1 1 1 1
## 0 0 0 0
## Clubbing.of.Finger.Nails Frequent.Cold Dry.Cough Snoring Level
## 1000 1 1 1 1 1 0
## 0 0 0 0 0 0
W celu sprawdzenia, czy w zbiorze danych występują braki danych, przeprowadzono analizę wzorca braków danych z wykorzystaniem funkcji missing_pattern.
Wyniki analizy pokazują, że zbiór danych jest kompletny i nie zawiera wartości brakujących. Oznacza to, że dla wszystkich zmiennych dostępne są dane dla wszystkich 1000 pacjentów. Informację tę potwierdza wygenerowany komunikat, wskazuje że nie ma potrzeby stosowania metod uzupełniania braków danych.
Również tabela z podsumowaniem danych wskazuje, że liczba brakujących wartości dla każdej zmiennej wynosi 0.
W ramach walidacji danych sprawdzono, czy wiek pacjentów w badanej grupie mieści się w logicznym przedziale od 0 do 120 lat.
Wyniki walidacji pokazują, że wszystkie obserwacje spełniają przyjęte
kryterium. Na wykresie walidacji widoczny jest wyłącznie kolor zielony,
co oznacza, że 100% danych przeszło poprawnie proces sprawdzania.Dane
mogą być bezpiecznie wykorzystane w dalszych etapach naszego
projektu.
Płeć
Rozkład wieku
Rozkład poziomu zaawansowania choroby
Z wykresu wynika, że najwięcej pacjentów znajduje się w grupie o wysokim
poziomie zaawansowania nowotworu.
Zaawansowanie choroby a płeć
U kobiet występuje większa równowaga między różnymi etapami choroby,
podczas gdy u mężczyzn przeważa zaawansowany poziom choroby.
Zaawansowanie choroby a wiek
W grupie pacjentów z niskim poziomem zaawansowania choroby (Low)
dominują osoby młodsze, a rozkład wieku koncentruje się w niższych
przedziałach wiekowych.
W grupie średniego zaawansowania choroby (Medium) obserwuje się przesunięcie rozkładu wieku w kierunku wyższych wartości oraz większe zróżnicowanie wieku pacjentów, co wskazuje na stopniowy wzrost wieku wraz z postępem choroby.
w grupie wysokiego zaawansowania choroby (High) widoczne są najwyższe wartości mediany wieku, a większość obserwacji skupia się w górnych zakresach skali, co sugeruje, że zaawansowane stadium choroby częściej dotyczy pacjentów starszych.
Wpływ palenia na poziom zaawansowania nowotworu
Z wykresu wynika że intensywniejsze palenie tytoniu wiąże się z wyższym
zaawansowaniem nowotworu.
Objawy towarzyszące a zaawansowanie choroby - Kaszel z krwią
W grupie pacjentów z niskim poziomem zaawansowania choroby (Low)
obserwuje się najniższe wartości nasilenia objawu, większość wyników
skupia się w dolnym zakresie skali, co wskazuje, że kaszel z krwią
występuje rzadko lub ma niewielkie nasilenie.
W grupie średniego zaawansowania choroby (Medium) widoczny jest wzrost mediany oraz większe zróżnicowanie wyników, co sugeruje, że objaw pojawia się częściej, jednak jego intensywność jest zróżnicowana pomiędzy pacjentami.
w grupie wysokiego zaawansowania choroby (High) wartości nasilenia kaszlu z krwią są najwyższe, a większość obserwacji koncentruje się w górnym zakresie skali, co wskazuje na częste i silne występowanie tego objawu w zaawansowanym stadium choroby.
Zmęczenie a poziom zaawansowania choroby
Zmęczenie może być wskaźnikiem nasilenia choroby co sugeruje związek
między rosnącym poziomem zmęczenia a zaawansowaniem choroby.
Duszności
Wraz ze wzrostem częstotliwości duszności, zwiększa się odsetek osób z
zaawansowanym poziomem choroby. Wskazuje to na związek między nasileniem
duszności a pogarszającym się stanem zdrowia pacjentów.
| Płeć |
Level
|
Total | ||
|---|---|---|---|---|
| Low | Medium | High | ||
| Gender | ||||
| Mężczyzna | 149 (25%) | 197 (33%) | 252 (42%) | 598 (100%) |
| Kobieta | 154 (38%) | 135 (34%) | 113 (28%) | 402 (100%) |
| Total | 303 (30%) | 332 (33%) | 365 (37%) | 1,000 (100%) |
Poziom zaawansowania choroby nowotworowej różni się w zależności od płci pacjentów. Wśród mężczyzn największy odsetek stanowią osoby z wysokim poziomem zaawansowania choroby, natomiast wśród kobiet częściej występuje niski poziom choroby. Poziom średni występuje z podobną częstością w obu grupach
| Characteristic | N | Low N = 3031 |
Medium N = 3321 |
High N = 3651 |
|---|---|---|---|---|
| Age | 1,000 | 35.4 ± 12.1 | 33.0 [25.0; 44.0] | 38.6 ± 13.0 | 38.0 [32.0; 46.0] | 37.3 ± 10.7 | 36.0 [29.0; 44.0] |
| 1 Mean ± SD | Median [Q1; Q3] | ||||
Z tabel wynika, że wiek pacjentów różni się w zależności od poziomu zaawansowania choroby nowotworowej. Najmłodsi pacjenci znajdują się w grupie z niskim poziomem choroby, gdzie średni wiek wynosi 35,4 roku. Najwyższy średni wiek zaobserwowano w grupie ‘Medium’ - 38,6 roku.
Mediana wieku również jest najwyższa w grupie w średniozaawansowanym poziomem choroby (38 lat), a najniższa w grupie niskiego zaawansowania (33 lata). W grupie ‘High’ średni i medianowy wiek są nieco niższe niż w grupie ‘Medium’, ale wyższe niż w grupie ‘Low’. Rozkład wieku w poszczególnych grupach jest podobny, co potwierdzają zbliżone wartości kwartylowe.
Na podstawie statystyk opisowych można zauważyć, że wyższy poziom zaawansowania choroby wiąże się z nieco wyższym wiekiem pacjentów.
Kobiety wykazywały niższy odsetek wysokiego ryzyka genetycznego w
porównaniu do mężczyzn. Różnice te mogą sugerować odmienne predyspozycje
genetyczne lub wpływ czynników środowiskowych związanych z płcią.
| Level | Liczba | Średnia ± SD | Mediana [Q1; Q3] | Zakres (min–max) |
|---|---|---|---|---|
| Low | 303 | 3.0 ± 1.8 | 3 [2; 4] | 1–7 |
| Medium | 332 | 2.5 ± 1.7 | 2 [1; 3] | 1–8 |
| High | 365 | 6.1 ± 2.2 | 7 [6; 7] | 2–8 |
Na podstawie tabeli można wywnioskować, że wyższy poziom zaawansowania choroby wiąże się z większym nasileniem palenia tytoniu.
| Level | Kaszel z krwią (średnia ± SD) | Duszność (średnia ± SD) | Zmęczenie (średnia ± SD) |
|---|---|---|---|
| Low | 2.9 ± 1.7 | 2.5 ± 1.5 | 2.2 ± 0.9 |
| Medium | 3.8 ± 1.3 | 4.6 ± 2.0 | 3.5 ± 1.5 |
| High | 7.4 ± 1.1 | 5.3 ± 2.3 | 5.6 ± 2.4 |
Nasilenie objawów klinicznych rośnie wraz z poziomem zaawansowania choroby nowotworowej. Pacjenci z wyższym poziomem choroby częściej zgłaszają silniejszy kaszel z krwią, duszność oraz zmęczenie.
Wykres pokazuje, że wraz ze wzrostem poziomu zaawansowania choroby
rośnie nasilenie większości analizowanych objawów i czynników. Najwyższe
wartości widoczne są w grupie High, szczególnie dla kaszlu z krwią,
duszności oraz zmęczenia. Wyniki te sugerują, że bardziej zaawansowana
choroba wiąże się z silniejszym występowaniem objawów.
Wyniki mogą sugerować, że osoby starsze częściej zamieszkują obszary o wyższym poziomie zanieczyszczeń lub są dłużej narażone na ich oddziaływanie.
| Test | rho | p.value | N |
|---|---|---|---|
| Korelacja rang Spearmana | 0.041 | 0.1972 | 1000 |
Chociaż według wcześniejszych statystyk opisowych średni wiek pacjentów różni się pomiędzy grupami poziomu zaawansowania choroby, test korelacji Spearmana nie wykazał istotnej zależności pomiędzy wiekiem a poziomem palenia tytoniu.
| Zmienna | rho | p.value | N |
|---|---|---|---|
| Smoking | 0.484 | < 0.001 | 1000 |
| Air.Pollution_num | 0.621 | < 0.001 | 1000 |
| Genetic.Risk | 0.676 | < 0.001 | 1000 |
Wyniki powyższych trzech testów korelacji rang Spearmana pokazują, że wraz ze wzrostem palenia tytoniu, poziomu zanieczyszczenia powietrza oraz ryzyka genetycznego rośnie również poziom zaawansowania choroby. Najsłabszą zależność zaobserwowano dla palenia tytoniu, natomiast najsilniejszą dla ryzyka genetycznego. Wszystkie zależności są istotne statystycznie (p < 0,001).
W ramach wnioskowania statystycznego przeprowadzono analizę mającą na celu weryfikację postawionych na początku projektu problemów badawczych dotyczących wpływu czynników demograficznych, środowiskowych oraz związanych ze stylem życia na poziom zaawansowania choroby nowotworowej.
1. Do porównania wieku pacjentów w zależności od płci
zastosowano test porównawczy dla dwóch prób niezależnych.
Analiza zachorowalności na nowotwór płuca wykazała istotne różnice wieku zachorowania pomiędzy kobietami i mężczyznami. Badaniem objęto 1000 przypadków, w tym 598 mężczyzn oraz 402 kobiety. Średni wiek zachorowania u mężczyzn wyniósł 39 lat, natomiast u kobiet 34 lata. Różnica ta była statystycznie istotna (p < 0,001).
2.Do oceny zależności pomiędzy wiekiem pacjentów a
poziomem zaawansowania choroby nowotworowej zastosowano korelację rang
Spearmana.
Analiza nie wykazała istotnej zależności między wiekiem pacjentów a
poziomem zaawansowania choroby nowotworowej. Współczynnik korelacji
Spearmana był bardzo niski (r = 0,04), a wartość p = 0,18 wskazuje na
brak istotności statystycznej. Przedział ufności obejmujący zero
dodatkowo potwierdza, że obserwowany słaby trend może być przypadkowy.
Oznacza to, że w badanej grupie wiek nie jest istotnym czynnikiem
różnicującym stopień zaawansowania choroby.
3. Do oceny zależności pomiędzy płcią a poziomem biernego
palenia zastosowano test chi-kwadrat niezależności.
Rozkład poziomu biernego palenia istotnie różni się pomiędzy kobietami i
mężczyznami. Potwierdza to silny wynik testu chi-kwadrat. W grupie
badanych kobiet wyraźnie przeważaja niskie i umiarkowane poziomy
(szczególnie 2 i 4), które łącznie obejmują ponad połowę badanych
kobiet. Najwyższe poziomy występują w tej grupie relatywnie rzadko. W
grupie badanych mężczyzn rozkład przesunięty jest w stronę wyższych
poziomów. Blisko 40% mężczyzn znajduje się w dwóch najwyższych
kategoriach narażenia, niski poziom biernego palenia występuje rzadziej
niż u kobiet. Mężczyźni są istotnie częściej narażeni na intensywne
bierne palenie, co może stanowić ważny czynnik różnicujący ryzyko
zdrowotne pomiędzy płciami.
| Test | Zmienna_1 | Zmienna_2 | χ. | df | p.value | |
|---|---|---|---|---|---|---|
| X-squared | Chi-kwadrat niezależności | Płeć | Poziom zaawansowania choroby | 27.22 | 2 | 1.23e-06 |
Wynik testu chi-kwadrat wskazuje na istotną statystycznie zależność pomiędzy płcią a poziomem zaawansowania choroby (p < 0,001). Oznacza to, że rozkład stopni zaawansowania choroby różni się pomiędzy kobietami i mężczyznami, a płeć może być czynnikiem związanym z przebiegiem choroby.
| Test | Zmienna | rho | p.value | N |
|---|---|---|---|---|
| Korelacja rang Spearmana | Palenie tytoniu | -0.586 | 2.70e-93 | 1000 |
Analiza korelacji rang Spearmana wykazała istotną statystycznie zależność pomiędzy nasileniem palenia tytoniu a poziomem zaawansowania choroby. Wraz ze wzrostem intensywności palenia obserwuje się wyższy poziom zaawansowania choroby.
| Test | Zmienna | rho | p.value | N |
|---|---|---|---|---|
| Korelacja rang Spearmana | Zanieczyszczenie powietrza | -0.582 | 1.12e-91 | 1000 |
Wyniki korelacji Spearmana wskazują na istotną statystycznie zależność pomiędzy poziomem zanieczyszczenia powietrza a zaawansowaniem choroby. Wyższe wartości zanieczyszczenia powietrza wiążą się z wyższym poziomem zaawansowania choroby.
| Test | Zmienna | rho | p.value | N |
|---|---|---|---|---|
| Korelacja rang Spearmana | Zmęczenie | -0.339 | 2.89e-28 | 1000 |
Wyniki korelacji rang Spearmana wskazują na istotną statystycznie zależność pomiędzy nasileniem zmęczenia a poziomem zaawansowania choroby.
| Test | Zmienna | Grupy | H | df | p.value | |
|---|---|---|---|---|---|---|
| df | Test Kruskala–Wallisa | Zmęczenie | Poziom zaawansowania choroby | 398.55 | 2 | 0 |
Test Kruskala–Wallisa wykazał istotne statystycznie różnice w nasileniu zmęczenia pomiędzy poszczególnymi poziomami zaawansowania choroby.Pacjenci na różnych etapach choroby różnią się poziomem odczuwanego zmęczenia, a zmęczenie rośnie wraz z zaawansowaniem choroby.
Celem przeprowadzonej analizy było udzielenie odpowiedzi na główny problem badawczy dotyczący identyfikacji czynników demograficznych, środowiskowych oraz związanych ze stylem życia, które mają wpływ na poziom zaawansowania choroby nowotworowej u badanych pacjentów. Dane nie zawierały istotnych braków, co pozwoliło na przeprowadzenie analiz na pełnej próbie 1000 obserwacji. Analiza opisowa wykazała wyraźne różnice pomiędzy grupami pacjentów o różnym poziomie zaawansowania choroby. Wraz ze wzrostem stopnia zaawansowania nowotworu obserwowano:
-wyższe nasilenie objawów klinicznych, takich jak kaszel z krwią, duszność oraz zmęczenie,
-większą intensywność palenia tytoniu,
-wyższe średnie wartości zanieczyszczenia powietrza i ryzyka genetycznego.
Wiek pacjentów był zróżnicowany pomiędzy grupami, jednak różnice te miały umiarkowany charakter. Analiza płci wykazała, że mężczyźni częściej znajdują się w grupie wysokiego zaawansowania choroby, natomiast kobiety częściej w grupie niskiego stopnia zaawansowania. Wykorzystane wizualizacje (wykresy pudełkowe, wykresy słupkowe, heatmapy) pozwoliły na czytelne przedstawienie zależności pomiędzy badanymi zmiennymi. Szczególnie wyraźnie widoczny był wzrost nasilenia objawów klinicznych wraz z postępem choroby. Wykresy potwierdziły również różnice w rozkładach palenia tytoniu i biernego palenia pomiędzy płciami oraz zróżnicowanie wieku pacjentów w zależności od poziomu zanieczyszczenia powietrza. W ramach wnioskowania statystycznego przeprowadzono szereg testów odpowiadających postawionym problemom badawczym.
Test porównawczy dla dwóch prób niezależnych wykazał istotne statystycznie różnice wieku pomiędzy kobietami i mężczyznami.
Korelacja rang Spearmana nie potwierdziła istotnej zależności pomiędzy wiekiem pacjentów a poziomem zaawansowania choroby.
Test chi-kwadrat wykazał istotną zależność pomiędzy płcią a poziomem biernego palenia oraz pomiędzy płcią a poziomem zaawansowania choroby.
Analizy korelacji Spearmana potwierdziły istotne dodatnie zależności pomiędzy:
-paleniem tytoniu a poziomem zaawansowania choroby,
-zanieczyszczeniem powietrza a poziomem zaawansowania choroby,
-ryzykiem genetycznym a poziomem zaawansowania choroby.
Najsilniejszą zależność zaobserwowano dla ryzyka genetycznego, a najsłabszą dla palenia tytoniu.
Test Kruskala–Wallisa potwierdził istotne różnice w nasileniu zmęczenia pomiędzy poziomami zaawansowania choroby, co wskazuje, że zmęczenie rośnie wraz z postępem choroby. Na podstawie przeprowadzonych analiz można stwierdzić, że poziom zaawansowania choroby nowotworowej jest istotnie związany z czynnikami środowiskowymi, stylem życia oraz objawami klinicznymi. Szczególną rolę odgrywają palenie tytoniu, zanieczyszczenie powietrza oraz ryzyko genetyczne. Wiek pacjentów sam w sobie nie stanowi istotnego czynnika różnicującego stopień zaawansowania choroby, jednak różnice wieku są widoczne w zależności od płci.