1 Wstęp i Cel Analizy

Celem niniejszego raportu jest zbadanie wpływu aktywności fizycznej na parametry fizjologiczne organizmu oraz analiza nawyków treningowych osób uczęszczających na siłownię. Analiza opiera się na zbiorze danych obejmującym kluczowe wskaźniki takie jak tętno (BPM), wskaźnik BMI, poziom tkanki tłuszczowej, nawodnienie oraz częstotliwość treningów.

1.1 Pytania badawcze:

  1. Jaka jest zależność między poziomami BPM a rodzajami treningu?
  2. Jaka jest zależność między poziomami BPM a długością treningu?
  3. W jakich rodzajach treningu poziom zaawansowania przekłada się na niższe BMI?
  4. Czy poziom zaawansowania jest powiązany z ilością treningów?
  5. Czy ilość wypijanej wody koreluje ze spalanymi kaloriami?
  6. Jak rozkłada się procent tkanki tłuszczowej w zależności od częstotliwości treningów i płci?

1.2 Podgląd zbioru danych

Pierwsze obserwacje zbioru danych
Age Gender Weight..kg. Height..m. Max_BPM Avg_BPM Resting_BPM Session_Duration..hours. Calories_Burned Workout_Type Fat_Percentage Water_Intake..liters. Workout_Frequency..days.week. Experience_Level BMI
NA Male 88.3 1.71 180 157 60 1.69 1313 Yoga 12.6 3.5 4 3 NA
46 Female 74.9 1.53 179 151 66 1.30 883 NA 33.9 2.1 4 2 32.00
32 Female 68.1 1.66 167 122 54 1.11 677 Cardio 33.4 2.3 4 2 NA
25 Male 53.2 1.70 190 164 56 0.59 532 Strength 28.8 2.1 3 1 18.41
38 Male 46.1 1.79 188 158 68 0.64 556 Strength 29.2 2.8 3 1 14.39
56 Female 58.0 1.68 168 156 74 1.59 1116 HIIT 15.5 2.7 5 3 20.55

1.3 Podstawowe statystyki opisowe danych

Statystyki opisowe zmiennych w zbiorze danych
Statystyka Age Gender Weight..kg. Height..m. Max_BPM Avg_BPM Resting_BPM Session_Duration..hours. Calories_Burned Workout_Type Fat_Percentage Water_Intake..liters. Workout_Frequency..days.week. Experience_Level BMI
Minimum 18.00 NA 40.00 1.50 160.00 120.00 50.00 0.50 303.00 NA 10.00 1.50 2.00 1.00 12.32
Q1 28.00 NA 58.10 1.62 170.00 131.00 56.00 1.04 720.00 NA 21.30 2.20 3.00 1.00 20.10
Mediana 39.00 NA 70.00 1.71 180.00 143.00 62.00 1.26 893.00 NA 26.20 2.60 3.00 2.00 23.94
Średnia 38.63 NA 73.85 1.72 179.88 143.77 62.22 1.26 905.42 NA 24.98 2.63 3.32 1.81 24.82
Q3 50.00 NA 86.00 1.80 190.00 156.00 68.00 1.46 1076.00 NA 29.30 3.10 4.00 2.00 28.45
Maksimum 59.00 NA 129.90 2.00 199.00 169.00 74.00 2.00 1783.00 NA 35.00 3.70 5.00 3.00 47.72

2 Analiza Braków Danych

Przed przystąpieniem do właściwej analizy statystycznej konieczne jest zidentyfikowanie braków danych oraz ocena ich struktury. Pozwala to określić, czy braki mają charakter losowy, czy też wykazują określone zależności z innymi zmiennymi.

2.1 Ogólne statystyki braków

Ogólna charakterystyka braków danych
Liczba obserwacji Liczba zmiennych Łączna liczba braków
973 15 400

W bazie znajduje się 400 braków danych. Koncentrują się one w trzech zmiennych: Workout_type, BMI oraz Age.

2.2 Braki według zmiennych i obserwacji

Liczba i odsetek braków według zmiennych
variable n_miss pct_miss
Workout_Type 150 15.4
BMI 150 15.4
Age 100 10.3
Gender 0 0
Weight..kg. 0 0
Height..m. 0 0
Max_BPM 0 0
Avg_BPM 0 0
Resting_BPM 0 0
Session_Duration..hours. 0 0
Calories_Burned 0 0
Fat_Percentage 0 0
Water_Intake..liters. 0 0
Workout_Frequency..days.week. 0 0
Experience_Level 0 0
Liczba i odsetek braków w poszczególnych obserwacjach
n_miss_in_case n_cases pct_cases
0 631 64.85
1 287 29.50
2 52 5.34
3 3 0.31

2.3 Procentowe braki danych a zmienne kategoryczne

Analiza map cieplnych wykazuje pewne wzorce w strukturze brakujących danych: - Najsilniejsze braki w zmiennej BMI występują u osób trenujących siłowo. - Ilość braków w rodzaju treningu (Workout_Type) narasta wraz ze wzrostem częstotliwości treningów. - Pod względem demograficznym, najwięcej braków odnotowuje się u mężczyzn oraz osób na poziomie średniozaawansowanym.

2.4 Zależności między brakami danych

Analiza powiązań braków wykazuje, że braki występują raczej niezależnie. Istnieją jedynie niewielkie powiązania między brakami w rodzaju treningu a brakami w BMI oraz między wiekiem a BMI.

3 Imputacja Danych

Po przeprowadzeniu analizy braków danych podjęto decyzję o zastosowaniu zróżnicowanych metod imputacji, dostosowanych do charakteru poszczególnych zmiennych. Celem było zachowanie spójności danych oraz ograniczenie ryzyka wprowadzenia sztucznych zależności.

Zastosowano następujące metody uzupełniania danych:

3.1 Imputacja braków wskaźnika BMI

W przypadku wskaźnika BMI wykorzystano jego definicję matematyczną. Takie podejście eliminuje losowość imputacji i zapewnia pełną spójność fizjologiczną uzyskanych wartości.

3.2 Imputacja braków wieku z uwzględnieniem płci

Uzupełnienie braków wieku przeprowadzono z wykorzystaniem mediany, osobno dla kobiet i mężczyzn. Zastosowanie mediany zamiast średniej ogranicza wpływ wartości skrajnych, natomiast podział na płeć pozwala zachować realistyczną strukturę demograficzną zbioru danych.

3.3 Imputacja braków rodzaju treningu z wykorzystaniem drzewa decyzyjnego

W przypadku zmiennej Workout_Type zastosowano model drzewa decyzyjnego, który umożliwia przewidywanie kategorii treningu na podstawie zestawu cech fizycznych, intensywności wysiłku oraz doświadczenia treningowego. Takie podejście pozwala na bardziej realistyczną imputację w porównaniu do prostych metod statystycznych oraz lepiej odzwierciedla rzeczywiste zależności pomiędzy zmiennymi.

3.4 Kontrola kompletności danych po imputacji

Kontrola braków danych
Liczba braków danych po imputacji
0

Po zastosowaniu opisanych metod imputacji zbiór danych nie zawiera brakujących wartości, co umożliwia przejście do dalszych analiz statystycznych bez ryzyka utraty obserwacji.

4 Walidacja i Korekta Błędów

Zdefiniowano zestaw reguł logicznych, aby wykryć i naprawić błędy w danych:

  1. Wiek musi być większy od 0
  2. Wiek musi być mniejszy od 100
  3. Płeć musi mieć wartość ‘Male’ lub ‘Female’
  4. Tętno maksymalne musi być wyższe niż średnie
  5. Tętno średnie musi być wyższe niż spoczynkowe
  6. Wskaźnik BMI musi być zgodny z definicją matematyczną jego obliczania
  7. Liczba dni treningowych w tygodniu musi być mniejsza lub równa 7

4.1 Zdefiniowanie i walidacja reguł

Podsumowanie spełnienia reguł walidacyjnych
Reguła name items passes fails nNA error warning expression
1 r1 973 973 0 0 FALSE FALSE Age > 0
2 r2 973 973 0 0 FALSE FALSE Age < 100
3 r3 973 973 0 0 FALSE FALSE Gender %vin% c(“Male”, “Female”)
4 r4 973 945 28 0 FALSE FALSE Max_BPM > Avg_BPM
5 r5 973 973 0 0 FALSE FALSE Avg_BPM > Resting_BPM
6 r6 973 973 0 0 FALSE FALSE abs(BMI - (Weight..kg./(Height..m.^2))) < 0.1
7 r7 973 973 0 0 FALSE FALSE Workout_Frequency..days.week. - 7 <= 1e-08

Analiza wyników walidacji wskazuje na występowanie naruszeń jednej z reguł, co uzasadnia konieczność dalszej korekty danych.

4.2 Lokalizacja i korekta błędów

Zidentyfikowane rekordy zawierające nieprawidłowe wartości w zmiennej Avg_BPM zostały zastąpione wartościami NA, co umożliwia ich ponowne uzupełnienie przy użyciu wybranej metody imputacji danych.

Porównanie liczby braków danych przed i po korekcie
Zbiór Liczba_NA
Dane pierwotne 0
Dane po korekcie 28

Braki w zmiennej Avg_BPM uzupełniono przy użyciu średniej wartości tętna obliczonej w podziale na typ treningu, co pozwala zachować strukturę danych oraz ograniczyć wpływ imputacji na dalsze analizy.

4.3 Walidacja danych po wprowadzeniu korekty

Podsumowanie spełnienia reguł walidacyjnych – dane po korekcie
Reguła name items passes fails nNA error warning expression
1 r1 973 973 0 0 FALSE FALSE Age > 0
2 r2 973 973 0 0 FALSE FALSE Age < 100
3 r3 973 973 0 0 FALSE FALSE Gender %vin% c(“Male”, “Female”)
4 r4 973 973 0 0 FALSE FALSE Max_BPM > Avg_BPM
5 r5 973 973 0 0 FALSE FALSE Avg_BPM > Resting_BPM
6 r6 973 973 0 0 FALSE FALSE abs(BMI - (Weight..kg./(Height..m.^2))) < 0.1
7 r7 973 973 0 0 FALSE FALSE Workout_Frequency..days.week. - 7 <= 1e-08

Końcowa walidacja potwierdza, że po przeprowadzonej korekcie i imputacji zbiór danych spełnia wszystkie zdefiniowane reguły logiczne i może zostać wykorzystany w dalszych etapach analizy.

5 Wizualizacje - Analiza Eksploracyjna

W tej sekcji odpowiadamy na postawione pytania badawcze za pomocą wizualizacji graficznych.

5.1 Pytanie 1: Jaka jest zależność między poziomami BPM a rodzajami treningu?

Interpretacja: Analiza wykazuje stosunkowo niewielkie różnice w poziomie średniego tętna dla osób wykonujących różne rodzaje treningów – różnice sięgają ok. 1,5 uderzenia na minutę. Co ciekawe, najwyższy poziom średniego tętna obserwowany jest przy treningach siłowych (Strength), a najniższy przy treningach cardio. Może to sugerować wysoką intensywność sesji siłowych w badanym zbiorze.

5.2 Pytanie 2: Jaka jest zależność między poziomami BPM a długością treningu?

Interpretacja: Wyróżniamy dwie przeciwstawne tendencje: - Cardio, HIIT, Yoga: Obserwuje się wzrost średniego poziomu tętna wraz z wydłużaniem czasu trwania treningu (zjawisko dryfu tętna). - Trening Siłowy: Charakteryzuje się odwrotną zależnością – dłuższy czas spędzony na treningu koreluje ze spadkiem średniego poziomu tętna. Wynika to prawdopodobnie z faktu, że dłuższe sesje siłowe zawierają więcej przerw wypoczynkowych między seriami.

5.3 Pytanie 3: W jakich rodzajach treningu poziom zaawansowania przekłada się na niższe BMI?

Interpretacja: Zależności są zróżnicowane w zależności od dyscypliny: - Siłownia (Strength): Poziom średniozaawansowany wyróżnia się najwyższym wskaźnikiem BMI, co może wynikać z przyrostu masy mięśniowej, zanim nastąpi redukcja tkanki tłuszczowej u ekspertów. - HIIT: Wraz ze wzrostem zaawansowania rośnie BMI – prawdopodobnie również efekt budowy muskulatury. - Yoga: Widoczny jest spadek BMI wraz ze wzrostem poziomu zaawansowania, co jest zgodne z charakterystyką tej aktywności.

5.4 Pytanie 4: Czy poziom zaawansowania jest powiązany z ilością treningów?

Interpretacja: Występuje wyraźna korelacja: poziom zaawansowania przekłada się na ilość treningów w tygodniu. Im wyższy poziom (Advanced), tym większy udział procentowy w grupach trenujących 4-5 razy w tygodniu.

5.5 Pytanie 5: Czy ilość wypijanej wody koreluje ze spalanymi kaloriami?

Interpretacja: Wykres potwierdza silną dodatnią korelację. Większe spożycie wody jest ściśle powiązane z większą liczbą spalanych kalorii, co jest fizjologicznie uzasadnione zwiększonym wysiłkiem i potliwością.

5.6 Pytanie 6: Jak rozkłada się procent tkanki tłuszczowej w zależności od częstotliwości treningów i płci?

Interpretacja: - Wpływ treningu: Osoby trenujące częściej cechują się znacznie niższym poziomem tkanki tłuszczowej. - Wpływ płci: Kobiety utrzymują fizjologicznie wyższy poziom tkanki tłuszczowej (o ok. 5 p.p.) w porównaniu do mężczyzn przy tej samej częstotliwości treningowej.

6 Statystyka Opisowa

Poniższe tabele podsumowują strukturę badanej grupy.

6.1 Tabela 1: Ogólna charakterystyka w podziale na typ treningu

Zmienna Overall
N = 973
1
Cardio
N = 230
1
HIIT
N = 184
1
Strength
N = 359
1
Yoga
N = 200
1
p-value2
Średnie tętno (BPM) 143.1 (13.8) 142.5 (13.4) 142.7 (13.7) 143.9 (14.3) 142.9 (13.6) 0.7
Czas trwania (h) 1.3 (0.3) 1.2 (0.4) 1.3 (0.3) 1.3 (0.3) 1.3 (0.4) 0.040
Wskaźnik BMI 24.9 (6.7) 25.3 (6.8) 25.2 (6.3) 24.7 (6.7) 24.6 (6.8) 0.5
Poziom zaawansowania




0.071
    Beginner 376 (39%) 105 (46%) 74 (40%) 129 (36%) 68 (34%)
    Intermediate 406 (42%) 88 (38%) 69 (38%) 164 (46%) 85 (43%)
    Advanced 191 (20%) 37 (16%) 41 (22%) 66 (18%) 47 (24%)
Workout_Frequency..days.week.




0.7
    2 197 (20%) 56 (24%) 36 (20%) 67 (19%) 38 (19%)
    3 368 (38%) 87 (38%) 72 (39%) 134 (37%) 75 (38%)
    4 306 (31%) 69 (30%) 53 (29%) 121 (34%) 63 (32%)
    5 102 (10%) 18 (7.8%) 23 (13%) 37 (10%) 24 (12%)
Fat_Percentage 25.0 (6.3) 25.5 (6.1) 24.5 (6.7) 25.2 (6.1) 24.4 (6.2) 0.2
Gender




0.6
    Female 462 (47%) 116 (50%) 89 (48%) 169 (47%) 88 (44%)
    Male 511 (53%) 114 (50%) 95 (52%) 190 (53%) 112 (56%)
Calories_Burned 905.4 (272.6) 859.7 (272.6) 932.3 (272.6) 914.7 (268.4) 916.7 (276.2) 0.15
Water_Intake..liters. 2.6 (0.6) 2.6 (0.6) 2.7 (0.6) 2.6 (0.6) 2.7 (0.6) 0.6
Workout_Frequency




0.7
    2 197 (20%) 56 (24%) 36 (20%) 67 (19%) 38 (19%)
    3 368 (38%) 87 (38%) 72 (39%) 134 (37%) 75 (38%)
    4 306 (31%) 69 (30%) 53 (29%) 121 (34%) 63 (32%)
    5 102 (10%) 18 (7.8%) 23 (13%) 37 (10%) 24 (12%)
1 Mean (SD); n (%)
2 Kruskal-Wallis rank sum test; Pearson’s Chi-squared test

W podziale na typ trenignu, istotne statystycznie (przy założeniu poziomu alfa = 0,05) okazały się dwie zmienne: czas trwania treningu oraz poziom zaawansowania. Czas trwania treningów dla wszystkich ich rodzajów jest taki sam - ok 1,3h, jednak zauważalne są różnice w poziomach zaawansowania - cardio i HIIT trenują głównie osoby początkujące (kolejno - 46% i 40%), natomiast trening siłowy i yogę - osoby średniozaawansowane (46% i 43%). W każdej z kategorii jest ok 20% osób zaawansowanych.

6.2 Tabela 2: Zależność zaawansowania od częstotliwości, tkanki tłuszczowej i płci

Characteristic Beginner
N = 376
1
Intermediate
N = 406
1
Advanced
N = 191
1
p-value2
Dni treningowe/tydzień


<0.001
    2 197 (52%) 0 (0%) 0 (0%)
    3 179 (48%) 189 (47%) 0 (0%)
    4 0 (0%) 217 (53%) 89 (47%)
    5 0 (0%) 0 (0%) 102 (53%)
% Tkanki tłuszczowej 28 (25, 30) 27 (25, 30) 15 (12, 17) <0.001
Płeć


>0.9
    Female 179 (48%) 193 (48%) 90 (47%)
    Male 197 (52%) 213 (52%) 101 (53%)
1 n (%); Median (Q1, Q3)
2 Pearson’s Chi-squared test; Kruskal-Wallis rank sum test

Płeć nie wykazała istotności statystycznej jeśli chodzi o poziom zaawansowania, jednak częstotliwość i poziom tkanki tłuszczowej są istotne. Po około 50% osób początkujących trenuje 2 lub 3 razy w tygodniu; po około 50% osób średniozaawansowanych trenuje 3 lub 4 razy w tygodniu oraz po około 50% osób zaawansowanych trenuje 4 lub 5 razy w tygodniu. Osoby początkujące i średniozaawansowane mają średnio po 25% tkanki tłuszczowej, natomiast osoby zaawansowane - 12%.

6.3 Tabela 3: Relacja nawodnienia i wydatku energetycznego

Zmienna Overall
N = 973
1
Cardio
N = 230
1
HIIT
N = 184
1
Strength
N = 359
1
Yoga
N = 200
1
p-value2
Spożycie wody (litry) 2.6 (0.6) 2.6 (0.6) 2.7 (0.6) 2.6 (0.6) 2.7 (0.6) 0.6
Spalone kalorie (kcal) 905.4 (272.6) 859.7 (272.6) 932.3 (272.6) 914.7 (268.4) 916.7 (276.2) 0.15
1 Mean (SD)
2 Kruskal-Wallis rank sum test

Spożycie wody oraz ilość spalanych kalorii nie wykazały istotności statystycznej.

7 Wnioskowanie Statystyczne

W tej sekcji wykorzystujemy testy statystyczne (zintegrowane z wykresami), aby potwierdzić istotność zaobserwowanych zależności.

7.1 Zależność między poziomami BPM a rodzajami treningu

Test wykazał istotne statystycznie różnice w poziomie średniego tętna pomiędzy rodzajami treningu (p < 0,05). Oznacza to, że typ wykonywanej aktywności fizycznej wpływa na poziom BPM, choć różnice średnich wartości są relatywnie niewielkie i mają raczej umiarkowane znaczenie praktyczne.

7.2 Zależność między BPM a długością treningu

Stwierdzono istotną statystycznie zależność między czasem trwania sesji a średnim tętnem (p < 0,05). Kierunek i siła tej zależności wskazują, że wraz ze zmianą długości treningu zmienia się także reakcja układu sercowo-naczyniowego, co potwierdza wcześniejsze obserwacje eksploracyjne.

7.3 Poziom zaawansowania a BMI w zależności od typu treningu

Wyniki testów wskazują, że zależność między poziomem zaawansowania a BMI jest istotna statystycznie, jednak jej charakter różni się w zależności od rodzaju treningu. Oznacza to, że staż treningowy wpływa na BMI, ale efekt ten nie jest jednolity dla wszystkich dyscyplin.

7.4 Poziom zaawansowania a częstotliwość treningów

Uzyskano istotny statystycznie wynik (p < 0,05), potwierdzający, że poziom zaawansowania jest powiązany z liczbą treningów w tygodniu. Osoby bardziej zaawansowane trenują istotnie częściej niż osoby początkujące, co potwierdza logiczną zależność między doświadczeniem a regularnością treningów.

7.5 Zależność między ilością wypijanej wody a spalanymi kaloriami

Test wykazał istotną dodatnią korelację między spożyciem wody a liczbą spalanych kalorii (p < 0,05). Oznacza to, że osoby spalające więcej kalorii jednocześnie spożywają więcej płynów, co jest zgodne z fizjologiczną odpowiedzią organizmu na intensywny wysiłek.

7.6 Procent tkanki tłuszczowej a częstotliwość treningów w podziale na płeć

Wyniki wskazują na istotny statystycznie wpływ częstotliwości treningów na poziom tkanki tłuszczowej (p < 0,05) zarówno u kobiet, jak i u mężczyzn. Jednocześnie widoczne są różnice międzypłciowe – kobiety utrzymują wyższy poziom tkanki tłuszczowej, co ma charakter biologiczny, a nie treningowy.

8 Podsumowanie Raportu

Przeprowadzona analiza danych pozwoliła na sformułowanie następujących wniosków końcowych: