Celem niniejszego raportu jest zbadanie wpływu aktywności fizycznej na parametry fizjologiczne organizmu oraz analiza nawyków treningowych osób uczęszczających na siłownię. Analiza opiera się na zbiorze danych obejmującym kluczowe wskaźniki takie jak tętno (BPM), wskaźnik BMI, poziom tkanki tłuszczowej, nawodnienie oraz częstotliwość treningów.
| Age | Gender | Weight..kg. | Height..m. | Max_BPM | Avg_BPM | Resting_BPM | Session_Duration..hours. | Calories_Burned | Workout_Type | Fat_Percentage | Water_Intake..liters. | Workout_Frequency..days.week. | Experience_Level | BMI |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| NA | Male | 88.3 | 1.71 | 180 | 157 | 60 | 1.69 | 1313 | Yoga | 12.6 | 3.5 | 4 | 3 | NA |
| 46 | Female | 74.9 | 1.53 | 179 | 151 | 66 | 1.30 | 883 | NA | 33.9 | 2.1 | 4 | 2 | 32.00 |
| 32 | Female | 68.1 | 1.66 | 167 | 122 | 54 | 1.11 | 677 | Cardio | 33.4 | 2.3 | 4 | 2 | NA |
| 25 | Male | 53.2 | 1.70 | 190 | 164 | 56 | 0.59 | 532 | Strength | 28.8 | 2.1 | 3 | 1 | 18.41 |
| 38 | Male | 46.1 | 1.79 | 188 | 158 | 68 | 0.64 | 556 | Strength | 29.2 | 2.8 | 3 | 1 | 14.39 |
| 56 | Female | 58.0 | 1.68 | 168 | 156 | 74 | 1.59 | 1116 | HIIT | 15.5 | 2.7 | 5 | 3 | 20.55 |
| Statystyka | Age | Gender | Weight..kg. | Height..m. | Max_BPM | Avg_BPM | Resting_BPM | Session_Duration..hours. | Calories_Burned | Workout_Type | Fat_Percentage | Water_Intake..liters. | Workout_Frequency..days.week. | Experience_Level | BMI |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Minimum | 18.00 | NA | 40.00 | 1.50 | 160.00 | 120.00 | 50.00 | 0.50 | 303.00 | NA | 10.00 | 1.50 | 2.00 | 1.00 | 12.32 |
| Q1 | 28.00 | NA | 58.10 | 1.62 | 170.00 | 131.00 | 56.00 | 1.04 | 720.00 | NA | 21.30 | 2.20 | 3.00 | 1.00 | 20.10 |
| Mediana | 39.00 | NA | 70.00 | 1.71 | 180.00 | 143.00 | 62.00 | 1.26 | 893.00 | NA | 26.20 | 2.60 | 3.00 | 2.00 | 23.94 |
| Średnia | 38.63 | NA | 73.85 | 1.72 | 179.88 | 143.77 | 62.22 | 1.26 | 905.42 | NA | 24.98 | 2.63 | 3.32 | 1.81 | 24.82 |
| Q3 | 50.00 | NA | 86.00 | 1.80 | 190.00 | 156.00 | 68.00 | 1.46 | 1076.00 | NA | 29.30 | 3.10 | 4.00 | 2.00 | 28.45 |
| Maksimum | 59.00 | NA | 129.90 | 2.00 | 199.00 | 169.00 | 74.00 | 2.00 | 1783.00 | NA | 35.00 | 3.70 | 5.00 | 3.00 | 47.72 |
Przed przystąpieniem do właściwej analizy statystycznej konieczne jest zidentyfikowanie braków danych oraz ocena ich struktury. Pozwala to określić, czy braki mają charakter losowy, czy też wykazują określone zależności z innymi zmiennymi.
| Liczba obserwacji | Liczba zmiennych | Łączna liczba braków |
|---|---|---|
| 973 | 15 | 400 |
W bazie znajduje się 400 braków danych. Koncentrują się one w trzech zmiennych: Workout_type, BMI oraz Age.
| variable | n_miss | pct_miss |
|---|---|---|
| Workout_Type | 150 | 15.4 |
| BMI | 150 | 15.4 |
| Age | 100 | 10.3 |
| Gender | 0 | 0 |
| Weight..kg. | 0 | 0 |
| Height..m. | 0 | 0 |
| Max_BPM | 0 | 0 |
| Avg_BPM | 0 | 0 |
| Resting_BPM | 0 | 0 |
| Session_Duration..hours. | 0 | 0 |
| Calories_Burned | 0 | 0 |
| Fat_Percentage | 0 | 0 |
| Water_Intake..liters. | 0 | 0 |
| Workout_Frequency..days.week. | 0 | 0 |
| Experience_Level | 0 | 0 |
| n_miss_in_case | n_cases | pct_cases |
|---|---|---|
| 0 | 631 | 64.85 |
| 1 | 287 | 29.50 |
| 2 | 52 | 5.34 |
| 3 | 3 | 0.31 |
Analiza map cieplnych wykazuje pewne wzorce w strukturze brakujących danych: - Najsilniejsze braki w zmiennej BMI występują u osób trenujących siłowo. - Ilość braków w rodzaju treningu (Workout_Type) narasta wraz ze wzrostem częstotliwości treningów. - Pod względem demograficznym, najwięcej braków odnotowuje się u mężczyzn oraz osób na poziomie średniozaawansowanym.
Analiza powiązań braków wykazuje, że braki występują raczej niezależnie. Istnieją jedynie niewielkie powiązania między brakami w rodzaju treningu a brakami w BMI oraz między wiekiem a BMI.
Po przeprowadzeniu analizy braków danych podjęto decyzję o zastosowaniu zróżnicowanych metod imputacji, dostosowanych do charakteru poszczególnych zmiennych. Celem było zachowanie spójności danych oraz ograniczenie ryzyka wprowadzenia sztucznych zależności.
Zastosowano następujące metody uzupełniania danych:
W przypadku wskaźnika BMI wykorzystano jego definicję matematyczną. Takie podejście eliminuje losowość imputacji i zapewnia pełną spójność fizjologiczną uzyskanych wartości.
Uzupełnienie braków wieku przeprowadzono z wykorzystaniem mediany, osobno dla kobiet i mężczyzn. Zastosowanie mediany zamiast średniej ogranicza wpływ wartości skrajnych, natomiast podział na płeć pozwala zachować realistyczną strukturę demograficzną zbioru danych.
W przypadku zmiennej Workout_Type zastosowano model drzewa decyzyjnego, który umożliwia przewidywanie kategorii treningu na podstawie zestawu cech fizycznych, intensywności wysiłku oraz doświadczenia treningowego. Takie podejście pozwala na bardziej realistyczną imputację w porównaniu do prostych metod statystycznych oraz lepiej odzwierciedla rzeczywiste zależności pomiędzy zmiennymi.
| Liczba braków danych po imputacji |
|---|
| 0 |
Po zastosowaniu opisanych metod imputacji zbiór danych nie zawiera brakujących wartości, co umożliwia przejście do dalszych analiz statystycznych bez ryzyka utraty obserwacji.
Zdefiniowano zestaw reguł logicznych, aby wykryć i naprawić błędy w danych:
| Reguła | name | items | passes | fails | nNA | error | warning | expression |
|---|---|---|---|---|---|---|---|---|
| 1 | r1 | 973 | 973 | 0 | 0 | FALSE | FALSE | Age > 0 |
| 2 | r2 | 973 | 973 | 0 | 0 | FALSE | FALSE | Age < 100 |
| 3 | r3 | 973 | 973 | 0 | 0 | FALSE | FALSE | Gender %vin% c(“Male”, “Female”) |
| 4 | r4 | 973 | 945 | 28 | 0 | FALSE | FALSE | Max_BPM > Avg_BPM |
| 5 | r5 | 973 | 973 | 0 | 0 | FALSE | FALSE | Avg_BPM > Resting_BPM |
| 6 | r6 | 973 | 973 | 0 | 0 | FALSE | FALSE | abs(BMI - (Weight..kg./(Height..m.^2))) < 0.1 |
| 7 | r7 | 973 | 973 | 0 | 0 | FALSE | FALSE | Workout_Frequency..days.week. - 7 <= 1e-08 |
Analiza wyników walidacji wskazuje na występowanie naruszeń jednej z reguł, co uzasadnia konieczność dalszej korekty danych.
Zidentyfikowane rekordy zawierające nieprawidłowe wartości w zmiennej Avg_BPM zostały zastąpione wartościami NA, co umożliwia ich ponowne uzupełnienie przy użyciu wybranej metody imputacji danych.
| Zbiór | Liczba_NA |
|---|---|
| Dane pierwotne | 0 |
| Dane po korekcie | 28 |
Braki w zmiennej Avg_BPM uzupełniono przy użyciu średniej wartości tętna obliczonej w podziale na typ treningu, co pozwala zachować strukturę danych oraz ograniczyć wpływ imputacji na dalsze analizy.
| Reguła | name | items | passes | fails | nNA | error | warning | expression |
|---|---|---|---|---|---|---|---|---|
| 1 | r1 | 973 | 973 | 0 | 0 | FALSE | FALSE | Age > 0 |
| 2 | r2 | 973 | 973 | 0 | 0 | FALSE | FALSE | Age < 100 |
| 3 | r3 | 973 | 973 | 0 | 0 | FALSE | FALSE | Gender %vin% c(“Male”, “Female”) |
| 4 | r4 | 973 | 973 | 0 | 0 | FALSE | FALSE | Max_BPM > Avg_BPM |
| 5 | r5 | 973 | 973 | 0 | 0 | FALSE | FALSE | Avg_BPM > Resting_BPM |
| 6 | r6 | 973 | 973 | 0 | 0 | FALSE | FALSE | abs(BMI - (Weight..kg./(Height..m.^2))) < 0.1 |
| 7 | r7 | 973 | 973 | 0 | 0 | FALSE | FALSE | Workout_Frequency..days.week. - 7 <= 1e-08 |
Końcowa walidacja potwierdza, że po przeprowadzonej korekcie i imputacji zbiór danych spełnia wszystkie zdefiniowane reguły logiczne i może zostać wykorzystany w dalszych etapach analizy.
W tej sekcji odpowiadamy na postawione pytania badawcze za pomocą wizualizacji graficznych.
Interpretacja: Analiza wykazuje stosunkowo niewielkie różnice w poziomie
średniego tętna dla osób wykonujących różne rodzaje treningów – różnice
sięgają ok. 1,5 uderzenia na minutę. Co ciekawe, najwyższy poziom
średniego tętna obserwowany jest przy treningach siłowych (Strength), a
najniższy przy treningach cardio. Może to sugerować wysoką intensywność
sesji siłowych w badanym zbiorze.
Interpretacja: Wyróżniamy dwie przeciwstawne tendencje: - Cardio, HIIT,
Yoga: Obserwuje się wzrost średniego poziomu tętna wraz z wydłużaniem
czasu trwania treningu (zjawisko dryfu tętna). - Trening Siłowy:
Charakteryzuje się odwrotną zależnością – dłuższy czas spędzony na
treningu koreluje ze spadkiem średniego poziomu tętna. Wynika to
prawdopodobnie z faktu, że dłuższe sesje siłowe zawierają więcej przerw
wypoczynkowych między seriami.
Interpretacja: Zależności są zróżnicowane w zależności od dyscypliny: -
Siłownia (Strength): Poziom średniozaawansowany wyróżnia się najwyższym
wskaźnikiem BMI, co może wynikać z przyrostu masy mięśniowej, zanim
nastąpi redukcja tkanki tłuszczowej u ekspertów. - HIIT: Wraz ze
wzrostem zaawansowania rośnie BMI – prawdopodobnie również efekt budowy
muskulatury. - Yoga: Widoczny jest spadek BMI wraz ze wzrostem poziomu
zaawansowania, co jest zgodne z charakterystyką tej aktywności.
Interpretacja: Występuje wyraźna korelacja: poziom zaawansowania
przekłada się na ilość treningów w tygodniu. Im wyższy poziom
(Advanced), tym większy udział procentowy w grupach trenujących 4-5 razy
w tygodniu.
Interpretacja: Wykres potwierdza silną dodatnią korelację. Większe
spożycie wody jest ściśle powiązane z większą liczbą spalanych kalorii,
co jest fizjologicznie uzasadnione zwiększonym wysiłkiem i
potliwością.
Interpretacja: - Wpływ treningu: Osoby trenujące częściej cechują się
znacznie niższym poziomem tkanki tłuszczowej. - Wpływ płci: Kobiety
utrzymują fizjologicznie wyższy poziom tkanki tłuszczowej (o ok. 5 p.p.)
w porównaniu do mężczyzn przy tej samej częstotliwości treningowej.
Poniższe tabele podsumowują strukturę badanej grupy.
| Zmienna | Overall N = 9731 |
Cardio N = 2301 |
HIIT N = 1841 |
Strength N = 3591 |
Yoga N = 2001 |
p-value2 |
|---|---|---|---|---|---|---|
| Średnie tętno (BPM) | 143.1 (13.8) | 142.5 (13.4) | 142.7 (13.7) | 143.9 (14.3) | 142.9 (13.6) | 0.7 |
| Czas trwania (h) | 1.3 (0.3) | 1.2 (0.4) | 1.3 (0.3) | 1.3 (0.3) | 1.3 (0.4) | 0.040 |
| Wskaźnik BMI | 24.9 (6.7) | 25.3 (6.8) | 25.2 (6.3) | 24.7 (6.7) | 24.6 (6.8) | 0.5 |
| Poziom zaawansowania | 0.071 | |||||
| Beginner | 376 (39%) | 105 (46%) | 74 (40%) | 129 (36%) | 68 (34%) | |
| Intermediate | 406 (42%) | 88 (38%) | 69 (38%) | 164 (46%) | 85 (43%) | |
| Advanced | 191 (20%) | 37 (16%) | 41 (22%) | 66 (18%) | 47 (24%) | |
| Workout_Frequency..days.week. | 0.7 | |||||
| 2 | 197 (20%) | 56 (24%) | 36 (20%) | 67 (19%) | 38 (19%) | |
| 3 | 368 (38%) | 87 (38%) | 72 (39%) | 134 (37%) | 75 (38%) | |
| 4 | 306 (31%) | 69 (30%) | 53 (29%) | 121 (34%) | 63 (32%) | |
| 5 | 102 (10%) | 18 (7.8%) | 23 (13%) | 37 (10%) | 24 (12%) | |
| Fat_Percentage | 25.0 (6.3) | 25.5 (6.1) | 24.5 (6.7) | 25.2 (6.1) | 24.4 (6.2) | 0.2 |
| Gender | 0.6 | |||||
| Female | 462 (47%) | 116 (50%) | 89 (48%) | 169 (47%) | 88 (44%) | |
| Male | 511 (53%) | 114 (50%) | 95 (52%) | 190 (53%) | 112 (56%) | |
| Calories_Burned | 905.4 (272.6) | 859.7 (272.6) | 932.3 (272.6) | 914.7 (268.4) | 916.7 (276.2) | 0.15 |
| Water_Intake..liters. | 2.6 (0.6) | 2.6 (0.6) | 2.7 (0.6) | 2.6 (0.6) | 2.7 (0.6) | 0.6 |
| Workout_Frequency | 0.7 | |||||
| 2 | 197 (20%) | 56 (24%) | 36 (20%) | 67 (19%) | 38 (19%) | |
| 3 | 368 (38%) | 87 (38%) | 72 (39%) | 134 (37%) | 75 (38%) | |
| 4 | 306 (31%) | 69 (30%) | 53 (29%) | 121 (34%) | 63 (32%) | |
| 5 | 102 (10%) | 18 (7.8%) | 23 (13%) | 37 (10%) | 24 (12%) | |
| 1 Mean (SD); n (%) | ||||||
| 2 Kruskal-Wallis rank sum test; Pearson’s Chi-squared test | ||||||
W podziale na typ trenignu, istotne statystycznie (przy założeniu poziomu alfa = 0,05) okazały się dwie zmienne: czas trwania treningu oraz poziom zaawansowania. Czas trwania treningów dla wszystkich ich rodzajów jest taki sam - ok 1,3h, jednak zauważalne są różnice w poziomach zaawansowania - cardio i HIIT trenują głównie osoby początkujące (kolejno - 46% i 40%), natomiast trening siłowy i yogę - osoby średniozaawansowane (46% i 43%). W każdej z kategorii jest ok 20% osób zaawansowanych.
| Characteristic | Beginner N = 3761 |
Intermediate N = 4061 |
Advanced N = 1911 |
p-value2 |
|---|---|---|---|---|
| Dni treningowe/tydzień | <0.001 | |||
| 2 | 197 (52%) | 0 (0%) | 0 (0%) | |
| 3 | 179 (48%) | 189 (47%) | 0 (0%) | |
| 4 | 0 (0%) | 217 (53%) | 89 (47%) | |
| 5 | 0 (0%) | 0 (0%) | 102 (53%) | |
| % Tkanki tłuszczowej | 28 (25, 30) | 27 (25, 30) | 15 (12, 17) | <0.001 |
| Płeć | >0.9 | |||
| Female | 179 (48%) | 193 (48%) | 90 (47%) | |
| Male | 197 (52%) | 213 (52%) | 101 (53%) | |
| 1 n (%); Median (Q1, Q3) | ||||
| 2 Pearson’s Chi-squared test; Kruskal-Wallis rank sum test | ||||
Płeć nie wykazała istotności statystycznej jeśli chodzi o poziom zaawansowania, jednak częstotliwość i poziom tkanki tłuszczowej są istotne. Po około 50% osób początkujących trenuje 2 lub 3 razy w tygodniu; po około 50% osób średniozaawansowanych trenuje 3 lub 4 razy w tygodniu oraz po około 50% osób zaawansowanych trenuje 4 lub 5 razy w tygodniu. Osoby początkujące i średniozaawansowane mają średnio po 25% tkanki tłuszczowej, natomiast osoby zaawansowane - 12%.
| Zmienna | Overall N = 9731 |
Cardio N = 2301 |
HIIT N = 1841 |
Strength N = 3591 |
Yoga N = 2001 |
p-value2 |
|---|---|---|---|---|---|---|
| Spożycie wody (litry) | 2.6 (0.6) | 2.6 (0.6) | 2.7 (0.6) | 2.6 (0.6) | 2.7 (0.6) | 0.6 |
| Spalone kalorie (kcal) | 905.4 (272.6) | 859.7 (272.6) | 932.3 (272.6) | 914.7 (268.4) | 916.7 (276.2) | 0.15 |
| 1 Mean (SD) | ||||||
| 2 Kruskal-Wallis rank sum test | ||||||
Spożycie wody oraz ilość spalanych kalorii nie wykazały istotności statystycznej.
W tej sekcji wykorzystujemy testy statystyczne (zintegrowane z wykresami), aby potwierdzić istotność zaobserwowanych zależności.
Test wykazał istotne statystycznie różnice w poziomie średniego tętna
pomiędzy rodzajami treningu (p < 0,05). Oznacza to, że typ
wykonywanej aktywności fizycznej wpływa na poziom BPM, choć różnice
średnich wartości są relatywnie niewielkie i mają raczej umiarkowane
znaczenie praktyczne.
Stwierdzono istotną statystycznie zależność między czasem trwania sesji
a średnim tętnem (p < 0,05). Kierunek i siła tej zależności wskazują,
że wraz ze zmianą długości treningu zmienia się także reakcja układu
sercowo-naczyniowego, co potwierdza wcześniejsze obserwacje
eksploracyjne.
Wyniki testów wskazują, że zależność między poziomem zaawansowania a BMI
jest istotna statystycznie, jednak jej charakter różni się w zależności
od rodzaju treningu. Oznacza to, że staż treningowy wpływa na BMI, ale
efekt ten nie jest jednolity dla wszystkich dyscyplin.
Uzyskano istotny statystycznie wynik (p < 0,05), potwierdzający, że
poziom zaawansowania jest powiązany z liczbą treningów w tygodniu. Osoby
bardziej zaawansowane trenują istotnie częściej niż osoby początkujące,
co potwierdza logiczną zależność między doświadczeniem a regularnością
treningów.
Test wykazał istotną dodatnią korelację między spożyciem wody a liczbą
spalanych kalorii (p < 0,05). Oznacza to, że osoby spalające więcej
kalorii jednocześnie spożywają więcej płynów, co jest zgodne z
fizjologiczną odpowiedzią organizmu na intensywny wysiłek.
Wyniki wskazują na istotny statystycznie wpływ częstotliwości treningów
na poziom tkanki tłuszczowej (p < 0,05) zarówno u kobiet, jak i u
mężczyzn. Jednocześnie widoczne są różnice międzypłciowe – kobiety
utrzymują wyższy poziom tkanki tłuszczowej, co ma charakter biologiczny,
a nie treningowy.
Przeprowadzona analiza danych pozwoliła na sformułowanie następujących wniosków końcowych: