Celem projektu zespołowego realizowanego w roku akademickim 2025/2026 była analiza danych dotyczących aktywności użytkowników siłowni, obejmująca zarówno ich charakterystyki demograficzne, jak i biologiczne oraz wskaźniki związane z wydajnością treningową. Projekt miał na celu zrozumienie, jakie czynniki wpływają na efektywność ćwiczeń oraz jakie wzorce zachowań można zaobserwować wśród osób regularnie korzystających z siłowni.
W projekcie został wykorzystany zbiór danych obejmujący 973 rekordy dotyczące członków siłowni. Każdy wpis zawiera zestaw informacji demograficznych, fizjologicznych oraz dotyczących nawyków treningowych. Dane pozwalają analizować zarówno podstawowe parametry zdrowotne, jak i bardziej zaawansowane wskaźniki wydajności. Zbiór zawiera zmienne przedstawione w poniższej tabeli wraz z opisem:
| Nazwa zmiennej | Opis zmiennej |
|---|---|
| Wiek | Wiek uczestnika badania w latach |
| Płeć | Płeć uczestnika badania (Mężczyzna/Kobieta) |
| Waga (kg) | Masa ciała w kilogramach |
| Wzrost (m) | Wzrost w metrach |
| Max_BPM | Maksymalne tętno zanotowane podczas sesji treningowej |
| Avg_BPM | Średnie tętno podczas treningu |
| Resting_BPM | Tętno spoczynkowe przed rozpoczęciem ćwiczeń |
| Session_Duration (h) | Czas trwania sesji treningowej wyrażony w godzinach |
| Calories_Burned | Liczba kalorii spalonych w trakcie treningu |
| Workout_Type | Rodzaj aktywności (np. kardio, trening siłowy, joga, HIIT) |
| Fat_Percentage | Procent tkanki tłuszczowej |
| Water_Intake (litry) | Ilość wody wypitej w ciągu dnia treningowego |
| Workout_Frequency (dni/tydzień) | Ile dni w tygodniu użytkownik ćwiczy |
| Experience_Level | Poziom doświadczenia treningowego (1 – początkujący, 2 – średniozaawansowany, 3 – zaawansowany) |
| BMI | Wskaźnik masy ciała oparty na wzroście i wadze |
Przed przystąpieniem do analizy danych zostały sformułowane następujące pytania badawcze:
1. Czy czas trwania treningu wpływa na liczbę spalonych kalorii, a zależność różni się w zależności od typu treningu?
2. Czy wiek (Age) ma związek z tętnem spoczynkowym (Resting_BPM)?
3. Czy rodzaj treningu (Workout_Type) wpływa na średnie tętno użytkowników i liczbę spalonych kalorii?
4. Czy poziom doświadczenia (Experience_Level) wpływa na spalanie kalorii tak samo w każdym rodzaju treningu (Workout_Type)?
5. Czy występują różnice między kobietami i mężczyznami w intensywności treningów (Avg_BPM, Max_BPM) oraz liczbie spalonych kalorii?
6. Czy BMI oraz procent tkanki tłuszczowej (Fat_Percentage) są dobrymi predyktorami efektywności treningu?
7. Czy częstotliwość ćwiczeń w tygodniu (Workout_Frequency) wpływa na wskaźniki zdrowotne, takie jak BMI czy Resting_BPM?
8. Czy w zbiorze danych można wyróżnić wyraźne grupy (klastry) użytkowników o podobnych parametrach fizycznych i treningowych?
9. Które zmienne najbardziej wpływają na średnie tętno podczas treningu (Avg_BPM)?
10. Czy ilość wypitej wody (Water_Intake) ma zauważalny związek z wydajnością treningową (Calories_Burned, Avg_BPM)?
W pierwszej kolejności przeprowadzono proces czyszczenia zbioru, aby zapewnić wysoką jakość i wiarygodność wyników. Kluczowym elementem tego etapu była szczegółowa weryfikacja braków danych.
Pierwszym zadaniem była identyfikacja braków danych. Przeprowadzona ocena kompletności zbioru wykazała, że w zbiorze znajduje się 80% obserwacji, które nie mają ani jednego braku w swoich danych (wierszach). Patrząc na zbiór przez pryzmat pojedynczych komórek, ogólny odsetek braków wynosi zaledwie 2,7%, co oznacza, że ponad 97% danych zostało poprawnie zarejestrowanych.
W celu identyfikacji zmiennych wymagających poprawy, wykorzystano wykres agregacji braków, ograniczając go do kolumn pokazujących tylko te dane, w których znajdują się braki.
Variables sorted by number of missings:
Variable Count
Workout_Type 0.1541624
BMI 0.1541624
Age 0.1027749
Analiza wizualna pozwala stwierdzić, że braki danych nie są rozproszone chaotycznie, lecz koncentrują się głównie w obrębie trzech zmiennych: Workout_Type (ok. 15%), BMI (ok. 15%) oraz Age (ok. 10%). Najczęstszym wzorcem, występującym bezpośrednio po rekordach kompletnych, jest brak pojedynczej wartości w ramach danej obserwacji. Przypadki, w których brakuje dwóch bądź trzech wartości jednocześnie, są rzadkie i stanowią łącznie poniżej 2% zbioru.
Po zidentyfikowaniu skali braków danych podjęto kroki mające na celu uzupełnienie niekompletnych informacji, co jest niezbędne do przeprowadzenia analiz statystycznych. W pierwszej kolejności wykonano obliczenia dla zmiennej BMI, wykorzystując dostępne dane o masie i wzroście użytkowników. Następnie, dla pozostałych braków w zmiennych takich jak rodzaj treningu czy wiek, zastosowano metodę imputacji Hot-Deck, która polega na zastępowaniu brakujących wartości pochodzącymi od innych, podobnymi pod względem cech obserwacji.
Po przeprowadzeniu imputacji ponownie oceniono kompletność danych, stwierdzając, że wszystkie braki zostały skutecznie uzupełnione.
Kolejnym kluczowym etapem była walidacja danych, mająca na celu sprawdzenie ich poprawności merytorycznej oraz logicznej spójności. Został zdefiniowany zestaw dwunastu reguł weryfikujących dopuszczalne zakresy wartości dla poszczególnych zmiennych. Poniższy wykres przedstawia, które reguły nie zostały spełnione.
Wykres przedstawia zbiorcze wyniki konfrontacji zbioru danych z dwunastoma zdefiniowanymi regułami logicznymi. Pozwala on na błyskawiczną ocenę kondycji merytorycznej danych po procesie czyszczenia i imputacji. Z wykresu wynika, że nie wszystkie obserwacje spełniają regułę Avg_BPM < Max_BPM, co oznacza, że w niektórych przypadkach średnie tętno jest wyższe od maksymalnego. Poniżej przedstawione jest szczegółowe zestawienie błędnych rekordów.
| Średnie BPM (Avg_BPM) | Maksymalne BPM (Max_BPM) | |
|---|---|---|
| 17 | 167 | 166 |
| 47 | 167 | 160 |
| 57 | 162 | 161 |
| 70 | 162 | 162 |
| 96 | 169 | 164 |
| 107 | 168 | 162 |
| 117 | 163 | 163 |
| 231 | 162 | 161 |
| 239 | 168 | 168 |
| 311 | 165 | 164 |
| 327 | 167 | 160 |
| 357 | 169 | 168 |
| 366 | 167 | 162 |
| 379 | 169 | 164 |
| 522 | 167 | 166 |
| 523 | 166 | 163 |
| 660 | 166 | 161 |
| 694 | 169 | 168 |
| 704 | 167 | 165 |
| 711 | 165 | 161 |
| 794 | 166 | 162 |
| 813 | 168 | 163 |
| 827 | 163 | 161 |
| 843 | 165 | 165 |
| 848 | 163 | 160 |
| 854 | 167 | 167 |
| 912 | 162 | 160 |
| 913 | 168 | 163 |
Jak wykazano w powyższej tabeli, w skrajnych przypadkach średnie tętno przewyższało maksymalne o kilka uderzeń na minutę. Tabela pokazała, że w prawie 30 obserwacjach występuje taki błąd.
W celu wykonania dalszej analizy należało naprawić dane, które nie spełniały wcześniej ustalonych reguł. Przyjęto założenie, że błąd wynika z niedoszacowania wartości Max_BPM (np. chwilowego braku odczytu w momencie faktycznego maksimum), natomiast średnie tętno jest bardziej stabilne i wiarygodne. Dlatego zdecydowano skorygować wyłącznie maksymalne tętno. Dla wszystkich obserwacji, w których średnie tętno było większe lub równe maksymalnego, zwiększono maksymalne o 1 uderzenie na minutę względem wartości średniej. Zmiana ta jest bardzo niewielka, nie wpływa istotnie na rozkład zmiennej, a jednocześnie przywraca logiczną relację pomiędzy średnim i maksymalnym tętnem. Aby być pewnym, że dane zostały poprawione, ponownie sprawdzono zgodność danych z regułami, co zostało przedstawione na poniższym wykresie.
Wyniki przedstawione na powyższym wykresie potwierdzają, że proces naprawczy zakończył się sukcesem. Widać, że wszystkie zdefiniowane reguły zostały spełnione. Całkowite wyeliminowanie błędów oznacza, że zbiór jest obecnie kompletny i gotowy do przeprowadzenia analiz statystycznych oraz weryfikacji postawionych pytań badawczych.
Kolejnym etapem było przeprowadzenie analizy opisowej, mającej na celu scharakteryzowanie zbioru danych pod kątem podstawowych statystyk oraz rozkładów zmiennych. Analiza ta pozwala zrozumieć strukturę danych oraz dokonać wstępnej oceny porównawczej badanych parametrów.
Podstawowe informacje o danych
Analiza opisowa została przeprowadzona na zbiorze danych obejmującym N = 973 obserwacje, gdzie każda obserwacja odpowiada pojedynczej sesji treningowej. Zbiór zawiera informacje opisujące zarówno cechy demograficzne i antropometryczne uczestników (m.in. wiek, płeć, masa ciała, wzrost, wskaźnik BMI), jak i parametry związane z przebiegiem treningu oraz reakcją organizmu (czas trwania sesji, spalone kalorie, typ treningu, poziom nawodnienia, częstotliwość treningów w tygodniu, poziom doświadczenia, a także wybrane wskaźniki tętna).
Statystyki opisowe zmiennych liczbowych
W tabeli zestawiono podstawowe miary położenia i zróżnicowania zmiennych liczbowych (średnia, odchylenie standardowe, mediana, kwartyle oraz wartości minimalne i maksymalne). Po przygotowaniu danych (imputacji) dla analizowanych zmiennych liczbowych nie występują braki, dlatego dla każdej zmiennej liczebność wynosi n = 973.
Struktura wieku wskazuje na dominację osób dorosłych, z wyraźnym udziałem grupy w wieku średnim. Parametry tętna (spoczynkowe, średnie i maksymalne) mieszczą się w typowych zakresach dla osób aktywnych fizycznie i cechują się umiarkowanym zróżnicowaniem między obserwacjami. Wskaźniki masy ciała (waga i BMI) są bardziej zróżnicowane, co sugeruje niejednorodność próby pod względem budowy ciała. Największą zmienność w całym zbiorze wykazują spalone kalorie, co jest spójne z różnicami w intensywności oraz czasie trwania sesji. Zmiennie związane z zachowaniami treningowymi wskazują na regularną aktywność kilku razy w tygodniu, przy typowym czasie trwania treningu około jednej godziny. Szczegółowe wartości (średnie, mediany, kwartyle oraz minima i maksima) zaprezentowano w tabeli.
Podsumowując, w danych dominuje populacja dorosłych osób trenujących regularnie 3–4 razy w tygodniu, a największe zróżnicowanie widoczne jest w spalonych kaloriach oraz w BMI/masie ciała.
Struktura próby – zmienne jakościowe
W tej części przedstawiono rozkłady częstości dla zmiennych jakościowych: płeć (Gender), typ treningu (Workout_Type) oraz poziom doświadczenia (Experience_Level). Analiza dotyczy pełnej próby n = 973 obserwacji (po imputacji i korekcie danych).
Struktura płci jest wyrównana: mężczyźni stanowią 52,5% (n = 511), a kobiety 47,5% (n = 462), co oznacza niewielką przewagę mężczyzn (ok. 5 p.p.). Rozkład typów treningu jest również dość równomierny — najczęściej występują treningi Cardio (27,3%) oraz Siłowe (26,9%), a nieco rzadziej Joga (23,5%) i HIIT (22,2%). Różnice między kategoriami są niewielkie (ok. 5 p.p.), co wskazuje na podobną reprezentację różnych form aktywności. W przypadku poziomu doświadczenia największą grupę stanowią osoby średniozaawansowane (41,7%), następnie początkujące (38,6%), a najmniej liczne są osoby zaawansowane (19,6%) — łącznie ok. 80% próby to poziom początkujący lub średniozaawansowany.
Podsumowując próba jest zróżnicowana pod względem analizowanych kategorii, a rozkłady są na tyle wyrównane (zwłaszcza dla typów treningu), że umożliwiają dalsze porównania między grupami bez ryzyka, że jedna kategoria „zdominuje” analizę.
Proste rozkłady wybranych zmiennych
Na wykresach przedstawiono histogramy wieku, BMI oraz liczby spalonych kalorii, co pozwala ocenić koncentrację obserwacji, asymetrię rozkładów oraz obecność wartości skrajnych.
Rozkład wieku jest względnie równomierny w całym analizowanym zakresie (około 18–59 lat). Nie widać wyraźnie dominującej grupy wieku, co sugeruje, że próba obejmuje szerokie spektrum osób dorosłych.
W przypadku BMI rozkład jest jednomodalny z wyraźnym ogonem prawostronnym. Najwięcej obserwacji koncentruje się w okolicach wartości typowych dla normy i lekkiej nadwagi, natomiast wraz ze wzrostem BMI częstości maleją. Widoczne są też pojedyncze wysokie wartości (około 45–50), wskazujące na obserwacje skrajne.
Rozkład spalonych kalorii również ma jeden główny szczyt i jest lekko skośny w prawo. Większość sesji mieści się w środkowym przedziale (około 700–1100 kcal), a bardzo wysokie wartości (powyżej ok. 1400–1500 kcal) występują rzadziej, podobnie jak niskie wyniki (około 300–500 kcal).
Podsumowując, spośród analizowanych zmiennych większą asymetrię i obecność wartości skrajnych obserwuje się dla BMI oraz spalonych kalorii, natomiast wiek ma rozkład bardziej równomierny.
Najsilniejsze korelacje między zmiennymi liczbowymi
W tabeli przedstawiono 10 najsilniejszych zależności liniowych między zmiennymi liczbowymi (współczynnik korelacji Pearsona). Wartości dodatnie oznaczają współwystępowanie wzrostu obu zmiennych, a ujemne - wzrost jednej zmiennej przy spadku drugiej. Korelacje mają charakter opisowy i nie przesądzają o zależnościach przyczynowo-skutkowych.
Najsilniejszą dodatnią korelację zaobserwowano między Calories_Burned a Session_Duration (r = 0,908), co wskazuje na ścisły związek pomiędzy czasem trwania sesji a wydatkiem energetycznym. Wysoka korelacja występuje również między BMI a Weight (r = 0,853), zgodnie z konstrukcją wskaźnika BMI.
Wśród pozostałych dodatnich zależności zwracają uwagę związki między parametrami regularności treningu: Session_Duration i Workout_Frequency (r = 0,644) oraz Calories_Burned i Workout_Frequency (r = 0,576).
Najsilniejsze korelacje ujemne dotyczą zmiennej Fat_Percentage, która jest ujemnie powiązana m.in. ze spalonymi kaloriami (r = −0,598), spożyciem wody (r = −0,589), czasem sesji (r = −0,582) oraz częstotliwością treningów (r = −0,537). Dodatkowo zaobserwowano umiarkowane dodatnie korelacje Water_Intake z Weight (r = 0,394) oraz Height z Water_Intake (r = 0,394).
Podsumowując, najsilniejsze zależności dotyczą (1) relacji między czasem treningu i spalonymi kaloriami oraz (2) relacji między masą ciała i BMI, natomiast zmienna Fat_Percentage jest konsekwentnie ujemnie skorelowana z kilkoma miarami aktywności i parametrów treningu.
Kolejnym etapem, następującym po statystycznym zapoznaniu się ze zbiorem danych, jest ich wizualizacja. Pozwala ona na szybką identyfikację trendów, wartości odstających oraz kluczowych relacji, które mogą pozostawać nieuchwytne na poziomie analizy tabelarycznej. Poniższe wykresy stanowią graficzne zestawienie zmiennych w nawiązaniu do pytań badawczych.
Czas trwania treningu w porównaniu do spalonych kalorii
Wykresy rozrzutu z nałożonymi liniami regresji potwierdzają silną, dodatnią korelację liniową (r = 0,91) między czasem trwania sesji a liczbą spalonych kalorii we wszystkich analizowanych kategoriach. Zbliżone nachylenie linii regresji sugeruje, że czas trwania treningu jest głównym determinantem wydatku energetycznego, niezależnie od wybranej formy aktywności. Niemniej jednak, widoczne różnice w zagęszczeniu punktów oraz subtelne różnice w kącie nachylenia prostych (szczególnie w przypadku HIIT względem Jogi) wskazują na zróżnicowaną intensywność spalania właściwą dla poszczególnych typów treningu.
Związek wieku z tętnem spoczynkowym
Analiza rozkładów tętna spoczynkowego w 5-letnich przedziałach wiekowych nie wykazuje systematycznego trendu wzrostowego ani spadkowego. Mediany tętna w większości grup oscylują w granicach 61–64 BPM, a zbliżona wysokość pudełek (rozstęp międzykwartylowy) świadczy o homogeniczności wariancji między grupami. Wyniki sugerują, że w analizowanej populacji wiek nie jest kluczowym determinantem tętna spoczynkowego. Znacznie większą zmienność obserwuje się na poziomie osobniczym wewnątrz każdej z grup niż pomiędzy poszczególnymi grupami wiekowymi.
Rodzaj treningu a średnie tętno użytkowników i liczba spalonych kalorii
Analiza porównawcza średniego tętna oraz wydatku energetycznego w zależności od rodzaju aktywności wykazuje wysoki stopień homogeniczności danych. Mediany tętna oraz spalonych kalorii pozostają na zbliżonym poziomie dla wszystkich grup, co sugeruje, że w badanym zbiorze intensywność sesji była do siebie upodobniona niezależnie od dyscypliny.
Szerokie i w dużej mierze pokrywające się przedziały międzykwartylowe (pudełka) jednoznacznie wskazują na brak statystycznie istotnych różnic między typami treningu, przy czym w kategoriach HIIT oraz treningu Siłowego odnotowano pojedyncze wartości odstające, reprezentujące wydatek energetyczny przekraczający 1500 kcal.
Ostatecznie, podobnie jak w przypadku analizy wpływu wieku, wariancja wewnątrz każdej z grup dominuje nad różnicami między kategoriami aktywności, co prowadzi do wniosku, że indywidualne zaangażowanie oraz cechy osobnicze mają w tym zbiorze danych większy wpływ na końcowy wynik niż sam wybór rodzaju ćwiczeń
Poziom doświadczenia a spalanie kalorii w każdym rodzaju treningu
Analiza średniego wydatku energetycznego w zależności od poziomu doświadczenia ujawnia, że stopień zaawansowania ćwiczącego jest kluczowym czynnikiem determinującym liczbę spalonych kalorii we wszystkich typach treningu. Z danych wynika, że osoby zaawansowane spalają średnio o ok. 80% więcej energii niż osoby początkujące, przy czym różnice między poszczególnymi dyscyplinami sportowymi na tym samym poziomie zaawansowania pozostają marginalne. Interesującym spostrzeżeniem jest fakt, że wydatek energetyczny podczas sesji jogi na poziomie zaawansowanym (1264 kcal) jest porównywalny z treningiem HIIT czy Cardio, co podważa powszechne przekonanie o niskiej intensywności tej formy aktywności. Najwyższą średnią wartość odnotowano w grupie zaawansowanej treningu siłowego (1300 kcal), co pozwala wskazać tę formę aktywności jako potencjalnie najefektywniejszą dla osób dążących do maksymalizacji deficytu kalorycznego, o ile dysponują one odpowiednim przygotowaniem technicznym.
Wpływ płci na intensywność wysiłku fizycznego oraz poziom wydatku energetycznego.
Analiza tętna nie wykazuje istotnych różnic między płciami, co świadczy o zbliżonej intensywności treningów u kobiet i mężczyzn. Mimo podobnego obciążenia kardiologicznego, mężczyźni charakteryzują się wyższym wydatkiem energetycznym. Różnica ta wynika z uwarunkowań fizjologicznych – większa masa ciała oraz udział tkanki mięśniowej u mężczyzn generują wyższy koszt kaloryczny przy zachowaniu tego samego poziomu tętna.
Wpływ BMI oraz procentowej zawartości tkanki tłuszczowej na efektywność treningową
Analiza parametrów składu ciała jako predyktorów efektywności treningowej ujawnia istotne różnice między wskaźnikiem BMI a procentową zawartością tkanki tłuszczowej. W przypadku BMI zauważalny wzrost wydatku energetycznego występuje jedynie w grupie z otyłością (751 kcal/h), co wynika bezpośrednio z wysokiego kosztu fizycznego przemieszczania większej masy ciała, podczas gdy dla pozostałych grup różnice są marginalne. Zgoła odmienną tendencję obserwujemy przy analizie poziomu tkanki tłuszczowej, gdzie występuje wyraźna korelacja ujemna – najwyższą efektywność (759 kcal/h) osiągają osoby o sportowej sylwetce. Potwierdza to tezę, że to nie ogólna masa, lecz wysoki udział beztłuszczowej masy mięśniowej jest kluczowym determinantem tempa spalania kalorii, co czyni procent tkanki tłuszczowej znacznie bardziej precyzyjnym wskaźnikiem efektywności treningu niż BMI.
Wpływ częstotliwości treningów w tygodniu na kluczowe wskaźniki zdrowotne (BMI, Resting_BPM)
Analiza wykresów wykazuje, że wysoka częstotliwość treningów (5 sesji/tydz.) pełni przede wszystkim rolę stabilizującą parametry zdrowotne. W przypadku BMI, u osób trenujących najczęściej obserwujemy najwyższy stopień koncentracji wyników wokół mediany oraz wyraźne ograniczenie występowania wartości bardzo wysokich (powyżej 35 BMI), co sugeruje, że wysoka regularność sprzyja utrzymaniu stabilnej masy ciała. Chociaż mediany BMI (ok. 24–25) oraz tętna spoczynkowego (ok. 61–63 BPM) pozostają zbliżone we wszystkich grupach, to właśnie w grupie o najwyższej aktywności rozkład BMI jest najbardziej zwarty. Regularność działa więc jako mechanizm ograniczający zmienność parametrów zdrowotnych, przy czym jej bezpośredni wpływ na obniżenie wartości przeciętnych jest obecny, lecz ma charakter umiarkowany.
Identyfikacja homogenicznych grup (klastrów) użytkowników o zbliżonych profilach fizjologicznych i wzorcach aktywności
Algorytm klastrowania wyodrębnił trzy grupy użytkowników o różnych profilach budowy ciała. Wyraźna korelacja dodatnia między BMI a procentem tkanki tłuszczowej pozwoliła na precyzyjną segmentację: Grupa 2 (niebieska) to osoby o sylwetkach atletycznych, Grupa 3 (zielona) obejmuje użytkowników o standardowej budowie, a Grupa 1 (czerwona) skupia osoby o najwyższych parametrach, będące głównymi kandydatami do programów redukcyjnych. Taki podział umożliwia automatyczną personalizację planów treningowych i ofert bez konieczności ręcznej analizy każdego klienta.
Analiza czynników determinujących średnie tętno (Avg_BPM) podczas sesji treningowej.
Głównym czynnikiem spalania kalorii jest czas trwania treningu oraz poziom doświadczenia, gdzie osoby zaawansowane osiągają o 80% wyższe wyniki (do 1300 kcal), niezależnie od dyscypliny. Rodzaj aktywności, wiek i BMI mają znikomy wpływ na tętno podczas ćwiczeń, które zależy głównie od dynamiki samej sesji. Mężczyźni, mimo podobnej intensywności tętna co kobiety, spalają więcej energii dzięki większej masie mięśniowej. Wskaźnik tkanki tłuszczowej jest precyzyjniejszym predyktorem wydajności niż BMI, a regularność (5 treningów tygodniowo) kluczowo stabilizuje tętno spoczynkowe i wagę. Automatyczna segmentacja użytkowników pozwala na trafne wyodrębnienie grup atletycznych i redukcyjnych.
Zależność między ilością spożytej wody a efektywnością spalania kalorii i średnim tętnem.
Analiza wykresu kolumnowego wykazuje bezpośrednią i liniową zależność między wydajnością treningową a nawodnieniem, wskazując, że oba te parametry rosną niemal równolegle. Podział danych na konkretne przedziały energetyczne pozwolił wyeliminować indywidualne odchylenia i ukazać stały trend wzrostowy: podczas gdy osoby spalające do 500 kcal wypijają średnio około 2 litrów wody, w grupach o najwyższej wydajności (powyżej 1750 kcal) średnie spożycie płynów wyraźnie wzrasta, osiągając najwyższe wartości. Taki układ danych jednoznacznie potwierdza, że zapotrzebowanie na wodę jest ściśle skorelowane z objętością wykonanej pracy, co sugeruje, że wyższe spożycie płynów stanowi fizjologiczną konieczność przy sesjach o wysokim wydatku energetycznym.
W niniejszej części analizy przechodzimy od obserwacji opisowych do formalnego wnioskowania statystycznego. Celem tego etapu jest zweryfikowanie, czy zależności i różnice zaobserwowane w zbiorze danych (obejmującym 973 obserwacje) mają charakter systematyczny, czy też mogą być jedynie wynikiem przypadku. Traktujemy posiadane dane jako próbę, co pozwala nam na wyciąganie wniosków dotyczących szerszej populacji osób podejmujących aktywność fizyczną.
Wnioskowanie statystyczne oparto na integracji metod wizualnych z formalnymi testami statystycznymi, ograniczając ich zakres wyłącznie do postawionych pytań badawczych w celu zachowania przejrzystości analizy.
Przyjęto rygorystyczny poziom istotności alpha = 0,05, stosując jednocześnie korektę wartości p metodą Holma lub Benjamini-Hochberg (BH) w przypadku serii testów wykonywanych w ramach jednego pytania. Procedura ta pozwala na skuteczną kontrolę błędu I rodzaju i minimalizuje ryzyko błędnego uznania przypadkowych różnic za istotne statystycznie.
Pytanie 1: Czas trwania a kalorie – czy zależność zależy od typu treningu?
Cel: Sprawdzić, czy związek między czasem trwania treningu a liczbą spalonych kalorii różni się w zależności od typu treningu.
Metoda: Dopasowano model regresji liniowej z interakcją Session_Duration (h) * Workout_Type i przetestowano istotność interakcji (ANOVA dla modelu, testy F).
Call:
lm(formula = Calories_Burned ~ Session_Duration + Workout_Type,
data = dane_plot)
Residuals:
Min 1Q Median 3Q Max
-350.77 -75.85 -4.36 72.50 393.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -11.16 15.05 -0.741 0.4587
Session_Duration 721.59 10.69 67.514 <2e-16 ***
Workout_TypeSiłowy 16.78 10.02 1.676 0.0941 .
Workout_TypeJoga 11.26 10.25 1.098 0.2723
Workout_TypeHIIT 12.37 10.51 1.177 0.2394
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 114.2 on 968 degrees of freedom
Multiple R-squared: 0.8253, Adjusted R-squared: 0.8245
F-statistic: 1143 on 4 and 968 DF, p-value: < 2.2e-16
Głównym predyktorem liczby spalonych kalorii jest czas trwania sesji (p < 0,001), podczas gdy rodzaj treningu oraz efekty interakcji okazały się nieistotne statystycznie. Model regresji wyjaśnia aż 82,5% zmienności zjawiska. Wynika z niego, że każda minuta treningu przekłada się średnio na spalenie ok. 12 kcal, niezależnie od dyscypliny. Pozwala to przyjąć czas trwania sesji za główny wskaźnik wydatku energetycznego w badanym panelu.
Pytanie 2: Wiek a tętno spoczynkowe
Cel: Sprawdzić, czy wiek jest związany z tętnem spoczynkowym.
Metoda: Zastosowano korelację rang Spearmana.
Spearman's rank correlation rho
data: dane_plot$Age and dane_plot$Resting_BPM
S = 152218992, p-value = 0.7906
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.008524402
Analiza korelacji rang Spearmana wykazała brak istotnej zależności między wiekiem a tętnem spoczynkowym. Uzyskany współczynnik bliski zeru jednoznacznie wskazuje na brak związku między tymi zmiennymi, co potwierdza, że w badanym zbiorze wiek nie jest predyktorem tętna spoczynkowego. Większa zmienność parametru występuje raczej między poszczególnymi osobami wewnątrz grup niż pomiędzy różnymi kohortami wiekowymi.
Pytanie 3: Czy rodzaj treningu wpływa na Avg_BPM i Calories_Burned?
Cel: Sprawdzić, czy średnie wartości Avg_BPM oraz Calories_Burned różnią się w zależności od typu treningu.
Metoda: Zastosowano jednoczynnikową analizę wariancji Welcha (ANOVA Welcha), która nie zakłada równości wariancji między grupami.
One-way analysis of means (not assuming equal variances)
data: Avg_BPM and Workout_Type
F = 1.0022, num df = 3.00, denom df = 531.98, p-value = 0.3915
One-way analysis of means (not assuming equal variances)
data: Calories_Burned and Workout_Type
F = 0.82448, num df = 3.00, denom df = 530.76, p-value = 0.4807
Przeprowadzona analiza testem ANOVA Welcha nie dostarczyła dowodów na istnienie istotnych różnic w średnim tętnie oraz liczbie spalonych kalorii pomiędzy analizowanymi typami treningów (\(p > 0.05\) dla obu zmiennych). Oznacza to, że niezależnie od wybranej formy aktywności – czy był to trening HIIT, siłowy, joga czy cardio – średnie obciążenie organizmu i wydatek energetyczny pozostawały na zbliżonym poziomie. Sugeruje to, że o intensywności treningu w tej grupie decydowały czynniki inne niż sam rodzaj wybranej aktywności fizycznej.
Pytanie 4: Experience_Level a kalorie – czy efekt zależy od Workout_Type?
Cel: Sprawdzić, czy poziom doświadczenia wpływa na liczbę spalonych kalorii oraz czy ten wpływ różni się w zależności od typu treningu.
Metoda: Dopasowano model regresji liniowej z interakcją Experience_Level * Workout_Type. Następnie wykonano porównania post-hoc poziomów doświadczenia osobno w każdym typie treningu metodą emmeans z korektą BH.
Analiza wykazała, że poziom doświadczenia ma kluczowy i statystycznie istotny wpływ na liczbę spalonych kalorii (p < 0,001). Osoby o wyższym stopniu zaawansowania spalają znacznie więcej kalorii niż osoby początkujące, co wyraźnie obrazuje wykres średnich szacowanych (emmeans). Co istotne, brak znaczącej interakcji między doświadczeniem a rodzajem treningu (p = 0,4263) wskazuje, że ten wzrost wydatku energetycznego postępuje w sposób zbliżony we wszystkich analizowanych dyscyplinach. Rodzaj treningu sam w sobie nie różnicował istotnie wyników (p = 0,6169), co potwierdza, że to staż treningowy, a nie dyscyplina, jest głównym predyktorem spalonych kalorii w tym modelu.
Pytanie 5: Różnice Kobieta vs Mężczyzna (Avg_BPM, Max_BPM, Calories_Burned)
Cel: Sprawdzić, czy kobiety i mężczyźni różnią się pod względem średniego tętna w trakcie treningu (Avg_BPM), maksymalnego tętna (Max_BPM) oraz liczby spalonych kalorii (Calories_Burned).
Metoda: Zastosowano test t Welcha dla dwóch niezależnych prób. Ponieważ wykonano trzy testy jednocześnie, uwzględniono korektę wartości p metodą Holma.
Welch Two Sample t-test
data: Avg_BPM by Gender
t = -0.30056, df = 959.7, p-value = 0.7638
alternative hypothesis: true difference in means between group Kobieta and group Mężczyzna is not equal to 0
95 percent confidence interval:
-2.085839 1.531786
sample estimates:
mean in group Kobieta mean in group Mężczyzna
143.6212 143.8982
Welch Two Sample t-test
data: Max_BPM by Gender
t = -0.35104, df = 965.36, p-value = 0.7256
alternative hypothesis: true difference in means between group Kobieta and group Mężczyzna is not equal to 0
95 percent confidence interval:
-1.689507 1.176787
sample estimates:
mean in group Kobieta mean in group Mężczyzna
179.8571 180.1135
Welch Two Sample t-test
data: Calories_Burned by Gender
t = -4.7814, df = 969.67, p-value = 2.01e-06
alternative hypothesis: true difference in means between group Kobieta and group Mężczyzna is not equal to 0
95 percent confidence interval:
-115.94673 -48.46737
sample estimates:
mean in group Kobieta mean in group Mężczyzna
862.2489 944.4560
[1] 1.000000e+00 1.000000e+00 6.030883e-06
Analiza wykazała brak istotnych różnic między kobietami i mężczyznami pod względem średniego oraz maksymalnego tętna zarówno przed jak i po uwzględnieniu korekty wartości p metodą Holma. Obie grupy trenowały z podobną intensywnością sercową. Natomiast odnotowano istotną statystycznie różnicę w liczbie spalonych kalorii, która po korekcie wynosiła mniej niż 0,0001. Mężczyźni spalali średnio o 82,2 kcal więcej niż kobiety (944,5 vs 862,3 kcal), co przy braku różnic w tętnie sugeruje wpływ innych czynników, np. różnic w masie ciała lub składzie tkanek.
Pytanie 6: Czy BMI i Fat_Percentage przewidują efektywność?
Cel: Sprawdzić, czy BMI oraz procent tkanki tłuszczowej (Fat_Percentage) są związane z efektywnością treningu zdefiniowaną jako Efficiency = Calories_Burned / Session_Duration.
Metoda: Utworzono zmienną Efficiency, a następnie dopasowano model regresji liniowej wielorakiej: Efficiency ~ BMI + Fat_Percentage.
Call:
lm(formula = Efficiency ~ BMI + Fat_Percentage, data = dane_calc)
Residuals:
Min 1Q Median 3Q Max
-201.823 -64.017 -5.053 61.668 217.525
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 728.1757 16.0902 45.256 < 2e-16 ***
BMI 1.8482 0.4115 4.491 7.94e-06 ***
Fat_Percentage -2.1539 0.4379 -4.918 1.02e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 84.85 on 970 degrees of freedom
Multiple R-squared: 0.04934, Adjusted R-squared: 0.04738
F-statistic: 25.17 on 2 and 970 DF, p-value: 2.198e-11
Model regresji liniowej wykazał, że zarówno BMI, jak i procentowa zawartość tkanki tłuszczowej są istotnymi predyktorami efektywności spalania kalorii. Odnotowano przeciwstawne kierunki tych zależności: wyższe BMI sprzyja większemu wydatkowi energetycznemu (wzrost o 1,85 kcal/min na jednostkę BMI), natomiast wyższy poziom tkanki tłuszczowej obniża tę efektywność (spadek o 2,15 kcal/min na każdy 1% tłuszczu). Niska wartość skorygowanego współczynnika determinacji sugeruje jednak, że budowa ciała wyjaśnia jedynie niewielką część całkowitej zmienności tempa spalania kalorii.
Pytanie 7: Czy Workout_Frequency wpływa na BMI i Resting_BPM?
Cel: Sprawdzić, czy częstotliwość treningów w tygodniu (Workout_Frequency) wiąże się z różnicami w BMI oraz tętnie spoczynkowym (Resting_BPM).
Metoda: Zastosowano jednoczynnikową analizę wariancji Welcha (ANOVA Welcha), traktując Workout_Frequency jako zmienną grupującą (kategorie).
One-way analysis of means (not assuming equal variances)
data: BMI and factor(Workout_Frequency)
F = 0.71424, num df = 3.00, denom df = 420.99, p-value = 0.5439
One-way analysis of means (not assuming equal variances)
data: Resting_BPM and factor(Workout_Frequency)
F = 0.06309, num df = 3.00, denom df = 358.16, p-value = 0.9793
[1] 1 1
Analiza ANOVA Welcha nie wskazała istotnych różnic wskaźnika BMI (p=0,544) oraz tętna spoczynkowego (p=0,979) w zależności od częstotliwości treningów w tygodniu. Po zastosowaniu korekty Holma, oba wyniki osiągnęły wartość równą 1, co potwierdza brak istotności statystycznej obu zmiennych.
Pytanie 8: Segmentacja (k-średnich) – czy klastry różnią się czymś więcej?
Cel: Podział badanej populacji na grupy na podstawie parametrów budowy ciała (BMI oraz % tkanki tłuszczowej) i sprawdzenie, czy te grupy różnią się między sobą pod względem innych cech demograficznych, wydolnościowych i treningowych.
Metoda: Algorytm k-średnich (k=3) na ustandaryzowanych danych. Zbadanie zmiennych ilościowych testem ANOVA Welcha z korektą Holma dla wielokrotnych porównań. W przypadku zmiennych jakościowych wykorzystanie testu niezależności chi-kwadrat.
Gender Workout_Type Experience_Level
8.860847e-23 4.228657e-01 6.349647e-168
Segmentacja wykazała, że osoby o najniższym BMI i poziomie tkanki tłuszczowej (Grupa 2) są jednocześnie najbardziej aktywne, wykonując średnio ponad 4 treningi tygodniowo i spalając o ok. 50% więcej kalorii niż pozostałe grupy. Mimo znaczących różnic w sylwetce i intensywności ćwiczeń (p_{holm} < 0,05), parametry tętna spoczynkowego oraz wiek badanych pozostają niemal identyczne we wszystkich klastrach. Analiza struktury grup potwierdza, że na profil budowy ciała silnie wpływa płeć oraz staż treningowy, natomiast sam rodzaj wybranej aktywności (np. Cardio vs Strength) nie różnicuje istotnie wydzielonych segmentów.
Pytanie 9: Co najbardziej wpływa na Avg_BPM?
Cel: Sprawdzić, które cechy użytkownika i treningu są statystycznie związane ze średnim tętnem podczas treningu (Avg_BPM), przy jednoczesnej kontroli pozostałych zmiennych.
Metoda: Zastosowano regresję liniową wieloraką, uwzględniając jednocześnie parametry treningowe i fizyczne (m.in. czas trwania, kalorie, wiek, BMI, płeć, typ treningu).
Call:
lm(formula = Avg_BPM ~ Max_BPM + Session_Duration + Calories_Burned +
Age + BMI + Fat_Percentage + Water_Intake + Workout_Frequency +
Gender + Workout_Type + Experience_Level, data = dane_plot)
Residuals:
Min 1Q Median 3Q Max
-20.0472 -4.3248 0.1109 4.2240 21.9756
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 134.996132 4.371131 30.884 <2e-16 ***
Max_BPM -0.010004 0.017829 -0.561 0.5749
Session_Duration -92.929596 1.777542 -52.280 <2e-16 ***
Calories_Burned 0.129661 0.002036 63.691 <2e-16 ***
Age 0.405024 0.017422 23.248 <2e-16 ***
BMI -0.037357 0.032052 -1.165 0.2441
Fat_Percentage 0.015653 0.074507 0.210 0.8336
Water_Intake 0.445781 0.540919 0.824 0.4101
Workout_Frequency -0.235730 0.405749 -0.581 0.5614
GenderMężczyzna -11.270688 0.739193 -15.247 <2e-16 ***
Workout_TypeSiłowy 0.419255 0.553541 0.757 0.4490
Workout_TypeJoga 0.961206 0.567041 1.695 0.0904 .
Workout_TypeHIIT -0.071211 0.580161 -0.123 0.9023
Experience_LevelŚredniozaawansowany 0.033278 0.661281 0.050 0.9599
Experience_LevelZaawansowany 0.025373 1.583667 0.016 0.9872
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.285 on 958 degrees of freedom
Multiple R-squared: 0.8108, Adjusted R-squared: 0.808
F-statistic: 293.2 on 14 and 958 DF, p-value: < 2.2e-16
GVIF Df GVIF^(1/(2*Df))
Max_BPM 1.013660 1 1.006807
Session_Duration 9.147447 1 3.024475
Calories_Burned 7.579456 1 2.753081
Age 1.125601 1 1.060943
BMI 1.121446 1 1.058984
Fat_Percentage 5.351232 1 2.313273
Water_Intake 2.593008 1 1.610282
Workout_Frequency 3.376666 1 1.837571
Gender 3.355732 1 1.831866
Workout_Type 1.027085 3 1.004464
Experience_Level 13.573433 2 1.919431
Głównymi determinantami średniego tętna są czas trwania sesji, spalone kalorie oraz wiek, które wykazują bardzo wysoką istotność statystyczną (p < 2e-16). Model wyjaśnia aż 80% zmienności, przy czym bycie mężczyzną wiąże się ze znaczącym spadkiem średniego tętna (o ok. 11,5 uderzeń na minutę) w porównaniu do kobiet, przy zachowaniu pozostałych parametrów na stałym poziomie. Co istotne, czynniki takie jak BMI, częstotliwość treningów czy poziom doświadczenia nie mają statystycznie istotnego wpływu na wartość Avg_BPM w tym modelu.
Pytanie 10: Czy Water_Intake ma związek z wydajnością?
Cel: Sprawdzić, czy ilość wypijanej wody (Water_Intake) jest związana ze spalonymi kaloriami (Calories_Burned) oraz ze średnim tętnem (Avg_BPM). Dodatkowo oceniono, czy związek z kaloriami utrzymuje się po uwzględnieniu czasu trwania treningu i typu treningu.
Metoda: Zastosowano korelację rang Spearmana (dla prostych zależności) oraz regresję liniową Calories_Burned ~ Water_Intake + Session_Duration + Workout_Type w celu kontroli czasu i typu treningu.
Spearman's rank correlation rho
data: dane_plot$Water_Intake and dane_plot$Calories_Burned
S = 100470051, p-value < 2.2e-16
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3455902
Spearman's rank correlation rho
data: dane_plot$Water_Intake and dane_plot$Avg_BPM
S = 154406807, p-value = 0.8584
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
-0.005725893
Call:
lm(formula = Calories_Burned ~ Water_Intake + Session_Duration +
Workout_Type, data = dane_plot)
Residuals:
Min 1Q Median 3Q Max
-336.92 -72.70 -8.09 66.10 367.73
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -109.186 19.078 -5.723 1.39e-08 ***
Water_Intake 49.220 6.173 7.973 4.35e-15 ***
Session_Duration 697.325 10.796 64.590 < 2e-16 ***
Workout_TypeSiłowy 17.389 9.708 1.791 0.0736 .
Workout_TypeJoga 9.374 9.938 0.943 0.3458
Workout_TypeHIIT 10.268 10.189 1.008 0.3138
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 110.7 on 967 degrees of freedom
Multiple R-squared: 0.836, Adjusted R-squared: 0.8352
F-statistic: 986.2 on 5 and 967 DF, p-value: < 2.2e-16
Ilość wypijanej wody jest umiarkowanie powiązana z większym wydatkiem energetycznym – każda dodatkowa jednostka nawodnienia wiąże się ze wzrostem spalonych kalorii o około 49 kcal. Zależność ta pozostaje statystycznie bardzo istotna (p < 0,001) nawet przy uwzględnieniu czasu trwania i typu treningu. Jednocześnie badania nie wykazały żadnego istotnego związku między spożyciem wody a średnim tętnem podczas ćwiczeń (p = 0,858). Oznacza to, że nawodnienie sprzyja efektywności spalania kalorii, nie wpływając bezpośrednio na intensywność pracy serca.
W ramach projektu przeanalizowano dane obejmujące 973 obserwacje dotyczące sesji treningowych członków siłowni, zawierające informacje demograficzne, parametry fizjologiczne oraz miary aktywności i wydajności treningowej. Na początku przeprowadzono czyszczenie danych (identyfikacja braków, imputacja oraz wyliczenie BMI), a następnie walidację logiczną. Wykryto niezgodność relacji Avg_BPM < Max_BPM w ok. 30 przypadkach, którą skorygowano minimalną modyfikacją wartości maksymalnego tętna. Po poprawkach zbiór spełniał wszystkie zdefiniowane reguły i został uznany za gotowy do wnioskowania.
Najważniejsze wyniki wskazują, że czas trwania treningu jest najsilniejszym czynnikiem powiązanym ze spalonymi kaloriami, a zależność ta nie różni się istotnie między typami treningu. Wiek nie wykazał związku z tętnem spoczynkowym, a rodzaj aktywności (Cardio/Siłowy/Joga/HIIT) nie różnicował istotnie średniego tętna ani spalonych kalorii. Z kolei poziom doświadczenia istotnie zwiększał wydatek energetyczny w każdej dyscyplinie. Płeć nie różnicowała tętna, natomiast mężczyźni spalali średnio więcej kalorii. W analizie składu ciała BMI i % tłuszczu były istotnymi predyktorami efektywności, ale wyjaśniały tylko niewielką część jej zmienności. Częstotliwość treningów nie wiązała się istotnie z BMI ani tętnem spoczynkowym. Klastrowanie na podstawie BMI i % tłuszczu pozwoliło wyodrębnić trzy sensowne segmenty użytkowników. Dodatkowo, nawodnienie było dodatnio powiązane ze spalonymi kaloriami (także po kontroli czasu trwania), natomiast nie wykazano związku z Avg_BPM.
Podsumowując, analiza wskazuje, że w badanym zbiorze kluczowe znaczenie dla wydatku energetycznego mają przede wszystkim czas trwania sesji oraz poziom doświadczenia, natomiast sam typ treningu odgrywa rolę drugorzędną. Wyniki należy interpretować ostrożnie ze względu na obserwacyjny charakter danych oraz brak zmiennych opisujących realną intensywność i obciążenie treningowe. W przyszłości warto rozszerzyć zbiór o miary intensywności (np. strefy tętna, tempo, obciążenia), co mogłoby poprawić wyjaśnianie różnic w efektywności treningu.