Analiza danych Trendy zakupowe klientów

Michał Balmas, Szymon Gacki, Emilia Kaim, Karolina Osowska

2026-01-12

Analiza trendów zakupowych klientów

Wstęp

Projekt opiera się na analizie danych pochodzących ze zbioru „Trendy zakupowe klientów”, zawierającego informacje o preferencjach konsumentów w kontekście zakupów detalicznych. Dane umożliwiają naukę analizy danych, eksploracji trendów konsumenckich oraz modelowania zachowań klientów.

Zbiór danych obejmuje 3900 rekordów, z których każdy opisuje pojedynczą transakcję klienta. Uwzględniono m.in. takie zmienne jak: wiek i płeć klienta, kategoria i wartość zakupionego przedmiotu, preferencje dotyczące metody płatności i rodzaju wysyłki, częstotliwość zakupów, zastosowanie rabatu czy użycie kodu promocyjnego. Dane te odzwierciedlają zróżnicowane czynniki wpływające na decyzje zakupowe klientów.

Cel projektu

Celem projektu jest zrozumienie czynników wpływających na zachowania zakupowe klientów oraz identyfikacja trendów i wzorców konsumenckich, które mogą stanowić podstawę do optymalizacji strategii sprzedażowej i marketingowej przedsiębiorstwa.
Analiza ma na celu odpowiedzieć na pytania:
- Jakie grupy klientów dokonują najwyższych zakupów i czym się charakteryzują? - Czy płeć, wiek lub sezon mają wpływ na wysokość wydatków?
- Które metody płatności i rodzaje wysyłki są najczęściej wybierane?
- Czy stosowanie rabatów lub kodów promocyjnych znacząco wpływa na wartość zakupów?
- Jakie kategorie produktów cieszą się największą popularnością w zależności od pory roku?

Zakres analizy

W ramach projektu zostaną wykonane następujące etapy analizy: 1. Wczytanie i wstępne przygotowanie danych – sprawdzenie kompletności danych, usunięcie braków i ewentualne przekształcenia.
2. Eksploracyjna analiza danych (EDA) – obliczenie statystyk opisowych i wizualizacja rozkładów kluczowych zmiennych.
3. Analiza zależności między zmiennymi – badanie powiązań między cechami demograficznymi a zachowaniami zakupowymi (np. testy statystyczne, korelacje). 4. Wizualizacja trendów – graficzne przedstawienie najważniejszych zależności i obserwacji (np. wykresy kategorii, sezonowości, rabatów).
5. Wnioski i interpretacja wyników – podsumowanie najważniejszych spostrzeżeń i propozycje zastosowań w praktyce biznesowej.

Znaczenie projektu

Zrozumienie trendów zakupowych klientów jest kluczowe dla przedsiębiorstw działających w branży handlu detalicznego. Dzięki analizie danych można: - lepiej dopasować ofertę produktową do potrzeb klientów,
- planować skuteczniejsze akcje promocyjne,
- poprawić jakość obsługi i doświadczenie zakupowe,
- a także budować strategie lojalnościowe oparte na rzeczywistych danych.

Wnioski z tej analizy mogą zostać wykorzystane do podejmowania bardziej świadomych decyzji biznesowych i rozwijania strategii opartej na danych (data-driven decision making).


Przygotowanie i Wstępna Weryfikacja Danych

Ilość braków i procent z całości

Wstępna weryfikacja jakości danych wykazała, że pełne i kompletne obserwacje stanowią około 74% całego zbioru (2888 rekordów), co oznacza konieczność podjęcia decyzji o strategii obsługi brakujących danych w pozostałych przypadkach. Wysoki odsetek kompletnych wierszy stanowi solidną bazę do dalszej analizy, jednak uwzględnienie lub oczyszczenie niekompletnych rekordów będzie kluczowe dla zachowania rzetelności wyników statystycznych.

Rozkład brakujących wartości w poszczególnych zmiennych

Szczegółowa analiza struktury danych ujawniła, że braki nie występują losowo w całym zbiorze, lecz koncentrują się wyłącznie w trzech kluczowych atrybutach: Season (Sezon), Purchase Amount (Kwota zakupu) oraz Age (Wiek).

Struktura braków i obecnych wartości

Zbiór charakteryzuje się bardzo wysoką jakością – aż 98,4% danych jest kompletnych, co stanowi solidną podstawę do analizy. Niewielki odsetek braków (1,6%) występuje jedynie w wybranych kolumnach

Weryfikacja spójności i jakości bazy danych

Walidacja potwierdziła wysoką jakość zbioru, wykazując 97% poprawnych rekordów przy całkowitym braku błędów krytycznych. Występujące w 3% przypadków braki danych są marginalne i nie wpływają na wiarygodność końcowych wniosków raportu.

aaaaa aaaa

Eksploracyjna Analiza Danych

Wpływ płci na kwotę zakupów

Wykres wiolonczelowy wykazuje niemal identyczny rozkład wydatków dla obu płci, z medianą wynoszącą 60 USD oraz zakresem od 20 do 100 USD. Brak znaczących różnic wizualnych sugeruje, że płeć nie jest głównym czynnikiem różnicującym wysokość pojedynczych transakcji w tym zbiorze.

Rozkład kwoty zakupów według płci

Histogramy potwierdzają, że najczęstsza wartość transakcji dla obu płci to około 60 USD, przy czym pozostałe wydatki rozkładają się stabilnie w całym przedziale 20–100 USD. Podobny kształt obu rozkładów dowodzi dużej spójności w zachowaniach zakupowych kobiet i mężczyzn, bez wyraźnych różnic w preferowanych kwotach.

Preferencje zakupowe, w zależności od wieku

Analiza ewolucji preferencji zakupowych względem wieku ujawnia dynamiczne zmiany w strukturze koszyka: o ile kategoria Clothing dominuje u młodszych klientów (18–30 lat), o tyle u seniorów (70 lat) jej przewaga nad Accessories staje się niemal niezauważalna. Ruch suwaka pozwala dostrzec specyficzne trendy, takie jak gwałtowny wzrost zainteresowania kategorią Footwear u 50-latków oraz sukcesywne wyrównywanie się wydatków na odzież i dodatki wraz z wiekiem. Całość pokazuje, że profil zakupowy ewoluuje od silnej koncentracji na odzieży w młodości ku bardziej zrównoważonemu wyborowi asortymentu w starszych grupach wiekowych.

Rozkład sprzedaży według segmentów i jednostek produktowych

Sprzedaż w kategorii Clothing jest stabilna i wyrównana, natomiast w segmencie Accessories liderem pozostaje biżuteria z udziałem 14%. Obuwie i odzież wierzchnia wykazują niemal idealnie symetryczny rozkład popularności, co znacznie ułatwia zarządzanie zapasami magazynowymi. Brak wyraźnej dominacji pojedynczego produktu w całym asortymencie potwierdza bezpieczeństwo biznesowe i odporność portfela na wahania popytu.

Popularność kolorów w poszczególnych kategoriach

W kategorii Clothing najwyższą sprzedaż generują kolory takie jak Teal, Maroon oraz Black. W pozostałych sekcjach, jak Footwear czy Outerwear, wybory klientów są znacznie rzadsze i ograniczone do mniejszej palety barw. Tak duże rozproszenie popularnych kolorów w odzieży potwierdza konieczność utrzymywania bardzo zróżnicowanych stanów magazynowych w tym dziale.

Średnia ocena recenzji dla kategorii produktów

Ranking otwiera kategoria Footwear z najwyższą średnią oceną (3.79), podczas gdy najniższy wynik odnotowano dla sekcji Clothing (3.72). Minimalna różnica wynosząca zaledwie 0.07 punktu świadczy o bardzo wyrównanym i spójnym poziomie satysfakcji klientów w całym asortymencie.

Sezonowość zakupów w zależności od płci

Wykres prezentuje wyraźną dominację mężczyzn pod względem liczby transakcji, która w każdym sezonie jest ponad dwukrotnie wyższa niż w przypadku kobiet. Aktywność zakupowa obu grup pozostaje na stabilnym poziomie przez cały rok, wykazując jedynie minimalne wzrosty w okresie wiosennym i zimowym dla grupy męskiej. Stała proporcja między płciami niezależnie od pory roku sugeruje, że czynniki sezonowe nie zmieniają istotnie ogólnej struktury bazy klientów.

Udział kategorii produktów w zależności od sezonu

Geograficzny rozkład wydatków klientów

Interaktywna mapa ukazuje wyraźne zróżnicowanie przychodów w USA, wskazując na regiony takie jak Montana czy Illinois jako liderów pod względem sumy wydatków. Wizualizacja ta pozwala na błyskawiczną identyfikację kluczowych rynków geograficznych, gdzie zaangażowanie finansowe klientów jest największe. Stanowi to istotną wskazówkę dla

Top 10 lokalizacji z największym przychodem

Ranking wskazuje na Montanę jako lidera przychodów, która wyprzedza stany takie jak Idaho czy Illinois z wynikiem zbliżającym się do 6000 USD. Niewielkie różnice wartości w całym zestawieniu sugerują stabilny i wyrównany popyt w najbardziej dochodowych regionach USA. Dane te stanowią fundament do optymalizacji działań sprzedażowych i alokacji budżetów w lokalizacjach o najwyższym potencjale zakupowym

Metoda płatności vs Typ wysyłki

Najpopularniejszą kombinacją usług jest wybór metody PayPal w połączeniu z wysyłką Express, co stanowi najwyższy punkt aktywności na mapie preferencji. Z kolei tradycyjne płatności, takie jak przelew bankowy (Bank Transfer), wykazują najniższą popularność, szczególnie w zestawieniu z przesyłką standardową. Wyraźna dominacja nowoczesnych metod płatności przy szybkich formach dostawy sugeruje, że klienci tego sklepu priorytetyzują sprawność całego procesu zakupowego.

Częstotliwość wyboru danych metod płatności

Najpopularniejszą metodą płatności wśród klientów jest PayPal, który minimalnie wyprzedza karty kredytowe oraz gotówkę. Najrzadziej wybieraną opcją pozostaje Bank Transfer, choć różnice między wszystkimi dostępnymi formami rozliczeń są stosunkowo niewielkie. Tak wyrównany rozkład świadczy o dużej różnorodności preferencji kupujących i braku jednej, bezwzględnie dominującej metody płatności.

Częstotliwość wyboru danego rodzaju wysyłki

Free Shipping jest najchętniej wybieraną formą dostawy, wyprzedzając przesyłkę standardową oraz odbiór osobisty. Wszystkie dostępne metody wysyłki cieszą się jednak bardzo zbliżoną popularnością, co wskazuje na brak jednego, dominującego modelu logistycznego wśród kupujących. Tak zrównoważony rozkład pozwala na dużą elastyczność w zarządzaniu procesami wysyłkowymi.

Wybór rodzaju wysyłki przez subskrybentów i nie-subskrybentów

Wybór rodzaju dostawy jest niemal identyczny dla obu grup klientów, co wskazuje, że status subskrypcji nie zmienia ich preferencji logistycznych. Taka jednolitość pozwala na prowadzenie spójnej i uproszczonej strategii wysyłkowej dla całego rynku.

Częstotliwość zakupów, a wartość koszyka

Średnia wartość koszyka utrzymuje się na stałym poziomie około 60 USD, niezależnie od tego, jak często klienci dokonują zakupów. Niemal identyczny kształt rozkładów we wszystkich kategoriach świadczy o bardzo dużej stabilności i przewidywalności wydatków w każdym segmencie bazy klientów.

Analiza opisowa i porównanie trendów zakupowych klientów wg płci

Tabela 1. Statystyki opisowe i porównanie trendów zakupowych klientów wg płci
Characteristic Ogółem (N = 3900)1 Female
N = 1,248
1
Male
N = 2,652
1
p-value2
Wiek 44.0 ± 15.0 44.0 ± 14.7 44.1 ± 15.2 0.845
Kategoria produktu


0.897
    Accessories 1,240 (32%) 392 (31%) 848 (32%)
    Clothing 1,737 (45%) 556 (45%) 1,181 (45%)
    Footwear 599 (15%) 199 (16%) 400 (15%)
    Outerwear 324 (8.3%) 101 (8.1%) 223 (8.4%)
Kwota zakupu (USD) 59.6 ± 22.2 60.1 ± 22.0 59.3 ± 22.3 0.294
Ocena recenzji 3.7 ± 0.7 3.7 ± 0.7 3.8 ± 0.7 0.611
Status subskrypcji 1,053 (27%) 0 (0%) 1,053 (40%) <0.001
Liczba poprzednich zakupów 25.4 ± 14.4 24.6 ± 14.6 25.7 ± 14.4 0.026
1 Mean ± SD; n (%)
2 Welch Two Sample t-test; Pearson’s Chi-squared test

Profil ogólny: Średni wiek klienta to 44 lata, a średni koszt zakupu wynosi ok. 60 USD.

Najpopularniejszą kategorią jest odzież (45%), a średnia ocena produktów to 3.7/5.

Brak różnic demograficznych: Płeć nie wpływa istotnie na wiek (\(p=0.845\)), preferowane kategorie produktów (\(p=0.897\)) ani wysokość wydatków (\(p=0.294\)).

Kluczowa anomalia (Subskrypcje): Odnotowano drastyczną różnicę w posiadaniu subskrypcji – posiada ją 40% mężczyzn i 0% kobiet (\(p<0.001\)).

Lojalność: Mężczyźni wykazują statystycznie wyższą liczbę poprzednich zakupów (średnio 25.7) niż kobiety (24.6, \(p=0.026\)).

Heatmapa korelacji jakościowych

Najsilniejsze zależności: Najwyższą korelację odnotowano między statusem subskrypcji a zastosowaniem rabatu (0.70), co wskazuje na ścisłe powiązanie programów lojalnościowych z polityką zniżkową.

Wpływ płci: Płeć wykazuje silny związek z korzystaniem z rabatów (0.60) oraz umiarkowany ze statusem subskrypcji (0.42), co potwierdza różnice w reagowaniu na ofertę promocyjną między kobietami a mężczyznami.

Zmienne niezależne: Cechy takie jak lokalizacja, kategoria produktu, rozmiar czy sezon wykazują bardzo niskie korelacje (poniżej 0.15), co sugeruje, że preferencje zakupowe są uniwersalne i niezależne od tych czynników.