Analiza trendów zakupowych klientów
Wstęp
Projekt opiera się na analizie danych pochodzących ze zbioru „Trendy zakupowe klientów”, zawierającego informacje o preferencjach konsumentów w kontekście zakupów detalicznych. Dane umożliwiają naukę analizy danych, eksploracji trendów konsumenckich oraz modelowania zachowań klientów.
Zbiór danych obejmuje 3900 rekordów, z których każdy opisuje pojedynczą transakcję klienta. Uwzględniono m.in. takie zmienne jak: wiek i płeć klienta, kategoria i wartość zakupionego przedmiotu, preferencje dotyczące metody płatności i rodzaju wysyłki, częstotliwość zakupów, zastosowanie rabatu czy użycie kodu promocyjnego. Dane te odzwierciedlają zróżnicowane czynniki wpływające na decyzje zakupowe klientów.
Cel projektu
Celem projektu jest zrozumienie czynników wpływających na zachowania
zakupowe klientów oraz identyfikacja trendów i wzorców konsumenckich,
które mogą stanowić podstawę do optymalizacji strategii sprzedażowej i
marketingowej przedsiębiorstwa.
Analiza ma na celu odpowiedzieć na pytania:
- Jakie grupy klientów dokonują najwyższych zakupów i czym się
charakteryzują? - Czy płeć, wiek lub sezon mają wpływ na wysokość
wydatków?
- Które metody płatności i rodzaje wysyłki są najczęściej
wybierane?
- Czy stosowanie rabatów lub kodów promocyjnych znacząco wpływa na
wartość zakupów?
- Jakie kategorie produktów cieszą się największą popularnością w
zależności od pory roku?
Zakres analizy
W ramach projektu zostaną wykonane następujące etapy analizy:
1. Wczytanie i wstępne przygotowanie danych –
identyfikacja brakujących wartości oraz weryfikacja poprawności danych
na podstawie reguł walidacyjnych, usunięcie braków i ewentualne
przekształcenia.
2. Eksploracyjna analiza danych – wizualizacja
rozkładów i struktur zakupowych z uwzględnieniem płci, wieku, kategorii
produktów, kolorów, sezonowości, lokalizacji geograficznej oraz metod
płatności i typów wysyłki.
3. Analiza opisowa – wyznaczenie statystyk opisowych
kluczowych zmiennych oraz analiza korelacji między cechami i
zachowaniami zakupowymi klientów.
4. Wnioskowanie statystyczne – wykonanie testów
statystycznych w celu oceny zależności i różnic pomiędzy analizowanymi
zmiennymi.
5. Wnioski i interpretacja wyników – podsumowanie
najważniejszych spostrzeżeń i propozycje zastosowań w praktyce
biznesowej.
Znaczenie projektu
Zrozumienie trendów zakupowych klientów jest kluczowe dla
przedsiębiorstw działających w branży handlu detalicznego. Dzięki
analizie danych można: - lepiej dopasować ofertę produktową do potrzeb
klientów,
- planować skuteczniejsze akcje promocyjne,
- poprawić jakość obsługi i doświadczenie zakupowe,
- budować strategie lojalnościowe oparte na rzeczywistych danych.
Wnioski z tej analizy mogą zostać wykorzystane do podejmowania bardziej świadomych decyzji biznesowych i rozwijania strategii opartej na danych.
Przygotowanie i wstępna weryfikacja danych
Ilość braków i procent z całości
Wstępna weryfikacja jakości danych wykazała, że pełne i kompletne obserwacje stanowią około 74.05% całego zbioru (2888 rekordów), co oznacza konieczność podjęcia decyzji o strategii obsługi brakujących danych w pozostałych przypadkach. Wysoki odsetek kompletnych wierszy stanowi solidną bazę do dalszej analizy, jednak uwzględnienie lub oczyszczenie niekompletnych rekordów będzie kluczowe dla zachowania rzetelności wyników statystycznych.
Rozkład brakujących wartości w poszczególnych zmiennych
Szczegółowa analiza struktury danych ujawniła, że braki nie występują losowo w całym zbiorze, lecz koncentrują się wyłącznie w trzech kluczowych atrybutach: Season (Sezon), Purchase Amount (Kwota zakupu) oraz Age (Wiek).
Weryfikacja spójności i jakości bazy danych
Walidacja potwierdziła wysoką jakość zbioru, wykazując 97% poprawnych
rekordów przy całkowitym braku błędów związanych z niespełnianiem
założonych reguł co do analizowanych danych. Oznacza to brak
konieczności usuwania istniejących danych a jedynie uzupełnienie
braków.
Uzupełnianie brakujących danych
Brakujące dane zostały uzupełnione za pomocą kilku, najlepiej dopasowanych metod
- Wiek - mediana wieku w całym zbiorze
- Kwota zakupu - średnia cena danego przedmiotu
- Sezon - metoda hotdeck, czyli podstawienie brakującej wartości na podstawie podobnych obserwacji w zbiorze danych
Dane zostały przygotwane do dalszej analizy, są kompletne i spełniają
postawione reguły
Eksploracyjna analiza danych
Wpływ płci na kwotę zakupów
Wykres wiolonczelowy wykazuje niemal identyczny rozkład wydatków dla obu płci, z medianą wynoszącą 60 USD oraz zakresem od 20 do 100 USD. Brak znaczących różnic wizualnych sugeruje, że płeć nie jest głównym czynnikiem różnicującym wysokość pojedynczych transakcji w tym zbiorze.
Rozkład kwoty zakupów według płci
Histogramy potwierdzają, że najczęstsza wartość transakcji dla obu płci
to około 60 USD, przy czym pozostałe wydatki rozkładają się stabilnie w
całym przedziale 20–100 USD. Podobny kształt obu rozkładów dowodzi dużej
spójności w zachowaniach zakupowych kobiet i mężczyzn, bez wyraźnych
różnic w preferowanych kwotach.
Preferencje zakupowe, w zależności od wieku
Analiza ewolucji preferencji zakupowych względem wieku ujawnia dynamiczne zmiany w strukturze koszyka: o ile kategoria Clothing dominuje u młodszych klientów (18–30 lat), o tyle u seniorów (70 lat) jej przewaga nad Accessories staje się niemal niezauważalna. Ruch suwaka pozwala dostrzec specyficzne trendy, takie jak gwałtowny wzrost zainteresowania kategorią Footwear u 50-latków oraz sukcesywne wyrównywanie się wydatków na odzież i dodatki wraz z wiekiem. Całość pokazuje, że profil zakupowy ewoluuje od silnej koncentracji na odzieży w młodości ku bardziej zrównoważonemu wyborowi asortymentu w starszych grupach wiekowych.
Rozkład sprzedaży według segmentów i jednostek produktowych
Sprzedaż w kategorii Clothing jest stabilna i wyrównana, natomiast w segmencie Accessories liderem pozostaje biżuteria z udziałem 14%. Obuwie i odzież wierzchnia wykazują niemal idealnie symetryczny rozkład popularności, co znacznie ułatwia zarządzanie zapasami magazynowymi. Brak wyraźnej dominacji pojedynczego produktu w całym asortymencie potwierdza bezpieczeństwo biznesowe i odporność portfela na wahania popytu.
Popularność kolorów w poszczególnych kategoriach
W kategorii Clothing najwyższą sprzedaż generują kolory takie jak Teal, Maroon oraz Black. W pozostałych sekcjach, jak Footwear czy Outerwear, wybory klientów są znacznie rzadsze i ograniczone do mniejszej palety barw. Tak duże rozproszenie popularnych kolorów w odzieży potwierdza konieczność utrzymywania bardzo zróżnicowanych stanów magazynowych w tym dziale.
Średnia ocena recenzji dla kategorii produktów
Ranking otwiera kategoria Footwear z najwyższą średnią oceną (3.79),
podczas gdy najniższy wynik odnotowano dla sekcji Clothing (3.72).
Minimalna różnica wynosząca zaledwie 0.07 punktu świadczy o bardzo
wyrównanym i spójnym poziomie satysfakcji klientów w całym
asortymencie.
Sezonowość zakupów w zależności od płci
Wykres prezentuje wyraźną dominację mężczyzn pod względem liczby transakcji, która w każdym sezonie jest ponad dwukrotnie wyższa niż w przypadku kobiet. Aktywność zakupowa obu grup pozostaje na stabilnym poziomie przez cały rok, wykazując jedynie minimalne wzrosty w okresie wiosennym i zimowym dla grupy męskiej. Stała proporcja między płciami niezależnie od pory roku sugeruje, że czynniki sezonowe nie zmieniają istotnie ogólnej struktury bazy klientów.
Udział kategorii produktów w zależności od sezonu
Wykres pokazuje, że struktura zakupów według kategorii produktów jest bardzo zbliżona we wszystkich sezonach, a dominującą kategorią przez cały rok pozostaje odzież (Clothing). Udziały pozostałych kategorii (Accessories, Footwear, Outerwear) zmieniają się jedynie nieznacznie, co wskazuje na brak wyraźnej sezonowości w preferencjach produktowych klientów.
Geograficzny rozkład wydatków klientów
Interaktywna mapa ukazuje wyraźne zróżnicowanie przychodów w USA, wskazując na regiony takie jak Montana czy Illinois jako liderów pod względem sumy wydatków. Wizualizacja ta pozwala na błyskawiczną identyfikację kluczowych rynków geograficznych, gdzie zaangażowanie finansowe klientów jest największe. Stanowi to istotną wskazówkę w planowaniu działań marketingowych oraz alokacji zasobów sprzedażowych w regionach o najwyższym potencjale zakupowym.
Metoda płatności vs typ wysyłki
Najpopularniejszą kombinacją usług jest wybór metody PayPal w połączeniu z wysyłką Express, co stanowi najwyższy punkt aktywności na mapie preferencji. Z kolei tradycyjne płatności, takie jak przelew bankowy (Bank Transfer), wykazują najniższą popularność, szczególnie w zestawieniu z przesyłką standardową. Wyraźna dominacja nowoczesnych metod płatności przy szybkich formach dostawy sugeruje, że klienci tego sklepu priorytetyzują sprawność całego procesu zakupowego.
Częstotliwość zakupów a status subskrybcji
Wykres przedstawia porównanie struktury częstotliwości zakupów pomiędzy subskrybentami i nie-subskrybentami, pokazując bardzo zbliżone udziały poszczególnych kategorii w obu grupach. Brak wyraźnie dominującej częstotliwości zakupów oraz niemal identyczny rozkład segmentów wskazują, że status subskrypcji nie wpływa istotnie na rytm dokonywania zakupów przez klientów.
Analiza opisowa
| Statystyki opisowe | ||||
| Charakterystyka | Ogółem N = 39001 |
Kobiety N = 12481 |
Mężczyźni N = 26521 |
Wartość p2 |
|---|---|---|---|---|
| Wiek | 44.0 ± 15.0 | 44.0 ± 14.7 | 44.1 ± 15.2 | 0.865 |
| Kategoria produktu | 0.897 | |||
| Accessories | 1,240 (32%) | 392 (31%) | 848 (32%) | |
| Clothing | 1,737 (45%) | 556 (45%) | 1,181 (45%) | |
| Footwear | 599 (15%) | 199 (16%) | 400 (15%) | |
| Outerwear | 324 (8%) | 101 (8%) | 223 (8%) | |
| Kwota zakupu (USD) | 59.6 ± 22.2 | 60.1 ± 22.0 | 59.3 ± 22.3 | 0.319 |
| Ocena recenzji | 3.7 ± 0.7 | 3.7 ± 0.7 | 3.8 ± 0.7 | 0.605 |
| Status subskrypcji | 1,053 (27%) | 0 (0%) | 1,053 (40%) | <0.001 |
| Liczba poprzednich zakupów | 25.4 ± 14.4 | 24.6 ± 14.6 | 25.7 ± 14.4 | 0.024 |
| 1 Mean ± SD; n (%) | ||||
| 2 Wilcoxon rank sum test; Pearson’s Chi-squared test | ||||
Profil ogólny: Średni wiek klienta to 44 lata, a średni koszt zakupu wynosi ok. 60 USD. Najpopularniejszą kategorią jest odzież (45%), a średnia ocena produktów to 3.7/5. Brak różnic demograficznych: Płeć nie wpływa istotnie na wiek (p=0.865), preferowane kategorie produktów (p=0.897) ani wysokość wydatków (p=0.319). Kluczowa anomalia (Subskrypcje): Odnotowano drastyczną różnicę w posiadaniu subskrypcji – posiada ją 40% mężczyzn i 0% kobiet (p<0.001). Lojalność: Mężczyźni wykazują statystycznie wyższą liczbę poprzednich zakupów (średnio 25.7) niż kobiety (24.6, p=0.024).
Heatmapa korelacji jakościowych
Najsilniejsze zależności: Najwyższą korelację odnotowano między statusem subskrypcji a zastosowaniem rabatu (0.70), co wskazuje na ścisłe powiązanie programów lojalnościowych z polityką zniżkową.
Wpływ płci: Płeć wykazuje silny związek z korzystaniem z rabatów (0.60) oraz umiarkowany ze statusem subskrypcji (0.42), co potwierdza różnice w reagowaniu na ofertę promocyjną między kobietami a mężczyznami.
Zmienne niezależne: Cechy takie jak lokalizacja, kategoria produktu, rozmiar czy sezon wykazują bardzo niskie korelacje (poniżej 0.15), co sugeruje, że preferencje zakupowe są uniwersalne i niezależne od tych czynników.
Analiza rozkładu kwoty zakupu w podziale na pory roku
Wykres pudełkowy przedstawiający rozkład kwoty zakupu w podziale na pory roku wskazuje na bardzo zbliżoną strukturę cenową we wszystkich analizowanych sezonach (wiosna, lato, jesień, zima).
Mediana wydatków w każdej porze roku wynosi około 60 USD, co sugeruje, że przeciętna kwota pojedynczego zakupu nie wykazuje wyraźnej sezonowości.
Zmienność cen, wyrażona rozstępem międzykwartylowym (wysokość pudełek obejmujących środkowe 50% obserwacji), jest porównywalna pomiędzy sezonami i mieści się w przedziale około 40–80 USD.
Zakres całkowity kwot zakupu jest podobny dla wszystkich pór roku — wartości minimalne wynoszą około 20 USD, a maksymalne około 100 USD, bez widocznych obserwacji odstających, co wskazuje na jednorodność rozkładów cen niezależnie od sezonu.
Analiza rozkładu kwoty zakupu w podziale na kategorie produktu
Rozkłady kwoty zakupu w poszczególnych kategoriach produktu są zbliżone pod względem kształtu i nie wykazują istotnych różnic strukturalnych.
Są one w przybliżeniu symetryczne, z bardzo niewielką skośnością prawostronną, typową dla danych cenowych, wynikającą z naturalnego ograniczenia dolnego (0 USD) oraz obecności górnej granicy cen.
Mediany kwoty zakupu są bardzo zbliżone we wszystkich kategoriach i oscylują wokół 60 USD, co sugeruje brak wyraźnych różnic w przeciętnym poziomie wydatków pomiędzy kategoriami produktów.
Zmienność cen, oceniana na podstawie rozstępu międzykwartylowego, jest porównywalna pomiędzy kategoriami, co wskazuje na jednorodność rozrzutu danych.
W rozkładach nie obserwuje się wyraźnych obserwacji odstających, a zakres wartości jest podobny dla wszystkich kategorii.
Wnioskowanie statystyczne
Test porównania między kategorią produktu, a kwotą zakupu
Ze względu na ograniczony zakres zmiennej kwoty zakupu (0–100 USD) oraz brak obserwacji odstających, a także na podstawie oceny rozkładów, dane spełniały założenia analizy parametrycznej. W związku z tym do porównania średnich kwot zakupu pomiędzy kategoriami produktów zastosowano analizę wariancji Welcha.
Analiza parametryczna (ANOVA Welcha) nie wykazała istotnych różnic w średniej kwocie zakupu pomiędzy kategoriami produktów (p = 0.57). Wielkość efektu była znikoma, co wskazuje, że kategoria produktu nie stanowi istotnego czynnika różnicującego wartość pojedynczego zakupu.
Test zależności między ilością poprzednich zakupów, a kwotą zakupu
Wykres rozrzutu przedstawia zależność pomiędzy kwotą pojedynczego zakupu (USD) a liczbą wcześniejszych zakupów klienta. Obserwacje są równomiernie rozproszone w całym zakresie wartości zmiennej niezależnej, bez widocznego trendu wzrostowego lub spadkowego.
Linia trendu ma niemal poziomy przebieg, co znajduje odzwierciedlenie w bardzo niskiej wartości współczynnika korelacji Pearsona (r≈0.00) oraz nieistotnym statystycznie wyniku testu (p=0.82). Przedział ufności obejmuje zero, co dodatkowo potwierdza brak zależności liniowej pomiędzy analizowanymi zmiennymi.
Rozkład kwot zakupu pozostaje zbliżony dla całego zakresu liczby wcześniejszych transakcji, co sugeruje, że częstotliwość zakupów nie wpływa na wartość pojedynczego koszyka zakupowego.
Analiza proporcji między płcią, a kategorią zakupu
Analiza proporcji przeprowadzona za pomocą testu niezależności χ² Pearsona nie wykazała istotnej zależności pomiędzy płcią klienta a kategorią kupowanego produktu (χ2(3)=0.60,p=0.90).
Współczynnik V-Craméra przyjął wartość bliską zeru (V=0.00), co wskazuje na brak efektu praktycznego. Przedział ufności dla V-Craméra obejmuje zero [0.00,0.007], co dodatkowo potwierdza bardzo słabą, w praktyce nieistniejącą zależność pomiędzy analizowanymi zmiennymi.
Struktura płci w poszczególnych kategoriach produktów jest niemal identyczna — we wszystkich segmentach około 67–69% zakupów dokonywanych jest przez mężczyzn, a 31–33% przez kobiety, co potwierdza wizualna analiza wykresów kołowych.
Analiza regresji liniowej - wpływ rabatu i subskrypcji na kwotę zakupu
Analiza regresji liniowej wykazała, że ani zastosowanie rabatu, ani posiadanie subskrypcji nie mają istotnego wpływu na wysokość pojedynczej kwoty zakupu. Dla klientów bez rabatu i subskrypcji średnia kwota zakupu wynosiła około 60 USD. Współczynniki regresji dla zmiennych „Discount.Applied” oraz „Subscription.Status” były nieistotne statystycznie (p > 0.05), co wskazuje na brak istotnych różnic w wartości koszyka zakupowego pomiędzy analizowanymi grupami.
Wnioski z analizy
Przeprowadzona analiza zbioru danych „Trendy zakupowe klientów” pozwoliła na szczegółowe zrozumienie mechanizmów rządzących decyzjami konsumenckimi w badanym przedsiębiorstwie. Poniżej przedstawiamy kluczowe konkluzje płynące z projektu:
Stabilność portfela zakupowego
Podstawowym wnioskiem z analizy jest wysoka jednorodność wydatków. Średnia kwota zakupu oscyluje wokół 60 USD, niezależnie od płci, kategorii produktu, sezonu czy lokalizacji geograficznej. Brak istotnych statystycznie różnic sugeruje, że marka posiada bardzo stabilną strukturę cenową, która jest akceptowana przez szerokie spektrum klientów.Segmentacja i lojalność
Analiza ujawniła istotne różnice w strukturze bazy klientów, w której dominują mężczyźni generujący ponad dwie trzecie wolumenu transakcji w każdym z sezonów. Odnotowano przy tym anomalię w programach lojalnościowych, ponieważ podczas gdy 40% mężczyzn posiada subskrypcję, w grupie kobiet wskaźnik ten wynosi 0%. Wynika z tego bezpośredni wniosek biznesowy wskazujący na ogromny i niewykorzystany potencjał w budowaniu programów lojalnościowych skierowanych bezpośrednio do kobiet.Mechanizmy promocyjne
Badania korelacyjne wykazały silny związek między statusem subskrybenta a korzystaniem z rabatów, co sugeruje powiązanie systemów zniżkowych z ofertą lojalnościową. Przeprowadzona analiza regresji liniowej dowiodła jednak, że ani rabaty, ani subskrypcje nie zwiększają realnej wartości koszyka. Ponieważ weryfikacja danych wykluczyła również ich wpływ na częstotliwość transakcji, należy uznać obecne mechanizmy promocyjne za nieefektywne w kontekście stymulowania wzrostu kluczowych parametrów sprzedażowych.Preferencje logistyczne i płatnicze
Współczesny konsument stawia na szybkość, najpopularniejsze finalizacje zamównienia to PayPal oraz wysyłka Express. Klienci preferują nowoczesne, cyfrowe metody płatności, co powinno skłaniać firmę do dalszej optymalizacji procesu check-out oraz inwestycji w sprawną logistykę.Sezonowość i asortyment
Mimo że kwoty wydatków są stabilne, struktura koszyka ewoluuje wraz z wiekiem. Młodsi klienci koncentrują się na odzieży , podczas gdy u seniorów wydatki rozkładają się równomiernie między odzież a akcesoria. Sezonowość nie wpływa znacząco na udziały kategorii, co świadczy o uniwersalności oferty przez cały rok.
Rekomendacje
Główną rekomendacją wynikającą z przeprowadzonej analizy jest konieczność opracowania nowej strategii marketingowej skierowanej bezpośrednio do kobiet w celu zniwelowania dysproporcji w posiadaniu subskrypcji.
Przedsiębiorstwo powinno przedefiniować obecny system lojalnościowy oraz politykę rabatową, ponieważ aktualnie nie wpływają one ani na wzrost wartości koszyka, ani na częstotliwość zakupów.
Należy rozważyć wprowadzenie mechanizmów w celu podniesienia średniej kwoty transakcji, która obecnie utrzymuje się na stałym poziomie niezależnie od statusu klienta.
Wysoka popularność płatności cyfrowych i przesyłek ekspresowych wskazuje na potrzebę dalszych inwestycji w sprawność procesów logistycznych oraz nowoczesne kanały płatnicze jako kluczowe czynniki budujące przewagę konkurencyjną.