Analiza trendów zakupowych

1 Wprowadzenie

Celem projektu jest analiza danych sprzedażowych, której zadaniem jest identyfikacja oraz zrozumienie wzorców zakupowych i preferencji klientów. Analiza ta ma na celu wyszczególnienie zależności występujących w danych, określenie charakterystyki zachowań konsumenckich oraz wskazanie czynników wpływających na decyzje zakupowe.

Wykorzystane zostały metody wstępnego przetwarzania danych, w szczególności techniki czyszczenia danych obejmujące identyfikację i eliminację braków danych. Zastosowane zostały narzędzia analizy danych, w tym techniki wizualizacji, umożliwiające przedstawienie rozkładów zmiennych, relacji pomiędzy nimi oraz identyfikację istotnych trendów.

Kluczowym elementem badania będzie również zastosowanie metod wnioskowania statystycznego, pozwalających na formułowanie i weryfikację hipotez badawczych oraz ocenę istotności zaobserwowanych zależności.

Przeprowadzona analiza ma na celu udzielenie odpowiedzi na sformułowane pytania badawcze, a także dostarczenie wniosków mogących stanowić podstawę do podejmowania decyzji biznesowych oraz dalszych badań analitycznych.

1.1 Opis danych

Analizowany zbiór danych zawiera 3900 obserwacji i 18 zmiennych. W tabeli poniżej zostały przedstawione wszystkie zmienne wraz z informacjami na temat typu zmiennej, opisem i wartościami jakie przyjmuje.

Specyfikacja zmiennych w zbiorze danych
Zmienna Typ Opis Wartości
Customer ID Jakościowa (nominalna) Unikalny identyfikator Od 1 do 3800
Age Ilościowa (dyskretna) Wiek klienta w latach W latach
Gender Jakościowa (binarna) Płeć klienta Male, Female
Item Jakościowa (Nominalna) Przedmiot zakupiony przez klienta Backpack, Belt, Blouse, Boots, Coat, Dress, Gloves, Handbag, Hat, Hoodie, Jacket, Jeans, Jewelry, Pants, Sandals, Scarf, Shirt, Shoes, Shorts, Skirt, Sneakers, Socks, Sunglasses, Sweater, T-shirt
Category Jakościowa (nominalna) Grupa produktów Accessories, Clothing, Footwear, Outerwear.
Amount Ilościowa (ciągła) Wartość transakcji (USD) Wartość liczbowa
Location Jakościowa (nominalna) Lokalizacja, w której dokonano zakupu 50 stanów
Size Jakościowa (porządkowa) Rozmiar produktu (S-XL) L,M,S, XL
Color Jakościowa (nominalna) Kolor zakupionego przedmiotu Beige, Black, Blue, Brown, Charcoal, Cyan, Gold, Gray, Green, Indigo, Lavender, Magenta, Maroon, Olive, Orange, Peach, Pink, Purple, Red, Silver, Teal, Turquoise, Violet, White, Yellow.
Season Jakościowa (nominalna) Pora roku zakupu Fall, Spring, Summer, Winter.
Rating Ilościowa (ciągła) Ocena produktu (1-5) Wartość od 1 do 5
Subscription Jakościowa (binarna) Wskazuje, czy klient posiada subskrypcję Yes, No
Shipping Jakościowa (nominalna) Rodzaj wysyłki wybrany przez klienta 2-Day Shipping, Express, Free Shipping, Next Day Air, Standard, Store Pickup.
Discount Jakościowa (binarna) Wskazuje, czy do zakupu zastosowano rabat Yes, No
Code Jakościowa (binarna) Wskazuje, czy do zakupu użyto kodu promocyjnego Yes, No
Previous.Purchases Ilościowa (ciągła) Łączna liczba transakcji dokonanych przez klienta w sklepie, z wyłączeniem bieżącej transakcji Wartość liczbowa
Payment Jakościowa (nominalna) Najbardziej preferowana metoda płatności klienta Bank Transfer, Cash, Credit Card, Debit Card, PayPal, Venmo.
Frequency Jakościowa (nominalna) Częstotliwość, z jaką klient dokonuje zakupów Annually, Bi-Weekly, Every 3 Months, Fortnightly, Monthly, Quarterly, Weekly.

2 Data Cleansing i Wrangling

2.1 Braki danych

Pierwszym etapem przeprowadzonej analizy danych było zweryfikowanie kompletności badanego zbioru danych, w szczególności identyfikacja występowania braków danych. W tym celu dokonano oceny liczby obserwacji niekompletnych oraz ich udziału procentowego w całym zbiorze.

Przeprowadzona analiza wykazała, że w badanym zbiorze danych występuje 1100 obserwacji zawierających braki danych, co stanowi 1.57% wszystkich obserwacji, natomiast 69100 obserwacji stanowią dane kompletne.

W kolejnym kroku dokonano szczegółowej analizy braków danych wraz z badaniem struktury oraz wzorców występowania braków danych, w celu ustalenia, czy braki pojawiają się w sposób losowy, czy też wykazują określone zależności pomiędzy zmiennymi. Identyfikacja wzorców braków danych umożliwia podjęcie decyzji dotyczących dalszego postępowania z brakującymi obserwacjami.

2.1.1 Wzorzec braków danych

Pierwszym krokiem w analizie wzorców braków danych jest graficzne przedstawienie braków danych. Poniższy wykres wskazuje, że chociaż największa liczba obserwacji charakteryzuje się brakiem pojedynczej zmiennej, to występują również wyraźne przypadki jednoczesnych braków w więcej niż jednej zmiennej. Analiza mapy braków danych wskazuje na istnienie powtarzalnych wzorców współwystępowania braków w przypadku zmiennych: wiek (Age), wydatki (Amount) oraz sezon (Season), co sugeruje, że braki danych nie są całkowicie losowe.

W celu lepszego zobrazowania powiązań między brakami danych w trzech kluczowych zmiennych, zestawiono ze sobą wykresy przedstawiające wzorce braków danych. Analiza wizualna pozwala stwierdzić, że braki w informacjach dotyczących wieku oraz wydanej kwoty występują niemal wyłącznie w przypadku zakupów dokonywanych jesienią. Świadczy to o tym, że w tej kategorii braki nie mają charakteru losowego.

Z kolei analiza relacji pomiędzy samym wiekiem a wydaną kwotą pokazuje, że braki danych są rozproszone równomiernie, występują w całym zakresie kwot oraz u osób w każdym przedziale wiekowym. Oznacza to brak korelacji w występowaniu braków między tymi dwiema zmiennymi.

2.1.2 Imputacje metodą hotdeck

Imputacja metodą hotdeck polega na uzupełnianiu brakujących wartości poprzez przypisanie im rzeczywistych obserwacji pochodzących od statystycznie podobnych jednostek w tym samym zbiorze danych. Dobór tzw. dawcy odbywa się na podstawie zmiennych pomocniczych, które są kompletne i silnie powiązane z imputowaną cechą. W przeprowadzonej analizie wykorzystano imputację hotdeck w celu ograniczenia skali braków danych bez wprowadzania sztucznych wartości.

Po przeprowadzonej imputacji metodą hotdeck, zbiór danych został uzupełniony o brakujące wartości, co pozwoliło na uzyskanie kompletnego zestawu danych do dalszych analiz. Jak można zauważyć na poniższym wykresie, po zastosowaniu tej metody, zbiór danych nie zawiera już braków danych, co umożliwia przeprowadzenie dalszych analiz bez konieczności uwzględniania problemu niekompletności danych.

W celu sprawdzenie, czy zastosowana metoda imputacji hotdeck była skuteczna, przeprowadzono wizualną ocenę zgodności rozkładu zmiennych Age, Season i Amount przed i po imputacji. Poniższy wykres przedstawia porównanie rozkładów zmiennych w oryginalnym zbiorze danych z brakami oraz w zbiorze danych po imputacji. Analiza wizualna wskazuje, że rozkład zmiennych po imputacji jest zbliżony do rozkładu oryginalnego, co sugeruje, że metoda hotdeck skutecznie zachowała charakterystyki statystyczne tej zmiennej.

2.2 Walidacja danych

Przeprowadzona została walidacja danych, której celem jest zapewnienie poprawności, spójności oraz wiarygodności zbioru danych wykorzystywanego w dalszych analizach. Przeprowadzono weryfikację danych pod kątem zgodności wartości zmiennych z przyjętymi założeniami merytorycznymi oraz logicznymi ograniczeniami wynikającymi z charakteru analizowanego zjawiska. Sprawdzono m.in. poprawność zakresów zmiennych liczbowych, a także zgodność zmiennych jakościowych z dopuszczalnymi kategoriami. Przeprowadzone działania walidacyjne pozwoliły na przygotowanie spójnego i rzetelnego zbioru danych do dalszych etapów analizy.

W ramach walidacji danych przyjęto następujące kryteria poprawności zmiennych:

  • Wiek (age) – wartości mieszczące się w przedziale od 0 do 120 lat.
  • Płeć (gender) – zmienna jakościowa ograniczona do kategorii female oraz male.
  • Kwota zakupu (purchase amount) – wartości dodatnie, większe od zera.
  • Rozmiar (size) – dopuszczalne kategorie: XS, S, M, L, XL.
  • Ocena opinii (review rating) – wartości z przedziału od 0 do 5.
  • Liczba wcześniejszych zakupów (previous purchases) – wartości dodatnie, większe od zera.
  • Zastosowanie rabatu (discount applied) – zmienna binarna: tak lub nie.
  • Użycie kodu promocyjnego (promo code use) – zmienna binarna: tak lub nie.
  • Subskrypcja (subscription) – zmienna binarna: tak lub nie.

Przeprowadzona walidacja danych wskazała, że wszystkie obserwacje w zbiorze danych spełniają przyjęte kryteria poprawności dla poszczególnych zmiennych. Oznacza to, że dane są spójne i zgodne z założeniami merytorycznymi, co pozwala na ich dalsze wykorzystanie w analizie bez konieczności wprowadzania dodatkowych korekt czy eliminacji obserwacji.

3 Analiza opisowa

3.1 Statystyki opisowe zmiennych ilościowych

Kolejnym etapem badania jest szczegółowa analiza statystyczna zmiennej ilościowej Amount, która reprezentuje kwoty wydawane przez klientów podczas pojedynczej transakcji. Celem poniższego zestawienia jest nie tylko wyznaczenie przeciętnej wartości koszyka zakupowego, ale również zbadanie struktury tych wydatków – ich zróżnicowania, asymetrii oraz koncentracji wokół średniej. Z otrzymanych wyników można wywnioskować, że wydatki na różne kategorie produktów rozkładają się równomiernie, ponieważ mediana i średnia mają pododne wartości. Odchylenia standardowe w przypadku akcesorii (Accessories), ubrań (Clothing) i obuwia (Footwear) są bardzo zbliżone do siebie, co świadczy o tym, że klienci wydają podobne kwoty na te kategorie. Natomiast, widać trochę większe odchylenie w przypadku odzieży wierzchniej (Outerwear), co świadczy o tym, że w przypadku tej kategorii wydatki są bardziej zróżnicowane. Skośność bliska zeru wskazuje na symetryczny rozkład wydatków klientów. Sugeruje to, że struktura asortymentowa sklepu jest zbalansowana, a klienci równie chętnie wybierają produkty z dolnej, jak i górnej półki cenowej. Wyniki kurtozy oznaczają, że wydatki nie są mocno skoncentrowane wokół jednej kwoty, ale są dość równomiernie “rozsiane”.

Szczegółowa analiza statystyczna wydatków
Kategorie produktów
Category Min Max Kwartyl dolny Mediana Kwartyl górny Średnia Odch. std. IQR Odchylenie ćwiartkowe Odch. std. w % Odch. ćwiartkowe w % Skośność Kurtoza
Accessories 20 100 39 59 79 59.63 23.19 40 20.0 38.89 67.80 0.03 -1.19
Clothing 20 100 39 60 81 60.13 23.64 42 21.0 39.31 70.00 0.00 -1.24
Footwear 20 100 38 59 79 59.13 23.52 41 20.5 39.78 69.49 0.04 -1.19
Outerwear 20 100 34 56 80 57.69 24.68 46 23.0 42.78 82.14 0.11 -1.31

Na podstawie wyników można stwierdzić, że średni wiek badanych wynosi 44 lata, przy dużym zróżnicowaniu (SD = 15.22), co wskazuje na udział osób z różnych grup wiekowych. Średnia kwota zakupu to 59,61 USD, a wcześniejsze wydatki wynosiły przeciętnie 25,35 USD, co może sugerować wzrost zainteresowania ofertą lub skuteczność działań promocyjnych. Oceny produktów są raczej pozytywne (średnia 3,75 w skali 1–5), przy umiarkowanej zgodności opinii (SD = 0,72). Wszystkie zmienne wykazują znaczną zmienność, co świadczy o różnorodności zachowań konsumenckich w badanej grupie.

3.2 Korelacje zmiennych jakościowych

Dla badanego zbioru danych przeprowadzono analizę korelacji pomiędzy zmiennymi jakościowymi za pomocą współczynnika V-Craméra. Współczynnik ten mierzy siłę związku pomiędzy dwiema zmiennymi kategorycznymi, przyjmując wartości od 0 (brak związku) do 1 (pełna zależność).

Analiza współzależności pomiędzy zmiennymi jakościowymi, wskazuje wyraźne skupiska silnych relacji w badanym zbiorze danych. Najbardziej widoczne jest powiązanie między zmiennymi Item i Category, co wskazuje, że typ produktu jest ściśle związany z jego klasyfikacją. Drugim istotnym skupiskiem zależności jest Code–Discount–Subscription, gdzie zarówno kod promocyjny, jak i rodzaj zastosowanej zniżki oraz status subskrypcji wykazują wzajemne, podwyższone powiązania. Sugeruje to, że określone kody i rabaty mogą być częściej kierowane do subskrybentów lub stosowane w ramach konkretnych strategii marketingowych.

3.3 Korelacja zmiennych ilościowych

Dla badanego zbioru danych przeprowadzono analizę korelacji pomiędzy zmiennymi ilościowymi z wykorzystaniem współczynnika korelacji Pearsona. Współczynnik ten mierzy siłę i kierunek liniowego związku pomiędzy dwiema zmiennymi liczbowymi, przyjmując wartości od -1 (silna korelacja ujemna) przez 0 (brak korelacji) do 1 (silna korelacja dodatnia). Wyniki zostały przedstawione na wykresie korelacji w formie macierzy kolorystycznej, gdzie intensywność barw odzwierciedla siłę zależności pomiędzy zmiennymi: wiekiem, kwotą zakupu, oceną oraz liczbą wcześniejszych zakupów.

Analiza wykresu wskazuje, że pomiędzy żadną z par zmiennych nie występuje silna korelacja. Wszystkie współczynniki korelacji mieszczą się w przedziale od -0.02 do 0.05, co oznacza bardzo słabe lub wręcz pomijalne związki liniowe. Przykładowo, korelacja między Age a Rating wynosi -0.02, co sugeruje brak istotnego wpływu wieku klienta na ocenę produktu.

4 Wizualizacja danych

Wizualizacja danych stanowi istotny element procesu analizy danych, umożliwiający przejrzyste i intuicyjne przedstawienie informacji zawartych w zbiorze danych.

W niniejszym rozdziale zaprezentowano wybrane metody wizualizacji danych wykorzystane w celu lepszego zrozumienia analizowanych zjawisk.

W ramach przeprowadzonej analizy sformułowano następujące pytania badawcze:

  1. Czy wiek konsumentów wpływa na wybór kategorii zakupionych przedmiotów?

  2. Czy wiek konsumentów wpływa na wysokość kwoty zakupu?

  3. Jakie są najpopularniejsze kombinacje rozmiarów i kolorów w poszczególnych kategoriach?

  4. Jakie są preferencje klientów dotyczące metod płatności w zależności od grupy wiekowej?

  5. Czy klienci wydający więcej wybierają szybsze opcje wysyłki?

  6. Czy większa liczba klientów wpływa na wyższą sprzedaż w poszczególnych lokalizacjach?

  7. Czy klienci którzy wystawiają lepszą ocenę częściej kupują?

  8. Czy istnieją znaczące różnice w kategoriach i kwotach zakupów w zależności od lokalizacji i sezonu?

  9. Czy sezon wpływa na wartość zakupów w poszczególnych kategoriach?

  10. Czy płeć wpływa na zakup produktów z poszczególnych kategorii?

  11. Czy posiadanie subskrypcji wpływa na częstotliwość zakupów?

  12. Jaka jest średnia ocen zakupów dla poszczególnych stanów?

4.1 Czy wiek konsumentów wpływa na wybór kategorii zakupionych przedmiotów?

Aby odpowiedzieć na to pytanie badawcze przedstawiono skumulowany wykres słupkowy ilustrujący rozkład kategorii zakupionych produktów w podziale na grupy wiekowe. Grupy wiekowe zostały zdefiniowane jako: 18-29, 30-44, 45-59 oraz 60+. Wykres ten pozwala na wizualne porównanie udziału procentowego poszczególnych kategorii w różnych grupach wiekowych, co umożliwia ocenę wpływu wieku na wybór kategorii zakupionych przedmiotów.

4.2 Czy wiek konsumentów wpływa na wysokość kwoty zakupu?

Do zbadania wpływu wieku konsumentów na wysokość kwoty zakupu wykorzystano wykres słupkowy przedstawiający wartość zakupu w poszczególnych grupach wiekowych. Wykres ten pozwala na wizualne porównanie średnich kwot zakupów pomiędzy różnymi grupami wiekowymi, co umożliwia ocenę wpływu wieku na wysokość wydatków konsumenckich. Grupy “30-44” i “45-59” przeciętnie wydawały najwięcej pieniędzy. Osoby powyżej 60 roku życia najmniej.

4.3 Jakie są najpopularniejsze kombinacje rozmiarów i kolorów w poszczególnych kategoriach?

Wykres przedstawia cztery kategorie: Accessories, Clothing, Footwear oraz Outerwear. Zastosowano wykres słupkowy wielokrotny, w którym na osi X znajdują się dostępne rozmiary (L, M, S, XL), natomiast kolory słupków odpowiadają rzeczywistej kolorystyce produktów. Najbardziej rozbudowaną kategorią są ubrania (Clothing), liczba obserwacji dla poszczególnych kombinacji jest najwyższa, sięgając ponad 40 sztuk dla wybranych kolorów w rozmiarze M. We wszystkich kategoriach, szczególnie w odzieży i akcesoriach, rozmiar M wyraźnie dominuje nad pozostałymi. Rozmiary S oraz L prezentują zbliżone do siebie udziały, podczas gdy rozmiar XL jest najrzadziej reprezentowany. Zbiór danych charakteryzuje się bardzo dużą paletą barw.W kategorii Clothing widać dużą popularność kolorów jaskrawych i nasyconych. Kategoria Footwear oraz Outerwear wykazuje znacznie mniejszą liczebność produktów, a rozkład kolorów jest bardziej wyrównany, a nieznacznie dominujace kolory należa do bardziej stonowanych.

4.4 Jakie są preferencje klientów dotyczące metod płatności w zależności od grupy wiekowej?

Preferencje kielientów dotyczące metod płatności zostały przedstawione na wykresie słupkowym wielokrotnym, gdzie na osi X znajdują się różne metody płatności, a kolory słupków odpowiadają grupom wiekowym klientów. Klienci korzystają z sześciu różnych metod płatności: przelewu bankowego (Bank Transfer), gotówki (Cash), karty kredytowej (Credit Card), karty debetowej (Debit Card), systemu PayPal oraz Venmo. W niemal każdej kategorii płatności najliczniejszą grupę stanowią osoby w przedziałach wiekowych 30-44 oraz 45-59. Osoby powyżej 60. roku życia wykazują najniższą liczebność we wszystkich rodzajach płatności. Przy czym najczęściej wybierają kartę kredytową albo gotówkę.

4.5 Czy klienci wydający więcej wybierają szybsze opcje wysyłki?

Preferencje klientów dotyczące wyboru rodzaju wysyłki zostały przedstawione na wykresie pudełkowym, gdzie każda kategoria wysyłki (Store Pickup, Standard, Next Day Air, Free Shipping, Express, 2-Day Shipping) została zilustrowana osobnym boxplotem obrazującym rozkład wydatków. Na osi Y znajdują się typy wysyłki, natomiast oś X przedstawia wartość zakupów. Wykres pozwala porównać medianę, rozrzut oraz obecność wartości odstających w każdej grupie.

Na podstawie wykresu pudełkowego można zauważyć, że klienci wybierający szybsze opcje wysyłki, takie jak Next Day Air, Express czy 2-Day Shipping — mają tendencję do wydawania więcej niż ci, którzy decydują się na Standard, Free Shipping czy Store Pickup. Średnie wydatki (mediana w boxplotach) są wyraźnie wyższe dla szybszych metod dostawy, a zakres wartości (rozrzut) również wskazuje na obecność klientów z bardzo wysokimi wydatkami w tych grupach.

Można więc wnioskować, że klienci wydający więcej częściej wybierają szybsze formy dostawy.

4.6 Czy większa liczba klientów wpływa na wyższą sprzedaż w poszczególnych lokalizacjach?

Korelacja między całkowitą sprzedarzą a liczbą klientów w poszczególnych lokalizacjach została przedstawiona na wykresie punktowym. Na osi X znajduje się całkowita sprzedaż w danej lokalizacji, natomiast na osi Y liczba klientów, natomiast każdy punk odpowiada za jedną lokalizację. Na wykresie widoczny jest trend wzrostowy. Wraz ze wzrostem liczby klientów w danej lokalizacji, proporcjonalnie rośnie całkowita sprzedaż.Punkty układają się wzdłuż linii diagonalnej, co sugeruje silną, liniową zależność między tymi zmiennymi. Potwierdza to wysoki wynik współczynnika korelacji Pearsona, który wynosi 0,88. Największe skupisko obserwacji znajduje się w środkowej części wykresu. Oznacza to, że większość lokalizacji osiąga zbliżone, średnie wyniki operacyjne. W prawym górnym rogu wykresu widoczne są punkty reprezentujące najbardziej dochodowe lokalizacje.

4.7 Czy klienci którzy wystawiają lepszą ocenę częściej kupują?

Preferencje klientów w zakresie liczby wcześniejszych zakupów w zależności od wystawionej oceny zostały przedstawione na wykresie pudełkowym, gdzie na osi X znajdują się trzy poziomy ocen: średnia (Medium), wysoka (High) oraz bardzo wysoka (Very High). Oś Y obrazuje liczbę poprzednich zakupów, a każdy poziom oceny został oznaczony innym kolorem, co ułatwia porównanie rozkładów.

Analiza wykresu wskazuje, że klienci wystawiający bardzo wysokie oceny (Very High) mają tendencję do dokonywania większej liczby wcześniejszych zakupów niż osoby oceniające na poziomie średnim lub wysokim. Mediana liczby zakupów rośnie wraz z poziomem oceny, co może sugerować, że zadowolenie klientów koreluje z ich lojalnością i częstotliwością zakupów.

4.8 Czy istnieją znaczące różnice w kategoriach i kwotach zakupów w zależności od lokalizacji i sezonu?

Różnice w kategoriach i kwotach zakupów w zależności od lokalizacji zostały przedstawione na wykresie typu heatmap (mapa cieplna). Na osi X znajdują się cztery kategorie produktów, natomiast na osi Y lokalizacje. Kolory na wykresie reprezentują wartość zakupów, gdzie jaśniejsze odcienie wskazują niższe wartości, a ciemniejsze wyższe. Odzież wykazuje najwyższe zagęszczenie ciemnych pól w niemal wszystkich stanach, co sugeruje, że jest to najbardziej popularna kategioria. Obuwie (Footwear) i odzież wierzchnia (Outwear) są kategoriami, na które przebadani konsumenci wydali mniejsze kwoty, wskazuje na to dominacja jaśniejszych kolorów.

4.9 Czy sezon wpływa na wartość zakupów w poszczególnych kategoriach?

Wpływ pory roku na wartość zakupów w poszczególnych kategoriach został przedstawiony za pomocą wykresu interakcji. Według wykresu na obuwie badani konsumenci wydają najwięcej pieniędzy na jesień. Ta kategoria charakteryzuje się również dużym zróżnicowaniem pomiędzy porami roku. Na akcesorie największa suma pieniędzy zostaje przeznaczona na wiosnę. Natomiast ubrania charakteryzują się odrotnym trendem do akcesoriów. Odzież wierzchnia to kategoria o stosunkowo najniższych wahaniach. Choć jej wartość rośnie od wiosny do lata, przez resztę roku utrzymuje trend lekko spadkowy, osiągając najniższy poziom zimą. Wykres wyraźnie wskazuje na wpływ sezonowości na wartość zakupów w poszczególnych kategoriach.

4.10 Czy płeć wpływa na zakup produktów z poszczególnych kategorii?

Preferencje zakupowe klientów w poszczególnych kategoriach produktów z podziałem na płeć zostały przedstawione na mapie cieplnej, gdzie intensywność koloru odzwierciedla liczbę dokonanych zakupów. Na osi X znajduje się płeć, a na osi Y cztery kategorie produktów: Outerwear, Footwear, Clothing oraz Accessories. Im ciemniejszy odcień niebieskiego, tym większa liczba zakupów w danej grupie.

Analiza wykresu pokazuje, że mężczyźni dokonują więcej zakupów niż kobiety we wszystkich kategoriach. Największe różnice widoczne są w kategorii odzieży, gdzie mężczyźni dokonali ponad dwukrotnie więcej transakcji niż kobiety (1181 vs 556). Podobna tendencja występuje w przypadku akcesoriów i obuwia. Najmniejsza różnica występuje w kategorii odzieży wierzchniej, choć i tu mężczyźni przeważają. Dane mogą sugerować większą aktywność zakupową mężczyzn w analizowanym okresie lub ich większe zainteresowanie konkretnymi kategoriami produktów.

4.11 Czy posiadanie subskrypcji wpływa na częstotliowść zakupów?

Zależność między posiadaniem subskrypcji a częstotliwością dokonywania zakupów została również przedstawiona na mapie cieplnej, gdzie intensywność koloru odzwierciedla liczbę transakcji w różnych przedziałach czasowych. Na osi X znajduje się informacja o posiadaniu subskrypcji, natomiast oś Y przedstawia częstotliwość zakupów: tygodniową, dwutygodniową, miesięczną, kwartalną, coroczną oraz inne warianty. Każda komórka zawiera konkretną liczbę zakupów, co pozwala na bezpośrednie porównanie aktywności zakupowej użytkowników z subskrypcją i bez niej.

Analiza wykresu wskazuje, że użytkownicy bez subskrypcji dokonują więcej zakupów we wszystkich kategoriach częstotliwości niż osoby posiadające subskrypcję. Może to sugerować, że subskrypcja niekoniecznie zwiększa częstotliwość zakupów, a wręcz przeciwnie — osoby bez niej wykazują większą aktywność zakupową.

4.12 Średnia ocen zakupów w poszczególnych stanach

Średnia ocen zakupów w poszczególnych stanach została przedstawiona na mapie Stanów Zjednoczonych. Kolory na mapie reprezentują średnią ocenę zakupów w danym stanie, gdzie odcienie czerwieni wskazują niższe średnie oceny, a odcienie zieleni wyższe. Regionami o najwyższej satysfakcji z zakupów to takie stany jak Teksas (TX), Wisconsin (WI) oraz Waszyngton (WA). Wyraźnie niższe oceny widoczne są w stanach Oklahoma (OK), Georgia (GA) oraz Wirginia Zachodnia (WV). Średnia w tych lokalizacjach zbliża się do dolnej granicy skali (3.6). Stany w centralnej części USA (np. Nebraska, Kansas) oraz na północnym wschodzie (np. Maine, Vermont) prezentują umiarkowany, stabilny poziom satysfakcji (kolory żółte i jasnozielone).

5 Wnioskowanie statystyczne

5.1 Analiza wpływu wieku konsumentów na wybór kategorii zakupionych przedmiotów

Celem analizy jest zbadanie, czy wiek konsumentów wpływa na wybór kategorii zakupionych produktów. Wykorzystano wykres słupkowy z podziałem procentowym oraz test chi-kwadrat Pearsona, aby ocenić, czy rozkład wyborów produktowych różni się istotnie pomiędzy grupami wiekowymi. Dodatkowo obliczono wartość V Cramera jako miarę siły zależności oraz p‑value dla każdej kategorii osobno.

Wyniki analizy statystycznej wskazały na brak istotnych różnic pomiędzy kategorią a wiekiem. Wartość p dla testu chi-kwadrat, wyniosła 0,24, co jest znacznie powyżej przyjętego poziomu istotności, w związku z tym nie ma podstaw do odrzucenia hipotezy zerowej.

5.2 Analiza porównawcza kwot wydatków w podziale na kategorie

Celem poniższej analizy jest porównanie rozkładu wydatków klientów w zależności od kategorii zakupionych produktów. Zmienna Amount reprezentuje kwotę pojedynczej transakcji, natomiast zmienna Category dzieli zakupy na cztery grupy: Accessories, Clothing, Footwear oraz Outerwear. Analiza ma na celu ocenę, czy kategorie różnią się istotnie pod względem wysokości wydatków, oraz czy struktura tych wydatków wskazuje na zróżnicowane preferencje konsumenckie. Wykorzystano zarówno klasyczne testy statystyczne (Welch’s ANOVA), jak i podejście bayesowskie, aby uzyskać pełniejszy obraz zależności.

Wykres przedstawia rozkład wydatków w czterech kategoriach produktów za pomocą wykresów wiolinowych, uzupełnionych o boxploty, punkty danych oraz oznaczenia średnich wartości. Średnie wydatki w każdej grupie są zbliżone: ubrania (59.80 USD), akcesoria (59.25 USD), obuwie (59.44 USD) oraz odzież wierzchnia (57.55 USD). Wizualnie rozkłady są podobne, bez wyraźnych różnic w kształcie czy rozrzucie.

Statystycznie, test Welch’a ANOVA wykazał brak istotnych różnic między grupami. Wartość standaryzowanej miary efektu wskazuje, że kategoria produktu nie wyjaśnia żadnej części wariancji wydatków. Przedział ufności dla siły efektu jest bardzo szeroki, co dodatkowo podkreśla niepewność wyniku. Analiza bayesowska potwierdza ten wniosek.

Podsumowując, zarówno wizualizacja, jak i testy statystyczne jednoznacznie wskazują, że wydatki klientów nie różnią się istotnie w zależności od kategorii produktu. Średnie wartości są niemal identyczne, a brak efektu potwierdzają zarówno podejścia klasyczne, jak i bayesowskie.

5.3 Analiza wpływu grupy wiekowej na preferencje dotyczące wyboru metod płatności

Celem niniejszej analizy jest zbadanie, czy wiek konsumentów wpływa na preferencje dotyczące wyboru metod płatności. Analiza ma charakter eksploracyjny i została przeprowadzona przy użyciu wykresu słupkowego z podziałem procentowym, który pozwala ocenić, jak rozkładają się wybory płatnicze w poszczególnych grupach wiekowych. Dodatkowo zastosowano test chi-kwadrat Pearsona oraz współczynnik V Cramera, aby określić, czy obserwowane różnice mają charakter statystycznie istotny i jak silna jest zależność między wiekiem a preferencją płatniczą.

Wyniki testów przeprowadzonych dla całego zestawienia wskazują na brak istotnych różnic w preferencjach płatniczych pomiędzy badanymi grupami wiekowymi. Wartość p dla testu chi-kwadrat wyniosła 0,30, co jest powyżej przyjętego poziomu istotności, co sugeruje brak podstaw do odrzucenia hipotezy zerowej o braku związku między wiekiem a wyborem metody płatności. Jednak rozkład wewnątrz grup jest bardziej zróżnicowany. Niskie wartości \(p\) wskazują, że wewnątrz konkretnych metod płatności udziały grup wiekowych istotnie różnią się od założonego rozkładu.

5.4 Analiza wpływu sezonu na wartość zakupów w poszczególnych kategoriach

W kontekście badania zachowań konsumenckich warto przyjrzeć się, czy sezon zakupowy oraz typ produktu wpływają na wysokość wydatków. Analiza wariancji (ANOVA) z uwzględnieniem interakcji między tymi zmiennymi pozwala ocenić, czy wydatki różnią się istotnie w zależności od sezonu, kategorii produktu, oraz czy efekt sezonu zależy od rodzaju kupowanego towaru.

Wyniki analizy wariancji dla zmiennej Amount
Efekt Df Suma kwadratów Średni kwadrat Statystyka F p-value
Season 3 2227.343 742.448 1.344 0.258
Category 3 1808.429 602.810 1.091 0.352
Season:Category 9 15809.266 1756.585 3.179 0.001
Residuals 3884 2145922.958 552.503 NA NA

Otrzymane wyniki analizy wariancji ANOVA wskazują na istotną statystycznie interakcję między porą roku a kategorią produktu. Oznacza to, że wpływ sezonu na wartość zakupów nie jest stały — to, czy średnio od tego, jaką grupę produktów analizujemy. Potwierdza to wizualne obserwacje z wykresu interakcji, gdzie linie trendów przecinały się, zamiast biec równolegle. Brak statystycznie istotnego wpływu zmiennej Season na zmienną Amount, oznacza, że jeśli uśrednimy wydatki ze wszystkich kategorii, pory roku same nie generują znacząco różnych poziomów sprzedaży. Tak samo brak wpływu zmiennej Category na kwotę zakupu, wskazuje, że w skali całego roku, żadna kategoria nie jest droższa lub tańsza od pozostałych.

5.5 Analiza wpływu oceny produktu i płci na wysokość wydatków - dwuskładnikowa analiza ANOVA

Celem analizy jest ocena wpływu dwóch zmiennych: Rating (ocena produktu) oraz Gender (płeć klienta) na wysokość wydatków (Amount). W tym celu zastosowano analizę wariancji ANOVA z uwzględnieniem interakcji między zmiennymi, co pozwala nie tylko ocenić ich indywidualny wpływ, ale również sprawdzić, czy efekt jednej zmiennej zależy od poziomu drugiej.

Wyniki analizy wariancji dla zmiennej Amount
Efekt Df Suma kwadratów Średni kwadrat Statystyka F p-value
Rating 1 4611.546 4611.546 8.323 0.004
Gender 1 1884.062 1884.062 3.400 0.065
Rating:Gender 1 564.316 564.316 1.018 0.313
Residuals 3896 2158708.072 554.083 NA NA

Wyniki analizy wariancji wskazują, że zmienna Rating ma istotny wpływ na wysokość wydatków. Oznacza to, że ocena produktu wiąże się ze statystycznie istotnymi różnicami w kwocie wydatków, czyli klienci mogą wydawać więcej na produkty, które oceniają wyżej, lub odwrotnie, wyższe wydatki mogą być związane z wyższymi oczekiwaniami i ocenami.

Zmienna Gender nie wykazuje istotnego wpływu na wydatki. Oznacza to, że średnie wydatki nie różnią się istotnie pomiędzy kobietami a mężczyznami w badanej próbie.

Interakcja Rating × Gender również nie jest istotna statystycznie. Wskazuje to, że wpływ oceny produktu na wydatki nie zależy od płci klienta.

5.6 Analiza zależność między płcią a kategorią zakupionych przedmiotów?

W tej części analizy sprawdzono, czy istnieje zależność między zmienną Gender (płeć) a wyborem kategorii zakupionych produktów (Category). Wykorzystano wykres słupkowy z podziałem procentowym oraz test chi-kwadrat Pearsona, aby ocenić, czy rozkład wyborów produktowych różni się istotnie pomiędzy kobietami a mężczyznami. Dodatkowo obliczono wartość V Cramera jako miarę siły zależności oraz p‑value dla każdej kategorii osobno.

W każdej z czterech kategorii dominują mężczyźni, stanowiąc około 67–69% kupujących, podczas gdy kobiety odpowiadają za 31–33% transakcji. Rozkład ten jest bardzo podobny we wszystkich kategoriach, co sugeruje brak wyraźnych różnic w preferencjach produktowych między płciami.

Wartość testu chi-kwadrat Pearsona oznacza to, że nie ma statystycznie istotnej zależności między płcią a wyborem kategorii produktu. Wartość współczynnika Cramera oraz przedział ufności wskazują na całkowity brak efektu.

5.7 Analiza wpływu oceny produktu, płci i wieku na kwotę zakupu z wykorzystaniem ANCOVA

Analiza kowariancji ANCOVA została przeprowadzona w celu zbadania wpływu zmiennej Rating (oceny produktu) na zmienną zależną Amount (wartości zakupu), przy jednoczesnym kontrolowaniu potencjalnego wpływu zmiennych Gender (płeć) oraz Age (wiek). Dodatkowo uwzględniono interakcję między zmiennymi Rating i Gender, aby sprawdzić, czy wpływ oceny produktu na wartość zakupu różni się w zależności od płci.

Wyniki analizy ANCOVA
Efekt Df Suma kwadratów Średni kwadrat Statystyka F p-value
Rating 1 4611.546 4611.546 8.321 0.004
Gender 1 1884.062 1884.062 3.400 0.065
Age 1 160.942 160.942 0.290 0.590
Rating:Gender 1 561.772 561.772 1.014 0.314
Residuals 3895 2158549.674 554.185 NA NA

Wyniki analizy ANCOVA wskazują, że jedyną zmienną mającą istotny statystycznie wpływ na kwotę zakupu jest ocena produktu (F = 5,668; p = 0,017), co oznacza, że poziom oceny wiąże się ze zmianami wartości kwoty po kontrolowaniu pozostałych zmiennych w modelu. Natomiast płeć (F =0,509; p = 0,475) oraz wiek (F = 0,048; p = 0,826) nie wykazują istotnego wpływu na kwotę zakupu, co sugeruje brak różnic w tej zmiennej ze względu na płeć oraz brak istotnego związku z wiekiem. Dodatkowo nie stwierdzono istotnej interakcji pomiędzy oceną produktu a płcią (F = 1,027; p = 0,311), co oznacza, że wpływ oceny produktu na kwotę zakupu jest podobny niezależnie od płci.

Podsumowując, w analizowanym modelu kwota zakupu jest istotnie związana wyłącznie z poziomem oceny produktu, natomiast płeć, wiek oraz interakcja oceny produktu z płcią nie mają istotnego znaczenia statystycznego.

6 Podsumowanie i wnioski końcowe

Projekt analityczny przeprowadzony na zbiorze danych konsumenckich dostarczył kompleksowego wglądu w zachowania zakupowe klientów w zależności od takich zmiennych jak wiek, płeć, ocena produktu, sezon zakupowy oraz preferencje płatnicze. Wykorzystano szereg metod statystycznych — od testów korelacji, przez analizę wariancji ANOVA, po testy chi-kwadrat i miary siły efektu, co pozwoliło na wielowymiarową ocenę zależności między zmiennymi.

Najważniejsze obserwacje:

  • Wybór kategorii produktów nie był istotnie zależny od płci ani wieku w ujęciu ogólnym, choć niektóre kategorie wykazywały lokalne różnice demograficzne.
  • Ogólny test nie wykazał istotnej zależności między wiekiem a wyborem metody płatności, jednak szczegółowa analiza ujawniła, że młodsze osoby preferują nowoczesne formy płatności (PayPal, Venmo), podczas gdy starsze grupy częściej korzystają z bardziej tradycyjnych rozwiązań.
  • Średnie wydatki w różnych kategoriach produktów (Accessories, Clothing, Footwear, Outerwear) były bardzo zbliżone. Zarówno analiza klasyczna (Welch’s ANOVA), jak i bayesowska wykazały brak istotnych różnic między grupami.
  • Ocena produktu miała istotny wpływ na wysokość wydatków, natomiast płeć klienta oraz interakcja między oceną a płcią nie wykazały istotnych efektów.
  • Sezon zakupowy nie miał istotnego wpływu na wysokość wydatków w poszczególnych kategoriach, co sugeruje stabilność zachowań zakupowych niezależnie od pory roku.

Analiza wskazuje, że zachowania zakupowe klientów są w dużej mierze stabilne i niezależne od cech demograficznych takich jak płeć czy wiek, z wyjątkiem wybranych aspektów takich jak, oceny produktu oraz preferencji płatniczych. Wyniki te mogą być wykorzystane do optymalizacji strategii marketingowych, personalizacji ofert oraz segmentacji klientów. Szczególnie warto zwrócić uwagę na znaczenie oceny produktu jako czynnika wpływającego na wydatki oraz na rosnącą rolę cyfrowych metod płatności w młodszych grupach wiekowych.