Raport – Analiza danych Superstore

1. Wprowadzenie

Celem niniejszego projektu jest analiza zbioru danych “Superstore”, zawierającego informacje o transakcjach detalicznych w sieci sklepów. Zbiór obejmuje dane o sprzedaży, zyskach, kategoriach produktów oraz lokalizacji klientów na terenie USA.

Główne pytania badawcze:

Jaki wpływ mają rabaty na zysk - czy większy rabat zawsze zwiększa sprzedaż kosztem rentowności?
Które kategorie i podkategorie produktów generują najwyższą sprzedaż, a które najwyższy zysk?
Czy istnieją regiony o wysokiej sprzedaży, ale niskiej (lub ujemnej) rentowności?
Jak zmieniały się sprzedaż i zysk w czasie - czy występuje sezonowość?
Które produkty lub podkategorie generują straty i jakie czynniki (rabat, region, wysyłka) na to wpływają?

2. Data Cleansing & Data Wrangling

Proces przygotowania danych był wieloetapowy, aby zapewnić najwyższą jakość analizy.

2.1. Ogólny przegląd braków danych

Poniższy wykres przedstawia globalną wizualizację kompletności zbioru danych Superstore. Szary obszar reprezentuje obserwacje z kompletnymi danymi (Present > 98.9%), podczas gdy niewielkie czarne fragmenty wskazują na braki w danych (Missing < 0.1%). Każdy wiersz na wykresie odpowiada pojedynczej zmiennej, a każda kolumna reprezentuje kolejne obserwacje w zbiorze.

Kluczowe obserwacje:

Wysoka kompletność danych: Ponad 98.9% wszystkich wartości w zbiorze jest dostępnych, co świadczy o bardzo dobrej jakości danych źródłowych
Marginalne braki: Braki danych stanowią mniej niż 1% całego zbioru, co jest doskonałym wynikiem dla danych transakcyjnych
Koncentracja braków: Czarne linie widoczne w górnej części wykresu wskazują, że braki koncentrują się w określonych zmiennych (prawdopodobnie Discount, Profit oraz dane adresowe), podczas gdy większość zmiennych jest w pełni kompletna
Losowy rozkład: Braki wydają się być rozłożone losowo wzdłuż obserwacji, co sugeruje brak systematycznego wzorca utraty danych związanego z czasem lub procesem zbierania danych
Gotowość do analizy: Minimalny odsetek braków i ich niesystematyczny charakter potwierdzają, że zbiór nadaje się do dalszej analizy po zastosowaniu odpowiednich technik imputacji

2.2. Rozkład braków według zmiennych

Poniższy wykres słupkowy przedstawia liczbę brakujących wartości (missing values) w każdej zmiennej zbioru danych. Długość słupka odpowiada liczbie obserwacji z brakami. Zmienne są posortowane malejąco według liczby braków, co pozwala na szybką identyfikację najbardziej problematycznych kolumn.

Kluczowe obserwacje:

Profit i Discount - istotne braki finansowe: Zmienne związane z zyskami i rabatami wykazują znaczną liczbę braków, co jest krytyczne dla analizy rentowności i wymaga zaawansowanych technik imputacji
Dane adresowe - równomierne braki: City i State wykazują podobną liczbę braków, co sugeruje, że braki w danych adresowych mogą występować razem w tych samych obserwacjach
Order Date i Ship Date - marginalne braki: Daty mają umiarkowaną liczbę braków, które mogą być imputowane na podstawie logiki biznesowej (mediana czasu dostawy)
Większość zmiennych kompletna: Wiele zmiennych nie ma braków wcale (Sales, Quantity, Category, Sub-Category, Region, Product ID, Order ID, Customer ID), co potwierdza ogólną dobrą jakość danych
Wymiar problemu: Koncentracja braków w kilku kluczowych zmiennych (Postal Code, Profit, Discount, City, State) oznacza, że strategia imputacji powinna być priorytetowo skierowana na te obszary, podczas gdy reszta zbioru pozostaje w pełni użyteczna

2.3. Rozkład braków w obserwacjach

Poniższy wykres pokazuje liczbę brakujących wartości w każdej obserwacji (wierszu) zbioru danych. Oś X reprezentuje liczbę braków w każdym wierszu, a oś Y pokazuje kolejne obserwacje. Długość horyzontalnego paska dla każdej obserwacji odpowiada liczbie brakujących danych w tym wierszu.

Kluczowe obserwacje:

Większość wierszy kompletnych: Zdecydowana większość obserwacji (te na górze wykresu) ma bardzo mało braków - prawie zerową liczbę brakujących wartości, co świadczy o dobrej kompletności danych
Rozrzedzenie braków: Braki są rozproszone po poszczególnych wierszach, a nie skupione w kilku obserwacjach, co oznacza, że żaden wiersz nie jest “całkowicie nieużyteczny”
Maksymalnie około 1-2 braki na wiersz: Nawet wiersze z największą liczbą braków mają poniżej 2 brakujących wartości, co jest bardzo dobrym wynikiem
Brak wzorca systematycznego: Rozłożenie braków wzdłuż osi Y wskazuje, że braki nie są skoncentrowane w określonej części zbioru danych (np. na początku lub końcu)
Łatwa imputacja: Ta struktura braków czyni imputację stosunkowo prostą - większość wierszy będzie można użyć bez jakichkolwiek modyfikacji, a dla tych kilku z brakami wystarczą proste strategie uzupełnienia

2.4. Kombinacje braków danych - Upset Plot

Poniższy diagram “UpSet” pokazuje, które zmienne mają braki jednocześnie, czyli jakie kombinacje braków danych występują razem. Lewy panel (słupki poziome) pokazuje liczebność poszczególnych braków, a górny panel (słupki pionowe) pokazuje, ile obserwacji ma konkretną kombinację braków. Linie łączące słupki wskazują, które zmienne brakują razem.

Kluczowe obserwacje:

Shop Mode NA dominuje: Braki w zmiennej Shop Mode (dostaw) są najczęstsze i najczęściej pojawią się samodzielnie (bez innych braków)
Quantity NA - druga na liście: Ilość produktów ma drugą co do liczby braków, również głównie niezależnie od innych zmiennych
Profit NA - trzeci: Braki w zysku pojawiają się na trzecim miejscu i również często bez towarzystwa innych braków
Sub-Category i Discount - rzadsze braki: Te zmienne mają mniej braków niż poprzednie
Niska współzależność braków: Brak wyraźnych pionowych linii łączących oznacza, że braki raczej nie kumulują się - czyli jeśli brakuje wartości w Shop Mode, to nie znaczy że będą braki w Quantity czy Profit
Imputacja niezależna: Taka struktura braków sugeruje, że każdą zmienną można imputować niezależnie, bez konieczności rozpatrywania złożonych zależności między brakami

2.5. Wzory braków danych - Pattern Matrix

Poniższy diagram “md.pattern” przedstawia macierz wzorów braków danych. Każdy wiersz reprezentuje inny wzór braków (kombinację kompletnych i brakujących wartości), a każda kolumna reprezentuje zmienną. Niebieskie kwadraty oznaczają dane dostępne (present), a różowe/czerwone oznaczają braki. Liczby po lewej stronie pokazują, ile obserwacji ma dany wzór braków, a liczby na dole pokazują łączną liczbę braków w każdej zmiennej.

Kluczowe obserwacje:

Dominacja kompletnych obserwacji: Pierwszy wiersz (9933 obserwacji) reprezentuje dane całkowicie kompletne - prawie wszystkie wiersze należą do tej grupy
Minimalna liczba wzorów braków: Tylko kilka alternatywnych wzorów braków pojawia się w zbiorze, co oznacza niesystematyczne braki - nie ma jednego dominującego wzoru
Rzadkie kumulacje braków: Żaden wzór braku nie ma więcej niż kilka obserwacji, co potwierdza, że braki są rozrzedzane po zbiorze
Braki w różnych zmiennych: Różowe pola pojawiają się w różnych kolumnach dla różnych wierszy, wskazując, że braki nie kumulują się w tych samych obserwacjach
Łatwa interpretacja: Dolna linia pokazuje, że niektóre zmienne (te po prawej) mają braki, podczas gdy inne (po lewej) są całkowicie kompletne
Skuteczność imputacji: Ta struktura sugeruje, że imputacja będzie prosta - większość danych można wykorzystać bez zmian, a dla kilku wierszy z brakami wystarczy zastosować odpowiednie strategie uzupełnienia

2.6. Mechanizm braków danych - Wnioski z analizy

Na podstawie kompleksowej analizy wszystkich powyższych wykresów możemy stwierdzić, że braki danych w zbiorze Superstore mają charakter MCAR (Missing Completely At Random). Dowodami na to są:

Ze wzoru vis_miss (2.1): - Braki rozproszone losowo po całej matrycy bez skupień czy wzorów - Brak systematycznego trendu braków na osi czasowej/wierszy
Ze wzoru gg_miss_var (2.2): - Różne zmienne mają różne liczby braków (Discount, Profit, City, State) - nie ma jednego źródła problemu - Braki są niezależne dla każdej zmiennej
Ze wzoru gg_miss_case (2.3): - Maksymalnie 1-2 braki na obserwację (żaden wiersz nie ma wielu braków jednocześnie) - Braki nie kumulują się w tych samych obserwacjach - Rozpylenie braków wskazuje na niezależność mechanizmu
Ze wzoru gg_miss_upset (2.4): - Dominujące są pojedyncze braki w zmiennych, a nie kombinacje - Brak wyraźnych “łańcuszków” braków (braki jednej zmiennej nie powodują braków w innej) - Niska współzależność między brakami potwierdza ich niezależność
Ze wzoru md.pattern (2.5): - 9933 obserwacji w pełni kompletnych vs zaledwie kilka alternatywnych wzorów - Każdy alternatywny wzór braku pojawia się zaledwie kilka razy - Wzory są różnorodne, co wskazuje na losowość
Konsekwencje dla imputacji: MCAR to najkorzystniejszy typ mechanizmu braków, ponieważ: - Braki są całkowicie niezależne od danych i wartości zmiennych - Możemy bezpiecznie stosować zaawansowane metody imputacji (MICE, hot-deck, PMM) - Wyniki analiz nie będą obciążone odchyleniami wynikającymi z selektywnych braków - Nie ma potrzeby stosowania zawiłych procedur wagowania czy korekcji błędu systematycznego

2.7. Podsumowanie metod imputacji braków danych

Imputacja danych numerycznych: Zastosowano zaawansowany algorytm MICE (Multivariate Imputation by Chained Equations) z metodą PMM (Predictive Mean Matching). Pozwala to na uzupełnienie braków w oparciu o korelacje z innymi zmiennymi, co jest bardziej precyzyjne niż użycie średniej.
Hot-deck Imputation: Dla zmiennych kategorycznych (np. Ship Mode) użyto metody hot-deck, losując wartości z istniejącego rozkładu wewnątrz grup (Region/Segment).
Braki w nazwach miast i stanów uzupełniono na podstawie kodów pocztowych (Postal Code), wykorzystując relacje przestrzenne w danych.
Brakujące daty wysyłki wyliczono na podstawie mediany czasu dostawy dla danego trybu wysyłki i regionu.

3. Wizualicje danych

3.1. PYTANIE BADAWCZE 1: Jaki wpływ mają rabaty na zysk?

Macierz korelacji zmiennych kluczowych

Poniższa macierz korelacji prezentuje związki statystyczne między czterema kluczowymi zmiennymi biznesowymi: Discount (rabat), Quantity (ilość), Sales (sprzedaż) i Profit (zysk). Wartości w komórkach pokazują siłę i kierunek korelacji (od -1 do +1), gdzie wartości bliskie -1 oznaczają silną korelację ujemną, wartości bliskie +1 silną korelację dodatnią, a wartości bliskie 0 brak związku. Gwiazdki (, , ) oznaczają istotność statystyczną korelacji. Analiza ta jest kluczowa dla wszystkich pytań badawczych, szczególnie #1: “Jaki wpływ mają rabaty na zysk?”

Kluczowe obserwacje:

Rabat niszczy zysk: Discount ma silną ujemną korelację z Profit (-0.22), co oznacza, że wyższe rabaty są silnie powiązane z niższym zyskiem – to potwierdza problem z polityką rabatową
Sprzedaż nie równa się zysk: Sales ma umiarkowaną pozytywną korelację z Profit (0.48), co jest wartością niższą niż można by oczekiwać – wskazuje to, że sama wysokość sprzedaży nie gwarantuje proporcjonalnego zysku
Ilość nie kompensuje rabatów: Quantity ma bardzo słabą korelację z Profit (0.07*), co sugeruje, że zwiększenie ilości sprzedanych produktów nie jest efektywną strategią kompensacji rabatów
Rabaty nie zwiększają znacząco sprzedaży: Discount ma słabą ujemną korelację z Sales (-0.03), co jest zaskakujące – głębsze rabaty nie prowadzą do znaczącego wzrostu wartości sprzedaży
Paradoks rabatowy: Brak silnej pozytywnej korelacji między rabatem a sprzedażą przy jednoczesnej silnej ujemnej korelacji z zyskiem sugeruje, że obecna polityka rabatowa jest nieefektywna – firma traci zysk bez znaczącego zwiększenia przychodów

Wpływ rabatów na rentowność: analiza wielowymiarowa

Poniższe cztery wizualizacje przedstawiają kompleksową analizę wpływu rabatów na kluczowe metryki biznesowe: marżę zysku, liczbę zamówień, udział w całkowitym zysku oraz średnią wartość zakupu. Transakcje zostały pogrupowane w sześć kategorii według wysokości rabatu, co pozwala na precyzyjne zidentyfikowanie punktu krytycznego, w którym rabaty przestają być opłacalne. Analiza ta bezpośrednio odpowiada na pytanie badawcze #1: “Jaki wpływ mają rabaty na zysk – czy większy rabat zawsze zwiększa sprzedaż kosztem rentowności?”

Średnia marża zysku według poziomu rabatu

Poniższy wykres słupkowy przedstawia średnią marżę zysku (w procentach) dla każdej grupy rabatowej. Kolor słupka sygnalizuje rentowność: zielony oznacza zysk, czerwony stratę. Ta wizualizacja jasno pokazuje punkt krytyczny, w którym rabaty przekształcają się z narzędzia marketingowego w źródło strat finansowych.

Kluczowe obserwacje:

Próg opłacalności: Wyraźna granica rentowności znajduje się między 11-20% a 21-30% rabatem – pierwsze dwie grupy generują zysk (33.7% i 17.5% marży), podczas gdy wszystkie kolejne są w strefie strat
Dramatyczny spadek: Marża spada z +17.5% (11-20%) do -11.5% (21-30%), co oznacza spadek o prawie 30 punktów procentowych przy zwiększeniu rabatu o zaledwie ~10%, wskazując na nieliniowy wpływ rabatów
Katastrofa ekstremalnych rabatów: Grupa rabatów >50% wykazuje marżę -114%, co oznacza, że firma traci więcej niż cała wartość sprzedaży – każda taka transakcja jest dramatycznie nierentowna
Bezpieczna strefa: Transakcje z rabatem 0-10% mają najbardziej zdrową marżę 33.7%, co sugeruje, że firma ma solidne podstawy marżowe, które są niszczone przez agresywną politykę rabatową

Liczba zamówień według poziomu rabatu

Poniższy wykres liniowy pokazuje rozkład liczby zamówień w poszczególnych grupach rabatowych. Kształt krzywej ujawnia faktyczną strategię rabatową firmy i pozwala ocenić, czy rabaty są stosowane strategicznie czy chaotycznie.

Kluczowe obserwacje:

Dominacja niskich rabatów: Grupy 0-10% (~4900 zamówień) i 11-20% (~3700 zamówień) stanowią łącznie około 86% wszystkich transakcji, co jest pozytywnym sygnałem - większość klientów kupuje przy niskiej lub zerowej obniżce
Przepaść po 20%: Dramatyczny spadek do ~250 zamówień w grupach 21-30% i 31-40% wskazuje, że firma rzadko stosuje średnie rabaty - to sugeruje brak elastycznej polityki cenowej i negocjacji
Anomalia ekstremalnych rabatów: Niespodziewany wzrost do ~900 zamówień w grupie >50% jest niepokojący - tak głębokie rabaty (które generują -114% marży) nie powinny występować tak często, chyba że są to akcje likwidacji zapasów
Strategia binarna: Rozkład pokazuje podejście “wszystko albo nic” - albo pełna/prawie pełna cena (~4900), albo standardowa promocja 20% (~3700), albo ekstremalna wyprzedaż (~900), bez płynnych przejść
Problem kontroli: Fakt, że 900 transakcji odbyło się z rabatami >50% (każda generująca ogromną stratę) wskazuje na brak procedur autoryzacji głębokich rabatów lub celowe akcje, które wymagają szczegółowej analizy uzasadnienia biznesowego

Udział w całkowitym zysku według poziomu rabatu

Poniższy wykres liniowy przedstawia średnią wartość transakcji (w dolarach) dla każdej grupy rabatowej. Szara linia przerywana oznacza średnią globalną (~$230). Ta wizualizacja odpowiada na kluczowe pytanie: czy głębsze rabaty rzeczywiście zwiększają wartość koszyka zakupowego, jak zakładają klasyczne teorie rabatowe?

Kluczowe obserwacje:

Paradoks niskich rabatów: Grupy 0-10% i 11-20% mają wartości zakupu ($230 i $220) blisko średniej globalnej, co jest nieoczekiwane - brak rabatu nie zniechęca klientów do kupowania produktów o standardowej wartości
Wzrost dla średnich rabatów: Grupy 21-30% ($460), 31-40% ($565) i 41-50% ($850) pokazują wyraźny wzrost wartości zakupu wraz z rabatem, co sugeruje, że głębsze rabaty są stosowane przy droższych produktach lub większych zamówieniach
Dramatyczny spadek przy >50%: Grupa ekstremalnych rabatów ma NAJNIŻSZĄ średnią wartość zakupu (~$75), co jest 3x niższe niż średnia - to wskazuje, że >50% rabatów są stosowane głównie przy tanich produktach lub produktach trudnych do sprzedaży
Brak strategii “większy zakup = większy rabat”: Fakt, że najwyższe rabaty (>50%) idą w parze z najniższymi wartościami koszyka (~$75) jest całkowicie odwrotny do zdrowej strategii rabatowej, gdzie głębokie rabaty powinny nagradzać duże zamówienia
Niszczenie wartości przy niskiej sprzedaży: Kombinacja -114% marży (z pierwszego wykresu) i $75 średniej sprzedaży w grupie >50% oznacza, że firma daje ogromne rabaty na produkty o niskiej wartości, co jest podwójnie destrukcyjne - niska wartość transakcji + ogromna strata na każdej transakcji

Wpływ rabatów na marże według regionów

Kluczowe obserwacje:

Strata na każdej sztuce: Region Centralny (rabat 24%) = marża ujemna (-10%). Agresywne cięcie cen prowadzi do sprzedaży poniżej granicy opłacalności. Rabat nie przyciąga wystarczającej liczby klientów, by zrekompensować utraconą marżę.
Strefa bezpiecznego rabatu: Regiony East i South (rabat ~14–15%) = marża 16–17%.Umiarkowane rabaty utrzymują konkurencyjność bez rujnowania rentowności. To optymalny przedział dla zachowania zdrowego balansu między zachętą a zyskiem.
Optimum niskiego rabatu: Region West (rabat 11%) = marża 22% Najmniejsze rabaty przekładają się na najwyższą marżę i największy łączny zysk. Klienci w tym regionie są lojalni wobec marki, a nie ceny.
Mit „więcej rabatu = więcej klientów”: Centralny ma wysoki rabat, ale niski wolumen sprzedaży. Mimo najwyższych opustów liczba zamówień jest tam niższa niż w regionach z niższymi rabatami. To dowód, że głębokie promocje przyciągają niewłaściwy segment lub nie budują lojalności.
Rabat bez wzrostu wolumenu = podwójna strata: Centralny łączy niską średnią sprzedaż z ujemną marżą.Firma traci na każdej transakcji, a jednocześnie nie osiąga wzrostu wartości koszyka ani liczby zamówień. To najgorszy możliwy scenariusz cenowy.

3.2. PYTANIE BADAWCZE 2: Które kategorie i podkategorie produktów generują najwyższą sprzedaż, a które najwyższy zysk?

Analiza rentowności kategorii: wykres bąbelkowy

Poniższy wykres bąbelkowy przedstawia trzywymiarową analizę kategorii produktów, gdzie oś X reprezentuje liczbę zamówień, oś Y średni zysk na transakcję, a rozmiar bąbelka odpowiada łącznej sumie sprzedaży. Ta wielowymiarowa wizualizacja pozwala jednocześnie ocenić wolumen sprzedaży, rentowność oraz skalę przychodów każdej kategorii. Analiza bezpośrednio odpowiada na pytanie badawcze #2: “Które kategorie produktów generują najwyższą sprzedaż, a które najwyższy zysk?”

Kluczowe obserwacje:
Technology - gwiazdor portfela: Kategoria Technology (największy niebieski bąbelek) dominuje we wszystkich trzech wymiarach - ma najwyższą liczbę zamówień (~6000), najwyższy średni zysk (~$80) i największą sumę sprzedaży, co czyni ją najbardziej wartościową kategorią w portfolio
Office Supplies - masa krytyczna: Artykuły biurowe (średni pomarańczowy bąbelek) mają umiarkowaną liczbę zamówień (~5500), ale niski średni zysk (~$20), co wskazuje na problem z marżami pomimo znaczącego wolumenu sprzedaży
Furniture - problem rentowności: Meble (mały zielony bąbelek) mają najmniejszą liczbę zamówień (~2000) i najniższy średni zysk (~$8), co sugeruje, że ta kategoria jest najmniej efektywna zarówno pod względem wolumenu jak i rentowności
Paradoks skali: Mimo że Office Supplies ma prawie tyle samo zamówień co Technology, jej średni zysk jest 4x niższy, co wskazuje na znaczące różnice w marżowości między kategoriami
Strategia różnicowania: Wyraźne rozdzielenie kategorii na wykresie sugeruje potrzebę różnych strategii dla każdej z nich: maksymalizacja skali dla Technology, poprawa marż dla Office Supplies, i reewaluacja oferty dla Furniture

Top 5 podkategorii: sprzedaż vs rentowność

Poniższe dwa wykresy słupkowe przedstawiają top 5 podkategorii produktów pod względem sprzedaży (lewy panel) oraz top 5 podkategorii według zysku (prawy panel). To zestawienie ujawnia kluczową różnicę między wielkością sprzedaży a faktyczną rentownością - produkty generujące najwyższe przychody nie zawsze są najbardziej opłacalne. Analiza odpowiada na pytanie badawcze #2: “Które kategorie i podkategorie produktów generują najwyższą sprzedaż, a które najwyższy zysk?”

Kluczowe obserwacje:

Phones - podwójny lider: Telefony pojawiają się w obu top 5 (2. miejsce w sprzedaży, 2. w zysku), co czyni je najbardziej zrównoważoną podkategorią - wysoka sprzedaż przekłada się na wysoki zysk, co wskazuje na dobrą marżowość
Chairs - wysoka sprzedaż, brak rentowności: Krzesła są liderem sprzedaży (~$330k), ale nie pojawiają się w top 5 zysków, co sugeruje bardzo niską marżę lub nawet straty na tej podkategorii pomimo ogromnego wolumenu - to czerwona flaga wymagająca analizy kosztów i rabatów
Copiers - król rentowności: Kopiarki generują najwyższy zysk (~$55k) mimo że nie są w top 5 sprzedaży, co wskazuje na wyjątkowo wysoką marżę - to strategiczna podkategoria, która zasługuje na większy nacisk sprzedażowy
Binders - paradoks marży: Segregatory są zarówno w top 5 sprzedaży (5. miejsce ~$200k) jak i top 5 zysku (5. miejsce ~$30k), ale stosunek zysku do sprzedaży jest niski (~15%), co wskazuje na produkt o wysokim wolumeniu ale niskiej marży
Różne strategie produktowe: Fakt, że tylko 2 z 5 top produktów sprzedażowych pojawiają się w top 5 zysków (Phones i Binders) oznacza, że firma sprzedaje głównie produkty o niskiej marży, podczas gdy najbardziej rentowne produkty (Copiers, Accessories, Paper) mają słabszą penetrację sprzedażową - potrzebna jest reorganizacja portfolio produktowego z naciskiem na cross-selling rentownych produktów

3.3. PYTANIE BADAWCZE 3: Czy istnieją regiony o wysokiej sprzedaży, ale niskiej rentowności?

Top 10 stanów według zysku

Poniższy wykres przedstawia dziesięć stanów USA generujących najwyższy łączny zysk w analizowanym okresie. Analiza geograficzna rentowności jest kluczowa dla odpowiedzi na pytanie badawcze #3: “Czy istnieją regiony o wysokiej sprzedaży, ale niskiej (lub ujemnej) rentowności?” oraz umożliwia identyfikację najważniejszych rynków dla firmy.

Kluczowe obserwacje:

Dominacja Kalifornii i Nowego Jorku: Dwa stany generują łącznie ~150k$ zysku, co stanowi znaczną część całkowitego zysku firmy, wskazując na kluczowe znaczenie rynków wschodniego i zachodniego wybrzeża
Koncentracja geograficzna: Większość najbardziej rentownych stanów to duże centra metropolitalne (Kalifornia, Nowy Jork, Waszyngton, Michigan), co sugeruje korelację między urbanizacją a rentownością
Duże różnice wewnętrzne: Różnica między najlepszym stanem (~78k$) a dziesiątym (~10k$) jest prawie ośmiokrotna, co wskazuje na bardzo nierównomierny rozkład zysków geograficznych
Obecność stanów południowych: Indiana, Virginia i Georgia reprezentują region południowy, pokazując jego rosnące znaczenie ekonomiczne
Potencjał konsolidacji: Silna koncentracja zysków w kilku stanach może sugerować możliwość optymalizacji operacji poprzez skupienie zasobów na najbardziej rentownych rynkach

Analiza regionalna: sprzedaż vs rentowność

Poniższe dwa wykresy przedstawiają kompleksową analizę rentowności czterech regionów geograficznych USA. Pierwszy wykres (scatter plot) pokazuje relację między wielkością sprzedaży a marżą zyskowności, gdzie rozmiar bąbelka reprezentuje wartość bezwzględną zysku. Drugi wykres (słupkowy) prezentuje bezpośrednie porównanie marży w poszczególnych regionach. Analiza odpowiada na pytanie badawcze 3: “Czy istnieją regiony o wysokiej sprzedaży, ale niskiej (lub ujemnej) rentowności?”

Regiony: relacja sprzedaży i marży

Poniższy wykres typu scatter (punktowy z bąbelkami) prezentuje jednoczesną wizualizację trzech wymiarów: wielkości sprzedaży (oś X), marży zysku (oś Y) oraz wartości bezwzględnej zysku (rozmiar bąbelka). Kolor bąbelka sygnalizuje stan rentowności: zielony (marża ≥15%), pomarańczowy (marża 10-15%), czerwony (marża <10%).

Kluczowe obserwacje:

East - lider pod każdym względem: Region East ma najwyższą sprzedaż (~$680k), najwyższy zysk (największy bąbelek) i bardzo dobrą marżę (~17%), co czyni go gwiazdą portfolio - wszystkie metryki są optymalne
West - wysoka skala, niska marża: Region West generuje drugą co do wielkości sprzedaż (~$720k) ale ma znacznie niższą marżę (~22%) niż East, mimo największego bąbelka (największy zysk w wartościach bezwzględnych) - to pokazuje, że skala kompensuje słabszą efektywność
Central - katastrofa biznesowa: Region Central (czerwony bąbelek) ma UJEMNĄ marżę (~-10%), co oznacza, że każdy dolar sprzedaży generuje stratę - mimo sprzedaży ~$500k, firma traci pieniądze w tym regionie, co wymaga natychmiastowej interwencji
South - pułapka niskiej marży: Region South ma niską sprzedaż (~$390k) i marginalną marżę (~16%), co plasuje go w strefie pomarańczowej - to region bez wyraźnego profilu strategicznego
Paradoks wielkości: Wykres jasno pokazuje, że wielkość sprzedaży NIE gwarantuje rentowności - West ma większą sprzedaż niż East ale niższą marżę, a Central mimo znaczącej sprzedaży (~$500k) generuje wyłącznie straty

Porównanie marży według regionów

Poniższy wykres słupkowy przedstawia bezpośrednie porównanie marży zysku w czterech regionach. Dwie linie przerywane oznaczają progi: zielona (15% - marża bardzo dobra), pomarańczowa (10% - marża akceptowalna). Kolory słupków odpowiadają tym samym kryteriom co na poprzednim wykresie.

Kluczowe obserwacje:

West - niespodzianka lidera: Region West ma najwyższą marżę (22%), mimo że na poprzednim wykresie wydawał się mniej efektywny niż East - to pokazuje, że wysoka sprzedaż West rzeczywiście przekłada się na bardzo dobrą rentowność procentową
East i South - powyżej progu: Regiony East (16.7%) i South (16.3%) są powyżej zielonej linii (15%), co oznacza bardzo dobrą rentowność - to stabilne, zdrowe regiony
Central - dramatyczna strata: Region Central (-10.4%) jest jedynym czerwonym słupkiem, znajdującym się głęboko poniżej zera - to nie tylko brak zysku, ale aktywna destrukcja wartości firmy
Dysproporcja 3:1: Trzy regiony mają marżę 16-22%, podczas gdy jeden ma -10% - to wskazuje, że problem nie jest systemowy ale specyficzny dla Central i prawdopodobnie ma konkretne przyczyny do zidentyfikowania
Priorytet strategiczny: Fakt, że Central stanowi ~20% sprzedaży firmy (z poprzedniego wykresu ~$500k z ~$2500k total) ale generuje same straty oznacza, że eliminacja problemów w tym regionie może zwiększyć całkowity zysk firmy o dziesiątki procent - to najważniejszy priorytet operacyjny

3.4. PYTANIE BADAWCZE 4: Jak zmieniały się sprzedaż i zysk w czasie – czy występuje sezonowość?

Sprzedaż w czasie według kategorii produktów

Poniższy wykres obszarowy (stacked area chart) prezentuje dynamikę sprzedaży w podziale na kategorie produktów na przestrzeni całego analizowanego okresu (2014-2017). Format stackowany pozwala jednocześnie obserwować zarówno całkowitą sprzedaż (wysokość całego stosu), jak i udział poszczególnych kategorii w każdym okresie. Analiza ta uzupełnia odpowiedź na pytanie badawcze #4: “Jak zmieniały się sprzedaż i zysk w czasie – czy występuje sezonowość?”

Kluczowe obserwacje:

Wyraźna sezonowość: Widoczne są regularne peaki sprzedaży w czwartym kwartale każdego roku (listopad-grudzień), prawdopodobnie związane z sezonem zakupów świątecznych i promocjami Black Friday/Cyber Monday
Proporcje kategorii stabilne: Pomimo zmian w całkowitej sprzedaży, proporcje między kategoriami pozostają względnie stałe w czasie – Technology dominuje w każdym okresie
Wzrost całkowitej sprzedaży: Trend wzrostowy jest widoczny szczególnie w latach 2016-2017, gdzie peaki sezonowe osiągają wyższe wartości niż w latach poprzednich
Spadki po sezonie: Regularne spadki sprzedaży na początku każdego roku (styczeń-luty) wskazują na cykliczny charakter biznesu i możliwość lepszego planowania zapasów i kampanii marketingowych
Technology motor wzrostu: Kategoria Technology nie tylko ma największy udział, ale również wykazuje najsilniejszy wzrost w okresach szczytowych, co potwierdza jej kluczową rolę w strategii firmy

Wydajność dni tygodnia: analiza wielowymiarowa

Poniższa mapa cieplna (heatmap) przedstawia znormalizowaną wydajność poszczególnych dni tygodnia w trzech kluczowych metrykach biznesowych: liczbie zamówień, średniej wartości zamówienia oraz średnim zysku. Zastosowanie normalizacji (skala 0-1) i gradientu kolorystycznego (żółty = najniższa wartość w danej metryce, czerwony = najwyższa) pozwala na szybką identyfikację najlepszych i najgorszych dni dla różnych wskaźników. Analiza ta jest kluczowa dla optymalizacji operacji i kampanii marketingowych.

Kluczowe obserwacje:

Paradoks środy: Środa ma NAJNIŻSZĄ liczbę zamówień (371 - żółta komórka), ale jednocześnie NAJWYŻSZY średni zysk ($40 - czerwona komórka), co wskazuje na znacznie wyższą jakość/rentowność transakcji w tym dniu pomimo niskiego wolumenu
Poniedziałek - król wolumenu: Poniedziałek generuje najwyższą liczbę zamówień (1871 - czerwona komórka), ale ma relatywnie niski średni zysk ($28), co sugeruje, że dni o wysokim wolumenie nie przekładają się automatycznie na wysoką rentowność
Wtorek - najwyższa wartość koszyka: Wtorek wyróżnia się najwyższą średnią wartością zamówienia ($260 - czerwona komórka) i dobrym średnim zyskiem ($32), co czyni go jednym z najbardziej wartościowych dni
Sobota - najsłabszy dzień: Sobota ma najniższą średnią wartość zamówienia ($216) i najniższy średni zysk ($25 - żółte komórki), co wskazuje na ten dzień jako priorytet do optymalizacji lub specjalnych kampanii
Optymalny mix: Idealne dni to wtorek i niedziela - łączą umiarkowanie wysoką liczbę zamówień z wysoką wartością koszyka i dobrym zyskiem, podczas gdy środa oferuje najwyższą rentowność przy niskim wolumenie (potencjał premium/B2B)

Analiza sezonowości sprzedaży i zysku

Poniższy heatmap przedstawia równoczesne porównanie indeksów sezonowości dla sprzedaży i zysku w układzie miesięcznym. Indeks sezonowości (gdzie 100 = średnia roczna) pozwala zidentyfikować miesiące o wyjątkowo wysokiej lub niskiej aktywności biznesowej. Kolory czerwono-żółto-zielone wizualizują intensywność: czerwony = wartości najniższe, zielony = najwyższe. Analiza odpowiada na pytanie badawcze 4: “Czy istnieje wyraźna sezonowość w sprzedaży – które miesiące są najbardziej i najmniej rentowne?”

Kluczowe obserwacje:

Q4 - absolutni królowie zysku: Wrzesień (184), grudzień (182) i listopad (170) to trzy najbardziej rentowne miesiące roku, mimo że sprzedaż jest tylko umiarkowana (81, 89, 80) - wrzesień generuje 84% więcej zysku niż średnia przy 19% niższej sprzedaży, co oznacza ekstremalnie wysoką marżę
Maj-czerwiec - równowaga sprzedaży i zysku: Miesiące maj (sprzedaż 107, zysk 161) i czerwiec (sprzedaż 120, zysk 155) są jedynymi, które łączą wysoką sprzedaż z wysokim zyskiem - czerwiec ma najwyższą sprzedaż w roku, podczas gdy maj osiąga lepszą efektywność (61% zysku przy 7% sprzedaży)
-Q1 - martwy sezon ze zdrową marżą: Styczeń-kwiecień (sprzedaż: 50, 38, 31, 43) są najsłabszymi miesiącami sprzedażowymi, ale zyski (77, 58, 83, 91) spadają wolniej niż sprzedaż - marzec ma 69% niższą sprzedaż ale tylko 17% niższy zysk, co wskazuje na kompensację wyższą marżą
Sierpień - anomalia strat: Sierpień ma katastrofalnie niską sprzedaż (49 - drugi najgorszy) ale zysk znacznie powyżej średniej (133), co daje najwyższy wskaźnik efektywności w roku - prawdopodobnie selektywna sprzedaż tylko najrentowniejszych produktów
Lipiec - efekt wakacji: Lipiec wykazuje drastyczny spadek zarówno sprzedaży (72) jak i zysku (105) po szczycie czerwca (120, 155), co sugeruje, że wakacyjne spowolnienie dotyka zarówno wolumenu jak i marży - potencjalnie efekt rabatów letnich niszczących rentowność

3.5. PYTANIE BADAWCZE 5: Które produkty lub podkategorie generują straty i jakie czynniki na to wpływają?

Produkty ze stratami (straty finansowe według podkategorii)

Poniższy wykres słupkowy pokazuje 10 podkategorii produktów, które wygenerowały największe straty finansowe w ogólnym bilansie zysku/straty w całym okresie analizy (2014-2017). Straty te reprezentują czystą ujemną rentowność dla tych linii produktowych – ponad wartość ich sprzedaży straciła firma na każdym z nich. Ten segment nierentownych produktów jest bezpośrednią konsekwencją polityki rabatowej analizowanej w pytaniu badawczym #1 i wymaga natychmiastowej interwencji strategicznej. Analiza odpowiada na pytanie badawcze #5: “Które produkty lub podkategorie generują straty i jakie czynniki (rabat, region, wysyłka) na to wpływają?”

Kluczowe obserwacje:

Trójka “niszczycieli wartości”: Binders ($-38,537), Tables ($-32,378) i Machines ($-30,095) generują 60% wszystkich strat w portfolio – te trzy podkategorie są pierwsze do analizy przyczyn i zmian strategicznych
Podatność droższych produktów na rabaty: Zaobserwowana tendencja, że droższe i bardziej złożone produkty (tabele, maszyny, biniki) są bardziej wrażliwe na straty, sugeruje, że rabaty są mniej efektywne dla produktów premium
Sektor biurowy rozczarowuje: Produkty biurowe (Binders, Fasteners, Labels, Supplies) dominują listę największych strat - to wskazuje na problem z rentowności w tym segmencie
Duża liczba kategorii w strefie strat: 10 podkategorii ma ujemną rentowność, co oznacza że 25% portfolio (10 z 40 podkategorii wykazuje straty)
Korelacja z polityką rabatów: Krzyżowe analizy z danymi rabatów wykazały że produkty na liście strat otrzymują średnio wyższe rabaty niż produkty rentowne - to silnie sugeruje powiązanie między polityką rabatową a stratami

Porównanie produktów stratnych vs zyskownych - analiza przyczyn

Poniższy wykres porównuje top 3 najbardziej stratne podkategorie z top 3 najbardziej zyskownymi, analizując kluczowe metryki biznesowe: średni rabat, marżę zysku, sprzedaż na zamówienie oraz całkowity zysk/stratę. To bezpośrednie porównanie ujawnia, które czynniki operacyjne różnicują produkty sukcesu od produktów generujących straty, odpowiadając na pytanie badawcze 5 o przyczyny strat.

Analiza dekompozycji strat - wykres kaskadowy (Waterfall)

Poniższy wykres kaskadowy (waterfall chart) przedstawia szczegółową dekompozycję czynników wpływających na straty w top 3 najbardziej problematycznych podkategoriach (Binders: -$38k, Tables: -$32k, Machines: -$30k). Analiza rozpoczyna się od całkowitej sprzedaży i stopniowo odejmuje poszczególne składniki kosztowe (rabaty, koszty wysyłki) oraz inne czynniki, aby pokazać, jak powstaje końcowa strata netto. Ta wizualizacja bezpośrednio odpowiada na część pytania badawczego 5: “jakie czynniki (rabat, region, wysyłka) wpływają na straty”.

Czas dostawy i rentowność według regionów

Poniższy wykres słupkowy przedstawia średni czas dostawy dla każdego z czterech regionów USA, z kodowaniem kolorystycznym reprezentującym średni zysk (gradient od szarego/żółtego = niski zysk, do czerwonego = wysoki zysk). Ta wielowymiarowa wizualizacja pozwala jednocześnie ocenić efektywność logistyczną (wysokość słupka) i rentowność biznesową (kolor słupka) każdego regionu. Analiza odnosi się do pytania badawczego #5: “Które produkty lub podkategorie generują straty i jakie czynniki (rabat, region, wysyłka) na to wpływają?”

Kluczowe obserwacje:

East i West - najlepsza kombinacja: Regiony East i West mają najkrótszy czas dostawy (3.9 dni) ORAZ najwyższy średni zysk (czerwone słupki ~$32), co pokazuje, że szybka dostawa może być konkurencyjną zaletą bez konieczności rezygnacji z rentowności
Central - problem rentowności: Region Central ma najdłuższy średni czas dostawy (4.1 dni) i jednocześnie najniższy średni zysk (szary słupek), co wskazuje na podwójny problem - zarówno logistyczny jak i biznesowy
South - pośrednie wyniki: Region South ma umiarkowany czas dostawy (4.0 dni) i średnią rentowność (pomarańczowy kolor ~$25), pozycjonując się pomiędzy liderami a ostatnim miejscem
Korelacja pozytywna: Wykres pokazuje, że szybsza dostawa (niższe słupki) koreluje z wyższą rentownością (ciemniejszy czerwony), co sugeruje, że efektywność operacyjna przekłada się na wyniki finansowe
Priorytet inwestycyjny Central: Region Central wymaga największej uwagi - zarówno pod kątem optymalizacji procesów logistycznych (redukcja czasu dostawy), jak i analizy przyczyn niskiej rentowności (rabaty, koszty, mieszanka produktowa)

4. Analiza opisowa

Analiza opisowa pozwala zrozumieć podstawowe cechy zbioru danych za pomocą miar statystycznych, takich jak średnia, mediana czy odchylenie standardowe. W tym rozdziale przedstawiono szczegółowe statystyki dla wybranych zmiennych, co stanowi podstawę do dalszej analizy.

Rozkład sprzedaży charakteryzuje się silną asymetrią prawostronną – aż 60% transakcji (ok. 6 tys.) generuje sprzedaż w najniższym przedziale (0-100 USD). W związku z tym, klasyczny podział na równe przedziały byłby nieefektywny. Zastosowanie algorytmu Natural Breaks (Jenks) pozwoliło na optymalne wyznaczenie granic klas, co potwierdza wysoka wartość wskaźnika TAI.

Tabela 1. Rozkład sprzedaży w Superstore (USD)

	x	Freq	Percent	Valid Percent	Cumulative Percent
Valid	0-100	6405	62.0	62.0	62.0
	100-500	2716	26.3	26.3	88.3
	500-1000	716	6.9	6.9	95.2
	1000-5000	475	4.6	4.6	99.8
	5000+	19	0.2	0.2	100.0
	Total	10331	100.0	100.0
Missing	<blank>	0	0.0
	<NA>	0	0.0
	Total	10331	100.0

#>        # classes  Goodness of fit Tabular accuracy 
#>        5.0000000        0.8085402        0.6996815
#> [1] 0.8477638

Analiza statystyczna zmiennych biznesowych**

Zmienne sprzedaż i zysk wykazują silnie zaburzony rozkład, co widać po ogromnej różnicy między średnią a medianą oraz ekstremalnie wysokich wartościach skośności i kurtozy. Oba wskaźniki są zdominowane przez nieliczne, ale bardzo wysokie transakcje, podczas gdy większość operacji ma znacznie niższą wartość. Odchylenie standardowe znacznie przekracza średnią, co potwierdza dużą niejednorodność danych. Rabaty są stosowane relatywnie stabilnie – mediana na poziomie 20% wskazuje, że ta wartość jest typowa, przy czym skala rabatów waha się od 0% do 80%. Ilość sprzedanych produktów w transakcji oscyluje głównie wokół 3–4 sztuk, z maksymalnie 14 sztukami w pojedynczej transakcji. Podsumowując, dane charakteryzują się silną polaryzacją: większość transakcji to małe, typowe zamówienia, podczas gdy niewielki odsetek to bardzo duże, nietypowe operacje, które znacząco wpływają na ogólne statystyki sprzedaży i zysku.

Tabela 1. Charakterystyka statystyczna kluczowych zmiennych
Zmienna	Średnia	Odch. std.	Mediana	Min	Max	Skośność	Kurtoza
Sales	231.79	620.37	55.48	0.44	22638.48	12.79	300.80
Profit	29.02	231.74	8.79	-6599.98	8399.98	7.56	400.96
Discount	0.16	0.21	0.20	0.00	0.80	1.69	2.44
Quantity	3.79	2.23	3.00	1.00	14.00	1.29	2.04

##Analiza efektywności segmentów produktowych Segment Technology generuje najwyższą średnią sprzedaż (481,68) i najwyższy średni zysk (80,86), a także największy łączny zysk (169318,20). Mimo wysokiego odchylenia standardowego zysku (410,40), co wskazuje na duże zróżnicowanie transakcji, mediana zysku na poziomie 27,32 potwierdza, że większość transakcji w tym segmencie jest dochodowa. Jest to jednocześnie segment z najniższym średnim rabatem (0,13).

Segment Office Supplies ma najwięcej transakcji (6505), lecz charakteryzuje się relatywnie niską średnią sprzedażą (118,70) i drugą najniższą medianą zysku (7,15). Mimo to łączny zysk jest wysoki (133526,90) dzięki dużej liczbie transakcji. Odchylenie standardowe zysku (160,86) jest umiarkowane.

Segment Furniture odznacza się średnią sprzedażą na poziomie 336,18, ale najniższym średnim zyskiem (9,72) i najniższą medianą zysku (8,19). Łączny zysk jest wyraźnie niższy niż w pozostałych segmentach (23388,99), pomimo stosunkowo wysokiego średniego rabatu (0,17). Niskie odchylenie standardowe (128,43) sugeruje najmniejsze zróżnicowanie zysków w tym segmencie.

Tabela 2. Porównanie efektywności w segmentach produktowych
		Miary średnie i rozproszenia					Wynik końcowy
Category	Transakcje	Śr. Sprzedaż	Śr. Zysk	Mediana Zysku	Odch. std. Zysku	Śr. Rabat	Łączny Zysk
Furniture	2216	344.89	9.07	7.97	133.34	0.17	20093.76
Office Supplies	6185	119.11	20.42	6.98	163.50	0.16	126281.81
Technology	1930	463.04	79.48	25.21	422.18	0.13	153396.69

##Kluczowe wnioski:

Technology jest najbardziej rentowna, ale zysk jest silnie skoncentrowany w pojedynczych, wysokodochodowych transakcjach.
Office Supplies działa stabilnie we wszystkich regionach, ale z dużym zróżnicowaniem zysków.
Furniture ma problemy w regionie Central, gdzie generuje straty – wymaga pogłębionej analizy przyczyn.
Region West jest najsilniejszy w każdej kategorii pod względem sumy zysku, natomiast Central ma najsłabsze wyniki (straty w Furniture, najniższe zyski w Office Supplies).

Tabela 3. Analiza zysku w podziale na Kategorie i Regiony
Region	N	Średnia	Mediana	Suma Zysku	Skośność
Furniture
Central	498	-6.14	-8.65	-3057.05	1.17
East	632	5.95	8.38	3759.31	-2.64
South	349	20.18	12.14	7041.38	-4.56
West	737	16.76	12.06	12350.11	-1.26
Office Supplies
Central	1468	5.72	5.01	8403.40	5.01
East	1753	24.04	7.26	42146.13	4.67
South	1019	20.40	6.49	20782.96	7.80
West	1945	28.25	9.26	54949.32	9.67
Technology
Central	434	81.26	25.12	35266.79	16.06
East	560	85.89	19.78	48099.72	-0.80
South	303	68.68	26.88	20810.75	-2.77
West	633	77.76	29.03	49219.43	10.30

Wnioski ogólne:

Region West jest najsilniejszy pod względem sumy i mediany zysku we wszystkich kategoriach produktowych. Technology generuje najwyższe średnie zyski, choć są one silnie skoncentrowane w kilku wysokodochodowych transakcjach, zwłaszcza w regionach Central i West. Office Supplies osiąga dodatnie wyniki we wszystkich regionach, jednak z wyraźną prawostronną skośnością, co oznacza, że większość zysków pochodzi z nielicznych, bardzo udanych transakcji. Furniture przynosi zyski we wszystkich regionach oprócz Central, gdzie odnotowuje straty, co wskazuje na konieczność analizy przyczyn negatywnej rentowności w tym obszarze.

Tabela 3. Porównanie rentowności wg regionów
Region	N	Średni Zysk	Mediana	Odch. std.	Suma Zysku
Central	2400	16.92	5.25	287.95	40613.14
East	2945	31.92	8.30	248.94	94005.16
South	1671	29.11	9.10	209.94	48635.09
West	3315	35.15	11.54	173.11	116518.87

Poniższy wykres pokazuje rozkład zysków dla 10 głównych podkategorii, przycięty do zakresu -200$ do +200$. Technology (Accessories, Phones, Copiers, Machines) ma wąskie, skoncentrowane rozkłady – zyski są stabilne. Office Supplies (Binders, Storage) i Furniture (Chairs, Tables, Bookcases) mają szersze rozkłady – większa zmienność zysków, w tym straty (zwłaszcza Tables i Bookcases). Mediana jest dodatnia dla większości podkategorii, ale Furniture ma najwięcej transakcji w okolicach zera lub na minusie. Wniosek: Technology jest stabilna i dochodowa, Furniture – zmienna i mniej rentowna.

Wstępna analiza opisowa danych “Superstore” ujawniła kilka kluczowych spostrzeżeń:

Sprzedaż i zysk: Średnia sprzedaż na transakcję wynosiła około 230 USD, podczas gdy średni zysk to około 28 USD. Jednakże rozkład zysków jest silnie skośny, z wieloma transakcjami generującymi straty.
Kategorie produktów: Elektronika i meble generowały najwyższą sprzedaż, ale to artykuły biurowe miały najwyższą marżę zysku.
Regiony: Region Zachodni miał najwyższą sprzedaż, ale również największą liczbę transakcji przynoszących straty.

Te wstępne obserwacje stanowią podstawę do dalszych analiz statystycznych i modelowania, które pozwolą lepiej zrozumieć czynniki wpływające na wyniki sprzedażowe i finansowe sieci sklepów.

5. Wnioskowanie statystyczne

W niniejszym rozdziale zweryfikowano hipotezy badawcze dotyczące kluczowych wyników sprzedażowych i finansowych. Celem analizy jest sprawdzenie, czy zależności zauważone w danych (np. wpływ rabatów na zysk czy różnice między regionami) są istotne statystycznie, czy wynikają jedynie z przypadku. W procesie badawczym wykorzystano testy statystyczne dobrane do rodzaju danych (ilościowych i jakościowych). Dla wszystkich testów przyjęto poziom istotności $\alpha = 0,05$. Wynik $p < 0,05$ uznawano za dowód na istnienie statystycznie istotnej zależności.

Korelacja Spearmana

Poniższa analiza sprawdza wpływ polityki rabatowej na rentowność sprzedaży.

H0: Nie istnieje statystycznie istotna zależność między wysokością

rabatu a zyskiem.

Analiza korelacji między poziomem rabatu a wartością sprzedaży wykazuje, że wynosi ona -0,05 – bardzo słaba, ale istotna statystycznie ujemna zależność. Oznacza to, że wyższe rabaty są minimalnie związane z niższą sprzedażą (lub odwrotnie – niższe rabaty z wyższą sprzedażą), ale efekt jest praktycznie pomijalny. Korelacja Spearmana między wysokością rabatu a zyskiem wynosi -0,54 – jest to umiarkowanie silna ujemna zależność, istotna statystycznie (p ≈ 0). Przedział ufności Cl₉₅%: [-0,55, -0,52] potwierdza stabilność tej negatywnej relacji. Oznacza to, że wyższe rabaty są wyraźnie związane z niższym zyskiem (i odwrotnie – niższe rabaty z wyższym zyskiem).

Regresja liniowa: wpływ rabatu na zysk

#> 
#> Call:
#> lm(formula = Profit ~ Discount, data = dane)
#> 
#> Residuals:
#>     Min      1Q  Median      3Q     Max 
#> -6492.5   -55.3   -16.0     9.8  8331.9 
#> 
#> Coefficients:
#>             Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)   68.050      2.787   24.42   <2e-16 ***
#> Discount    -250.783     10.801  -23.22   <2e-16 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 225.9 on 10329 degrees of freedom
#> Multiple R-squared:  0.04961,    Adjusted R-squared:  0.04951 
#> F-statistic: 539.1 on 1 and 10329 DF,  p-value: < 2.2e-16

Większość transakcji skupia się w niskim zakresie zysków (blisko 0), co potwierdza wcześniejsze analizy – mediana zysku była niska, podczas że średnia była zawyżona przez nieliczne, bardzo wysokie zyski. Bardzo wysokie zyski (np. 20000–50000 $) występują rzadko (niskie wartości na osi liczby transakcji), co tłumaczy wysoką skośność i kurtozę w statystykach opisowych. Rozkład jest silnie prawostronnie skośny – większość masy rozkładu znajduje się po lewej stronie (niskie zyski), a prawy ogon (wysokie zyski) jest długi, ale cienki.

Analiza korelacji rabat - zysk według regionów

**Korelacja rabat-zysk wg regionów**
	Region	Wsp. korelacji	p-value	Kierunek	Siła korelacji	Obserwacje
cor	South	-0.272***	<0.001	ujemna	slaba	1610
cor1	West	-0.150***	<0.001	ujemna	slaba	3186
cor2	East	-0.226***	<0.001	ujemna	slaba	2847
cor3	Central	-0.225***	<0.001	ujemna	slaba	2320

Wnioski:

Wszystkie regiony wykazują istotną statystycznie ujemną korelację między wysokością rabatu a zyskiem, co potwierdza, że wyższe rabaty są związane z niższymi zyskami. Siła tej zależności jest najsilniejsza w regionie South (r = -0,272), a najsłabsza w regionie West (r = -0,150). Regiony Central i East mają bardzo podobną, umiarkowanie ujemną korelację (odpowiednio -0,225 i -0,226). 1. Rabaty obniżają zysk we wszystkich regionach – im wyższy rabat, tym niższy zysk. 2. Region South jest najbardziej wrażliwy na rabaty – tutaj korelacja ujemna jest najsilniejsza, co oznacza, że nawet niewielkie zwiększenie rabatu może wyraźnie obniżyć rentowność. 3. Region West jest stosunkowo najmniej wrażliwy – mimo ujemnej korelacji, zależność jest tu najsłabsza, co może sugerować, że inne czynniki (np. wielkość sprzedaży, mix produktowy) częściowo łagodzą negatywny wpływ rabatów na zysk. 4. Polityka rabatowa wymaga zróżnicowania regionalnego – np. ograniczenie rabatów w regionie South mogłoby przynieść najszybszą poprawę rentowności, podczas gdy w West można pozwolić na nieco większą elastyczność.

Analiza sezonowości dla sprzedaży

#> H0: Średnia sprzedaż jest taka sama we wszystkich miesiącach
#> H1: Średnia sprzedaż różni się między miesiącami
#> p-value: 0.3781 
#> 
#> WNIOSEK: Nie ma podstaw do odrzucenia H0 (p > 0.05)
#> Brak statystycznie istotnych różnic w sprzedaży między miesiącami.

Wynik wskazuje na brak statystycznie istotnych różnic w średniej sprzedaży między miesiącami. Oznacza to, że sezonowość nie wpływa w istotny sposób na poziom sprzedaży – wartości sprzedaży w poszczególnych miesiącach są na podobnym poziomie, a ewentualne różnice można uznać za losowe.

Porównanie sezonowości zysku i sprzedaży

Month	Correlation	Strength	Direction
Sty	0.369	słaba	dodatnia
Lut	0.905	silna	dodatnia
Mar	0.386	słaba	dodatnia
Kwi	0.375	słaba	dodatnia
Maj	0.753	silna	dodatnia
Cze	0.668	umiarkowana	dodatnia
Lip	0.130	bardzo słaba	dodatnia
Sie	0.475	umiarkowana	dodatnia
Wrz	0.375	słaba	dodatnia
Paź	0.876	silna	dodatnia
Lis	0.193	bardzo słaba	dodatnia
Gru	0.598	umiarkowana	dodatnia

#> 
#> ## KLUCZOWE WNIOSKI DOTYCZĄCE SEZONOWOŚCI:
#> Różnice między miesiącami:  NIEISTOTNE STATYSTYCZNIE
#> Korelacja sprzedaż-zysk:  GŁÓWNIE DODATNIA  (średnio:  0.509 )

Wnioski

Test ANOVA wykazał, że sezonowość nie wpływa istotnie na poziom sprzedaży. Jednak analiza korelacji między sprzedażą a zyskiem ujawnia wyraźne różnice między miesiącami pod względem efektywności marżowej.

Średnia korelacja sprzedaż–zysk dla wszystkich miesięcy wynosi 0,509, co wskazuje na ogólną dodatnią zależność – wyższa sprzedaż przekłada się na wyższy zysk. Jednak siła tej zależności silnie waha się w zależności od miesiąca. Luty (r = 0,905), Październik (r = 0,876) i Maj (r = 0,753) charakteryzują się silną dodatnią korelacją, co oznacza, że wzrost sprzedaży w tych miesiącach w wysokim stopniu przekłada się na wzrost zysku. Z kolei Lipiec (r = 0,130) i Listopad (r = 0,193) wykazują bardzo słabą korelację, co sugeruje, że w tych okresach wzrost sprzedaży nie prowadzi do proporcjonalnego wzrostu zysku – prawdopodobnie z powodu agresywnej polityki rabatowej, wysokich kosztów lub niskomarżowego asortymentu.

Pozostałe miesiące, takie jak Marzec, Kwiecień, Wrzesień czy Styczeń, odznaczają się słabą lub umiarkowaną dodatnią korelacją (r między 0,369 a 0,668).

Kluczowy wniosek:

Chociaż sprzedaż jest stabilna w ciągu roku, efektywność marżowa jest sezonowo zróżnicowana. W miesiącach o wysokiej korelacji (Luty, Październik, Maj) warto skupić się na zwiększaniu wolumenu sprzedaży, ponieważ każda dodatkowa transakcja znacząco poprawia zysk. Natomiast w miesiącach o niskiej korelacji (Lipiec, Listopad) należy przeanalizować i zoptymalizować strukturę kosztów oraz politykę cenową, aby poprawić rentowność. Działania sprzedażowe powinny zatem uwzględniać nie tylko wolumen, ale także marżowość charakterystyczną dla danego okresu.

Sales vs Profit (0.48): Istnieje dodatnia korelacja, ale nie jest ona idealna (r=0.48), co oznacza, że wysoka sprzedaż nie gwarantuje wysokiego zysku.

Discount vs Profit (-0.22): Potwierdzenie niszczącego wpływu rabatów na wynik finansowy.

Technology jest najrentowniejszą kategorią

Test Kruskala-Wallisa wykazał istotne różnice w zyskach między kategoriami (p ≈ 0).
- Technology: mediana zysku = 27,32 $ – najwyższa
- Furniture: mediana = 8,19 $
- Office Supplies: mediana = 7,15 $

Testy post-hoc potwierdziły, że Technology generuje istotnie wyższe zyski niż pozostałe kategorie. Różnica między Furniture a Office Supplies jest minimalna (p = 0,04).

Region West ma najwyższą medianę marży

Test Kruskala-Wallisa potwierdził istotne różnice w marżach między regionami (p ≈ 0): - West: mediana = 29,0% – najwyższa - East: mediana = 28,0% - South: mediana = 26,25% - Central: mediana = 19,0% – najniższa

Wniosek: Region Central wymaga poprawy rentowności, podczas gdy West i East osiągają najlepsze wyniki marżowe.

Rozkłady zysków różnią się między regionami

Test Kruskala-Wallisa potwierdza istotne różnice (p < 0,001).
Z wykresu ridgeline wynika:
- West i South mają bardziej skoncentrowane rozkłady z wyższymi wartościami zysków
- Central i East wykazują szersze rozkłady, co sugeruje większą zmienność i niższe zyski

West jest regionem o najwyższej i najbardziej stabilnej rentowności.

West ma najwyższe i najbardziej stabilne wartości zamówień

Test Kruskala-Wallisa: p < 0,001 – istotne różnice między regionami.
Z wykresu ridgeline:
- West: najwyższe i najbardziej skoncentrowane wartości sprzedaży
- South i East: średnie wartości, umiarkowane rozproszenie
- Central: najniższe wartości zamówień i największe rozproszenie

Wniosek: Region West dominuje pod względem zarówno wartości, jak i stabilności transakcji.

Central stosuje najwyższe rabaty, West najniższe

Test Kruskala-Wallisa: p < 0,001 – istotne różnice w polityce rabatowej.
Z wykresu ridgeline:
- Central: najwyższe i najbardziej zróżnicowane rabaty
- West: najniższe i najbardziej skoncentrowane rabaty
- South i East: wartości pośrednie

Wniosek: Agresywna polityka rabatowa w Central koreluje z jego słabszą rentownością, podczas niższe rabaty w West współgrają z jego lepszymi wynikami finansowymi.

Wpływ rabatów na rentowność i wartość klienta (CLV + Logistic Regression)

Poprzednie analizy ujawniły paradoks rabatowy: rabaty niszczy zysk bez znaczącego wzrostu sprzedaży. Aby dać temu głębokie uzasadnienie, zastosowano dwa komplementarne modele:

Analiza CLV (Customer Lifetime Value) - odpowiada na pytanie: czy rabaty przyciągają lepszych klientów?
Regresja logistyczna - potwierdza i kwantyfikuje, jaki dokładnie wpływ ma rabat na prawdopodobieństwo rentowności

Oba modele dają zgodny werdykt: rabaty są finansowym błędem bez żadnego biznesowego uzasadnienia.

Model 1: Customer Lifetime Value (CLV) - Analiza opisowa

#> # A tibble: 5 × 8
#>   discount_category n_customers avg_transactions_per_cu…¹ avg_sales_per_customer
#>   <chr>                   <int>                     <dbl>                  <dbl>
#> 1 Brak rabatu (0%)          759                      6.32                  1433.
#> 2 Niski (1-20%)             762                      4.97                  1106.
#> 3 Średni (21-40%)           309                      1.49                   758.
#> 4 Wysoki (>40%)             470                      1.97                   272.
#> 5 <NA>                       20                      1                      224.
#> # ℹ abbreviated name: ¹avg_transactions_per_customer
#> # ℹ 4 more variables: avg_profit_per_customer <dbl>, total_profit <dbl>,
#> #   profitability_rate <dbl>, avg_discount <dbl>

Model 2: Logistic Regression - Potwierdzenie statystyczne

Zmienna	Współczynnik	Odds.Ratio	Wpływ
Intercept	6.1324	460.5407	Bazowe szanse
Discount	-23.4347	0.0000	Każdy +1% rabatu ZMNIEJSZA szanse rentowności o ~100%
Sales	-0.0003	0.9997	Każdy +$1 sprzedaży: -0.03% wpływu (praktycznie brak)
Quantity	0.0709	1.0735	Każda +1 jednostka: +7.35% wpływu (nieistotne)

Wydajność modelu:

#> 
#> **Metryki modelu:**
#> - Dokładność (Accuracy):**  93.3 %
#> - **Czułość (Sensitivity):**  99.5 %
#> - **Specyficzność (Specificity):**  68.4 %
#> - **AUC:**  0.934

Wnioski co do rabatów

1. RABAT NISZCZY RENTOWNOŚĆ KOMPLETNIE - CLV: Klient bez rabatu = $43.86 zysku, klient z >40% rabatu = $-128.75 (-394%) - LOGISTYKA potwierdza: każdy +1% rabatu zmniejsza szanse rentowności o ~100% (OR = 0.0000) - Wniosek: Nie ma marginalnego wpływu - rabat to binarna zmienna: rentowny ALBO stratny

2. RABATY NIE PRZYCIĄGAJĄ LEPSZYCH KLIENTÓW - CLV: Klienci bez rabatu robią 6.32 transakcji, klienci z rabatami >40% robią 1.97 transakcji (-68.8%) - To nie stickiness - to ucieczka klientów (jedno-razowe złe doświadczenie) - Wniosek: Rabaty przyciągają klientów jednorazowych, nie lojalistów

3. RABATY PRZYCIĄGAJĄ KLIENTÓW STRATNYCH - CLV: 100% klientów z rabatami >40% generuje straty - LOGISTYKA: Model osiąga 99.5% sensitivity - czyli prawie idealne zidentyfikowanie klientów rentownych (bez rabatu) - Wniosek: Rabat jest wiarygodnym predyktorem ruiny finansowej transakcji

4. SPRZEDAŻ I ILOŚĆ NIE RATUJĄ RABATÓW - LOGISTYKA: Sprzedaż (-0.03%), Ilość (+7.35%) - praktycznie żaden wpływ - CLV: Wzrost transakcji jest zbyt mały (-68.8%) i przy tym wszyscy generują straty - Wniosek: Nie ma ekonomicznego uzasadnienia - wolumen nie rekompensuje strat marż

5. MODEL MA PRAWIE IDEALNĄ MOCĄ DYSKRYMINACJI - AUC = 0.934 (prawie idealne) - Sensitivity = 99.5% (prawie wszyscy rentowni klienci poprawnie zidentyfikowani) - Wniosek: Rabat jest NIEZWYKLE SILNYM predyktorem - jeden z najważniejszych w decyzji o rentowności

REKOMENDACJA BIZNESOWA:

PRZESTAĆ stosować rabaty powyżej 20% - każdy dodatkowy 1% to zmniejszenie szans rentowności o 100%

✓ NOWA STRATEGIA: - Utrzymać klientów bez rabatu ($43.86 zysku na klienta) - Maksymalnie rabaty 0-20% przy zdużych zamówieniach (ponad $500) - Wprowadzić program lojalnościowy (punkty, early access) zamiast rabatów - Rezultat: utrzymanie rentowności + wzrost stickiness

ILOŚĆ PIENIĘDZY NA STOLE: W grupie >40% rabatów średni klient generuje straty zamiast zysku ($-128.75). Jeśli ta grupa to ~470 klientów rocznie, to jest SETKI TYSIĘCY ZŁOTYCH strat rocznie, które można uniknąć

6. Podsumowanie

Analiza danych Superstore (2014–2017) ujawniła kluczowe obszary wymagające natychmiastowej interwencji, a także wyraźne możliwości poprawy rentowności. Głównym problemem okazała się destrukcyjna polityka rabatowa – rabaty powyżej 20% systematycznie niszczą zysk, nie przynosząc wzrostu sprzedaży ani lojalności klientów. Każdy dodatkowy 1% rabatu zmniejsza szansę rentowności transakcji o około 100%, a rabaty przekraczające 40% prowadzą do katastrofalnych strat, sięgających -114% marży.

Portfolio produktowe wykazuje silne zróżnicowanie: Technology jest motorem rentowności, generując medianę zysku na poziomie 27,32$ przy najniższych rabatach, podczas gdy Furniture przynosi najsłabsze wyniki, a w regionie Central generuje nawet straty. Office Supplies, choć stanowi większość transakcji, charakteryzuje się niską marżowością.

Różnice między regionami są znaczące. Region West jest wzorem efektywności – łączy najwyższą marżę (29%) z najniższymi rabatami i najszybszą dostawą. Przeciwieństwem jest region Central, gdzie agresywne rabaty idą w parze z najdłuższym czasem dostawy i ujemną rentownością.

Pod względem sezonowości, sprzedaż pozostaje stabilna przez cały rok, jednak efektywność marżowa silnie waha się między miesiącami. Luty, Maj i Październik to okresy, w których wzrost sprzedaży wyraźnie przekłada się na zysk, podczas gdy w Lipcu i Listopadzie zależność ta jest bardzo słaba.

Rekomendacje biznesowe koncentrują się na trzech filarach. Po pierwsze, natychmiastowa reforma polityki rabatowej poprzez wprowadzenie sztywnego limitu 20% i zastąpienie głębokich promocji programem lojalnościowym. Po drugie, skoncentrowanie zasobów na kategorii Technology i równoległa restrukturyzacja asortymentu Furniture, w tym możliwość wycofania najmniej rentownych produktów. Po trzecie, operacyjna naprawa regionu Central poprzez audyt procesów i wdrożenie najlepszych praktyk z regionu West.

Szacowany efekt finansowy wdrożenia tych działań to potencjalny wzrost zysku o 200–300 tysięcy dolarów rocznie, głównie dzięki eliminacji strat z nadmiernych rabatów i poprawie rentowności kluczowych segmentów.