Projekt Analiza Danych - grupa H

Sklep rowerowy

Wstęp

Wśród klientów sklepu przeprowadzono ankiety składające się z 12 pytań. Analiza ich wyników może być przydatna przy planowaniu działań marketingowych oraz oferty produktowej dopasowanej do konkretnych grup odbiorców.Dane pochodzą ze sklepu rowerowego, posiadają 12 kolumn (stan cywilny, płeć, zarobki, liczba dzieci, wykształcenie, grupa zawodowa, posiadanie domu, liczba posiadanych samochodów, odległość z domu do pracy, region zamieszkania, wiek i zakup roweru).

Czyszczenie i przetwarzanie danych

Czyszczenie danych

dane <- read.csv(file = "sklep_rowerowy.csv") #pobranie danych
attach(dane)

names(dane) <- tolower(names(dane)) #ujednolicenie nazwy
dane <- dane %>% select(-id) #usuniecie kolumny

dane <- dane %>% 
  mutate(across(where(is.character), ~na_if(., ""))) #zastepuje braki danych NA w pustych komorkach

gotowe_dane <- na.omit(dane) #usuniecie wierszy gdzie w przynajmniej jednej komórce występuje NA - usunięto 48 wierszy 

gotowe_dane <- gotowe_dane %>% mutate(purchased.bike.numeric = ifelse(`purchased.bike` == "Yes", 1, 0)) #dodanie kolumny decyzji o zakupie roweru w postaci zmiennej 0/1

Walidacja danych

#czy wiek >= 0 i czy jest liczbą?
all(gotowe_dane$age >= 0 & is.numeric(gotowe_dane$age))
## [1] TRUE
#czy dochody nie sa ujemne?
all(gotowe_dane$income >= 0)
## [1] TRUE
#czy sa dwie plcie?
length(unique(gotowe_dane$gender)) == 2
## [1] TRUE
#czy przy decyzji o zakpuie roweru sa dwie zmienne?
length(unique(gotowe_dane$purchased.bike)) == 2
## [1] TRUE

Wizualizacja danych

Analiza wieku klientów - które grupy wiekowe najczęściej kupują rowery

Powyżej znajdują się histogramy przedstawiające rozkład wieku wśród osób, które zakupiły rower oraz tych,które nie podjęły takiej decyzji. Zauważalne jest, że najczęściej decydowano się na zakup w wieku 35 lat, jednak znaczna liczba zakupów miała miejsce w przedziale wiekowym między 35. a 50. rokiem życia, co informuje nas, że jest to główna grupa docelowa sklepu rowerowego. Zainteresowanie zakupem rowerów wyraźnie zmniejsza się powyżej 55. roku życia. Brak danych wśród osób poniżej 25 roku życia sugeruje nam, że należałoby skierować działania marketingowe i zachęcić młodsze osoby do kupowania rowerów. Analizując wykres przedstawiający klientów, którzy odwiedzili sklep, jednak nie zdecydowali się na rower należałoby znacznie zwiększyć działania zachęcające do kupna w przedziale 18/25-70 lat.

Analiza rozkładu zakupu roweru według płci

Tabela 1. Rozkład zakupu roweru według płci
No Yes
Female 242 231
Male 254 225

Wykres słupkowy ukazuje podobną liczbę zakupów rowerów przez kobiety i mężczyzn, z nieznacznie wyższą liczbą zakupów dokonanych przez kobiety. Obie płcie wykazują również znaczącą liczbę osób, które nie zakupiły roweru, co sugeruje istnienie dużego potencjału rynkowego do zwiększenia sprzedaży. Wyniki te mogą naprowadzać sklep rowerowy na równomierne skupienie działań marketingowych na obie płcie, aby poprawić konwersję i sprzedaż. o może przyczynić się do równomiernej poprawy wyników sprzedażowych w sklepie rowerowym.

Analiza zależności między dochodem a zakupem roweru

Wykres pudełkowy prezentuje zależność między dochodem, a decyzją o zakupie roweru. Wyżej widać dwa pudełka, które reprezentują grupy “No” (nie zakupili roweru) i “Yes” (zakupili rower). Wartości odstające są widoczne w obu grupach, ale jest ich więcej w grupie, która zakupiła rowery. Wartości te wskazują obecność osób z wyższym dochodem, które zdecydowały się na zakup. Większy rozstęp dochodów występuje w grupie, która nie zdecydowała się na zakup roweru. Wykres nie wykazuje różnicy w medianie dochodów między grupami, ale wskazuje na większe zróżnicowanie dochodów wśród osób, które zakupiły rower. Brak różnicy mediany może sugerować, że dochód nie jest jedynym czynnikiem wpływającym na decyzję o zakupie roweru, chociaż osoby z wyższymi dochodami mogą wykazywać tendencję do dokonywania tego rodzaju zakupów, co obrazują obserwowane wartości odstające.

Analiza grup zawodowych wśród klientów

Tabela 2. Liczba zakupów rowerów w poszczególnych grupach zawodowych
Grupa Zawodowa Liczba zakupów
Clerical 83
Management 69
Manual 50
Professional 144
Skilled Manual 110

Wykres słupkowy przedstawia liczbę zakupów rowerów w zależności od grupy zawodowej. Można zauważyć, że największa liczba zakupów rowerów przypada na kategorię „Professional”, co sugeruje, że osoby na wysokich stanowiskach są najbardziej skłonne do zakupu roweru. Strategia marketingowa może skupić się na dostarczeniu produktów i treści, które przyciągną tę grupę, np. rowery o wyższych specyfikacjach i akcesoria dla profesjonalistów. Osoby wykonujące prace fizyczne „Skilled Manual” również wykazująznaczną liczbę zakupów. Pracownicy ci mogą preferować rowery, które są wytrzymałe i funkcjonalne. Warto więc podkreślać te cechy w marketingu, wskazując na solidność konstrukcji i dostosowanie do różnych warunków. Kategoria „Clerical” również wykazuje stosunkowo wysoką liczbę zakupów. Strategia marketingowa może obejmować dostosowane oferty dla pracowników biurowych, np. rowery do użytku miejskiego, akcesoria ułatwiające codzienne dojazdy. Grupy „Management” i „Manual” prezentują niższą liczbę zakupów. Warto rozważyć specjalne oferty, promocje lub kampanie reklamowe, które przyciągną ich uwagę i zwiększą chęć zakupu. Ponieważ grupa ta może być mniej doświadczona w zakupach rowerów, warto skoncentrować się na edukacji. Materiały informacyjne, poradniki dotyczące wyboru i wsparcie klienta w sklepie i online mogą być kluczowe.

Analiza odległości z domu do pracy

Tabela 3. Liczba zakupów rowerów, a odległość miejsca zamieszkania od pracy
Odległość miejsca zamieszkania od pracy Liczba zakupów
0-1 Miles 187
1-2 Miles 76
10+ Miles 30
2-5 Miles 92
5-10 Miles 71

Największą grupę osób decydujących się na zakup roweru stanowią osoby mieszkające mniej niż 1 milę od miejsca pracy. Strategia marketingowa może skupić się na dostarczeniu produktów i usług takich jak: rowery miejskie, torby i plecaki czy specjalne promocje dla lokalnych mieszkańców. Osoby mieszkające w odległości 1-10 mili od pracy również często decydują się na zakup roweru. Chociaż graniczne odległości znacznie się od siebie różnią, to nie widać znaczącej różnicy w ilości zakupów. Oznacza to, że te odległości nie mają większej różnicy. W strategii marketingowej należy skupić się na dostosowaniu oferty i komunikacji tak, aby spełnić różnorodne oczekiwania tej grupy. Powyżej 10 mil odległości domu od pracy widać znaczący spadek sprzedaży rowerów. Najkorzystniejsze będzie skupienie się na promocji rowerów elektrycznych wśród osób z tej grupy, ale również akcesoriach do tras długodystansowych czy programach rabatowych dla klientów spoza miasta.

Statystyki opisowe

Tabela 4. Zakup roweru - decyzja wg zarobków klientów.
Statystyka Brak zakupu Zakup
Zarobki      
   Min 10000 10000
   Max 170000 170000
   Kwartyl dolny 30000 40000
   Mediana 60000 60000
   Kwartyl górny 70000 70000
   Średnia 54455.65 57478.07
   Odch. std. 30985.6 30648.66
   IQR 40000 30000
   Odchylenie ćwiartkowe 20000 15000
   Odch. std. w % 0.57 0.53
   Odch. ćwiartkowe w% 0.67 0.5
   Skośność 0.66 0.8
   Kurtoza 0.1 0.67

Minimalne i maksymalne zarobki są jednakowe dla obu grup, co oznacza, że nie ma znaczących różnic w ekstremalnych przypadkach. Obie grupy obejmują zarobki od 10,000 do 170,000. Osoby, które zdecydowały się na zakup roweru, wydają się charakteryzować wyższymi zarobkami w porównaniu do tych, które nie podjęły takiej decyzji. Grupa zakupowa ma stabilniejszą sytuację finansową, co odzwierciedla się w niższej zmienności zarobków. Mimo to, istnieje pewna różnorodność zarobków w obu grupach. Wartości mediany zarobków są identyczne dla obu grup, co sugeruje, że decyzja o zakupie roweru nie jest związana z poziomem zarobków. Analiza skośności wskazuje, że istnieje grupa klientów z wyższymi zarobkami, ale różnice te nie są znaczne. Ponadto, kształt rozkładu zarobków dla obu grup jest w miarę zbliżony do normalnego. Choć osoby decydujące się na zakup roweru mają tendencję do wyższych zarobków, istnieje pewna zróżnicowana dynamika zarobków w obu grupach. Decyzja zakupowa nie jest jednoznacznie uzależniona od poziomu zarobków, ale może być kształtowana przez inne czynniki.

Tabela 5. Zakup roweru - decyzja wg wieku klientów.
Statystyka Brak zakupu Zakup
Wiek      
   Min 25 25
   Max 89 78
   Kwartyl dolny 35 36
   Mediana 44.5 41
   Kwartyl górny 55 50
   Średnia 45.47 42.94
   Odch. std. 12.42 10.09
   IQR 20 14
   Odchylenie ćwiartkowe 10 7
   Odch. std. w % 0.27 0.23
   Odch. ćwiartkowe w% 0.45 0.34
   Skośność 0.36 0.6
   Kurtoza -0.62 -0.02

Minimalny wiek dla obu grup wynosi 25 lat, a maksymalny wiek różni się w zależności od grupy. Dla grupy “Brak zakupu” to 89 lat, a dla grupy “Zakup” to 78 lat. Wśród najstarszych ankietowanych, częściej osoby nie decydują się na zakup roweru. Zmienna skośność i kurtoza wskazują na pewne nieregularności w rozkładzie wieku, ale ogólny kształt jest zbliżony do rozkładu normalnego.

Macierz korelacji

Przedstawiona powyżej macierz korelacji ukazuje związki korelacyjne między różnymi zmiennymi. Istnieją umiarkowane pozytywne powiązania między dochodem a liczbą dzieci, liczbą posiadanych samochodów i wiekiem. Między dochodem a liczbą posiadanych rowerów występuje bardzo niska pozytywna korelacja, a więc dochód nie wydaje się mieć wpływu na decyzję o zakupie roweru. Liczba dzieci ma powiązanie z liczbą posiadanych aut i wiekiem, natomiast wzrost liczby aut zmniejsza szansę na zakup roweru.

Wnioskowanie statystyczne

Porównanie dochodów osób kupujących i niekupujących rower

Wykres przedstawia porównanie dochodów osób, które kupiły rower i tych, które na zakup się nie zdecydowały. Jest to rodzaj wykresu skrzypcowego połączonego z wykresem punktowym, który pokazuje rozkład dochodów w obu grupach.

Na wykresie widać czerwone punkty, które informują nas o średnich dochodach obu grup. Wykresy skrzypcowe pokazują rozkład dochodów w obu grupach, a ciemniejsze obszary wskazują na większe zagęszczenie danych.

Statystyki testu t-Welcha, który jest używany do porównania średnich dwóch grup, które mogą nie mieć tej samej wariancji, pokazują, że t-statystyka wynosi -1.51, z p-value równym 0.13. P- value większe niż 0.05 wskazuje, że nie ma statystycznie istotnej różnicy w dochodach między tymi dwiema grupami.

Miara efektu, Hedges’ g, wynosi -0.10 z 95% przedziałem ufności od -0.23 do 0.03, co wskazuje na bardzo mały efekt rozmiaru między dwiema grupami. Ponieważ przedział ufności dla Hedges’ g zawiera zero, można wnioskować, że różnica dochodów między grupami nie jest istotna.

Dodatkowe statystyki na wykresie to log_e(BF01), który wynosi 1.50. Wskaźnik Bayesowskiego czynnika na korzyść hipotezy zerowej (BF01) wskazuje na to, że według analizy Bayesowskiej, hipoteza zerowa (brak różnicy w dochodach) jest 1.50 razy bardziej prawdopodobna niż hipoteza alternatywna (różnica w dochodach), co wskazuje na brak silnych dowodów na istnienie różnicy w dochodach.

Podsumowując, analiza statystyczna nie wykazała istotnych różnic w dochodach między osobami kupującymi rower a tymi, które go nie kupiły. Zarówno test t-Welcha, jak i analiza Bayesowska wskazują na brak statystycznie istotnej różnicy w dochodach między tymi dwiema grupami.

Porównanie wieku osób kupujących i niekupujących rower

Wykres wyżej przedstawia porównanie wieku osób kupujących rower i niekupujących. Na wykresie widać czerwone punkty, które informują nas o średnim wieku dla obu grup. Wykresy skrzypcowe pokazują rozkład dochodów w obu grupach, a ciemniejsze obszary wskazują na większe zagęszczenie danych.

Statystyki testu t-Welcha (używanego do porównywania średnich dwóch grup o potencjalnie różnych wariancjach) wskazują na t-statystykę równą 3.47 z p-value 0.000552, co sugeruje, że istnieje statystycznie istotna różnica w średnim wieku między osobami kupującymi a niekupującymi rower. Wielkość efektu, mierzona za pomocą Hedges’ g, wynosi 0.22, z 95% przedziałem ufności od 0.10 do 0.35, co wskazuje na mały do umiarkowanego efekt wielkości.

Dodatkowe statystyki na wykresie to log_e(BF01), który wynosi -3.16. Ujemmna wartość logarytmu naturalnego Bayesowskiego czynnika na korzyść hipotezy zerowej (BF01) sugeruje, że dane są silnym dowodem przeciwko hipotezie zerowej (brak różnicy w wieku) w porównaniu do hipotezy alternatywnej (różnica w wieku).

Różnica a posteriori wynosi 2.50 lat, co wskazuje, że osoby kupujące rowery są średnio o 2.5 roku młodsze niż te, które nie kupiły roweru. Przedział ufności ETI dla tej różnicy jest od 1.07 do 3.92 lat, co potwierdza istnienie różnicy w wieku między grupami.

Podsumowując, analiza statystyczna sugeruje, że istnieje statystycznie istotna różnica w średnim wieku między osobami kupującymi rowery, a tymi, które ich nie kupują, sugerująca, że osobami kupującymi są osoby młodsze (w rozumieniu średniej wieku grupy). Zarówno test t-Welcha, jak i analiza Bayesowska wskazują na różnicę w wieku między tymi dwiema grupami.

Porównanie grupy zawodowej osób kupujących i niekupujących rower

Wykres przedstawia porównanie decyzji o zakupie roweru w zależności od grupy zawodowej osób. Grupy zawodowe podzielone są na: Clerical (pracownicy biurowi), Management (zarządzanie), Manual (pracownicy fizyczni), Professional (specjaliści) oraz Skilled Manual (wykwalifikowani pracownicy fizyczni).

Na zielono zostały przestawione procentowe ilości osób, które zdecydowały się na zakup w każdej grupie zawodowej, a na czerwono te, które roweru nie kupiły.

Statystyki testu chi-kwadrat χ2χ2 pokazują wartość 8.77 z p-value 0.07, co sugeruje, że nie ma statystycznie istotnej różnicy w decyzji o zakupie roweru między różnymi grupami zawodowymi, ponieważ p-value jest wyższe niż typowy próg istotności statystycznej wynoszący 0.05. Wartość Craméra V wynosi 0.07, co wskazuje na bardzo małą siłę związku między grupą zawodową, a decyzją o zakupie roweru. Przedział ufności dla V Craméra (CI95%) zawiera się w przedziale [0.00, 1.00], ale bliskość dolnej granicy do zera dodatkowo sugeruje słaby związek.

Bayesowski czynnik (BF01) logarytmowany wynosi 3.88, co wskazuje, że dane są prawie 49 razy (e^3.88) bardziej prawdopodobne pod hipotezą zerową (brak różnicy) niż pod hipotezą alternatywną (istnieje różnica).

Dodatkowo, wartość Craméra V a posteriori wynosi 0.09, a przedział ufności ETI dla tej wartości jest bardzo szeroki [0.00, 0.16], co jeszcze raz potwierdza, że różnica między grupami zawodowymi może być nieistotna. Wartość Gunel-Dickey wynosi 1.00, co wskazuje na brak dowodów przeciwko hipotezie zerowej.

Podsumowując, analiza wykresu sugeruje, że decyzja o zakupie roweru nie różni się znacząco między grupami zawodowymi. Zarówno tradycyjne podejście statystyczne (test chi-kwadrat), jak i podejście Bayesowskie wskazują na brak istotnych różnic między grupami zawodowymi w kontekście zakupu roweru.

Porównanie wykształcenia osób kupujących i niekupujących rower

Wykres przedstawia porównanie wykształcenia osób kupujących i niekupujących roweru. Wykształcenie jest podzielone na kilka kategorii: Partial High School (niedokończona szkoła średnia), Partial College (niedokończone studia wyższe), High School (ukończona szkoła średnia), Graduate Degree (stopień naukowy magistra lub wyższy) oraz Bachelors (licencjat).

Dane są przedstawione w procentach i rozdzielone między osoby, które kupiły rower (“Yes”) i które nie kupiły roweru (“No”). Z lewej strony wykresu, dla osób które nie kupiły roweru, największy procent osób ma tylko częściowo ukończoną szkołę średnią (27%), podczas gdy wśród osób, które kupiły rower, największy procent osób ma stopień naukowy magistra lub wyższy (35%).

Test chi-kwadrat pokazuje wartość χ2 równą 24.40 z p-value 0.0000635, co wskazuje na istotną statystycznie różnicę w poziomie wykształcenia między osobami kupującymi, a niekupującymi roweru. Wartość Craméra V wynosi 0.15, co wskazuje na umiarkowaną siłę związku między wykształceniem, a decyzją o zakupie roweru. Przedział ufności dla V Craméra (CI95%) zawiera się w przedziale [0.07, 1.00], co potwierdza istnienie związku, chociaż zakres tego przedziału jest szeroki.

Logarytm Bayesowskiego czynnika na korzyść hipotezy zerowej (log_e(BF01)) wynosi -3.82, co oznacza, że dane są bardzo silnym dowodem przeciwko hipotezie zerowej (brak różnicy) i wspierają hipotezę alternatywną (istnieje różnica). Jest to potwierdzone przez wartość posterior Craméra V równą 0.15, z 95% przedziałem ufności ETI od [0.09, 0.21], wskazującym na umiarkowaną siłę związku.

Podsumowując, analiza wykresu sugeruje, że poziom wykształcenia ma związek z decyzją o zakupie roweru, przy czym osoby z wyższym wykształceniem mają większą tendencję do zakupu roweru niż osoby z niższym wykształceniem. Zarówno tradycyjna analiza statystyczna, jak i analiza Bayesowska wskazują na istotność i siłę tego związku.

Porównanie stanu cywilnego osób kupujących i niekupujących rower

Powyższy wykres jest sprawdzenie zależności między stanem cywilnym, a decyzją o zakupie roweru. Lewa kolumna pokazuje, że wśród osób, które nie zdecydowały się na kupno 59%, to osoby po ślubie, natomiast 41% to osoby nie będące w związku małżeńskim. Z kolei prawa kolumna przedstawiająca osoby, które kupiły rower informuje nas o mniejszej różnicy między dwiema grupami. Osoby niezamężne stanowią 51%, a zamężne 49%.

Statystyki na górze wykresu wskazują na wyniki testu chi-kwadrat. Wartość χ2 wynosi 10.71 z p- value 0.00107 (p < 0.05), co sugeruje, że istnieje statystycznie istotna różnica w rozkładzie stanu cywilnego między grupami kupujących i niekupujących rower. Wartość Craméra V wynosi 0.10, co wskazuje na niewielką siłę związku. Przedział ufności dla V Craméra (CI95%) mieści się w przedziale od 0.04 do 1.00.

Dodatkowo, na dole wykresu znajduje się logarytm z bazy e Bayesowskiego czynnika na korzyść hipotezy zerowej (log_e(BF01)), który wynosi -2.84. To sugeruje, że dane mocno wspierają hipotezę alternatywną, że stan cywilny ma wpływ na decyzję o zakupie roweru. Wartość posterior Cramér’s V wskazuje na podobne wnioski, a przewidywany przedział dla tej wartości (ETI) jest bardzo szeroki. Wartość Gunel-Dickey wynosi 1.00, co jest kolejnym wskaźnikiem wspierającym hipotezę alternatywną.

Należy jednak zwrócić uwagę, że szeroki przedział ufności dla V Craméra i ETI może wskazywać na dużą niepewność w tych oszacowaniach, a wartość 1.00 dla Gunel-Dickey sugeruje, że nie ma dowodów na przeciwieństwo hipotezy alternatywnej.

Podsumowując, analiza wykresu sugeruje, że istnieje związek między stanem cywilnym, a decyzją o zakupie roweru, z tym, że osoby nie będące w związku małżeńskim mają nieco większą tendencję do zakupu roweru niż osoby po ślubie.

Podsumowanie

Biorąc pod uwagę wszystkie informacje zawarte w raporcie strategia marketingowa sklepu Roverlove ma mnóstwo ścieżek, które można wybrać w różnych momentach roku.

Analiza danych sugeruje równomierne akcje marketingowe skierowane do obu płci. Warto jednak rozszerzyć kampanie z uwzględnieniem ofert skierowanych do osób młodych (do 35 roku życia). Dotychczas był to ewidentnie niewykorzystany potencjał.

Chociaż żaden zawód oprócz stanowisk „specjalistów” nie wykazał istotnie większego potencjału, to jednak warto skupić się na specjalnych ofertach lub promocjach dostosowanych do potrzeb poszczególnych grup zawodowych.

Osoby mieszkające bliżej miejsca pracy wykazują większą skłonność do zakupu roweru. Marketing może być skierowany na dostarczanie produktów i promocji dla lokalnych mieszkańców. Również, warto uwzględnić oferty dostosowane do potrzeb klientów zainteresowanych dłuższymi trasami.

Młodsze osoby, osoby niebędące w związku małżeńskim oraz te z wyższym wykształceniem wykazują większą skłonność do zakupu. Warto zauważyć, że choć nie stwierdzono istotnych różnic w dochodach, inne czynniki, takie jak preferencje rekreacyjne, odgrywają istotną rolę w procesie decyzyjnym. Na podstawie tych spostrzeżeń zaleca się opracowanie elastycznej strategii marketingowej, która uwzględni zróżnicowane profile klientów. Dostosowane oferty i kampanie skierowane do młodszych, niebędących w związkach małżeńskich klientów o wyższym wykształceniu mogą zwiększyć skuteczność przyciągania tej grupy.

Podjęcie działań w oparciu o te zalecenia może pomóc w dostosowaniu strategii marketingowej do zróżnicowanych grup klientów, zwiększając skuteczność działań promocyjnych i zaspokajając różnorodne potrzeby rynkowe. W miarę rozwoju kampanii warto monitorować reakcje klientów i dostosowywać strategię w odpowiedzi na zmieniające się trendy i preferencje.