Projekt Analiza Danych - grupa H
Sklep rowerowy
Wstęp
Wśród klientów sklepu przeprowadzono ankiety składające się z 12 pytań. Analiza ich wyników może być przydatna przy planowaniu działań marketingowych oraz oferty produktowej dopasowanej do konkretnych grup odbiorców.Dane pochodzą ze sklepu rowerowego, posiadają 12 kolumn (stan cywilny, płeć, zarobki, liczba dzieci, wykształcenie, grupa zawodowa, posiadanie domu, liczba posiadanych samochodów, odległość z domu do pracy, region zamieszkania, wiek i zakup roweru).
Czyszczenie i przetwarzanie danych
Czyszczenie danych
dane <- read.csv(file = "sklep_rowerowy.csv") #pobranie danych
attach(dane)
names(dane) <- tolower(names(dane)) #ujednolicenie nazwy
dane <- dane %>% select(-id) #usuniecie kolumny
dane <- dane %>%
mutate(across(where(is.character), ~na_if(., ""))) #zastepuje braki danych NA w pustych komorkach
gotowe_dane <- na.omit(dane) #usuniecie wierszy gdzie w przynajmniej jednej komórce występuje NA - usunięto 48 wierszy
gotowe_dane <- gotowe_dane %>% mutate(purchased.bike.numeric = ifelse(`purchased.bike` == "Yes", 1, 0)) #dodanie kolumny decyzji o zakupie roweru w postaci zmiennej 0/1
Walidacja danych
## [1] TRUE
## [1] TRUE
## [1] TRUE
## [1] TRUE
Wizualizacja danych
Analiza wieku klientów - które grupy wiekowe najczęściej kupują rowery
Powyżej znajdują się histogramy przedstawiające rozkład wieku wśród osób, które zakupiły rower oraz tych,które nie podjęły takiej decyzji. Zauważalne jest, że najczęściej decydowano się na zakup w wieku 35 lat, jednak znaczna liczba zakupów miała miejsce w przedziale wiekowym między 35. a 50. rokiem życia, co informuje nas, że jest to główna grupa docelowa sklepu rowerowego. Zainteresowanie zakupem rowerów wyraźnie zmniejsza się powyżej 55. roku życia. Brak danych wśród osób poniżej 25 roku życia sugeruje nam, że należałoby skierować działania marketingowe i zachęcić młodsze osoby do kupowania rowerów. Analizując wykres przedstawiający klientów, którzy odwiedzili sklep, jednak nie zdecydowali się na rower należałoby znacznie zwiększyć działania zachęcające do kupna w przedziale 18/25-70 lat.
Analiza rozkładu zakupu roweru według płci
No | Yes | |
---|---|---|
Female | 242 | 231 |
Male | 254 | 225 |
Wykres słupkowy ukazuje podobną liczbę zakupów rowerów przez kobiety i mężczyzn, z nieznacznie wyższą liczbą zakupów dokonanych przez kobiety. Obie płcie wykazują również znaczącą liczbę osób, które nie zakupiły roweru, co sugeruje istnienie dużego potencjału rynkowego do zwiększenia sprzedaży. Wyniki te mogą naprowadzać sklep rowerowy na równomierne skupienie działań marketingowych na obie płcie, aby poprawić konwersję i sprzedaż. o może przyczynić się do równomiernej poprawy wyników sprzedażowych w sklepie rowerowym.
Analiza zależności między dochodem a zakupem roweru
Wykres pudełkowy prezentuje zależność między dochodem, a decyzją o zakupie roweru. Wyżej widać dwa pudełka, które reprezentują grupy “No” (nie zakupili roweru) i “Yes” (zakupili rower). Wartości odstające są widoczne w obu grupach, ale jest ich więcej w grupie, która zakupiła rowery. Wartości te wskazują obecność osób z wyższym dochodem, które zdecydowały się na zakup. Większy rozstęp dochodów występuje w grupie, która nie zdecydowała się na zakup roweru. Wykres nie wykazuje różnicy w medianie dochodów między grupami, ale wskazuje na większe zróżnicowanie dochodów wśród osób, które zakupiły rower. Brak różnicy mediany może sugerować, że dochód nie jest jedynym czynnikiem wpływającym na decyzję o zakupie roweru, chociaż osoby z wyższymi dochodami mogą wykazywać tendencję do dokonywania tego rodzaju zakupów, co obrazują obserwowane wartości odstające.
Analiza grup zawodowych wśród klientów
Grupa Zawodowa | Liczba zakupów |
---|---|
Clerical | 83 |
Management | 69 |
Manual | 50 |
Professional | 144 |
Skilled Manual | 110 |
Wykres słupkowy przedstawia liczbę zakupów rowerów w zależności od grupy zawodowej. Można zauważyć, że największa liczba zakupów rowerów przypada na kategorię „Professional”, co sugeruje, że osoby na wysokich stanowiskach są najbardziej skłonne do zakupu roweru. Strategia marketingowa może skupić się na dostarczeniu produktów i treści, które przyciągną tę grupę, np. rowery o wyższych specyfikacjach i akcesoria dla profesjonalistów. Osoby wykonujące prace fizyczne „Skilled Manual” również wykazująznaczną liczbę zakupów. Pracownicy ci mogą preferować rowery, które są wytrzymałe i funkcjonalne. Warto więc podkreślać te cechy w marketingu, wskazując na solidność konstrukcji i dostosowanie do różnych warunków. Kategoria „Clerical” również wykazuje stosunkowo wysoką liczbę zakupów. Strategia marketingowa może obejmować dostosowane oferty dla pracowników biurowych, np. rowery do użytku miejskiego, akcesoria ułatwiające codzienne dojazdy. Grupy „Management” i „Manual” prezentują niższą liczbę zakupów. Warto rozważyć specjalne oferty, promocje lub kampanie reklamowe, które przyciągną ich uwagę i zwiększą chęć zakupu. Ponieważ grupa ta może być mniej doświadczona w zakupach rowerów, warto skoncentrować się na edukacji. Materiały informacyjne, poradniki dotyczące wyboru i wsparcie klienta w sklepie i online mogą być kluczowe.
Analiza odległości z domu do pracy
Odległość miejsca zamieszkania od pracy | Liczba zakupów |
---|---|
0-1 Miles | 187 |
1-2 Miles | 76 |
10+ Miles | 30 |
2-5 Miles | 92 |
5-10 Miles | 71 |
Największą grupę osób decydujących się na zakup roweru stanowią osoby mieszkające mniej niż 1 milę od miejsca pracy. Strategia marketingowa może skupić się na dostarczeniu produktów i usług takich jak: rowery miejskie, torby i plecaki czy specjalne promocje dla lokalnych mieszkańców. Osoby mieszkające w odległości 1-10 mili od pracy również często decydują się na zakup roweru. Chociaż graniczne odległości znacznie się od siebie różnią, to nie widać znaczącej różnicy w ilości zakupów. Oznacza to, że te odległości nie mają większej różnicy. W strategii marketingowej należy skupić się na dostosowaniu oferty i komunikacji tak, aby spełnić różnorodne oczekiwania tej grupy. Powyżej 10 mil odległości domu od pracy widać znaczący spadek sprzedaży rowerów. Najkorzystniejsze będzie skupienie się na promocji rowerów elektrycznych wśród osób z tej grupy, ale również akcesoriach do tras długodystansowych czy programach rabatowych dla klientów spoza miasta.
Statystyki opisowe
Statystyka | Brak zakupu | Zakup |
---|---|---|
Zarobki | ||
Min | 10000 | 10000 |
Max | 170000 | 170000 |
Kwartyl dolny | 30000 | 40000 |
Mediana | 60000 | 60000 |
Kwartyl górny | 70000 | 70000 |
Średnia | 54455.65 | 57478.07 |
Odch. std. | 30985.6 | 30648.66 |
IQR | 40000 | 30000 |
Odchylenie ćwiartkowe | 20000 | 15000 |
Odch. std. w % | 0.57 | 0.53 |
Odch. ćwiartkowe w% | 0.67 | 0.5 |
Skośność | 0.66 | 0.8 |
Kurtoza | 0.1 | 0.67 |
Minimalne i maksymalne zarobki są jednakowe dla obu grup, co oznacza, że nie ma znaczących różnic w ekstremalnych przypadkach. Obie grupy obejmują zarobki od 10,000 do 170,000. Osoby, które zdecydowały się na zakup roweru, wydają się charakteryzować wyższymi zarobkami w porównaniu do tych, które nie podjęły takiej decyzji. Grupa zakupowa ma stabilniejszą sytuację finansową, co odzwierciedla się w niższej zmienności zarobków. Mimo to, istnieje pewna różnorodność zarobków w obu grupach. Wartości mediany zarobków są identyczne dla obu grup, co sugeruje, że decyzja o zakupie roweru nie jest związana z poziomem zarobków. Analiza skośności wskazuje, że istnieje grupa klientów z wyższymi zarobkami, ale różnice te nie są znaczne. Ponadto, kształt rozkładu zarobków dla obu grup jest w miarę zbliżony do normalnego. Choć osoby decydujące się na zakup roweru mają tendencję do wyższych zarobków, istnieje pewna zróżnicowana dynamika zarobków w obu grupach. Decyzja zakupowa nie jest jednoznacznie uzależniona od poziomu zarobków, ale może być kształtowana przez inne czynniki.
Statystyka | Brak zakupu | Zakup |
---|---|---|
Wiek | ||
Min | 25 | 25 |
Max | 89 | 78 |
Kwartyl dolny | 35 | 36 |
Mediana | 44.5 | 41 |
Kwartyl górny | 55 | 50 |
Średnia | 45.47 | 42.94 |
Odch. std. | 12.42 | 10.09 |
IQR | 20 | 14 |
Odchylenie ćwiartkowe | 10 | 7 |
Odch. std. w % | 0.27 | 0.23 |
Odch. ćwiartkowe w% | 0.45 | 0.34 |
Skośność | 0.36 | 0.6 |
Kurtoza | -0.62 | -0.02 |
Minimalny wiek dla obu grup wynosi 25 lat, a maksymalny wiek różni się w zależności od grupy. Dla grupy “Brak zakupu” to 89 lat, a dla grupy “Zakup” to 78 lat. Wśród najstarszych ankietowanych, częściej osoby nie decydują się na zakup roweru. Zmienna skośność i kurtoza wskazują na pewne nieregularności w rozkładzie wieku, ale ogólny kształt jest zbliżony do rozkładu normalnego.
Macierz korelacji
Przedstawiona powyżej macierz korelacji ukazuje związki korelacyjne między różnymi zmiennymi. Istnieją umiarkowane pozytywne powiązania między dochodem a liczbą dzieci, liczbą posiadanych samochodów i wiekiem. Między dochodem a liczbą posiadanych rowerów występuje bardzo niska pozytywna korelacja, a więc dochód nie wydaje się mieć wpływu na decyzję o zakupie roweru. Liczba dzieci ma powiązanie z liczbą posiadanych aut i wiekiem, natomiast wzrost liczby aut zmniejsza szansę na zakup roweru.
Wnioskowanie statystyczne
Porównanie dochodów osób kupujących i niekupujących rower
Wykres przedstawia porównanie dochodów osób, które kupiły rower i tych, które na zakup się nie zdecydowały. Jest to rodzaj wykresu skrzypcowego połączonego z wykresem punktowym, który pokazuje rozkład dochodów w obu grupach.
Na wykresie widać czerwone punkty, które informują nas o średnich dochodach obu grup. Wykresy skrzypcowe pokazują rozkład dochodów w obu grupach, a ciemniejsze obszary wskazują na większe zagęszczenie danych.
Statystyki testu t-Welcha, który jest używany do porównania średnich dwóch grup, które mogą nie mieć tej samej wariancji, pokazują, że t-statystyka wynosi -1.51, z p-value równym 0.13. P- value większe niż 0.05 wskazuje, że nie ma statystycznie istotnej różnicy w dochodach między tymi dwiema grupami.
Miara efektu, Hedges’ g, wynosi -0.10 z 95% przedziałem ufności od -0.23 do 0.03, co wskazuje na bardzo mały efekt rozmiaru między dwiema grupami. Ponieważ przedział ufności dla Hedges’ g zawiera zero, można wnioskować, że różnica dochodów między grupami nie jest istotna.
Dodatkowe statystyki na wykresie to log_e(BF01), który wynosi 1.50. Wskaźnik Bayesowskiego czynnika na korzyść hipotezy zerowej (BF01) wskazuje na to, że według analizy Bayesowskiej, hipoteza zerowa (brak różnicy w dochodach) jest 1.50 razy bardziej prawdopodobna niż hipoteza alternatywna (różnica w dochodach), co wskazuje na brak silnych dowodów na istnienie różnicy w dochodach.
Podsumowując, analiza statystyczna nie wykazała istotnych różnic w dochodach między osobami kupującymi rower a tymi, które go nie kupiły. Zarówno test t-Welcha, jak i analiza Bayesowska wskazują na brak statystycznie istotnej różnicy w dochodach między tymi dwiema grupami.
Porównanie wieku osób kupujących i niekupujących rower
Wykres wyżej przedstawia porównanie wieku osób kupujących rower i niekupujących. Na wykresie widać czerwone punkty, które informują nas o średnim wieku dla obu grup. Wykresy skrzypcowe pokazują rozkład dochodów w obu grupach, a ciemniejsze obszary wskazują na większe zagęszczenie danych.
Statystyki testu t-Welcha (używanego do porównywania średnich dwóch grup o potencjalnie różnych wariancjach) wskazują na t-statystykę równą 3.47 z p-value 0.000552, co sugeruje, że istnieje statystycznie istotna różnica w średnim wieku między osobami kupującymi a niekupującymi rower. Wielkość efektu, mierzona za pomocą Hedges’ g, wynosi 0.22, z 95% przedziałem ufności od 0.10 do 0.35, co wskazuje na mały do umiarkowanego efekt wielkości.
Dodatkowe statystyki na wykresie to log_e(BF01), który wynosi -3.16. Ujemmna wartość logarytmu naturalnego Bayesowskiego czynnika na korzyść hipotezy zerowej (BF01) sugeruje, że dane są silnym dowodem przeciwko hipotezie zerowej (brak różnicy w wieku) w porównaniu do hipotezy alternatywnej (różnica w wieku).
Różnica a posteriori wynosi 2.50 lat, co wskazuje, że osoby kupujące rowery są średnio o 2.5 roku młodsze niż te, które nie kupiły roweru. Przedział ufności ETI dla tej różnicy jest od 1.07 do 3.92 lat, co potwierdza istnienie różnicy w wieku między grupami.
Podsumowując, analiza statystyczna sugeruje, że istnieje statystycznie istotna różnica w średnim wieku między osobami kupującymi rowery, a tymi, które ich nie kupują, sugerująca, że osobami kupującymi są osoby młodsze (w rozumieniu średniej wieku grupy). Zarówno test t-Welcha, jak i analiza Bayesowska wskazują na różnicę w wieku między tymi dwiema grupami.
Porównanie grupy zawodowej osób kupujących i niekupujących rower
Wykres przedstawia porównanie decyzji o zakupie roweru w zależności od grupy zawodowej osób. Grupy zawodowe podzielone są na: Clerical (pracownicy biurowi), Management (zarządzanie), Manual (pracownicy fizyczni), Professional (specjaliści) oraz Skilled Manual (wykwalifikowani pracownicy fizyczni).
Na zielono zostały przestawione procentowe ilości osób, które zdecydowały się na zakup w każdej grupie zawodowej, a na czerwono te, które roweru nie kupiły.
Statystyki testu chi-kwadrat χ2χ2 pokazują wartość 8.77 z p-value 0.07, co sugeruje, że nie ma statystycznie istotnej różnicy w decyzji o zakupie roweru między różnymi grupami zawodowymi, ponieważ p-value jest wyższe niż typowy próg istotności statystycznej wynoszący 0.05. Wartość Craméra V wynosi 0.07, co wskazuje na bardzo małą siłę związku między grupą zawodową, a decyzją o zakupie roweru. Przedział ufności dla V Craméra (CI95%) zawiera się w przedziale [0.00, 1.00], ale bliskość dolnej granicy do zera dodatkowo sugeruje słaby związek.
Bayesowski czynnik (BF01) logarytmowany wynosi 3.88, co wskazuje, że dane są prawie 49 razy (e^3.88) bardziej prawdopodobne pod hipotezą zerową (brak różnicy) niż pod hipotezą alternatywną (istnieje różnica).
Dodatkowo, wartość Craméra V a posteriori wynosi 0.09, a przedział ufności ETI dla tej wartości jest bardzo szeroki [0.00, 0.16], co jeszcze raz potwierdza, że różnica między grupami zawodowymi może być nieistotna. Wartość Gunel-Dickey wynosi 1.00, co wskazuje na brak dowodów przeciwko hipotezie zerowej.
Podsumowując, analiza wykresu sugeruje, że decyzja o zakupie roweru nie różni się znacząco między grupami zawodowymi. Zarówno tradycyjne podejście statystyczne (test chi-kwadrat), jak i podejście Bayesowskie wskazują na brak istotnych różnic między grupami zawodowymi w kontekście zakupu roweru.
Porównanie wykształcenia osób kupujących i niekupujących rower
Wykres przedstawia porównanie wykształcenia osób kupujących i niekupujących roweru. Wykształcenie jest podzielone na kilka kategorii: Partial High School (niedokończona szkoła średnia), Partial College (niedokończone studia wyższe), High School (ukończona szkoła średnia), Graduate Degree (stopień naukowy magistra lub wyższy) oraz Bachelors (licencjat).
Dane są przedstawione w procentach i rozdzielone między osoby, które kupiły rower (“Yes”) i które nie kupiły roweru (“No”). Z lewej strony wykresu, dla osób które nie kupiły roweru, największy procent osób ma tylko częściowo ukończoną szkołę średnią (27%), podczas gdy wśród osób, które kupiły rower, największy procent osób ma stopień naukowy magistra lub wyższy (35%).
Test chi-kwadrat pokazuje wartość χ2 równą 24.40 z p-value 0.0000635, co wskazuje na istotną statystycznie różnicę w poziomie wykształcenia między osobami kupującymi, a niekupującymi roweru. Wartość Craméra V wynosi 0.15, co wskazuje na umiarkowaną siłę związku między wykształceniem, a decyzją o zakupie roweru. Przedział ufności dla V Craméra (CI95%) zawiera się w przedziale [0.07, 1.00], co potwierdza istnienie związku, chociaż zakres tego przedziału jest szeroki.
Logarytm Bayesowskiego czynnika na korzyść hipotezy zerowej (log_e(BF01)) wynosi -3.82, co oznacza, że dane są bardzo silnym dowodem przeciwko hipotezie zerowej (brak różnicy) i wspierają hipotezę alternatywną (istnieje różnica). Jest to potwierdzone przez wartość posterior Craméra V równą 0.15, z 95% przedziałem ufności ETI od [0.09, 0.21], wskazującym na umiarkowaną siłę związku.
Podsumowując, analiza wykresu sugeruje, że poziom wykształcenia ma związek z decyzją o zakupie roweru, przy czym osoby z wyższym wykształceniem mają większą tendencję do zakupu roweru niż osoby z niższym wykształceniem. Zarówno tradycyjna analiza statystyczna, jak i analiza Bayesowska wskazują na istotność i siłę tego związku.
Porównanie stanu cywilnego osób kupujących i niekupujących rower
Powyższy wykres jest sprawdzenie zależności między stanem cywilnym, a decyzją o zakupie roweru. Lewa kolumna pokazuje, że wśród osób, które nie zdecydowały się na kupno 59%, to osoby po ślubie, natomiast 41% to osoby nie będące w związku małżeńskim. Z kolei prawa kolumna przedstawiająca osoby, które kupiły rower informuje nas o mniejszej różnicy między dwiema grupami. Osoby niezamężne stanowią 51%, a zamężne 49%.
Statystyki na górze wykresu wskazują na wyniki testu chi-kwadrat. Wartość χ2 wynosi 10.71 z p- value 0.00107 (p < 0.05), co sugeruje, że istnieje statystycznie istotna różnica w rozkładzie stanu cywilnego między grupami kupujących i niekupujących rower. Wartość Craméra V wynosi 0.10, co wskazuje na niewielką siłę związku. Przedział ufności dla V Craméra (CI95%) mieści się w przedziale od 0.04 do 1.00.
Dodatkowo, na dole wykresu znajduje się logarytm z bazy e Bayesowskiego czynnika na korzyść hipotezy zerowej (log_e(BF01)), który wynosi -2.84. To sugeruje, że dane mocno wspierają hipotezę alternatywną, że stan cywilny ma wpływ na decyzję o zakupie roweru. Wartość posterior Cramér’s V wskazuje na podobne wnioski, a przewidywany przedział dla tej wartości (ETI) jest bardzo szeroki. Wartość Gunel-Dickey wynosi 1.00, co jest kolejnym wskaźnikiem wspierającym hipotezę alternatywną.
Należy jednak zwrócić uwagę, że szeroki przedział ufności dla V Craméra i ETI może wskazywać na dużą niepewność w tych oszacowaniach, a wartość 1.00 dla Gunel-Dickey sugeruje, że nie ma dowodów na przeciwieństwo hipotezy alternatywnej.
Podsumowując, analiza wykresu sugeruje, że istnieje związek między stanem cywilnym, a decyzją o zakupie roweru, z tym, że osoby nie będące w związku małżeńskim mają nieco większą tendencję do zakupu roweru niż osoby po ślubie.
Podsumowanie
Biorąc pod uwagę wszystkie informacje zawarte w raporcie strategia marketingowa sklepu Roverlove ma mnóstwo ścieżek, które można wybrać w różnych momentach roku.
Analiza danych sugeruje równomierne akcje marketingowe skierowane do obu płci. Warto jednak rozszerzyć kampanie z uwzględnieniem ofert skierowanych do osób młodych (do 35 roku życia). Dotychczas był to ewidentnie niewykorzystany potencjał.
Chociaż żaden zawód oprócz stanowisk „specjalistów” nie wykazał istotnie większego potencjału, to jednak warto skupić się na specjalnych ofertach lub promocjach dostosowanych do potrzeb poszczególnych grup zawodowych.
Osoby mieszkające bliżej miejsca pracy wykazują większą skłonność do zakupu roweru. Marketing może być skierowany na dostarczanie produktów i promocji dla lokalnych mieszkańców. Również, warto uwzględnić oferty dostosowane do potrzeb klientów zainteresowanych dłuższymi trasami.
Młodsze osoby, osoby niebędące w związku małżeńskim oraz te z wyższym wykształceniem wykazują większą skłonność do zakupu. Warto zauważyć, że choć nie stwierdzono istotnych różnic w dochodach, inne czynniki, takie jak preferencje rekreacyjne, odgrywają istotną rolę w procesie decyzyjnym. Na podstawie tych spostrzeżeń zaleca się opracowanie elastycznej strategii marketingowej, która uwzględni zróżnicowane profile klientów. Dostosowane oferty i kampanie skierowane do młodszych, niebędących w związkach małżeńskich klientów o wyższym wykształceniu mogą zwiększyć skuteczność przyciągania tej grupy.
Podjęcie działań w oparciu o te zalecenia może pomóc w dostosowaniu strategii marketingowej do zróżnicowanych grup klientów, zwiększając skuteczność działań promocyjnych i zaspokajając różnorodne potrzeby rynkowe. W miarę rozwoju kampanii warto monitorować reakcje klientów i dostosowywać strategię w odpowiedzi na zmieniające się trendy i preferencje.