Analiza danych projekt zespołowy
W ramach zaliczenia przedmiotu Analiza danych na kierunku Analityka
Gospodarcza II zostaliśmy zobligowani do wykonania specjalnego projektu
wybranego przez prowadzącego.
Wylosowanym zestawem danych okazał się zbiór dotyczący
supermarketów.
Niniejszy projekt składa się z sześciu części tematycznych
odpowiednio wyróżnionych nagłówkami stylu H2.
Tu będzie spis treści
Wprowadzenie
W dynamicznym świecie handlu detalicznego, rozwój supermarketów w
najbardziej zaludnionych miastach osiąga coraz to nowe szczyty
konkurencyjności. W kontekście tego zjawiska, kluczowym elementem staje
się dogłębna analiza danych sprzedażowych różnych supermarketów.
Niniejszy projekt ma na celu zbadanie i zrozumienie trendów
sprzedażowych w trzech oddziałach jedenej firmy będącej supermarketem,
reprezentujących różnorodne lokalizacje i demografie klientów.
Dane, na których opiera się ta analiza, zostały zebrane w ciągu
trzech miesięcy, od stycznia do marca 2019 roku, i zawierają szczegółowe
informacje na temat każdej transakcji. Fundamentami wykonanej w
projekcie analizy są takie zmienne jak: numer identyfikacyjny faktury
(Invoice ID), oddział, w którym dokonano zakupu (Branch), lokalizacja
supermarketu (City), typ klienta (Customer type), płeć (Gender), linia
produktów (Product line), cena jednostkowa (Unit price), ilość
zakupionych produktów (Quantity), opłata podatkowa (Tax), całkowita cena
zakupu (Total), data (Date) i czas transakcji (Time), metoda płatności
(Payment), koszt sprzedanych towarów (COGS), procentowa marża brutto
(Gross margin percentage), dochód brutto (Gross income) oraz ocena
klienta (Rating).
W kontekście rosnącej konkurencji na rynku, zrozumienie tych danych
może okazać się kluczowe dla formułowania strategii biznesowych i w
nadążaniu za dynamicznymi zmianami. Analizując, jak różne czynniki,
takie jak lokalizacja, typ klienta czy wybór produktów, wpływają na
wyniki sprzedaży, możemy lepiej zrozumieć potrzeby i preferencje
konsumentów. To z kolei może prowadzić do bardziej celowych i
skutecznych decyzji biznesowych, co jest niezwykle istotne w świecie,
gdzie klient i jego doświadczenia stanowią o sukcesie firmy.
Celem tego projektu jest nie tylko zrozumienie obecnych trendów, ale
także identyfikacja potencjalnych obszarów do rozwoju i innowacji w
branży supermarketów. Przez skupienie się na danych historycznych,
projekt ten ma na celu dostarczenie wartościowych wskazówek dla
przyszłych decyzji strategicznych i operacyjnych w branży
supermarketów.
Data Cleansing & Data Wrangling - czyli czyścimy i ujednolicamy
dane!
Pierwszy etap merytorycznej pracy z danymi, w żargonie analityków
danych określany jako “Data Cleansing” oraz “Data Wrangling”, to nic
innego jak czyszczenie i ujednolicanie danych na potrzeby niniejszego
projektu.
Rozpakowanie danych w programie RStudio i wyświetlenie ich
zawartości
Zanim jednak wdrożone zostaną takie prace, należy wgrać dane do
programu R i zerknąć na tablicę. W tym miejscu zweryfikowaliśmy typy
wszystkich zmiennych.
dane <- read.csv("Biedronki.csv")
Na potrzeby prac należy zainstalować niezbędne biblioteki, które
towarzyszyć będą na etapie czyszcznia danych.
install.packages("tidyverse")
install.packages("dlookr")
install.packages("editrules")
install.packages("VIM")
install.packages("deducorrect")
install.packages("ISLR")
library(tidyverse)
library(dlookr)
library(editrules)
library(VIM)
library(deducorrect)
library(ISLR)
Przechodząc do czyszczenia,cały proces rozpoczeliśmy od sprawdzenia,
ile przypadków danych jest kompletnych, czyli czy występując NA. Jednak
braki danych to nie wszystko. Postanowiliśmy sprawdzić, czy w zbiorze
danych znajdują się jakieś wartości specjalne. Do tego posłużyła
specjalna funkcja. Na wypadek, gdyby pojawiły się jakieś wartości
specjalne, zdecydowaliśmy się, że przypiszemy im wartości NA. W tym celu
wykorzystaliśmy pętlę. Tak przeprowadzone operacje pozwalają wydrukować
statystyki opisowe dla zmiennych.
sum(complete.cases(dane))
is.special <- function(x){
if (is.numeric(x)) !is.finite(x) else is.na(x)}
sapply(dane, is.special)
for (n in colnames(dane)){
is.na(dane[[n]]) <- is.special(dane[[n]])
}
summary(dane)
Powyższy kod pozwala stwierdzić, że w zbiorze danych nie ma NA.
Jednak postanowiliśmy zagłębić się jeszcze w słuszność tego twierdzenia.
Ostatecznym potwierdzeniem będzie dla nas wizualizacja obecności
ewentualnych NA. W tym celu pobraliśmy specjalny pakiet “naniar”.
install.packages("naniar")
library(naniar)
vis_miss(dane)
Co do braków danych mamy już absolutną pewność. Dzięki temu możemy
pójść dalej i spojrzeć na to jak ukształtowują się zmienne jakościowe
(liczbowe). W tym celu wykorzystamy popularną metodę wizualizacji -
wykresy pudełkowe.Taki zabieg na danych pozwoli na wyselekcjonowanie
tych zmiennych ciągłych, które zawierają wartości odstające.
boxplot(dane$Unit.price)
boxplot(dane$Tax.5.) #zawiera wartości odstające
boxplot(dane$Total) #zawiera wartości odstające
boxplot(dane$cogs) #zawiera wartości odstające
boxplot(dane$gross.margin.percentage)
boxplot(dane$gross.income) #zawiera wartości odstające
boxplot(dane$Rating)
Wizualizacja danych - spójrzmy jakie mamy informacje!
Po tym jak przeprowadziliśmy procedurę czyszczenia i ujednolicania
naszych wejściowych danych, możemy skupić się na ich konkretnej
wizualizacji. Postanowiliśmy za pomocą wykresu kolumnowego przedstawić
stosunek produktów do ceny z podatkiem. Zwizuowaliśmy również stosunek
miasta do ceny zawierającej podatek oraz stosunek miasta do satysfakcji
klienta. Jednak zacznijmy od początku.
install.packages('ggplot2')
library('ggplot2')
ggplot(dane, aes(x = dane$Product.line, y = dane$Total)) +
geom_col(fill="lightpink2") +
xlab("Kryteria produktów") +
ylab("Cena wraz z podatkiem [$]")
Intepretacja: Analizując kryteria produktów oraz ceny, które mają już
wliczony podatek, to w sklepie dyskontowym Biedronka najdroższe produkty
względem cenowym znajdują się w jedzeniach i napojach, co uważamy, że
jest zjawiskiem negatywnym, ponieważ podatki stanowią większość ceny
przez podatek cukrowy.
Skupimy się teraz na stosunku miasta do ceny z obowiązującym
podatkiem.
ggplot(dane, aes(x = dane$City, y = dane$Total)) +
geom_col(fill="green4")+
xlab("Miasto") +
ylab("Cena wraz z podatkiem [$]")
Interpretacja: Biorąc pod uwagę miasta oraz cena z wliczony z
podatkiem, można wysunąć pewne wnioski, a mianowicie miasto Naypyitaw
charakteryzuje się najdroższymi produktami, z kolei dwa pozostałe miasta
pod nazwami: Mandalay i Yangon są na tym samym poziomie.
Następnie postanowiliśmy zobrazować relację ceny do satysfakcji
klienta.
ggplot(dane, aes(x = dane$Total, y = dane$Rating)) +
geom_col(size=1, fill="blue4")+
xlab("Cena z podatkiem") +
ylab("Satysfakcja klienta")
Interpretacja: Biorąc pod uwagę stosunek satysfakcji klienta do samej
ceny z wliczonym podatkiem, można wysunąc następujące wnioski.
Największą liczbą ocen charakteryzują się ceny w okolicach 500$, zaś
najmniejszą liczbą ocen ceny równe 1000 dol, bądź wyższe.
Najwyższy czas zatem zbadać kształtowanie się ilości. Zaczęliśmy od
ilości ocen satysfakcji klienta.
ggplot(dane, aes(dane$Rating)) +
geom_bar(fill="purple4")+
xlab("Satysfakcja klienta") +
ylab("Ilość ocen")
Interpretacja: Analizując poniższy wykres można stwierdzić, iż
największą ilością ocen satysfakcji klienta zyskała ocena 6. Jest to
powyżej połowy, co jest pozytywnym wynikiem dla sklepu dyskontowego.
Warto spojrzeć teraz na liczbę wykonanych zakupów w poszczególnych
miastach.
ggplot(dane, aes(dane$City)) +
geom_bar(fill="lightgreen")+
xlab("Miasto") +
ylab("Ilość faktur")
Interpretacja: Powyższy wykres przedstawia ilość wykonanych zakupów w
oparciu o trzy miasta. Największą liczbą dokonanych zakupów
charakteryzuje się miasto Yangon, zaś najmniejszą Naypyitaw.
Zobrazujemy teraz liczbę płatności ze względu na sposób ich
dokonania.
ggplot(dane, aes(dane$Payment)) +
geom_bar(fill="lightpink")+
xlab("Rodzaj płatności") +
ylab("Ilość płatności")
Intepretacja: Wykres przedstawia ilość płatności z podziałem na
rodzaje. Największym zainteresowaniem cieszy się tradycyjna płatność,
czyli płatność gotówką oraz elektronicznym portfelem, natomiast
najmniejszym karta kredytowa jest to duże zaskoczenie, patrząc na to, że
coraz więcej społeczeństwa odbiega od używania gotówki.
Ostatnią tego typu graficzną prezentacją jest stosunek ilości
produktów przynależących do określonych grup.
ggplot(dane, aes(dane$Product.line)) +
geom_bar(fill="orange2")+
xlab("Rodzaj produktu") +
ylab("Ilość")
Intepretacja: Wykres kolumnowy przedstawia ilość produktów, które
posiada każdy z rodzai produktów. Najwięcej produktów należy do grupy
pod nazwą:modowe akcesoria, zaś najmniejszą: zdrowie i uroda.
Następnie postanowiliśmy wykonać wizualizację rozkładów
poszczególnych zmiennych ilościowych. Zaczęliśmy od przedstawienia za
pomocą histogramu relacji ilości produktów zakupionych przez
klientów.
ggplot(dane, aes(dane$Quantity)) +
geom_histogram(fill="lightblue")+
xlab("Ilość produktów") +
ylab("Potwórzenia ilości produktów zakupionych przez klientów")
Intepretacja: Wykres przedstawia powtórzenia w kontekście ilości
produktó zakupionych przez klientów sklepu. Największy wynik wynosi 10
produktów, ponieważ powtórzył się on ponad 100 razy. Natomiast
najmniejszą ilością charakteryzuje się ilość 8 produktów, bo powtórzenia
wyniosły tylko ok. 86 powtórzeń.
Następnie zastanowiliśmy się na tym jak wygląda rozkład opłaty
podatkowej.
ggplot(dane, aes(dane$Tax.5.)) +
geom_density(fill = "cornsilk")+
xlab("Opłata podatkowa") +
ylab("Ilość powtórzeń występującej opłaty podatkowej")
Intepretacja: Wykres przedstawia rozkład opłat podatkowych w
wysokości 5% dla klienta dokonującego zakupy można stwierdzić, że
największą ilościa charakteryzuje się podatek o wysokości ok. 6-7
dolara.
Wizualizacji poddaliśmy również liczbę kupionych produktów w danej
cenie w różnych oddziałach supermarketów.
ggplot(dane, aes(dane$Unit.price)) +
geom_histogram(binwidth = 4, center = 2.5, fill = "green3") +
facet_wrap(vars(dane$Branch)) +
xlab("Cena każdego produktu [$]") +
ylab("Ilość powtórzeń")
Intepretacja: Wizualizacja rozkładów z podziałem na oddział
supercentrum pokazuje nam ile razy kupiono produkt za daną cenę.
Największymi wynikami wyróżnia się supercentrum C, czyli miejscowość
Naypyitaw, ponieważ posiada największą ilość powtórzeń ceny 100 dolara w
porównaniu z innymi oddziałami.
Zbadaliśmy również jak wygląda rozkład ocen satysfakcji z podziałem
na płeć.
ggplot(dane, aes(dane$Rating)) +
geom_histogram(binwidth = 4, center = 2.5, fill = "pink") +
facet_wrap(vars(dane$Gender)) +
xlab("Ocena satysfakcji") +
ylab("Ilość powtórzeń")
Intepretacja: Wizualizacja rozkładów obrazuje nam ilość ocen
satysfakcji w oparciu na podział względem płci. Mężczyźni wyróżniają się
na tle kobiet, ponieważ najczęściej z większą ilością powtórzeń
wybierali oceny w przedziale od 5.0-8.0. Kobiety również skłaniały się
do tego samego przedziału, jednakże możemy zauważyć, że sklep Biedronka
posiada więcej klientów płci męskiej, niż płci żeńskiej.
Za ciekawe uznaliśmy również przedstawienie za pomocą wykresu, cen z
podatkiem w poszczególnych miesiącach. W tym celu musieliśmy wgrać
niezbędne biblioteki.
install.packages("colorspace")
library(colorspace)
library(ggforce)
library(ggridges)
dane$month <- format( as.Date (dane$Date, format=" %m/%d/%Y ")," %m ")
ggplot(dane, aes(x = dane$month, y = dane$gross.income)) +
geom_point(size = 0.75, fill="black") +
xlab("Miesiąc") +
ylab("Dochód brutto")
Intepretacja: analizując rozkład, który opiera się podziałem na
miesiące względem dochodu brutto, można stwierdzić iż styczeń był
najbardziej dochodowym miesiącem, jeśli chodzi o ceny posiadające wysoki
zysk brutto. Natomiast najniższy dochód brutto osiągnięty przez filie
supermarketu został osiągnięty w marcu.
Analiza opisowa - z czym w końcu mamy do czynienia?
Gdy już nasz zbiór danych nie skrywa wizualnych tajemnic, możemy
ruszać do pracy z analizą opisową. Zaczynamy od wyznaczenia zakresu cen
z wliczonym podatkiem oraz prac z tymi informacjami.
range(dane$Total) #znajdujemy zakres cen z wliczonym podatkiem
max(dane$Total)-min(dane$Total)
Intepretacja: Biedronka charakteryzuje się minimalną (10.68) oraz
maksymalną ceną z podatkiem (1042.65), co pozwala stwierdzić, że sklep
dyskontowy charakteryzuje się zróżnicowanym poziomem cen w produktach,
które posiada. Z przedstawionych powyżej operacji wiadomym jest również,
że różnica pomiędzy maksymalną, a minimalną ceną (z podatkiem) wynosi
1031.97 dolara.
Przejdziemy teraz do dalszych prac.
limits<-cut(dane$Total,seq(0,1100,by=100))
table1<-table(limits)
transform(table1,Rel_Freq=prop.table(Freq),Cum_Freq=cumsum(Freq))
# Przedstawmy powyższe na wykresie
hist(dane$Total,prob=TRUE,breaks=seq(0,1100,by=100),main="Total",sub="w $")
lines(density(dane$Total),col=6)
install.packages("classInt")
library(classInt)
tab1<-classIntervals(dane$Total,n=11,style="fixed",fixedBreaks=seq(0,1100,by=100))
tab1
jenks.tests(tab1)
Zajmiemy się teraz statystykami opisowymi dla zmian całkowitej
sprzedaży wraz z podatkiem. Oprócz obecnych pakietów, potrzebny będzie
jeszcze inny: “kableExtra”.
library(kableExtra)
dane%>%
group_by(Gender)%>%
summarize('Suma sprzedaży'=sum(dane$Total),
'Średnia sprzedaż'=mean(dane$Total),
'Mediana sprzedaży'=median(dane$Total),
'Minimalna sprzedaż'=min(dane$Total),
'Maksymalna sprzedaż'=max(dane$Total),
'Odchylenie standardowe'=sd(dane$Total))%>%
arrange(desc('Suma sprzedaży')) %>%
kbl()%>%
kable_styling(bootstrap_options = c("striped", "hover","responsive"),position="center")
(Interpretacja wyników).Teraz zajmiemy się spojrzeniem na statystyki
dotyczące oceny satysfakcji klienta.
dane%>%
group_by(City)%>%
summarize('Suma ocen satysfakcji klientów'=sum(dane$Rating),
'Średnia ocen satysfakcji'=mean(dane$Rating),
'Mediana ocen satysfakcji'=median(dane$Rating),
'Minimalna ocena satysfakcji'=min(dane$Rating),
'Maksymalna ocena satysfakcji'=max(dane$Rating),
'Odchylenie standardowe'=sd(dane$Rating))%>%
arrange(desc('Suma ocen satysfakcji')) %>%
kbl()%>%
kable_styling(bootstrap_options = c("striped", "hover","responsive"),position="center")
(Interpretacja wyników).Kolejne statystyki dotyczą natomiast cen
produktów
dane%>%
group_by(Product.line)%>%
summarize('Suma cen produktów'=sum(dane$Rating),
'Średnia cen produktów'=mean(dane$Rating),
'Mediana cen produktów'=median(dane$Rating),
'Minimalna cen produktów'=min(dane$Rating),
'Maksymalna cena produktów'=max(dane$Rating),
'Odchylenie standardowe'=sd(dane$Rating))%>%
arrange(desc('Suma cen produktów')) %>%
kbl()%>%
kable_styling(bootstrap_options = c("striped", "hover","responsive"),position="center")
Wnioskowanie - warto sprawdzić pytania badawcze!
Hipotezy, które postawiliśmy w niniejszym projekcie na potrzeby
weryfikacji wybranych zjawisk.
Prace w tym zakresie rozpoczynamy od pobrania niezbędnych bibliotek
do R, popularnych z zakresu testowania statystycznego.
install.packages("ggstatsplot")
library(ggstatsplot)
Pierwszy wariant hipotez: H0: Kobiety kupują więcej produktów z
kategorii: zdrowie i uroda niż mężczyźni; H1: Kobiety nie kupują więcej
produktów z kategorii: zdrowie i uroda niż mężczyźni.
data=dane
x=dane$Gender
y=dane$Product.line
ggpiestats(x=Gender,
y=Product.line,
data=dane)
Wartość p (p-value) na poziomie 0,33 pokazuje, że nie ma podstaw do
odrzucenia hipotezy zerowej. Oznacza to, że kobiety rzeczywiście kupują
więcej produktów z kategorii produktów “zdrowie i uroda”.
Drugi wariant hipotez: H0: Mężczyźni kupują więcej produktów z
kategorii: elektronika niż kobiety; H1: Mężczyźni nie kupują więcej
produktów z kategorii: elektronika niż kobiety.
data=dane
x=dane$Gender
y=dane$Product.line
ggpiestats(x=Gender,
y=Product.line,
data=dane)
Wartość p (p-value) na poziomie 0,33 pokazuje, że nie ma podstaw do
odrzucenia hipotezy zerowej. Oznacza to, że mężczyźni kupują więcej
produktów z kategorii: elektronika niż kobiety.
Trzeci wariant hipotez: H0: Klienci posiadający kartę lojalnościową
wydają mniej od osób jej nieposiadających; H1: Klienci posiadający kartę
lojalnościową wydają więcej od osób jej nieposiadających.
data=dane
x=dane$Customer.type
y=dane$Total
ggbetweenstats(x=Customer.type,
y=Total,
data=dane)
Wynik wartości p (p-value) na poziomie 0,53 pokazuje, że nie ma
podstaw do odrzucenia hipotezy zerowej. Oznacza to, że klienci
posiadający kartę lojalnościową wydaj mniej od osób jej
nieposiadających.
Czwarty wariant hipotez: H0: Mężczyźni częściej od kobiet płacą za
zakupy eportfelem; H1: Mężczyźni rzadziej od kobiet płacą za zakupy
eportfelem.
data=dane
x=dane$Gender
y=dane$Payment
ggpiestats(x=Gender,
y=Payment,
data=dane)
Wynik wartości p (p-value) na poziomie 0,23 pokazuje, że nie ma
podstaw do odrzucenia hipotezy zerowej. Oznacza to, że mężczyźni
częściej od kobiet płacą za zakupy eportfelem.
Podsumowanie i wnioski końcowe - co wiemy z całej pracy?
