Spis treści: - Wprowadzenie - Data cleaning - Wizualizacja danych - Analiza Opisowa - Testy Statystyczne - Podsumowanie
1. Wprowadzenie
Dane przedstawiają ile poszczególna osoba wydała na zakup ubrań poprzednio, tym razem, w jakim regionie dokonano zakupów, czy uzyła kodu rabatowego, czy posiada subskrypcje, itp. Chcemy sprawdzić co wpływa na zachowania ludzi podczas kupowania przemiotow, jakie są różnice pomiędzy tym co kupują kobiety a co mężczyźni, jakie sa ulubione kolory, jakie ubrania w jakim kolorze sa najczęściej kupowane, jakie ubrania sprzedają sie najlepiej w poszczególnych Stanach, czy subskypcje oraz kody rabatowe mają wpływ na kupno większej ilości przedmiotów.
2.Opis danych
W tej sekcji raportu szczegółowo omówiono zostaną kluczowe informacje dotyczące każdej zmiennej w zestawie danych. Dla każdej zmiennej podano informacje na temat jej typu, opisu oraz potencjalnych wartości, jakie może przyjmować. Przeanalizowano również rozkład wartości, zakres, unikalne kategorie, co pozwala na lepsze zrozumienie kontekstu danych.
Opis zmiennych :
W poniższej tabeli zostały zaprezentowane zmienne znajdujące się w bazie danych, która została dostarczona do analizy.
| Rodzaj | Opis | |
|---|---|---|
| Customer.ID | integer | Unikalne identyfikatory klientów. |
| Age | integer | Wiek klientów. |
| Gender | character | Informacje o płci klienta (np. ‘Male’, ‘Female’). |
| Item.Purchased | character | Informacje o zakupionym przedmiocie. |
| Category | character | Informacje o kategorii zakupionego przedmiotu. |
| Purchase.Amount..USD. | integer | Kwoty zakupów w dolarach amerykańskich. |
| Location | character | Informacje o lokalizacji klienta (np. ‘Kentucky’, ‘Maine’). |
| Size | character | Informacje o rozmiarze zakupionego przedmiotu. |
| Color | character | Informacje o kolorze zakupionego przedmiotu. |
| Season | character | Informacje o sezonie zakupów (np. ‘Winter’, ‘Spring’). |
| Review.Rating | double | Oceny recenzji produktów, wyrażone w postaci liczb zmiennoprzecinkowych. |
| Subscription.Status | character | Informacje o statusie subskrypcji klienta (np. ‘Yes’, ‘No’). |
| Shipping.Type | character | Informacje o rodzaju dostawy (np. ‘Express’, ‘Free Shipping’). |
| Discount.Applied | character | Informacje o zastosowanych rabatach (np. ‘Yes’, ‘No’). |
| Promo.Code.Used | character | Informacje o użytym kodzie promocyjnym (np. ‘Yes’, ‘No’). |
| Previous.Purchases | integer | Informacje o liczbie poprzednich zakupów klienta. |
| Payment.Method | character | Informacje o wybranym przez klienta sposobie płatności (np. ‘Venmo’, ‘Credit Card’). |
| Frequency.of.Purchases | character | Informacje o częstotliwości zakupów (np. ‘Fortnightly’, ‘Weekly’). |
Wybór zmiennych do dalszej analizy:
#podgląd danych
str(dane)
## 'data.frame': 3900 obs. of 18 variables:
## $ Customer.ID : int 1 2 3 4 5 6 7 8 9 10 ...
## $ Age : int 55 19 50 21 45 46 63 27 26 57 ...
## $ Gender : chr "Male" "Male" "Male" "Male" ...
## $ Item.Purchased : chr "Blouse" "Sweater" "Jeans" "Sandals" ...
## $ Category : chr "Clothing" "Clothing" "Clothing" "Footwear" ...
## $ Purchase.Amount..USD. : int 53 64 73 90 49 20 85 34 97 31 ...
## $ Location : chr "Kentucky" "Maine" "Massachusetts" "Rhode Island" ...
## $ Size : chr "L" "L" "S" "M" ...
## $ Color : chr "Gray" "Maroon" "Maroon" "Maroon" ...
## $ Season : chr "Winter" "Winter" "Spring" "Spring" ...
## $ Review.Rating : num 3.1 3.1 3.1 3.5 2.7 2.9 3.2 3.2 2.6 4.8 ...
## $ Subscription.Status : chr "Yes" "Yes" "Yes" "Yes" ...
## $ Shipping.Type : chr "Express" "Express" "Free Shipping" "Next Day Air" ...
## $ Discount.Applied : chr "Yes" "Yes" "Yes" "Yes" ...
## $ Promo.Code.Used : chr "Yes" "Yes" "Yes" "Yes" ...
## $ Previous.Purchases : int 14 2 23 49 31 14 49 19 8 4 ...
## $ Payment.Method : chr "Venmo" "Cash" "Credit Card" "PayPal" ...
## $ Frequency.of.Purchases: chr "Fortnightly" "Fortnightly" "Weekly" "Weekly" ...
Zmieniamy nazwy nagłówków, żeby nie było kropek lub spacji na przykład: Purchase Amount USD na Purchase_Amount_USD. Kilka takich zmiennych zostało przedstawionych w poniższej tabeli.
| Customer_ID | Age | Gender | Item_Purchased | Category | Purchase_Amount_USD | Location | Size | Color | Season |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 55 | Male | Blouse | Clothing | 53 | Kentucky | L | Gray | Winter |
| 2 | 19 | Male | Sweater | Clothing | 64 | Maine | L | Maroon | Winter |
| 3 | 50 | Male | Jeans | Clothing | 73 | Massachusetts | S | Maroon | Spring |
| 4 | 21 | Male | Sandals | Footwear | 90 | Rhode Island | M | Maroon | Spring |
| 5 | 45 | Male | Blouse | Clothing | 49 | Oregon | M | Turquoise | Spring |
3.Data Cleaning
W tej sekcji raportu skupiono się na procesie eliminowania potencjalnych problemów jakościowych, takich jak brakujące dane, duplikaty czy błędy w danych.
Analiza danych zaczyna się od identyfikacji ewentualnych błędów i nieścisłości. W opisie procesu czyszczenia danych przedstawiono kroki podejmowane w celu usunięcia lub korekty tych problemów. Skupiono się również na standaryzacji formatów, przekształceniach zmiennych oraz weryfikacji spójności danych.
Sprawdzono czy w bazie danych występują jakieś braki. Wynik FALSE świadczy o tym, że dane nie mają braków.
| Opis | Wynik |
|---|---|
| Wartości puste | FALSE |
Sprawdzono również prostą funkcją czy wiek osób znajduje się w przedziale lat (0;100).
wiek <- function(wiek) {
return (wiek > 0 & wiek < 100)
}
# Sprawdzenie czy wiek jest w innym przedziale niż 0 < Age < 120
dane$wiek_ok <- wiek(dane$Age)
testwieku <- any(!dane$wiek_ok)
if (testwieku) {
cat("<p style='color:red;'>Wynik: Są błedy w wieku.</p>")
} else {
cat("<p style='color:green;'>Wynik: Brak błędów w wieku.</p>")
}
Wynik: Brak błędów w wieku.
Brak błedów w wieku stwierdza o poprawności wpisanych danych dotyczących wieku ludzi.
Sprawdzono również czy w kolumnie plci sa prawidlowe dane. Wynik pokazujący dwie płcie świadczy o poprawnych danych i braku błedów w kolumnie “Gender”. W poniższym zestawieniu widać, że w dostarczonych danych większość stanowią mężczyźni.
| Gender | Liczba |
|---|---|
| Female | 1248 |
| Male | 2652 |
Sprawdzenie czy w kolumnie kategorii sa prawidlowe dane funkcją n_distinct, która zwraca liczbę unikalnych wartości. Liczba 1 przy każdej z kategorii świadczy o tym, że w kolumnie kategorie są same unikalne wartości i nie ma błędów.
| Category | Liczba |
|---|---|
| Accessories | 1 |
| Clothing | 1 |
| Footwear | 1 |
| Outerwear | 1 |
4.Wizualizacja danych
W tej części raportu skupimy się na wizualizacji danych, która jest procesem reprezentowania informacji za pomocą graficznych elementów, takich jak wykresy czy tabeli. Ma to na celu ułatwienie zrozumienia danych poprzez przedstawienie ich w atrakcyjnej formie wizualnej. Pomaga to w identyfikowaniu wzorców, relacji i trendów, co wspiera procesy decyzyjne i komunikację danych.
Na samym wstępie sprawdzono jakiego rodzaju rzeczy najczęśniej kupują mężczyźni.
| Gender | Category | n |
|---|---|---|
| Male | Clothing | 1181 |
| Male | Accessories | 848 |
| Male | Footwear | 400 |
| Male | Outerwear | 223 |
Jak widać z powyższej tabeli są to rzeczy z kategorii “Clothing”.
Następnie sprawdzono po jakiego rodzaju rzeczy sięgały kobiety:
| Gender | Category | n |
|---|---|---|
| Female | Clothing | 556 |
| Female | Accessories | 392 |
| Female | Footwear | 199 |
| Female | Outerwear | 101 |
Jak widać podobnie jak mężczyźni kobiety najczęściej kupowały odzież.
Do analizy poddano również same zakupy w danych sezonach aby spróbować zauważyć potencjalną sezonowość w wyborach rzeczy.Stworzono w tym celu porównania dla każdej pory roku tj. jesień,zima ,wiosna lato
Na poniższym wykresie przedstawiono ilość zakupów w sezonie jesiennym. Jak widać z poniższego wykresu najwięcej zostało sprzedanych kurtek.
Takie same kroki podjęto dla pory zimowej. Najczesciej kupowanym przedmiotem w sezonie zimowym okazały się okulary przeciwsłoneczne.
## [1] 6
| Item_Purchased | Season | Category | n |
|---|---|---|---|
| Sunglasses | Winter | Accessories | 52 |
| Pants | Winter | Clothing | 51 |
| Shirt | Winter | Clothing | 50 |
| Hoodie | Winter | Clothing | 48 |
| Jewelry | Winter | Accessories | 47 |
| Sweater | Winter | Clothing | 42 |
| Jacket | Winter | Outerwear | 41 |
| Belt | Winter | Accessories | 40 |
| Blouse | Winter | Clothing | 40 |
| Dress | Winter | Clothing | 40 |
| Hat | Winter | Accessories | 40 |
| T-shirt | Winter | Clothing | 40 |
| Coat | Winter | Outerwear | 39 |
| Sneakers | Winter | Footwear | 39 |
| Shoes | Winter | Footwear | 38 |
| Skirt | Winter | Clothing | 38 |
| Shorts | Winter | Clothing | 35 |
| Socks | Winter | Clothing | 35 |
| Handbag | Winter | Accessories | 34 |
| Scarf | Winter | Accessories | 33 |
| Gloves | Winter | Accessories | 32 |
| Sandals | Winter | Footwear | 32 |
| Boots | Winter | Footwear | 31 |
| Jeans | Winter | Clothing | 29 |
| Backpack | Winter | Accessories | 25 |
Wiosną najczęściej konsumenci sięgali po swetry jak widać w poniższej tabeli.
## [1] 10
| Item_Purchased | Season | Category | n |
|---|---|---|---|
| Sweater | Spring | Clothing | 52 |
| Shorts | Spring | Clothing | 47 |
| Blouse | Spring | Clothing | 46 |
| Coat | Spring | Outerwear | 46 |
| Skirt | Spring | Clothing | 46 |
| Sandals | Spring | Footwear | 44 |
| Dress | Spring | Clothing | 43 |
| Gloves | Spring | Accessories | 42 |
| Jewelry | Spring | Accessories | 42 |
| Shirt | Spring | Clothing | 42 |
| Belt | Spring | Accessories | 41 |
| Scarf | Spring | Accessories | 41 |
| Boots | Spring | Footwear | 40 |
| Shoes | Spring | Footwear | 40 |
| Socks | Spring | Clothing | 40 |
| Backpack | Spring | Accessories | 39 |
| Sneakers | Spring | Footwear | 39 |
| T-shirt | Spring | Clothing | 38 |
| Handbag | Spring | Accessories | 36 |
| Hoodie | Spring | Clothing | 36 |
| Jacket | Spring | Outerwear | 35 |
| Sunglasses | Spring | Accessories | 33 |
| Jeans | Spring | Clothing | 32 |
| Pants | Spring | Clothing | 32 |
| Hat | Spring | Accessories | 27 |
W sezonie letnim najczęstszymi wyborami okazały się spodnie i sukienki.
## [1] 10
| Item_Purchased | Season | Category | n |
|---|---|---|---|
| Pants | Summer | Clothing | 50 |
| Dress | Summer | Clothing | 47 |
| Jewelry | Summer | Accessories | 47 |
| Shoes | Summer | Footwear | 46 |
| Backpack | Summer | Accessories | 45 |
| Blouse | Summer | Clothing | 43 |
| Scarf | Summer | Accessories | 43 |
| Coat | Summer | Outerwear | 42 |
| Socks | Summer | Clothing | 42 |
| Sandals | Summer | Footwear | 40 |
| Shorts | Summer | Clothing | 40 |
| Belt | Summer | Accessories | 39 |
| Boots | Summer | Footwear | 38 |
| Shirt | Summer | Clothing | 38 |
| Hat | Summer | Accessories | 37 |
| Sunglasses | Summer | Accessories | 37 |
| Sneakers | Summer | Footwear | 36 |
| Handbag | Summer | Accessories | 35 |
| Jacket | Summer | Outerwear | 33 |
| Hoodie | Summer | Clothing | 31 |
| Jeans | Summer | Clothing | 31 |
| T-shirt | Summer | Clothing | 30 |
| Gloves | Summer | Accessories | 29 |
| Skirt | Summer | Clothing | 28 |
| Sweater | Summer | Clothing | 28 |
Sprawdzono też jaki przedmiot był kupowany najczęściej ogólnie
## [1] 10
| Item_Purchased | Category | n |
|---|---|---|
| Blouse | Clothing | 171 |
| Jewelry | Accessories | 171 |
| Pants | Clothing | 171 |
| Shirt | Clothing | 169 |
| Dress | Clothing | 166 |
| Sweater | Clothing | 164 |
| Jacket | Outerwear | 163 |
| Belt | Accessories | 161 |
| Coat | Outerwear | 161 |
| Sunglasses | Accessories | 161 |
| Sandals | Footwear | 160 |
| Socks | Clothing | 159 |
| Skirt | Clothing | 158 |
| Scarf | Accessories | 157 |
| Shorts | Clothing | 157 |
| Hat | Accessories | 154 |
| Handbag | Accessories | 153 |
| Hoodie | Clothing | 151 |
| Shoes | Footwear | 150 |
| T-shirt | Clothing | 147 |
| Sneakers | Footwear | 145 |
| Boots | Footwear | 144 |
| Backpack | Accessories | 143 |
| Gloves | Accessories | 140 |
| Jeans | Clothing | 124 |
Jak widać najczęsciej kupowano bluzy , biżuterie oraz spodnie.
Wykresy
Wykresy słupkowe
Wykresy słupkowe sumy zakupów dla każdego rodzaju kategorii, podzielone na pory roku
| Customer_ID | Age | Gender | Item_Purchased | Category | Purchase_Amount_USD | Location | Size | Color | Season | Review_Rating | Subscription_Status | Shipping_Type | Discount_Applied | Promo_Code_Used | Previous_Purchases | Payment_Method | Frequency_of_Purchases | wiek_ok | Kategorie |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 55 | Male | Blouse | Clothing | 53 | Kentucky | L | Gray | Winter | 3.1 | Yes | Express | Yes | Yes | 14 | Venmo | Fortnightly | TRUE | Clothing |
| 2 | 19 | Male | Sweater | Clothing | 64 | Maine | L | Maroon | Winter | 3.1 | Yes | Express | Yes | Yes | 2 | Cash | Fortnightly | TRUE | Clothing |
| 3 | 50 | Male | Jeans | Clothing | 73 | Massachusetts | S | Maroon | Spring | 3.1 | Yes | Free Shipping | Yes | Yes | 23 | Credit Card | Weekly | TRUE | Clothing |
| 4 | 21 | Male | Sandals | Footwear | 90 | Rhode Island | M | Maroon | Spring | 3.5 | Yes | Next Day Air | Yes | Yes | 49 | PayPal | Weekly | TRUE | Footwear |
| 5 | 45 | Male | Blouse | Clothing | 49 | Oregon | M | Turquoise | Spring | 2.7 | Yes | Free Shipping | Yes | Yes | 31 | PayPal | Annually | TRUE | Clothing |
| 6 | 46 | Male | Sneakers | Footwear | 20 | Wyoming | M | White | Summer | 2.9 | Yes | Standard | Yes | Yes | 14 | Venmo | Weekly | TRUE | Footwear |
| 7 | 63 | Male | Shirt | Clothing | 85 | Montana | M | Gray | Fall | 3.2 | Yes | Free Shipping | Yes | Yes | 49 | Cash | Quarterly | TRUE | Clothing |
| 8 | 27 | Male | Shorts | Clothing | 34 | Louisiana | L | Charcoal | Winter | 3.2 | Yes | Free Shipping | Yes | Yes | 19 | Credit Card | Weekly | TRUE | Clothing |
| 9 | 26 | Male | Coat | Outerwear | 97 | West Virginia | L | Silver | Summer | 2.6 | Yes | Express | Yes | Yes | 8 | Venmo | Annually | TRUE | Outerwear |
| 10 | 57 | Male | Handbag | Accessories | 31 | Missouri | M | Pink | Spring | 4.8 | Yes | 2-Day Shipping | Yes | Yes | 4 | Cash | Quarterly | TRUE | Accessories |
Wykres przedstawia liczbę przedmiotów w czterech różnych kategoriach (akcesoria, odzież, obuwie i odzież wierzchnia) sprzedanych w czterech różnych sezonach (jesień, zima, wiosna, lato). Odzież jest najczęściej sprzedawaną kategorią we wszystkich sezonach, podczas gdy odzież wierzchnia ma najmniejszą liczbę sprzedaży, zwłaszcza w sezonach cieplejszych.
Wykresy słupkowe sumy wartości zakupów dla każdego rodzaju kategorii, podzielone na pory roku
Prezentowany wykres pokazuje sumę wartości zakupów dla różnych kategorii ubrań (akcesoria, odzież, obuwie, odzież wierzchnia) w zależności od pory roku (jesień, zima, wiosna, lato). Odzież generuje najwyższą sumę wartości zakupów we wszystkich sezonach, z wyjątkowym wzrostem w sezonie wiosennym. Obuwie i odzież wierzchnia mają tendencję do osiągania wyższych wartości sprzedaży w sezonach zimowym i jesienią, co może odzwierciedlać sezonową zmienność w zakupach tych typów ubrań.
Wykres słupkowy średnich ocen zakupów:
Wykres przedstawia średnie oceny zakupów w czterech kategoriach ubrań (akcesoria, odzież, obuwie, odzież wierzchnia) rozróżnione według płci. Zarówno mężczyźni, jak i kobiety ocenili zakupy w każdej kategorii bardzo podobnie, z lekką tendencją do wyższych ocen przez mężczyzn w kategorii obuwia. Średnie oceny we wszystkich kategoriach mieszczą się między 3 a 4 na 5 możliwych punktów, co sugeruje ogólnie pozytywne odczucia wobec zakupionych produktów.
Wykresy rozproszenia cen ubrań w zależności od ocen zakupów(dla kategorii accessories)
Wykres rozrzutu przedstawia zależność między ocenami zakupów a cenami ubrań, z rozróżnieniem płci. Dane wskazują, że zarówno kobiety (czerwone kropki), jak i mężczyźni (niebieskie kropki) oceniają produkty w całym zakresie cen, choć większa koncentracja wyższych ocen (4 i więcej) znajduje się w szerszym zakresie cenowym. Nie ma widocznej zależności między wyższymi cenami a wyższymi ocenami, sugerując, że wysoka cena nie jest równoznaczna z większym zadowoleniem klientów. Rozkład ocen i cen jest podobny dla obu płci.
Wykresy pudełkowe
Sprawdzono wartości dokonanych zakupów w zależności od płci
Prezentowany boxplot ilustruje rozkład wartości zakupów dla różnych kategorii ubrań (akcesoria, odzież, obuwie, odzież wierzchnia), bez wyraźnego rozróżnienia płci, co sugeruje, że dane dla obu płci zostały połączone lub że rozróżnienie to nie zostało uwzględnione w danych. Mediana wartości zakupów w każdej kategorii wydaje się być zbliżona, z mediana w zakresie około 40 do 60. Nie ma znaczących odstających wartości, co wskazuje na stosunkowo jednorodną wartość zakupów w obrębie każdej kategorii.
Sprawdzono ceny ubrań w zależności od koloru i zniżek:
Wykres boxplot przedstawia rozkład cen ubrań w zależności od ich koloru i tego, czy były objęte zniżkami. Dla większości kolorów mediany cen są zbliżone niezależnie od tego, czy ubrania były przecenione (kolor czerwony) czy nie (kolor niebieski), ale dla ubrań na zniżkach rozstęp cen wydaje się być szerszy, co widać po dłuższych “wąsach” i boxach. Zauważalne jest, że dla niektórych kolorów, takich jak beige i grey, ubrania na zniżkach mają nieco wyższą medianę cen, co może sugerować, że wyższej wartości produkty są częściej przeceniane.
Sprawdzono ceny kurtek w zależności od koloru i zniżek
Wykres boxplot przedstawia rozkład cen kurtki w zależności od koloru oraz tego, czy były objęte zniżkami. Większość kolorów prezentuje podobny medianowy poziom cen bez znaczącej różnicy między produktami na zniżkach (czerwone boxy) a tymi bez zniżek (niebieskie boxy). Widać jednak, że dla niektórych kolorów, jak na przykład grey i pink, kurtki na zniżkach mają szerszy zakres cen oraz kilka wyjątków cenowych (odstających wartości), co może wskazywać na większą zmienność cen w przypadku promocji. Ogólnie, rozkład cen kurtki, zarówno na zniżkach, jak i bez nich, jest dość szeroki, co sugeruje duże zróżnicowanie cen w obrębie każdego koloru.
Sprawdzono ceny obuwia w zależności od koloru i zniżek:
Wykres boxplot ukazuje rozkład cen obuwia w zależności od koloru i obecności zniżek. Zniżki (czerwone boxy) zdają się nieznacznie obniżać medianę cen w porównaniu do pełnych cen (niebieskie boxy), szczególnie w kolorach takich jak beige, brown, i pink. Ceny obuwia bez zniżek wykazują większą konsystencję między kolorami, z wyjątkiem kilku odstających wartości, które wskazują na istnienie droższych produktów w niektórych kolorach. Ogólna rozpiętość cen w obu przypadkach jest szeroka, co świadczy o różnorodności cenowej w obrębie każdego koloru obuwia.
Sprawdzono ceny produktów w zależności od pory roku:
Wykres boxplot prezentuje rozkład cen produktów w zależności od pory roku. Ceny są porównywalne w różnych porach roku, z medianami umieszczonymi w podobnym zakresie wertykalnym, wskazując na brak znaczących sezonowych różnic w cenach. Rozstępy cenowe (różnica między kwartylem górnym a dolnym) również są zbliżone między sezonami, co sugeruje, że zmienność cen pozostaje konsekwentna przez cały rok. Nie ma również wielu wartości odstających, co wskazuje na stabilność cenową produktów niezależnie od sezonu.
Sprawdzono jakie przedmioty najczęściej kupowali mężczyźni
| Gender | Item_Purchased | n |
|---|---|---|
| Male | Pants | 123 |
| Male | Jewelry | 119 |
| Male | Coat | 114 |
| Male | Dress | 114 |
| Male | Sweater | 114 |
| Male | Scarf | 112 |
| Male | Shirt | 110 |
| Male | Jacket | 109 |
| Male | Shorts | 109 |
| Male | Skirt | 109 |
| Male | Backpack | 106 |
| Male | Belt | 106 |
| Male | Blouse | 105 |
| Male | Sunglasses | 105 |
| Male | Gloves | 103 |
| Male | Sneakers | 103 |
| Male | Hat | 102 |
| Male | Shoes | 102 |
| Male | Sandals | 101 |
| Male | Socks | 101 |
| Male | T-shirt | 101 |
| Male | Hoodie | 100 |
| Male | Handbag | 95 |
| Male | Jeans | 95 |
| Male | Boots | 94 |
Sprawdzono jakie przedmioty najczęściej kupowały kobiety
| Gender | Item_Purchased | n |
|---|---|---|
| Female | Blouse | 66 |
| Female | Sandals | 59 |
| Female | Shirt | 59 |
| Female | Handbag | 58 |
| Female | Socks | 58 |
| Female | Sunglasses | 56 |
| Female | Belt | 55 |
| Female | Jacket | 54 |
| Female | Dress | 52 |
| Female | Hat | 52 |
| Female | Jewelry | 52 |
| Female | Hoodie | 51 |
| Female | Boots | 50 |
| Female | Sweater | 50 |
| Female | Skirt | 49 |
| Female | Pants | 48 |
| Female | Shoes | 48 |
| Female | Shorts | 48 |
| Female | Coat | 47 |
| Female | T-shirt | 46 |
| Female | Scarf | 45 |
| Female | Sneakers | 42 |
| Female | Backpack | 37 |
| Female | Gloves | 37 |
| Female | Jeans | 29 |
W tej komendzie można sprawdzić po customer ID od nr.1-3900, jaką klient ma płeć, ile wynosiła kwota zakupów, ile poprzednio klient zakupił przedmiotów, jaką ma płeć, w jakiej lokazliacji dokonał zakupów, jaką zostawił opinię, czy posiada subskrypcje oraz czy użył kodu rabatowego
| Customer_ID | Purchase_Amount_USD | Previous_Purchases | Gender | Location | Review_Rating | Subscription_Status | Discount_Applied | Promo_Code_Used | n |
|---|---|---|---|---|---|---|---|---|---|
| 245 | 42 | 39 | Male | Oregon | 4.9 | Yes | Yes | Yes | 1 |
Sprawdzono cenę zakupów w zależności od posiadania subskrypcji oraz użycia kodu rabatowego
5.Statystyki opisowe
| Statystyka | Accessories | Clothing | Outerwear | Footwear |
|---|---|---|---|---|
| Cena w USD | ||||
| Min | 20 | 20 | 20 | 20 |
| Max | 100 | 100 | 100 | 100 |
| Kwartyl dolny | 39 | 39 | 39 | 39 |
| Mediana | 60 | 60 | 60 | 60 |
| Kwartyl górny | 81 | 81 | 81 | 81 |
| Średnia | 59.76 | 59.76 | 59.76 | 59.76 |
| Odch. std. | 23.69 | 23.69 | 23.69 | 23.69 |
| IQR | 42 | 42 | 42 | 42 |
| Odchylenie ćwiartkowe | 21 | 21 | 21 | 21 |
| Odch. std. w % | 0.4 | 0.4 | 0.4 | 0.4 |
| Odch. ćwiartkowe w % | 0.7 | 0.7 | 0.7 | 0.7 |
| Skośność | 0.01 | 0.01 | 0.01 | 0.01 |
| Kurtoza | -1.24 | -1.24 | -1.24 | -1.24 |
Statystyki opisowe z tabeli “Ubrania - ceny w USD wg kolorów” prezentują różnorodność cen w zależności od kategorii ubrań. Dla każdej kategorii (Accessories, Clothing, Outerwear, Footwear), minimalna cena wynosi 20 USD, a maksymalna 100 USD. Mediana i kwartyle są identyczne dla każdej kategorii, co oznacza, że rozkład cen jest symetryczny. Średnia cena wynosi około 59.76 USD dla wszystkich kategorii. Wskaźnik interkwartylny (IQR) dla każdej kategorii wynosi 42 USD, co sugeruje, że zakres cen między kwartylem dolnym a górnym jest stabilny. Odchylenie ćwiartkowe dla wszystkich kategorii jest równe 21 USD. Procentowe odchylenie standardowe i odchylenie ćwiartkowe są niskie (0.4% i 0.7% odpowiednio), co wskazuje na niewielki stopień zróżnicowania cen w poszczególnych kategoriach. Skośność jest bliska zeru, co sugeruje symetryczny rozkład, natomiast kurtoza wskazuje na lekkie spłaszczenie rozkładu cen w porównaniu do rozkładu normalnego. Ogólnie rzecz biorąc, ceny ubrań w różnych kategoriach wykazują niewielkie zmienności, co sugeruje stabilność rynkową w cenach.
6.Testy statystyczne
Testy statystyczne pozwalają na ocenę, czy różnice między grupami danych są istotne statystycznie, czy też wynikają z przypadkowych fluktuacji. Pozwala to lepiej uzasadnić wnioski w raporcie. Testy statystyczne pomagają ocenić wiarygodność wyników analizy danych. Dzięki nim można określić, czy zaobserwowane zjawiska są prawdziwie istotne czy mogą wynikać z przypadkowych błędów.Testy statystyczne pozwalają na kontrolę błędów wynikających z losowości czy przypadkowych czynników zakłócających analizę danych, co zwiększa rzetelność i wiarygodność raportu.
##
## Welch Two Sample t-test
##
## data: Age by Gender
## t = -0.2, df = 2498, p-value = 0.9
## alternative hypothesis: true difference in means between group Female and group Male is not equal to 0
## 95 percent confidence interval:
## -1.105 0.925
## sample estimates:
## mean in group Female mean in group Male
## 44.0 44.1
t = -0.17406: Wartość t-statystyki, która mierzy różnicę między średnimi grup a uwzględnia zmienność w próbkach. Wartość jest bliska zeru, co sugeruje, że nie ma dużych różnic między średnimi wieku grup Female i Male.
df = 2497.8: Stopnie swobody, które uwzględniają wariancję w próbkach. Im wyższa wartość df, tym bardziej ufne są wyniki testu.
p-value = 0.8618: Wartość p, czyli prawdopodobieństwo uzyskania obserwowanej różnicy między grupami, gdy hipoteza zerowa (brak różnicy) jest prawdziwa. Wartość p wynosi 0.8618, co jest znacznie większe niż tradycyjny poziom istotności 0,05. W związku z tym nie mamy podstaw do odrzucenia hipotezy zerowej.
Hipoteza alternatywna: Brzmi, że istnieje różnica między średnimi wieku grup Female i Male. Jednakże, z racji wysokiej wartości p, nie ma wystarczających dowodów, aby odrzucić hipotezę zerową.
95 percent confidence interval: Przedział ufności dla różnicy średnich wieku między grupami. Obejmuje zakres od -1.1047897 do 0.9246426, co dodatkowo potwierdza brak istotnej różnicy między średnimi wieku grup Female i Male.
Sample estimates: Średnie wieku w grupie Female wynoszą 44.00721, a w grupie Male wynoszą 44.09729. Różnica między tymi wartościami jest niewielka.
Podsumowując, na podstawie wyników testu t-test nie ma podstaw do stwierdzenia istotnej różnicy w średnich wieku między grupami płciowymi w zbiorze trendy_zakupowe.
## Df Sum Sq Mean Sq F value Pr(>F)
## Category 3 2446 815 1.45 0.23
## Residuals 3896 2184885 561
ANOVA Model: Df (Stopnie swobody): W modelu są dwie składowe stopni swobody. Stopnie swobody związane z efektem kategorii (Category) wynoszą 3, natomiast stopnie swobody residualne (Residuals) wynoszą 3896. Sum Sq (Suma kwadratów): Suma kwadratów dla efektu kategorii wynosi 2446, a suma kwadratów residualnych wynosi 2184885. Mean Sq (Średnia kwadratów): Średnia kwadratów dla efektu kategorii wynosi 815, a dla residualnych wynosi 561.
F value (Wartość F): Wartość F-statystyki wynosi 1.45. Jest to statystyka testu, która porównuje wariancję pomiędzy grupami (kategorie) do wariancji wewnątrz grup. Wartość F-statystyki 1.45 jest niska.
Pr(>F) (Wartość p): Wartość p dla testu F wynosi 0.23. Jest to prawdopodobieństwo uzyskania takiego lub większego stosunku wariancji pomiędzy grupami a wariancją wewnątrz grup, gdy hipoteza zerowa jest prawdziwa. Wartość p na poziomie 0.23 sugeruje, że nie ma istotnej różnicy między średnimi zakupów w różnych kategoriach.
Na podstawie wyników możemy stwierdzić, że nie ma statystycznie istotnych różnic w zakupach między różnymi kategoriami. Wartość p (0.23) jest większa niż tradycyjny poziom istotności 0.05, co oznacza, że nie mamy podstaw do odrzucenia hipotezy zerowej. Możemy wnioskować, że różnice w średnich zakupów między kategoriami nie są istotne statystycznie.
7.Podsumowanie i wnioski końcowe
Na podstawie wyżej dokonanych analiz, możemy zauważyć że badanie bieżących trendów zakupowych oraz przewidywanie trendów zakupowych w USA nie należy do prostych badań, wynika to z tego że Stany Zjednoczone są ogromnym krajem z różnicami w temperaturach oraz liczbach ludności pomiędzy stanami. Weźmy dla przykładu Minnesotę oraz Kalifornie, w stanie Minnesota gdzie mieszka ok. 6 mln ludzi oraz temperatura w ciągu roku wynosi od -11 stopni C. do 23 stopni C., a następnie Kalifornia gdzie mieszka ok. 40 mln ludzi i średnia temperatura w skali roku to ok. 18 stopni C. (w zimę jest często ponad 10 stopni C), a wiec trendy zakupowe i zachowania zakupowe są inne pomiędzy stanami, według analizy danych posiadamy np. wyniki że zimą najcześciej kupowanym przedmiotem mogą być okulary przeciwsłoneczne, ponieważ stany gdzie pogoda jest ciepła kiedy w reszcie stanów panuje zima, powodują ze analiza danych nie oddaje faktycznych wyników, warto także dodać że w Stanach to właśnie w najcieplejszych stanach znajdują się największe skupiska populacji, ponieważ najwiecej ludzi mieszka w Kalifornii ok. 40 mln, drugi jest Texas z liczbą ok 30 mln., trzecia jest Floryda z liczbą ok. 22 mln i na czwartym miejscu jest New York z liczbą ludności na poziomie ok. 20 mln. ```