Projekt Analiza Danych - Grupa M.

Grupa M - Sebastian Siwak ,Maciej Szroder, Dominik Zarna

2024-01-27

Spis treści: - Wprowadzenie - Data cleaning - Wizualizacja danych - Analiza Opisowa - Testy Statystyczne - Podsumowanie

1. Wprowadzenie

Dane przedstawiają ile poszczególna osoba wydała na zakup ubrań poprzednio, tym razem, w jakim regionie dokonano zakupów, czy uzyła kodu rabatowego, czy posiada subskrypcje, itp. Chcemy sprawdzić co wpływa na zachowania ludzi podczas kupowania przemiotow, jakie są różnice pomiędzy tym co kupują kobiety a co mężczyźni, jakie sa ulubione kolory, jakie ubrania w jakim kolorze sa najczęściej kupowane, jakie ubrania sprzedają sie najlepiej w poszczególnych Stanach, czy subskypcje oraz kody rabatowe mają wpływ na kupno większej ilości przedmiotów.

2.Opis danych

W tej sekcji raportu szczegółowo omówiono zostaną kluczowe informacje dotyczące każdej zmiennej w zestawie danych. Dla każdej zmiennej podano informacje na temat jej typu, opisu oraz potencjalnych wartości, jakie może przyjmować. Przeanalizowano również rozkład wartości, zakres, unikalne kategorie, co pozwala na lepsze zrozumienie kontekstu danych.

Opis zmiennych :

W poniższej tabeli zostały zaprezentowane zmienne znajdujące się w bazie danych, która została dostarczona do analizy.

Tabela 1. Tabela przedstawiająca rodzaj i opis zmiennych
Rodzaj Opis
Customer.ID integer Unikalne identyfikatory klientów.
Age integer Wiek klientów.
Gender character Informacje o płci klienta (np. ‘Male’, ‘Female’).
Item.Purchased character Informacje o zakupionym przedmiocie.
Category character Informacje o kategorii zakupionego przedmiotu.
Purchase.Amount..USD. integer Kwoty zakupów w dolarach amerykańskich.
Location character Informacje o lokalizacji klienta (np. ‘Kentucky’, ‘Maine’).
Size character Informacje o rozmiarze zakupionego przedmiotu.
Color character Informacje o kolorze zakupionego przedmiotu.
Season character Informacje o sezonie zakupów (np. ‘Winter’, ‘Spring’).
Review.Rating double Oceny recenzji produktów, wyrażone w postaci liczb zmiennoprzecinkowych.
Subscription.Status character Informacje o statusie subskrypcji klienta (np. ‘Yes’, ‘No’).
Shipping.Type character Informacje o rodzaju dostawy (np. ‘Express’, ‘Free Shipping’).
Discount.Applied character Informacje o zastosowanych rabatach (np. ‘Yes’, ‘No’).
Promo.Code.Used character Informacje o użytym kodzie promocyjnym (np. ‘Yes’, ‘No’).
Previous.Purchases integer Informacje o liczbie poprzednich zakupów klienta.
Payment.Method character Informacje o wybranym przez klienta sposobie płatności (np. ‘Venmo’, ‘Credit Card’).
Frequency.of.Purchases character Informacje o częstotliwości zakupów (np. ‘Fortnightly’, ‘Weekly’).

Wybór zmiennych do dalszej analizy:

#podgląd danych
str(dane)
## 'data.frame':    3900 obs. of  18 variables:
##  $ Customer.ID           : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ Age                   : int  55 19 50 21 45 46 63 27 26 57 ...
##  $ Gender                : chr  "Male" "Male" "Male" "Male" ...
##  $ Item.Purchased        : chr  "Blouse" "Sweater" "Jeans" "Sandals" ...
##  $ Category              : chr  "Clothing" "Clothing" "Clothing" "Footwear" ...
##  $ Purchase.Amount..USD. : int  53 64 73 90 49 20 85 34 97 31 ...
##  $ Location              : chr  "Kentucky" "Maine" "Massachusetts" "Rhode Island" ...
##  $ Size                  : chr  "L" "L" "S" "M" ...
##  $ Color                 : chr  "Gray" "Maroon" "Maroon" "Maroon" ...
##  $ Season                : chr  "Winter" "Winter" "Spring" "Spring" ...
##  $ Review.Rating         : num  3.1 3.1 3.1 3.5 2.7 2.9 3.2 3.2 2.6 4.8 ...
##  $ Subscription.Status   : chr  "Yes" "Yes" "Yes" "Yes" ...
##  $ Shipping.Type         : chr  "Express" "Express" "Free Shipping" "Next Day Air" ...
##  $ Discount.Applied      : chr  "Yes" "Yes" "Yes" "Yes" ...
##  $ Promo.Code.Used       : chr  "Yes" "Yes" "Yes" "Yes" ...
##  $ Previous.Purchases    : int  14 2 23 49 31 14 49 19 8 4 ...
##  $ Payment.Method        : chr  "Venmo" "Cash" "Credit Card" "PayPal" ...
##  $ Frequency.of.Purchases: chr  "Fortnightly" "Fortnightly" "Weekly" "Weekly" ...

Zmieniamy nazwy nagłówków, żeby nie było kropek lub spacji na przykład: Purchase Amount USD na Purchase_Amount_USD. Kilka takich zmiennych zostało przedstawionych w poniższej tabeli.

Tabela 2. Podgląd danych po sformatowaniu nazw nagłówków
Customer_ID Age Gender Item_Purchased Category Purchase_Amount_USD Location Size Color Season
1 55 Male Blouse Clothing 53 Kentucky L Gray Winter
2 19 Male Sweater Clothing 64 Maine L Maroon Winter
3 50 Male Jeans Clothing 73 Massachusetts S Maroon Spring
4 21 Male Sandals Footwear 90 Rhode Island M Maroon Spring
5 45 Male Blouse Clothing 49 Oregon M Turquoise Spring

3.Data Cleaning

W tej sekcji raportu skupiono się na procesie eliminowania potencjalnych problemów jakościowych, takich jak brakujące dane, duplikaty czy błędy w danych.

Analiza danych zaczyna się od identyfikacji ewentualnych błędów i nieścisłości. W opisie procesu czyszczenia danych przedstawiono kroki podejmowane w celu usunięcia lub korekty tych problemów. Skupiono się również na standaryzacji formatów, przekształceniach zmiennych oraz weryfikacji spójności danych.

Sprawdzono czy w bazie danych występują jakieś braki. Wynik FALSE świadczy o tym, że dane nie mają braków.

Wynik funkcji sprawdzającej braki w danych
Opis Wynik
Wartości puste FALSE

Sprawdzono również prostą funkcją czy wiek osób znajduje się w przedziale lat (0;100).

wiek <- function(wiek) {
  return (wiek > 0 & wiek < 100)
}

# Sprawdzenie czy wiek jest w innym przedziale niż 0 < Age < 120
dane$wiek_ok <- wiek(dane$Age)

testwieku <- any(!dane$wiek_ok)

if (testwieku) {
  cat("<p style='color:red;'>Wynik: Są błedy w wieku.</p>")
} else {
  cat("<p style='color:green;'>Wynik: Brak błędów w wieku.</p>")
}

Wynik: Brak błędów w wieku.

Brak błedów w wieku stwierdza o poprawności wpisanych danych dotyczących wieku ludzi.

Sprawdzono również czy w kolumnie plci sa prawidlowe dane. Wynik pokazujący dwie płcie świadczy o poprawnych danych i braku błedów w kolumnie “Gender”. W poniższym zestawieniu widać, że w dostarczonych danych większość stanowią mężczyźni.

Liczebność każdej płci
Gender Liczba
Female 1248
Male 2652

Sprawdzenie czy w kolumnie kategorii sa prawidlowe dane funkcją n_distinct, która zwraca liczbę unikalnych wartości. Liczba 1 przy każdej z kategorii świadczy o tym, że w kolumnie kategorie są same unikalne wartości i nie ma błędów.

Sprawdzenie czy w kolumnie kategorie występują błedy
Category Liczba
Accessories 1
Clothing 1
Footwear 1
Outerwear 1

4.Wizualizacja danych

W tej części raportu skupimy się na wizualizacji danych, która jest procesem reprezentowania informacji za pomocą graficznych elementów, takich jak wykresy czy tabeli. Ma to na celu ułatwienie zrozumienia danych poprzez przedstawienie ich w atrakcyjnej formie wizualnej. Pomaga to w identyfikowaniu wzorców, relacji i trendów, co wspiera procesy decyzyjne i komunikację danych.

Na samym wstępie sprawdzono jakiego rodzaju rzeczy najczęśniej kupują mężczyźni.

Tabela. 3 Co najczęściej kupują mężczyźni
Gender Category n
Male Clothing 1181
Male Accessories 848
Male Footwear 400
Male Outerwear 223

Jak widać z powyższej tabeli są to rzeczy z kategorii “Clothing”.

Następnie sprawdzono po jakiego rodzaju rzeczy sięgały kobiety:

Tabela.4 Co najczęściej kupują kobiety
Gender Category n
Female Clothing 556
Female Accessories 392
Female Footwear 199
Female Outerwear 101

Jak widać podobnie jak mężczyźni kobiety najczęściej kupowały odzież.

Do analizy poddano również same zakupy w danych sezonach aby spróbować zauważyć potencjalną sezonowość w wyborach rzeczy.Stworzono w tym celu porównania dla każdej pory roku tj. jesień,zima ,wiosna lato

Na poniższym wykresie przedstawiono ilość zakupów w sezonie jesiennym. Jak widać z poniższego wykresu najwięcej zostało sprzedanych kurtek.

Takie same kroki podjęto dla pory zimowej. Najczesciej kupowanym przedmiotem w sezonie zimowym okazały się okulary przeciwsłoneczne.

## [1] 6
Tabela.5 Co najczęściej kupowano zimą
Item_Purchased Season Category n
Sunglasses Winter Accessories 52
Pants Winter Clothing 51
Shirt Winter Clothing 50
Hoodie Winter Clothing 48
Jewelry Winter Accessories 47
Sweater Winter Clothing 42
Jacket Winter Outerwear 41
Belt Winter Accessories 40
Blouse Winter Clothing 40
Dress Winter Clothing 40
Hat Winter Accessories 40
T-shirt Winter Clothing 40
Coat Winter Outerwear 39
Sneakers Winter Footwear 39
Shoes Winter Footwear 38
Skirt Winter Clothing 38
Shorts Winter Clothing 35
Socks Winter Clothing 35
Handbag Winter Accessories 34
Scarf Winter Accessories 33
Gloves Winter Accessories 32
Sandals Winter Footwear 32
Boots Winter Footwear 31
Jeans Winter Clothing 29
Backpack Winter Accessories 25

Wiosną najczęściej konsumenci sięgali po swetry jak widać w poniższej tabeli.

## [1] 10
Tabela.6 Co najczęściej kupowano wiosną
Item_Purchased Season Category n
Sweater Spring Clothing 52
Shorts Spring Clothing 47
Blouse Spring Clothing 46
Coat Spring Outerwear 46
Skirt Spring Clothing 46
Sandals Spring Footwear 44
Dress Spring Clothing 43
Gloves Spring Accessories 42
Jewelry Spring Accessories 42
Shirt Spring Clothing 42
Belt Spring Accessories 41
Scarf Spring Accessories 41
Boots Spring Footwear 40
Shoes Spring Footwear 40
Socks Spring Clothing 40
Backpack Spring Accessories 39
Sneakers Spring Footwear 39
T-shirt Spring Clothing 38
Handbag Spring Accessories 36
Hoodie Spring Clothing 36
Jacket Spring Outerwear 35
Sunglasses Spring Accessories 33
Jeans Spring Clothing 32
Pants Spring Clothing 32
Hat Spring Accessories 27

W sezonie letnim najczęstszymi wyborami okazały się spodnie i sukienki.

## [1] 10
Tabela. 7 Co najczęściej kupowano latem
Item_Purchased Season Category n
Pants Summer Clothing 50
Dress Summer Clothing 47
Jewelry Summer Accessories 47
Shoes Summer Footwear 46
Backpack Summer Accessories 45
Blouse Summer Clothing 43
Scarf Summer Accessories 43
Coat Summer Outerwear 42
Socks Summer Clothing 42
Sandals Summer Footwear 40
Shorts Summer Clothing 40
Belt Summer Accessories 39
Boots Summer Footwear 38
Shirt Summer Clothing 38
Hat Summer Accessories 37
Sunglasses Summer Accessories 37
Sneakers Summer Footwear 36
Handbag Summer Accessories 35
Jacket Summer Outerwear 33
Hoodie Summer Clothing 31
Jeans Summer Clothing 31
T-shirt Summer Clothing 30
Gloves Summer Accessories 29
Skirt Summer Clothing 28
Sweater Summer Clothing 28

Sprawdzono też jaki przedmiot był kupowany najczęściej ogólnie

## [1] 10
Tabela. 8 Co najczęściej kupowano ogólnie
Item_Purchased Category n
Blouse Clothing 171
Jewelry Accessories 171
Pants Clothing 171
Shirt Clothing 169
Dress Clothing 166
Sweater Clothing 164
Jacket Outerwear 163
Belt Accessories 161
Coat Outerwear 161
Sunglasses Accessories 161
Sandals Footwear 160
Socks Clothing 159
Skirt Clothing 158
Scarf Accessories 157
Shorts Clothing 157
Hat Accessories 154
Handbag Accessories 153
Hoodie Clothing 151
Shoes Footwear 150
T-shirt Clothing 147
Sneakers Footwear 145
Boots Footwear 144
Backpack Accessories 143
Gloves Accessories 140
Jeans Clothing 124

Jak widać najczęsciej kupowano bluzy , biżuterie oraz spodnie.

Wykresy

Wykresy słupkowe

Wykresy słupkowe sumy zakupów dla każdego rodzaju kategorii, podzielone na pory roku

Tabela. 9 Sumy zakupów dla każdego rodzaju kategorii
Customer_ID Age Gender Item_Purchased Category Purchase_Amount_USD Location Size Color Season Review_Rating Subscription_Status Shipping_Type Discount_Applied Promo_Code_Used Previous_Purchases Payment_Method Frequency_of_Purchases wiek_ok Kategorie
1 55 Male Blouse Clothing 53 Kentucky L Gray Winter 3.1 Yes Express Yes Yes 14 Venmo Fortnightly TRUE Clothing
2 19 Male Sweater Clothing 64 Maine L Maroon Winter 3.1 Yes Express Yes Yes 2 Cash Fortnightly TRUE Clothing
3 50 Male Jeans Clothing 73 Massachusetts S Maroon Spring 3.1 Yes Free Shipping Yes Yes 23 Credit Card Weekly TRUE Clothing
4 21 Male Sandals Footwear 90 Rhode Island M Maroon Spring 3.5 Yes Next Day Air Yes Yes 49 PayPal Weekly TRUE Footwear
5 45 Male Blouse Clothing 49 Oregon M Turquoise Spring 2.7 Yes Free Shipping Yes Yes 31 PayPal Annually TRUE Clothing
6 46 Male Sneakers Footwear 20 Wyoming M White Summer 2.9 Yes Standard Yes Yes 14 Venmo Weekly TRUE Footwear
7 63 Male Shirt Clothing 85 Montana M Gray Fall 3.2 Yes Free Shipping Yes Yes 49 Cash Quarterly TRUE Clothing
8 27 Male Shorts Clothing 34 Louisiana L Charcoal Winter 3.2 Yes Free Shipping Yes Yes 19 Credit Card Weekly TRUE Clothing
9 26 Male Coat Outerwear 97 West Virginia L Silver Summer 2.6 Yes Express Yes Yes 8 Venmo Annually TRUE Outerwear
10 57 Male Handbag Accessories 31 Missouri M Pink Spring 4.8 Yes 2-Day Shipping Yes Yes 4 Cash Quarterly TRUE Accessories

Wykres przedstawia liczbę przedmiotów w czterech różnych kategoriach (akcesoria, odzież, obuwie i odzież wierzchnia) sprzedanych w czterech różnych sezonach (jesień, zima, wiosna, lato). Odzież jest najczęściej sprzedawaną kategorią we wszystkich sezonach, podczas gdy odzież wierzchnia ma najmniejszą liczbę sprzedaży, zwłaszcza w sezonach cieplejszych.

Wykresy słupkowe sumy wartości zakupów dla każdego rodzaju kategorii, podzielone na pory roku

Prezentowany wykres pokazuje sumę wartości zakupów dla różnych kategorii ubrań (akcesoria, odzież, obuwie, odzież wierzchnia) w zależności od pory roku (jesień, zima, wiosna, lato). Odzież generuje najwyższą sumę wartości zakupów we wszystkich sezonach, z wyjątkowym wzrostem w sezonie wiosennym. Obuwie i odzież wierzchnia mają tendencję do osiągania wyższych wartości sprzedaży w sezonach zimowym i jesienią, co może odzwierciedlać sezonową zmienność w zakupach tych typów ubrań.

Wykres słupkowy średnich ocen zakupów:

Wykres przedstawia średnie oceny zakupów w czterech kategoriach ubrań (akcesoria, odzież, obuwie, odzież wierzchnia) rozróżnione według płci. Zarówno mężczyźni, jak i kobiety ocenili zakupy w każdej kategorii bardzo podobnie, z lekką tendencją do wyższych ocen przez mężczyzn w kategorii obuwia. Średnie oceny we wszystkich kategoriach mieszczą się między 3 a 4 na 5 możliwych punktów, co sugeruje ogólnie pozytywne odczucia wobec zakupionych produktów.

Wykresy rozproszenia cen ubrań w zależności od ocen zakupów(dla kategorii accessories)

Wykres rozrzutu przedstawia zależność między ocenami zakupów a cenami ubrań, z rozróżnieniem płci. Dane wskazują, że zarówno kobiety (czerwone kropki), jak i mężczyźni (niebieskie kropki) oceniają produkty w całym zakresie cen, choć większa koncentracja wyższych ocen (4 i więcej) znajduje się w szerszym zakresie cenowym. Nie ma widocznej zależności między wyższymi cenami a wyższymi ocenami, sugerując, że wysoka cena nie jest równoznaczna z większym zadowoleniem klientów. Rozkład ocen i cen jest podobny dla obu płci.

Wykresy pudełkowe

Sprawdzono wartości dokonanych zakupów w zależności od płci

Prezentowany boxplot ilustruje rozkład wartości zakupów dla różnych kategorii ubrań (akcesoria, odzież, obuwie, odzież wierzchnia), bez wyraźnego rozróżnienia płci, co sugeruje, że dane dla obu płci zostały połączone lub że rozróżnienie to nie zostało uwzględnione w danych. Mediana wartości zakupów w każdej kategorii wydaje się być zbliżona, z mediana w zakresie około 40 do 60. Nie ma znaczących odstających wartości, co wskazuje na stosunkowo jednorodną wartość zakupów w obrębie każdej kategorii.

Sprawdzono ceny ubrań w zależności od koloru i zniżek:

Wykres boxplot przedstawia rozkład cen ubrań w zależności od ich koloru i tego, czy były objęte zniżkami. Dla większości kolorów mediany cen są zbliżone niezależnie od tego, czy ubrania były przecenione (kolor czerwony) czy nie (kolor niebieski), ale dla ubrań na zniżkach rozstęp cen wydaje się być szerszy, co widać po dłuższych “wąsach” i boxach. Zauważalne jest, że dla niektórych kolorów, takich jak beige i grey, ubrania na zniżkach mają nieco wyższą medianę cen, co może sugerować, że wyższej wartości produkty są częściej przeceniane.

Sprawdzono ceny kurtek w zależności od koloru i zniżek

Wykres boxplot przedstawia rozkład cen kurtki w zależności od koloru oraz tego, czy były objęte zniżkami. Większość kolorów prezentuje podobny medianowy poziom cen bez znaczącej różnicy między produktami na zniżkach (czerwone boxy) a tymi bez zniżek (niebieskie boxy). Widać jednak, że dla niektórych kolorów, jak na przykład grey i pink, kurtki na zniżkach mają szerszy zakres cen oraz kilka wyjątków cenowych (odstających wartości), co może wskazywać na większą zmienność cen w przypadku promocji. Ogólnie, rozkład cen kurtki, zarówno na zniżkach, jak i bez nich, jest dość szeroki, co sugeruje duże zróżnicowanie cen w obrębie każdego koloru.

Sprawdzono ceny obuwia w zależności od koloru i zniżek:

Wykres boxplot ukazuje rozkład cen obuwia w zależności od koloru i obecności zniżek. Zniżki (czerwone boxy) zdają się nieznacznie obniżać medianę cen w porównaniu do pełnych cen (niebieskie boxy), szczególnie w kolorach takich jak beige, brown, i pink. Ceny obuwia bez zniżek wykazują większą konsystencję między kolorami, z wyjątkiem kilku odstających wartości, które wskazują na istnienie droższych produktów w niektórych kolorach. Ogólna rozpiętość cen w obu przypadkach jest szeroka, co świadczy o różnorodności cenowej w obrębie każdego koloru obuwia.

Sprawdzono ceny produktów w zależności od pory roku:

Wykres boxplot prezentuje rozkład cen produktów w zależności od pory roku. Ceny są porównywalne w różnych porach roku, z medianami umieszczonymi w podobnym zakresie wertykalnym, wskazując na brak znaczących sezonowych różnic w cenach. Rozstępy cenowe (różnica między kwartylem górnym a dolnym) również są zbliżone między sezonami, co sugeruje, że zmienność cen pozostaje konsekwentna przez cały rok. Nie ma również wielu wartości odstających, co wskazuje na stabilność cenową produktów niezależnie od sezonu.

Sprawdzono jakie przedmioty najczęściej kupowali mężczyźni

Tabela. 10 Przedmioty kupowany przez mężczyzn
Gender Item_Purchased n
Male Pants 123
Male Jewelry 119
Male Coat 114
Male Dress 114
Male Sweater 114
Male Scarf 112
Male Shirt 110
Male Jacket 109
Male Shorts 109
Male Skirt 109
Male Backpack 106
Male Belt 106
Male Blouse 105
Male Sunglasses 105
Male Gloves 103
Male Sneakers 103
Male Hat 102
Male Shoes 102
Male Sandals 101
Male Socks 101
Male T-shirt 101
Male Hoodie 100
Male Handbag 95
Male Jeans 95
Male Boots 94

Sprawdzono jakie przedmioty najczęściej kupowały kobiety

Tabela. 11 Przedmioty kupowany przez kobiety
Gender Item_Purchased n
Female Blouse 66
Female Sandals 59
Female Shirt 59
Female Handbag 58
Female Socks 58
Female Sunglasses 56
Female Belt 55
Female Jacket 54
Female Dress 52
Female Hat 52
Female Jewelry 52
Female Hoodie 51
Female Boots 50
Female Sweater 50
Female Skirt 49
Female Pants 48
Female Shoes 48
Female Shorts 48
Female Coat 47
Female T-shirt 46
Female Scarf 45
Female Sneakers 42
Female Backpack 37
Female Gloves 37
Female Jeans 29

W tej komendzie można sprawdzić po customer ID od nr.1-3900, jaką klient ma płeć, ile wynosiła kwota zakupów, ile poprzednio klient zakupił przedmiotów, jaką ma płeć, w jakiej lokazliacji dokonał zakupów, jaką zostawił opinię, czy posiada subskrypcje oraz czy użył kodu rabatowego

Tabela. 12 Informacje po wyszukaniu nr. CustomerID
Customer_ID Purchase_Amount_USD Previous_Purchases Gender Location Review_Rating Subscription_Status Discount_Applied Promo_Code_Used n
245 42 39 Male Oregon 4.9 Yes Yes Yes 1

Sprawdzono cenę zakupów w zależności od posiadania subskrypcji oraz użycia kodu rabatowego

5.Statystyki opisowe

Tabela 14. Ubrania - ceny w USD wg kolorow.
Statystyka Accessories Clothing Outerwear Footwear
Cena w USD
Min 20 20 20 20
Max 100 100 100 100
Kwartyl dolny 39 39 39 39
Mediana 60 60 60 60
Kwartyl górny 81 81 81 81
Średnia 59.76 59.76 59.76 59.76
Odch. std. 23.69 23.69 23.69 23.69
IQR 42 42 42 42
Odchylenie ćwiartkowe 21 21 21 21
Odch. std. w % 0.4 0.4 0.4 0.4
Odch. ćwiartkowe w % 0.7 0.7 0.7 0.7
Skośność 0.01 0.01 0.01 0.01
Kurtoza -1.24 -1.24 -1.24 -1.24

Statystyki opisowe z tabeli “Ubrania - ceny w USD wg kolorów” prezentują różnorodność cen w zależności od kategorii ubrań. Dla każdej kategorii (Accessories, Clothing, Outerwear, Footwear), minimalna cena wynosi 20 USD, a maksymalna 100 USD. Mediana i kwartyle są identyczne dla każdej kategorii, co oznacza, że rozkład cen jest symetryczny. Średnia cena wynosi około 59.76 USD dla wszystkich kategorii. Wskaźnik interkwartylny (IQR) dla każdej kategorii wynosi 42 USD, co sugeruje, że zakres cen między kwartylem dolnym a górnym jest stabilny. Odchylenie ćwiartkowe dla wszystkich kategorii jest równe 21 USD. Procentowe odchylenie standardowe i odchylenie ćwiartkowe są niskie (0.4% i 0.7% odpowiednio), co wskazuje na niewielki stopień zróżnicowania cen w poszczególnych kategoriach. Skośność jest bliska zeru, co sugeruje symetryczny rozkład, natomiast kurtoza wskazuje na lekkie spłaszczenie rozkładu cen w porównaniu do rozkładu normalnego. Ogólnie rzecz biorąc, ceny ubrań w różnych kategoriach wykazują niewielkie zmienności, co sugeruje stabilność rynkową w cenach.

6.Testy statystyczne

Testy statystyczne pozwalają na ocenę, czy różnice między grupami danych są istotne statystycznie, czy też wynikają z przypadkowych fluktuacji. Pozwala to lepiej uzasadnić wnioski w raporcie. Testy statystyczne pomagają ocenić wiarygodność wyników analizy danych. Dzięki nim można określić, czy zaobserwowane zjawiska są prawdziwie istotne czy mogą wynikać z przypadkowych błędów.Testy statystyczne pozwalają na kontrolę błędów wynikających z losowości czy przypadkowych czynników zakłócających analizę danych, co zwiększa rzetelność i wiarygodność raportu.

## 
##  Welch Two Sample t-test
## 
## data:  Age by Gender
## t = -0.2, df = 2498, p-value = 0.9
## alternative hypothesis: true difference in means between group Female and group Male is not equal to 0
## 95 percent confidence interval:
##  -1.105  0.925
## sample estimates:
## mean in group Female   mean in group Male 
##                 44.0                 44.1

t = -0.17406: Wartość t-statystyki, która mierzy różnicę między średnimi grup a uwzględnia zmienność w próbkach. Wartość jest bliska zeru, co sugeruje, że nie ma dużych różnic między średnimi wieku grup Female i Male.

df = 2497.8: Stopnie swobody, które uwzględniają wariancję w próbkach. Im wyższa wartość df, tym bardziej ufne są wyniki testu.

p-value = 0.8618: Wartość p, czyli prawdopodobieństwo uzyskania obserwowanej różnicy między grupami, gdy hipoteza zerowa (brak różnicy) jest prawdziwa. Wartość p wynosi 0.8618, co jest znacznie większe niż tradycyjny poziom istotności 0,05. W związku z tym nie mamy podstaw do odrzucenia hipotezy zerowej.

Hipoteza alternatywna: Brzmi, że istnieje różnica między średnimi wieku grup Female i Male. Jednakże, z racji wysokiej wartości p, nie ma wystarczających dowodów, aby odrzucić hipotezę zerową.

95 percent confidence interval: Przedział ufności dla różnicy średnich wieku między grupami. Obejmuje zakres od -1.1047897 do 0.9246426, co dodatkowo potwierdza brak istotnej różnicy między średnimi wieku grup Female i Male.

Sample estimates: Średnie wieku w grupie Female wynoszą 44.00721, a w grupie Male wynoszą 44.09729. Różnica między tymi wartościami jest niewielka.

Podsumowując, na podstawie wyników testu t-test nie ma podstaw do stwierdzenia istotnej różnicy w średnich wieku między grupami płciowymi w zbiorze trendy_zakupowe.

##               Df  Sum Sq Mean Sq F value Pr(>F)
## Category       3    2446     815    1.45   0.23
## Residuals   3896 2184885     561

ANOVA Model: Df (Stopnie swobody): W modelu są dwie składowe stopni swobody. Stopnie swobody związane z efektem kategorii (Category) wynoszą 3, natomiast stopnie swobody residualne (Residuals) wynoszą 3896. Sum Sq (Suma kwadratów): Suma kwadratów dla efektu kategorii wynosi 2446, a suma kwadratów residualnych wynosi 2184885. Mean Sq (Średnia kwadratów): Średnia kwadratów dla efektu kategorii wynosi 815, a dla residualnych wynosi 561.

F value (Wartość F): Wartość F-statystyki wynosi 1.45. Jest to statystyka testu, która porównuje wariancję pomiędzy grupami (kategorie) do wariancji wewnątrz grup. Wartość F-statystyki 1.45 jest niska.

Pr(>F) (Wartość p): Wartość p dla testu F wynosi 0.23. Jest to prawdopodobieństwo uzyskania takiego lub większego stosunku wariancji pomiędzy grupami a wariancją wewnątrz grup, gdy hipoteza zerowa jest prawdziwa. Wartość p na poziomie 0.23 sugeruje, że nie ma istotnej różnicy między średnimi zakupów w różnych kategoriach.

Na podstawie wyników możemy stwierdzić, że nie ma statystycznie istotnych różnic w zakupach między różnymi kategoriami. Wartość p (0.23) jest większa niż tradycyjny poziom istotności 0.05, co oznacza, że nie mamy podstaw do odrzucenia hipotezy zerowej. Możemy wnioskować, że różnice w średnich zakupów między kategoriami nie są istotne statystycznie.

7.Podsumowanie i wnioski końcowe

Na podstawie wyżej dokonanych analiz, możemy zauważyć że badanie bieżących trendów zakupowych oraz przewidywanie trendów zakupowych w USA nie należy do prostych badań, wynika to z tego że Stany Zjednoczone są ogromnym krajem z różnicami w temperaturach oraz liczbach ludności pomiędzy stanami. Weźmy dla przykładu Minnesotę oraz Kalifornie, w stanie Minnesota gdzie mieszka ok. 6 mln ludzi oraz temperatura w ciągu roku wynosi od -11 stopni C. do 23 stopni C., a następnie Kalifornia gdzie mieszka ok. 40 mln ludzi i średnia temperatura w skali roku to ok. 18 stopni C. (w zimę jest często ponad 10 stopni C), a wiec trendy zakupowe i zachowania zakupowe są inne pomiędzy stanami, według analizy danych posiadamy np. wyniki że zimą najcześciej kupowanym przedmiotem mogą być okulary przeciwsłoneczne, ponieważ stany gdzie pogoda jest ciepła kiedy w reszcie stanów panuje zima, powodują ze analiza danych nie oddaje faktycznych wyników, warto także dodać że w Stanach to właśnie w najcieplejszych stanach znajdują się największe skupiska populacji, ponieważ najwiecej ludzi mieszka w Kalifornii ok. 40 mln, drugi jest Texas z liczbą ok 30 mln., trzecia jest Floryda z liczbą ok. 22 mln i na czwartym miejscu jest New York z liczbą ludności na poziomie ok. 20 mln. ```