Petumbuhan super market di kota-kota terpadat meningkat dan persaingan pasar juga tinggi. Dataset tersebut merupakan salah satu history penjualan perusahaan supermarket yang tercatat di 3 cabang berbeda selama 3 bulan. metode data analysis prediktif mudah diterapkan dengan kumpulan data ini.
Invoice id : Nomer indentifikasi slip penjualan yang dihasilkan komputer
Branch : Cabang supermarket (3 cabang tersedia diindetifikasi oleh A,B,C)
City : Lokasi Supermarket
Customers type : Jenis pelanggan, dicatat oleh Anggota untuk pelanggan yang menggunakan Kartu anggota pelanggan dan Normal tidak mengguanakan kartu anggota pelanggan
Gender : Jenis kelamin pelanggan
Unit price : Group kategoris barang umum - mode aksesoris, Makanan dan Minuman, Kesehatan dan Kecantikan, Rumah dan Gaya hidup, Olahraga dan perjalan.
Quantity : Harga setiap Produk dalam $
Tax : 5% biayaa pajak untuk pembelian pelanggan
Total : Total harga termasuk pajak
Date : Tanggal pembelian (catatan tersedia dari bulan januari 2019 sampai maret 2019)
Time : Waktu pembelian (jam 10 pagi hingga jam 9 malam)
Payment : Pembayaran yang digunakan oleh pelanggan untuk pembelian (3 metode tersedia - Tunai, Kartu Kredit, dan Dompet Elektronik)
COGS : Harga Pokok Terjual
Gros margin percentage : Persentasi Margin
Gros income : Pendapatan kotor
Rating : Peringkat stratifikasi pelanggan pada keseluruhan pengalaman berbelanja pelanggan (pada skala 1 sampai 10)
saya akan menganalysis datases penjualan supermarket dibagian berikut, saya sangat tertarik pada korelasi antara beberapa variabel, serta perbedaan anatara kualitas tertentu dari beberapa variabel dalam hal pendaptan , saya ingin melihat masalah berikut secara khusus :
Pertanyaan 1
Apakah ada hubungan antara gender dan cabang ? Apakah jenis kelamin mendistribusikan diri secara berbeda di antara cabang?
Pertanyaan 2
Apakah ada hubungan antara variabel gender dan pembayaran ? Apakah ada perbedaan dalam pemilihan metode pembayaran antara pelanggan pria dan wanita ?
Pertanyaan 3
Apakah ada hubungan antara variabel Gender dan Produk Line ?
Pertanyaan 4
Apakah rata-rata penjualan pria dan wanita berbeda ?
Pertanyaan 5
Apakah ada perbedaan Total rata-rata mengenai tiga cabang A, B, dan C dari rantai supermarket ?
Saya akan mempelajari kumpulan data setelah memuat data dan packpage, dengan fokus khusus pada variabel yang diperlukan untuk menganalysis lebih lanjut. untuk beberap varabel, revisi data dan perubahan data mungkin diperlukan.
glimpse(data)
Rows: 1,000
Columns: 17
$ Invoice.ID <chr> "750-67-8428", "226-31-3081", "631-41-3108", "123-19-1176", "373-73-791~
$ Branch <chr> "A", "C", "A", "A", "A", "C", "A", "C", "A", "B", "B", "B", "A", "A", "~
$ City <chr> "Yangon", "Naypyitaw", "Yangon", "Yangon", "Yangon", "Naypyitaw", "Yang~
$ Customer.type <chr> "Member", "Normal", "Normal", "Member", "Normal", "Normal", "Member", "~
$ Gender <chr> "Female", "Female", "Male", "Male", "Male", "Male", "Female", "Female",~
$ Product.line <chr> "Health and beauty", "Electronic accessories", "Home and lifestyle", "H~
$ Unit.price <dbl> 74.69, 15.28, 46.33, 58.22, 86.31, 85.39, 68.84, 73.56, 36.26, 54.84, 1~
$ Quantity <int> 7, 5, 7, 8, 7, 7, 6, 10, 2, 3, 4, 4, 5, 10, 10, 6, 7, 6, 3, 2, 5, 3, 2,~
$ Tax.5. <dbl> 26.1415, 3.8200, 16.2155, 23.2880, 30.2085, 29.8865, 20.6520, 36.7800, ~
$ Total <dbl> 548.9715, 80.2200, 340.5255, 489.0480, 634.3785, 627.6165, 433.6920, 77~
$ Date <chr> "1/5/2019", "3/8/2019", "3/3/2019", "1/27/2019", "2/8/2019", "3/25/2019~
$ Time <chr> "13:08", "10:29", "13:23", "20:33", "10:37", "18:30", "14:36", "11:38",~
$ Payment <chr> "Ewallet", "Cash", "Credit card", "Ewallet", "Ewallet", "Ewallet", "Ewa~
$ cogs <dbl> 522.83, 76.40, 324.31, 465.76, 604.17, 597.73, 413.04, 735.60, 72.52, 1~
$ gross.margin.percentage <dbl> 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4~
$ gross.income <dbl> 26.1415, 3.8200, 16.2155, 23.2880, 30.2085, 29.8865, 20.6520, 36.7800, ~
$ Rating <dbl> 9.1, 9.6, 7.4, 8.4, 5.3, 4.1, 5.8, 8.0, 7.2, 5.9, 4.5, 6.8, 7.1, 8.2, 5~
Menyusun beberapa data deskriptif
summary(data)
Invoice.ID Branch City Customer.type Gender
Length:1000 Length:1000 Length:1000 Length:1000 Length:1000
Class :character Class :character Class :character Class :character Class :character
Mode :character Mode :character Mode :character Mode :character Mode :character
Product.line Unit.price Quantity Tax.5. Total
Length:1000 Min. :10.08 Min. : 1.00 Min. : 0.5085 Min. : 10.68
Class :character 1st Qu.:32.88 1st Qu.: 3.00 1st Qu.: 5.9249 1st Qu.: 124.42
Mode :character Median :55.23 Median : 5.00 Median :12.0880 Median : 253.85
Mean :55.67 Mean : 5.51 Mean :15.3794 Mean : 322.97
3rd Qu.:77.94 3rd Qu.: 8.00 3rd Qu.:22.4453 3rd Qu.: 471.35
Max. :99.96 Max. :10.00 Max. :49.6500 Max. :1042.65
Date Time Payment cogs gross.margin.percentage
Length:1000 Length:1000 Length:1000 Min. : 10.17 Min. :4.762
Class :character Class :character Class :character 1st Qu.:118.50 1st Qu.:4.762
Mode :character Mode :character Mode :character Median :241.76 Median :4.762
Mean :307.59 Mean :4.762
3rd Qu.:448.90 3rd Qu.:4.762
Max. :993.00 Max. :4.762
gross.income Rating
Min. : 0.5085 Min. : 4.000
1st Qu.: 5.9249 1st Qu.: 5.500
Median :12.0880 Median : 7.000
Mean :15.3794 Mean : 6.973
3rd Qu.:22.4453 3rd Qu.: 8.500
Max. :49.6500 Max. :10.000
Pemrosesan data : saya akan dapat melihat bahwa bebarapa variabel kategori, seperti Gender, Cabang, Lini Produk, dan sebaginya, tampak dalam format karkater, saya ingin ingin mereka menjadi faktor untuk tujuan analysis saya.
Konversi variabel character ke factor.
glimpse(data)
Rows: 1,000
Columns: 17
$ Invoice.ID <chr> "750-67-8428", "226-31-3081", "631-41-3108", "123-19-1176", "373-73-791~
$ Branch <fct> A, C, A, A, A, C, A, C, A, B, B, B, A, A, A, B, A, A, A, B, C, B, B, A,~
$ City <fct> Yangon, Naypyitaw, Yangon, Yangon, Yangon, Naypyitaw, Yangon, Naypyitaw~
$ Customer.type <fct> Member, Normal, Normal, Member, Normal, Normal, Member, Normal, Member,~
$ Gender <fct> Female, Female, Male, Male, Male, Male, Female, Female, Female, Female,~
$ Product.line <fct> Health and beauty, Electronic accessories, Home and lifestyle, Health a~
$ Unit.price <dbl> 74.69, 15.28, 46.33, 58.22, 86.31, 85.39, 68.84, 73.56, 36.26, 54.84, 1~
$ Quantity <int> 7, 5, 7, 8, 7, 7, 6, 10, 2, 3, 4, 4, 5, 10, 10, 6, 7, 6, 3, 2, 5, 3, 2,~
$ Tax.5. <dbl> 26.1415, 3.8200, 16.2155, 23.2880, 30.2085, 29.8865, 20.6520, 36.7800, ~
$ Total <dbl> 548.9715, 80.2200, 340.5255, 489.0480, 634.3785, 627.6165, 433.6920, 77~
$ Date <chr> "1/5/2019", "3/8/2019", "3/3/2019", "1/27/2019", "2/8/2019", "3/25/2019~
$ Time <chr> "13:08", "10:29", "13:23", "20:33", "10:37", "18:30", "14:36", "11:38",~
$ Payment <fct> Ewallet, Cash, Credit card, Ewallet, Ewallet, Ewallet, Ewallet, Ewallet~
$ cogs <dbl> 522.83, 76.40, 324.31, 465.76, 604.17, 597.73, 413.04, 735.60, 72.52, 1~
$ gross.margin.percentage <dbl> 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4.761905, 4~
$ gross.income <dbl> 26.1415, 3.8200, 16.2155, 23.2880, 30.2085, 29.8865, 20.6520, 36.7800, ~
$ Rating <dbl> 9.1, 9.6, 7.4, 8.4, 5.3, 4.1, 5.8, 8.0, 7.2, 5.9, 4.5, 6.8, 7.1, 8.2, 5~
Setelah persiapan varaibel yang ingin saya gunakan, saya akan langsung menjawab pertayaan awal saya menggunakan uji statistik.
Apakah ada hubungan antara gender dan cabang ? Apakah jenis kelamin mendistribusikan diri secara berbeda di antara cabang ?
table(data$Gender)
Female Male
501 499
table(data$Branch)
A B C
340 332 328
table(data$Gender, data$Branch)
A B C
Female 161 162 178
Male 179 170 150
sampel berisi jumlah Pelanggan pria dan wanita yang hampir sama sebagai hasil sementara. Jumlah total transaksi dataset juga sangat merata di seluruh cabang. Jenis kelamin tersebar agak merata di atas cabang, menurut tabel silang dengan dua variabel.
Jenis kelamin dan cabang menguji hubungan dengan uji chi-kuadarat dan uji fisher. gb = GenderBranch
chisq.test(gb)
Pearson's Chi-squared test
data: gb
X-squared = 3.532, df = 2, p-value = 0.171
fisher.test(gb)
Fisher's Exact Test for Count Data
data: gb
p-value = 0.1695
alternative hypothesis: two.sided
Hasil data diatas menghasilkan nol harus dipertahankan karena nilai p yang tinggi di kedua tes, ini menunjukkan bahwa para variabel gender dan cabang memiliki tidak berarti hubungan.
Apakah ada hubungan antara variabel gender dan pembayaran ? Apakah ada perbedaan dalam pemilihan metode pembayaran antara pelanggan pria dan wanita ?
Untuk menjawab pertayaan ke -2 : pertama-tama buat tabel silang yang akan memberikan input untuk data frame baru (prosuder yang dipersingkat). gp = gender payment
gp
Cash Credit card Ewallet
Female 178 163 160
Male 166 148 185
chisq.test(gp)
Pearson's Chi-squared test
data: gp
X-squared = 2.9497, df = 2, p-value = 0.2288
fisher.test(gp)
Fisher's Exact Test for Count Data
data: gp
p-value = 0.2293
alternative hypothesis: two.sided
hasil data diatas nilai p untuk keduat tes lebih besar dari 0,05, yang mengarah pada kesimpulan bahwa variabel tidak terkait (hipotesis nol)
Apakah ada hubungan antara variabel Gender dan Line Produk ?
gpl = gender product line
gpl
Electronic accessories Fashion accessories Food and beverages Health and beauty
Female 84 96 90 64
Male 86 82 84 88
Home and lifestyle Sports and travel
Female 79 88
Male 81 78
chisq.test(gpl)
Pearson's Chi-squared test
data: gpl
X-squared = 5.7445, df = 5, p-value = 0.3319
fisher.test(gpl, simulate.p.value = T)
Fisher's Exact Test for Count Data with simulated p-value (based on 2000 replicates)
data: gpl
p-value = 0.3243
alternative hypothesis: two.sided
hasil data diatas akibatnya, tidak ada perbedaan subtansial antara prefensi produk pria dan wanita. saya dapat menyimpulkan bahwa Gender dan line produk tidak memiliki hubungan.
Apakah rata-rata penjualan pria dan wanita berbeda ?
Untuk memulai, saya suka untuk melihat di dalam rata-rata total untuk kedua jenis kelamin.
Pertama, hanya ada sedikit perbedaan dalam total penjualan rata-rata antara pria dan wanita, dengan wanita menghasilkan lebih banyak pendapatan secara rata-rata dan secara keseluruhan. Menggunakan uji - t dua sampel, saya ingin melihat apakah ada perbedaan populasi.
Memeriksa persyaratan Uji-t : tidak ada outlier dan normal signifikan. #memerikas outlier secara visual dam melalui fungsi
Tes shapiro - Test dan visualisai digunakan untuk memeriksa kenormalan
nilai p dari shapiro - test - kurang dari 0,05, yang merupakan hasil parsial. Hal ini menunjukkan bahwa data tidak tersebara secara normal. hal ini menunjukkan bahwa prasyarat uji-t belum terpenuhi
saya akan meggunakan uji wilcoxon sebagai alternatif uji-t, yang disarankan jika persyaratan normalitas tidak terpenuhi.
wilcox.test(Total~Gender,data = data)
Wilcoxon rank sum test with continuity correction
data: Total by Gender
W = 132498, p-value = 0.1006
alternative hypothesis: true location shift is not equal to 0
str(wilcox.test(Total~Gender, data = data))
List of 7
$ statistic : Named num 132498
..- attr(*, "names")= chr "W"
$ parameter : NULL
$ p.value : num 0.101
$ null.value : Named num 0
..- attr(*, "names")= chr "location shift"
$ alternative: chr "two.sided"
$ method : chr "Wilcoxon rank sum test with continuity correction"
$ data.name : chr "Total by Gender"
- attr(*, "class")= chr "htest"
Hasil : nilai P dari uji wilcox jauh di atas 0,05 dan dengan demikian tidak signifikan, saya harus berasumsi bahwa tidak ada perbedaan total rata-rata antara klien supermarket antara pria dan wanita
Apakah ada perbedaan Total rata-rata mengenai tiga cabang A, B, dan C dari rantai supermarket ?
Untuk menjawab pertayaan ini, saya akan melakukan analisis varians (ANOVA), yang memungkinkan membandingkan rata-rata dari beberapa kelompok, Seperti pertayaan sebelumnya. pertama-tama saya harus memeriksa prasyarat tertentu dari test ini adalah tidak ada outlier yang signifikan, normalitas dan homogenitas varias.
Saya akan mengguanakan analisis varians (ANOVA) untuk memecahkan pertayaan ke -5, yang memungkinkan saya membandingkan rata-rata dari berbagai kelompok, saya harus terlebih dahulu memverifikasi prasyarat ujian tertentu, seperti yang saya lakukan dengan pertayaan terakhir, tidak ada outlier yang menonjol, normalitas, dan homgenitas varians adalah ketiga kriteria.
Pertama saya ingin mendaptakan gambaran dari total rata-rata dan jumlah total mengenani tiga cabang
Terakhir saya ingin melakukan analysis visual terhadap pandangan tersebut
selanjutnya saya ingin memiriksa apakah outliernya signifkan
Cabang A dan B memiliki outlier, tetapi mereka tidak signifikan, dengan demikian persyaratan tidak dilengkapi
Uji normalitas : ini akan dilakukan dengan bantuan Tes shapiro dan model linier.
Tes shapiro
shapiro.test(data$Total)
Shapiro-Wilk normality test
data: data$Total
W = 0.90876, p-value < 2.2e-16
Model Linier
Hasil uji normalitas : uji shapiro menunjukkan bahwa data tidak berdistribusi normal, karena nilai p lebih kecil dari 0,05. Plot qq mendukung hasil ini, karena normalitas dapat diasumsikan jika titik-titik didistribusikan secara merata di sekitar garis referensi, yang jelah tidak demikian. Akibatnya, saya harus menahan diri dari Uji ANOVA dan menggunakan alternatif non-parametek. Alternatif yang direkomendasikan dalam hal ini adalah Uji Kruskal-Wallis
Melakukan Uji Kruskal-Wallis
kruskal.test(Total~Branch, data = data)
Kruskal-Wallis rank sum test
data: Total by Branch
Kruskal-Wallis chi-squared = 0.41678, df = 2, p-value = 0.8119
Hasil : P > 0,05 oleh karena itu saya harus mengasumsikan bahwa tidak ada perbedaan yang signifikan antara Total rata-rata pada ketiga cabang
Ringkasan hasil dari lima pertanyaan pada Dataset Penjualan supermarke yang sudah di jawab, hasilnya adalah sebagai berikut :
Uji Chi-Square dilakukan untuk menguji hubungan antara variabel Gender dan Branch. tidak ditemukan hubungan yang signifikan.
Uji Chi-Square dilakukan untuk menguji hubungan antara variabel Gender dan Payment. Tidak ada hubungan signifikan yang ditemukan.
Uji Chi-Square dilakukan untuk menguji hubungan antara variabel Gender dan Product Line. Tidak ditemukan hubungan yang signifikan.
Uji Wilcoxon dilakukan untuk menguji perbedaan antara nilai-nilai variabel Gender terhadap Total Sales. Tidak ditemukan yang signifikan.
Uji Kruskal-Wallis dilakukan untuk menguji perbedaan antara nilai-nilai variabel Branch terhadap Total Sales. tidak ditemukan yang signifikan.