Intro to Statistics
1. Permasalahan Statistik Utama dari Dataset
Masalah utama dalam dataset adalah Variabilitas (Keragaman). Karena data setiap individu cenderung berbeda, statistik diperlukan untuk mencari pola di balik ketidakpastian tersebut. Fokus utamanya adalah bagaimana melakukan Generalisasi, yaitu menarik kesimpulan yang akurat mengenai Populasi besar hanya dengan menggunakan data Sampel yang terbatas tanpa terjebak dalam bias atau kesalahan pengambilan data.
2. Jenis Statistik yang Digunakan
Dataset tersebut dianalisis menggunakan dua jenis statistik utama sesuai fungsinya:
Statistik Deskriptif (Descriptive Statistics): Digunakan untuk meringkas dan mendeskripsikan data yang telah dikumpulkan. Tujuannya adalah untuk memberikan gambaran umum melalui angka ringkasan (seperti Mean, Median, Mode) atau melalui visualisasi (seperti tabel frekuensi dan grafik batang). Statistik ini tidak digunakan untuk membuat kesimpulan di luar data yang ada.
Statistik Inferensial (Inferential Statistics): Digunakan untuk menggeneralisasi hasil dari sampel ke populasi. Statistik ini melibatkan pengujian hipotesis dan estimasi untuk menentukan seberapa besar tingkat keyakinan kita bahwa hasil dari sampel tersebut berlaku untuk kelompok yang lebih besar.
Kesimpulan:
Permasalahan statistik utama dalam dataset adalah bagaimana mengelola variabilitas dan ketidakpastian untuk memahami populasi melalui sampel. Masalah ini diselesaikan dengan menggunakan Statistik Deskriptif untuk menyederhanakan informasi data, dan Statistik Inferensial untuk menarik kesimpulan atau generalisasi yang valid secara ilmiah.
Data Exploration
1. Ringkasan Statistik Variabel Numerik.
Variabel numerik adalah data dalam bentuk angka yang dapat diolah secara matematis.
| Quantity | Unit_Price | Shipping_Cost | Total_Amount | Customer_Age | |
|---|---|---|---|---|---|
| Min. :1.000 | Min. : 3.26 | Min. : 0.090 | Min. : 11.74 | Min. :18.00 | |
| 1st Qu.:1.000 | 1st Qu.: 21.24 | 1st Qu.: 3.700 | 1st Qu.: 39.41 | 1st Qu.:27.75 | |
| Median :2.000 | Median : 36.66 | Median : 7.400 | Median : 71.65 | Median :35.00 | |
| Mean :2.434 | Mean : 49.33 | Mean : 7.434 | Mean : 117.69 | Mean :35.87 | |
| 3rd Qu.:3.000 | 3rd Qu.: 59.67 | 3rd Qu.:11.043 | 3rd Qu.: 147.75 | 3rd Qu.:43.00 | |
| Max. :8.000 | Max. :260.80 | Max. :14.980 | Max. :1245.63 | Max. :70.00 |
Dari tabel di atas, poin-poin utama yang ditampilkan adalah:
2. Pola, Tren, dan Anomali
1. Pola (Pattern): Transaksi didominasi pembelian kecil (1-5 unit) oleh berbagai rentang usia pelanggan (18-70 tahun).
Note: Pola melihat “siapa” dan “bagaimana” perilaku mayoritas dalam data.
2. Tren (Trend): Terjadi Positive Skewness pada Total_Amount karena nilai Mean (117.69) > Median (71.65). Artinya, nilai rata-rata “tertarik” ke atas oleh beberapa belanjaan besar.
Note: Tren melihat “ke mana” arah distribusi data secara keseluruhan.
3. Anomali (Anomaly): Nilai Max pada Total_Amount (1245.63) adalah anomali (outlier) karena jaraknya sangat jauh dari rata-rata dan kuartil atas, menandakan adanya transaksi tunggal yang sangat besar.
Note: Anomali mencari “gangguan” atau data yang tidak biasa yang bisa merusak analisis.
Basic Data Visualization
Basic Data Visualizations adalah proses menyajikan data mentah kompleks ke dalam bentuk grafis untuk memudahkan pemahaman pola, tren, dan hubungan antarvariabel secara intuitif. Penggunaan visualisasi sangat krusial dalam pengambilan keputusan karena otak manusia lebih cepat menginterpretasikan gambar dibandingkan tabel angka. Namun, pemilihan jenis grafik harus tepat dan sesuai dengan karakteristik data agar tidak terjadi kesalahan interpretasi yang dapat menurunkan validitas analisis.
Dalam praktiknya, terdapat beberapa jenis visualisasi dasar dengan fungsi spesifik, seperti line chart dan histogram. Line chart sangat efektif untuk menganalisis tren atau perubahan data dari waktu ke waktu, seperti fluktuasi penjualan bulanan. Sementara itu, histogram digunakan untuk melihat distribusi dan sebaran data numerik melalui interval tertentu, yang memungkinkan analis mendeteksi bentuk distribusi data serta keberadaan pencilan (outlier).
Selain analisis tren dan distribusi, scatter plot berperan penting dalam mengidentifikasi hubungan atau korelasi antara dua variabel numerik. Melalui sebaran titik-titik pada grafik, kita dapat menentukan apakah hubungan tersebut bersifat positif, negatif, atau tidak berhubungan sama sekali. Secara keseluruhan, penguasaan atas ketiga visualisasi ini memastikan proses analisis data menjadi lebih informatif, akurat, dan mudah dipahami oleh berbagai pihak.
Central Tendency
Central Tendency adalah ukuran statistik yang merepresentasikan nilai pusat atau gambaran umum dari suatu kumpulan data. Terdapat tiga instrumen utama dalam ukuran ini, yaitu mean (rata-rata), median (nilai tengah), dan modus (nilai yang paling sering muncul). Ketiga ukuran ini berfungsi menyederhanakan kumpulan data yang kompleks menjadi satu nilai informasi yang mudah diinterpretasikan untuk mendukung pengambilan keputusan.
Perbedaan karakteristik data sangat memengaruhi penggunaan ketiga ukuran tersebut. Mean sangat sensitif terhadap nilai ekstrem (outlier) karena melibatkan seluruh angka dalam perhitungannya, sedangkan median lebih stabil karena hanya berfokus pada posisi tengah data. Sebagai contoh, pada data yang simetris, nilai mean dan median cenderung sama, namun pada data yang memiliki nilai ekstrem (seperti pada Dataset B), mean akan tertarik menjauhi mayoritas data sehingga median menjadi representasi nilai pusat yang lebih akurat.
Oleh karena itu, pemilihan ukuran tendensi sentral harus disesuaikan dengan distribusi data. Mean cocok untuk data yang seimbang dan bebas outlier, median lebih tepat untuk data yang miring atau memiliki pencilan, dan modus sangat berguna untuk mengidentifikasi tren dominan. Penggunaan visualisasi pendukung seperti histogram atau boxplot sangat disarankan untuk memperjelas posisi ketiga nilai pusat ini serta memetakan sebaran data secara lebih komprehensif.
Statistical Dispersion
Diberikan data nilai ujian statistik dari 10 mahasiswa sebagai berikut: 65, 70, 72, 75, 78, 80, 82, 85, 88, 90.
Pertama, rata-rata \(\bar{X} = \frac{1}{n}\sum X_i\) diperoleh dari total nilai 785 dibagi 10 mahasiswa, yaitu 78,5. Kemudian, Range \(R = X_{\max} - X_{\min}\) dihitung dari selisih nilai tertinggi 90 dan terendah 65, menghasilkan angka 25 sebagai gambaran sebaran kasar data.
Selanjutnya, Varians \(s^2 = \frac{1}{n-1}\sum (X_i - \bar{X})^2\) didapat dengan membagi total kuadrat selisih data (588,5) dengan 9 \((n−1)\), sehingga diperoleh hasil 65,39. Dari varians tersebut, Standar Deviasi \(s = \sqrt{s^2}\) dihitung melalui akar kuadratnya, yang menghasilkan nilai 8,09 untuk mengukur simpangan rata-rata setiap data secara akurat.
Tingkat penyebaran data ini diinterpretasikan sebagai variabilitas yang moderat dan stabil, menunjukkan bahwa nilai mahasiswa mengelompok cukup dekat di sekitar rata-rata tanpa adanya pencilan (outliers) yang mengganggu. Jika dibandingkan dengan studi kasus “Drug B” pada materi, pola ini mencerminkan konsistensi yang cukup baik karena nilai standar deviasi (8,09) relatif kecil dibandingkan nilai rata-ratanya. Meskipun rentang 25 poin menandakan adanya perbedaan kemampuan individu, penyebaran yang teratur ini menunjukkan bahwa sebagian besar mahasiswa memiliki kompetensi yang cukup seragam dalam ujian tersebut.
Essentials of probability
Dalam sebuah eksperimen statistika, kita melakukan pengamatan terhadap pelemparan satu buah koin setimbang sebanyak tiga kali. Langkah pertama adalah menentukan satu event (kejadian) yang relevan, yaitu munculnya tepat dua sisi Angka dalam tiga kali pelemparan tersebut. Penentuan ini sangat penting karena probabilitas menyediakan kerangka kerja sistematis untuk mengukur ketidakpastian melalui ruang sampel (S), yang dalam kasus ini memiliki total 2 kemungkinan hasil.
Selanjutnya, untuk melakukan penyelesaian soal, kita menerapkan rumus distribusi binomial \(P(X = k) = \binom{n}{k} \cdot p^k \cdot q^{\,n-k}\) karena setiap lemparan bersifat independen. Dengan memasukkan angka dari eksperimen ini—yaitu jumlah lemparan \((n=3)\), jumlah sukses yang diinginkan \((k=2)\), serta peluang masing-masing sisi \((p=0,5 \quad \text dan \quad q=0,5)\) kita menghitung kombinasi \(\binom{3}{2}\) yang menghasilkan 3 cara berbeda. Perhitungan lengkapnya menjadi \(P(X = 2) = 3 \cdot (0.5)^2 \cdot (0.5)^1\), yang menghasilkan nilai akhir sebesar 0,375.
Terakhir, dalam tahap interpretasi hasil, nilai probabilitas 0,375 atau 37,5% ini menjelaskan tingkat kepastian di tengah ketidakpastian. Secara praktis, hasil ini menunjukkan bahwa jika eksperimen melempar koin tiga kali ini diulang dalam jangka panjang, maka kejadian munculnya tepat dua Angka diharapkan akan terjadi sebanyak 37,5% dari total seluruh percobaan. Pemahaman ini membantu peneliti menginterpretasikan pola dalam data dan mengambil keputusan berbasis bukti, bukan sekadar dugaan semata.
Distribusi Probabilitas
Distribusi probabilitas menjelaskan peluang suatu nilai terjadi dalam suatu proses. Pemahaman bentuk distribusi penting untuk analisis data, perhitungan probabilitas, dan prediksi. Materi ini mencakup variabel acak kontinu, distribusi sampling, CLT, dan distribusi proporsi sampel sebagai dasar statistika inferensial.
Data
\[ (60,65,70,72,75,78,80,82,85,85,88,90,92,95,98), \quad n=15 \]
Perhitungan \[ \sum x=1215,\quad \bar{x}=\frac{1215}{15}=81,\quad \text{Median}=\frac{15+1}{2}=8 \Rightarrow 82,\quad\] \[Range =98-60=38\]
Bentuk Distribusi
Distribusi data cenderung mendekati normal dan sedikit miring ke kanan, karena terdapat beberapa nilai tinggi di akhir data. Nilai data banyak terkonsentrasi di sekitar 80–82, sesuai dengan mean 81 dan median 82. Penyebaran data cukup moderat dan tidak terdapat outlier yang ekstrem.
Confidence Interval (CI)
Confidence Interval (CI) mengestimasi parameter
populasi dari sampel.
Gunakan z jika σ diketahui / sampel besar, dan
t jika σ tidak diketahui & sampel kecil.
Lebar CI dipengaruhi oleh n, tingkat kepercayaan, dan
variasi data.
CI 95%
\[ n=15,\ \bar{x}=81,\ s=11.37,\ t_{0.025,14}=2.145,\ SE=\frac{11.37}{\sqrt{15}}=2.94\] \[ ME=2.145(2.94)=6.30 \]
\[ CI = 81 \pm 6.30 = \boxed{(74.70,\ 87.30)} \]
Makna: Confidence Interval 95% berarti kita memiliki
tingkat keyakinan 95% bahwa nilai parameter populasi yang
sebenarnya berada di dalam rentang
\(\boxed{(74.70,\; 87.30)}\).
Jika pengambilan sampel diulang berkali-kali, sekitar 95% dari interval yang terbentuk akan memuat nilai parameter populasi yang sebenarnya.
Statistical inference
Statistical inference adalah proses menarik kesimpulan tentang populasi dari data sampel melalui perumusan hipotesis, pengujian statistik (uji t, Z, Chi-Square), dan pengambilan keputusan berdasarkan tingkat signifikansi untuk mengendalikan risiko kesalahan.
Uji Hipotesis
\[ (60,65,70,72,75,78,80,82,85,85,88,90,92,95,98),\; n=15,\ \bar{x}=81\] \[ s=11.37,\ \alpha=0.05 \] Karena \((n<30)\) dan simpangan baku tidak diketahui → uji t.
\[ H_0:\mu=80,\quad H_1:\mu\neq80 \] \[ SE=\frac{11.37}{\sqrt{15}}=2.94,\quad t=\frac{81-80}{2.94}=0.34,\quad df=14,\quad t_{0.025,14}=2.145 \] \[ |t|=0.34<2.145 \Rightarrow \text{Gagal menolak } H_0 \] Tidak terdapat cukup bukti statistik untuk menyatakan bahwa rata-rata nilai mahasiswa berbeda dari 80 pada tingkat kepercayaan 95%.
Nonparametric Methods
Metode nonparametrik digunakan ketika asumsi parametrik tidak terpenuhi, seperti data tidak normal, sampel kecil, atau berskala ordinal/kategorik. Metode ini lebih tahan terhadap outlier namun memiliki daya uji lebih rendah.
Kasus & Metode
Seorang dosen ingin mengetahui apakah terdapat perbedaan kepuasan belajar antara dua kelompok mahasiswa yang menggunakan metode pembelajaran A dan B. Data kepuasan diukur dengan skala 1–10 (ordinal) dan jumlah sampel kecil, sehingga asumsi normalitas tidak dapat dipastikan.
Data: A = 5,7,9,4 B = 8,6,3,2
\[ R_A=21,\; R_B=15,\; n_A=n_B=4 \] \[ U_A=5,\quad U_B=11,\quad U=5 \]
Nilai kritis \(=2\), karena \(5>2\) → tidak signifikan
Kesimpulan: Tidak terdapat perbedaan motivasi belajar antara kelas A dan B.
Alasan: Uji ini digunakan karena data tidak dapat diasumsikan berdistribusi normal, ukuran sampel kecil, dan skala data bersifat ordinal, sehingga uji parametrik seperti uji t tidak sesuai dan metode nonparametrik lebih valid.
1. Bronze: Merupakan level keanggotaan dengan proporsi terbesar, yaitu sekitar 40,2% dari total pelanggan. Dominasi level ini menunjukkan bahwa sebagian besar pelanggan masih berada pada tahap awal siklus loyalitas, dengan pola transaksi yang cenderung sederhana dan frekuensi pembelian yang masih bersifat umum. Segmen ini menjadi basis utama pelanggan dengan kontribusi nilai per transaksi yang relatif lebih rendah.
2. Silver: Mencakup sekitar 29,2% dari keseluruhan pelanggan dan merepresentasikan segmen pelanggan dengan tingkat keterlibatan menengah. Pelanggan pada level ini mulai menunjukkan peningkatan konsistensi transaksi, yang mengindikasikan pergeseran dari perilaku belanja dasar menuju loyalitas yang lebih stabil.
3. Gold: Dengan proporsi sekitar 20,6%, level Gold mencerminkan pelanggan dengan tingkat loyalitas yang lebih tinggi dan pola transaksi yang lebih matang. Meskipun jumlahnya lebih terbatas, segmen ini memberikan kontribusi nilai penjualan yang relatif stabil dibandingkan level di bawahnya.
4. Platinum: Merupakan segmen terkecil dengan proporsi sekitar 10,0%, yang menunjukkan kelompok pelanggan bernilai tinggi dengan tingkat keterlibatan dan intensitas transaksi yang lebih besar. Walaupun secara kuantitas terbatas, segmen ini memiliki peran penting dalam mendukung nilai pendapatan secara agregat.
Distribusi total revenue menunjukkan bahwa kategori Electronics merupakan kontributor pendapatan terbesar dengan nilai $16.312, diikuti oleh Fashion sebesar $14.701. Kedua kategori ini secara konsisten menyumbang porsi pendapatan tertinggi dan membentuk struktur utama revenue bisnis.
Kategori Home & Living menghasilkan total revenue sebesar $10.658, berada pada tingkat menengah dan menunjukkan jarak kontribusi yang cukup signifikan dibandingkan dua kategori teratas. Hal ini mengindikasikan peran Home & Living sebagai penopang pendapatan sekunder.
Sementara itu, kategori Sports dan Beauty masing-masing mencatatkan revenue $7.120 dan $5.847, dengan kontribusi yang relatif lebih kecil terhadap total pendapatan. Kedua kategori ini berperan sebagai segmen pelengkap dalam komposisi revenue keseluruhan.
Kategori Books mencatatkan total revenue terendah sebesar $4.204, sehingga memiliki kontribusi paling kecil dalam distribusi pendapatan antar kategori produk. Secara keseluruhan, visualisasi ini menunjukkan adanya ketimpangan kontribusi revenue, di mana sebagian besar pendapatan terpusat pada beberapa kategori utama.
1. Pertumbuhan Berbasis Volume: Pendapatan memiliki korelasi linear yang sangat kuat dengan jumlah transaksi. Hal ini menunjukkan bahwa bisnis sangat bergantung pada kuantitas pesanan (volume-driven) untuk meningkatkan revenue, bukan pada kenaikan nilai per transaksi.
2. Tren Performa Bulanan:
3. Stagnasi Nilai Belanja (AOV): Jarak yang konsisten antara garis volume dan batang pendapatan setiap bulan mengindikasikan bahwa rata-rata nilai belanja per pelanggan (Average Order Value) cenderung stabil dan tidak mengalami perubahan signifikan.
4. Kesimpulan Strategis: Bisnis menunjukkan stabilitas operasional yang baik, namun memiliki ketergantungan tinggi pada traffic. Diperlukan strategi upselling atau bundling produk untuk mendorong kenaikan pendapatan tanpa harus selalu bergantung pada penambahan volume transaksi.
1. Central: Nilai transaksi berpusat pada kisaran menengah $50–$100 dengan distribusi menceng positif, menunjukkan bahwa pendapatan wilayah ini sangat didukung oleh kemunculan beberapa transaksi bernilai tinggi di luar pola belanja harian.
2. East: Wilayah ini memiliki karakteristik pasar paling heterogen dengan pola multi-modal, mencerminkan keberagaman segmen pelanggan yang luas, mulai dari pembeli produk ekonomis hingga kelompok belanja kelas menengah.
3. North: Aktivitas ekonomi sangat konsisten dan stabil pada kisaran nilai rendah $20–$80, menjadikannya wilayah dengan risiko operasional terendah meskipun sangat minim akan transaksi bernilai besar.
4. South: Mencatatkan daya beli terkuat dengan rata-rata transaksi tertinggi ($227) karena sebaran datanya lebih condong ke arah nominal besar dibandingkan wilayah lainnya.
5. West: Menunjukkan dualitas pasar yang jelas melalui pola bimodal, di mana pelanggan terbagi ekstrem antara kelompok pembeli hemat dan kelompok menengah tanpa banyak aktivitas di zona harga antaranya.
1. Central menunjukkan waktu pengiriman yang terpusat pada median 4 hari dengan variasi moderat. Pola ini mengindikasikan kinerja logistik yang relatif terkendali, meskipun masih terdapat sebagian kecil pengiriman dengan durasi lebih lama yang berpotensi memengaruhi konsistensi layanan.
2. East memiliki distribusi waktu pengiriman paling sempit di sekitar median 4 hari, mencerminkan tingkat efisiensi operasional yang tinggi dan variabilitas pengiriman yang rendah dibandingkan wilayah lainnya.
3. North menampilkan variasi waktu pengiriman tertinggi dengan rentang data yang lebar serta outlier hingga 10 hari. Kondisi ini menunjukkan adanya risiko keterlambatan operasional yang lebih besar, yang dapat berdampak pada keandalan layanan dan kepuasan pelanggan.
4. South secara umum mempertahankan waktu pengiriman yang stabil di sekitar median, namun keberadaan keterlambatan ekstrem memperlebar distribusi dan menunjukkan potensi ketidakkonsistenan pada sebagian proses pengiriman.
5. West menunjukkan variasi waktu pengiriman yang relatif tinggi disertai outlier yang jelas, mengindikasikan ketidakseragaman performa logistik yang dapat memengaruhi efektivitas distribusi antar pengiriman.
Berdasarkan visualisasi Kernel Density Estimation (KDE), distribusi harga satuan (unit price) menunjukkan pola right-skewed (menceng ke kanan), yang mengindikasikan bahwa probabilitas pembelian lebih tinggi pada produk dengan harga rendah hingga menengah. Puncak densitas yang tajam pada kisaran harga di bawah sekitar $50 menunjukkan bahwa sebagian besar observasi dalam dataset terkonsentrasi pada rentang harga tersebut, sehingga produk dengan harga terjangkau menjadi kontributor utama terhadap volume transaksi.
Seiring dengan peningkatan harga unit, nilai densitas menurun secara bertahap dan membentuk ekor distribusi yang panjang hingga di atas $250, menunjukkan bahwa transaksi dengan harga tinggi relatif jarang namun tetap berkontribusi signifikan terhadap nilai penjualan agregat.
Distribusi yang tidak simetris ini mengimplikasikan bahwa nilai rata-rata (mean) unit price cenderung lebih besar dibandingkan median, akibat pengaruh sejumlah kecil transaksi bernilai tinggi pada sisi kanan distribusi. Oleh karena itu, median memberikan gambaran yang lebih representatif terhadap harga transaksi tipikal pelanggan dan lebih sesuai digunakan sebagai indikator harga utama dalam analisis bisnis. Pola distribusi ini juga relevan untuk evaluasi struktur harga dan kontribusi produk terhadap pendapatan tanpa bergantung pada nilai ekstrem.
Confidence Interval (CI) adalah rentang nilai yang digunakan untuk mengestimasi nilai parameter populasi yang sebenarnya berdasarkan data sampel yang tersedia. Secara statistik, rata-rata sampel tidak pernah identik dengan rata-rata populasi, sehingga kita memerlukan rentang nilai untuk memberikan estimasi yang lebih masuk akal dan ilmiah.
Interval ini dinyatakan dengan Tingkat Kepercayaan (paling umum 95%), yang mencerminkan seberapa sering rentang tersebut akan mencakup nilai populasi yang sebenarnya jika penelitian dilakukan berulang kali pada sampel yang berbeda.
Kenapa Ini Penting?
Konsep ini penting untuk mengukur presisi. Interval yang sempit menunjukkan bahwa estimasi kita sangat tepat, sedangkan interval yang lebar menandakan adanya variabilitas data yang tinggi atau jumlah sampel yang kurang memadai.
Dalam melakukan estimasi, terdapat dua pendekatan utama:
Estimasi Titik (Point Estimate): Merupakan satu nilai statistik tunggal (misal: rata-rata sampel) sebagai tebakan langsung untuk populasi. Berdasarkan data biaya pengiriman Anda, rata-ratanya adalah 7,43. Meskipun mudah dipahami, nilai ini memiliki risiko kesalahan yang tinggi karena tidak mempertimbangkan variasi data.
Estimasi Rentang (Interval Estimate): Merupakan pengembangan dari estimasi titik dengan menambahkan batas bawah dan batas atas. Contohnya, biaya pengiriman diestimasi berada di antara 7,04 hingga 7,82. Metode ini jauh lebih reliabel karena memperhitungkan faktor ketidakpastian (Standard Error) dan tingkat kepercayaan yang dipilih.
Untuk membentuk sebuah rentang kepercayaan, terdapat tiga parameter kunci yang harus dihitung:
Selain parameter tersebut, pemilihan distribusi data juga sangat krusial dalam menentukan nilai kritis (skor Z atau T).
Secara teoretis, jika jumlah sampel cukup besar, distribusi sampling akan mendekati distribusi normal, sehingga penggunaan nilai kritis Z (seperti 1,96 untuk tingkat kepercayaan 95%) menjadi standar yang paling sering digunakan dalam analisis statistik.
A. Dasar Pengolahan Data
Sebelum melangkah ke estimasi interval, langkah pertama adalah mengolah data sampel untuk mendapatkan nilai pusat dan tingkat penyebarannya:
B. Parameter Estimasi (Standard Error)
Setelah mendapatkan nilai dasar, kita menghitung Standard Error (SE). SE menunjukkan fluktuasi atau stabilitas rata-rata sampel jika kita mengambil sampel berulang kali dari populasi yang sama. \[SE = \frac{s}{\sqrt{n}}\]
C. Penentuan Nilai Kritis dan Margin of Error
Ini adalah bagian krusial di mana pemilihan rumus ditentukan oleh ukuran sampel dan informasi populasi:
D. Formulasi Akhir Confidence Interval (CI)
Hasil akhir dari perhitungan ini adalah sebuah rentang yang terdiri dari Batas Bawah (Lower Bound) dan Batas Atas (Upper Bound). \[\text{Confidence Interval} = \bar{x} \pm ME\] Artinya:
Shipping cost
Pada bab ini dilakukan perhitungan statistik untuk menganalisis data biaya pengiriman (shipping_cost).
Perhitungan Mean
\[\bar{x} = \frac{\sum x_i}{n}\] Berdasarkan data sebanyak 500 observasi, diperoleh nilai mean biaya pengiriman sebesar 7,43.
Perhitungan Standar Deviasi
\[s = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n - 1}}\] Hasil perhitungan menunjukkan bahwa standar deviasi biaya pengiriman memiliki penyebaran sebesar 4,37 dari nilai rata-ratanya.
Perhitungan Standard Error
Standard error digunakan untuk mengukur tingkat ketelitian estimasi rata-rata sampel terhadap rata-rata populasi. \[SE = \frac{s}{\sqrt{n}}\]
Dengan nilai standar deviasi 4,37 dan jumlah data 500, diperoleh standard error sebesar \[SE = \frac{4{,}37}{\sqrt{500}} = 0{,}20\]
Perhitungan Margin of Error
Margin of error menunjukkan batas kesalahan maksimum dalam estimasi rata-rata populasi. \[ME = Z_{\alpha/2} \times SE\] Dengan tingkat kepercayaan 95% dan nilai kritis \(Z=1,96\), diperoleh margin of error sebesar \[ME = 1{,}96 \times 0{,}20 = 0{,}39\]
Penentuan Confidence Interval
\[\bar{x} \pm ME\] Dengan rata-rata 7,43 dan margin of error 0,39, interval kepercayaan 95% untuk biaya pengiriman berada pada rentang 7,04 hingga 7,82 \[7{,}04 \le \mu \le 7{,}82\]
Dengan tingkat keyakinan 95%, interval kepercayaan yang diperoleh menunjukkan bahwa rata-rata biaya pengiriman (shipping_cost) populasi berada dalam rentang 7,04 hingga 7,82. Hal ini berarti bahwa berdasarkan data sampel yang digunakan, dapat diyakini bahwa nilai rata-rata biaya pengiriman yang sebenarnya tidak berada di luar batas bawah dan batas atas tersebut. Rentang ini memberikan estimasi yang andal terhadap rata-rata populasi, sehingga hasil yang diperoleh dapat digunakan sebagai dasar pengambilan kesimpulan statistik dengan tingkat kepercayaan yang tinggi.
Dari sudut pandang bisnis, rentang nilai 7,04 sampai 7,82 menggambarkan kisaran biaya pengiriman rata-rata per transaksi yang realistis dan dapat diantisipasi oleh perusahaan. Informasi ini dapat dimanfaatkan dalam perencanaan dan pengendalian biaya operasional, penetapan strategi harga produk, serta evaluasi efisiensi layanan pengiriman. Dengan engetahui batas bawah dan batas atas biaya pengiriman, perusahaan dapat memperkirakan potensi fluktuasi biaya dan menyusun strategi yang tepat agar biaya pengiriman tetap berada dalam kisaran yang optimal dan tidak mengganggu profitabilitas
1. Overview Analisis
Dalam domain analisis perilaku konsumen (consumer behavior analysis), memahami variasi pola pengeluaran berdasarkan karakteristik demografis merupakan instrumen krusial bagi pengambilan keputusan strategis. Salah satu dimensi demografis yang fundamental untuk dievaluasi adalah gender, mengingat variabel ini sering kali menjadi prediktor dalam menentukan segmentasi pasar dan personalisasi promosi.
Analisis ini difokuskan pada variabel Total_Amount, yang merepresentasikan nilai agregat dari setiap transaksi pelanggan. Pertanyaan penelitian utama yang ingin divalidasi adalah: “Apakah terdapat perbedaan rata-rata pengeluaran yang signifikan secara empiris antara pelanggan laki-laki (Male) dan perempuan (Female)?”. Sesuai dengan kaidah statistika pada Chapter 9, metode Independent Samples T-Test digunakan sebagai instrumen uji untuk membandingkan rata-rata dari dua kelompok independen tersebut.
2. Deskripsi dan Karakteristik Data
Dataset yang dianalisis mencakup 491 entitas transaksi yang diklasifikasikan ke dalam dua kelompok independen: Male (n = 253) dan Female (n = 238).
Statistik Deskriptif
Eksplorasi awal dilakukan untuk meninjau distribusi pengeluaran pada kedua kelompok:
| Parameter | Male | Female |
|---|---|---|
| Sample Size (n) | 253.00 | 238.00 |
| Mean | 111.93 | 120.06 |
| Standard Deviation | 134.71 | 122.66 |
| Median | 70.79 | 72.80 |
| Minimum | 14.11 | 11.74 |
| Maximum | 1245.63 | 633.55 |
Secara deskriptif, kelompok Female memiliki rata-rata pengeluaran yang sedikit lebih tinggi. Namun, tingginya standar deviasi dan adanya nilai ekstrem (maksimum) mengindikasikan variabilitas data yang lebar, sehingga memerlukan uji inferensial untuk membuktikan apakah selisih tersebut nyata atau sekadar fluktuasi acak.
3. Perumusan Hipotesis
Pengujian dilakukan dengan parameter sebagai berikut:
\[H_0 : \mu_{\text{male}} = \mu_{\text{female}}\]
\[H_1 : \mu_{\text{male}} \neq \mu_{\text{female}}\]
4. Perhitungan Statistik Inferensial
a. Informasi Dasar Sampel
Berdasarkan data transaksi yang dianalisis, diperoleh ringkasan statistik sebagai berikut:
Rata-rata Total_Amount Male:
\[\bar{X}_1 = 111.93\]
Rata-rata Total_Amount Female:
\[\bar{X}_2 = 120.06\]
Simpangan baku Total_Amount Male:
\[s_1 = 134.71\]
Simpangan baku Total_Amount Female:
\[s_2 = 122.66\]
b. Selisih Rata-Rata (Difference in Means)
Selisih rata-rata Total_Amount antara pelanggan Male dan Female dihitung menggunakan rumus:
\[\bar{X}_1 - \bar{X}_2\]
Substitusi nilai:
\[111.93 - 120.06 = -8.13\]
Nilai negatif menunjukkan bahwa rata-rata Total_Amount pelanggan Male lebih rendah dibandingkan Female.
c. Perhitungan Varians Masing-Masing Kelompok
Varians diperoleh dengan mengkuadratkan simpangan baku.
Untuk kelompok Male:
\[s_1^2 = (134.71)^2 = 18{,}146.78\]
Untuk kelompok Female:
\[s_2^2 = (122.66)^2 = 15{,}045.48\]
d. Perhitungan Standard Error (SE)
Standard Error untuk selisih dua rata-rata dihitung menggunakan rumus:
\[SE = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\]
Substitusi nilai:
\[SE = \sqrt{\frac{18{,}146.78}{253} + \frac{15{,}045.48}{238}}\]
Perhitungan masing-masing komponen:
\[\frac{18{,}146.78}{253} = 71.74\]
\[\frac{15{,}045.48}{238} = 63.20\]
Sehingga:
\[SE = \sqrt{71.74 + 63.20}\]
\[SE = \sqrt{134.94}\]
\[SE = 11.62\]
e. Perhitungan Statistik Uji (t-statistic)
Statistik uji t dihitung dengan rumus:
\[t = \frac{\bar{X}_1 - \bar{X}_2}{SE}\]
Substitusi nilai:
\[t = \frac{-8.13}{11.62}\]
\[t = -0.700\]
Nilai t negatif menunjukkan arah perbedaan rata-rata, namun karena uji yang digunakan adalah uji dua sisi, nilai absolut dari statistik uji yang menjadi dasar pengambilan keputusan.
f. Degrees of Freedom (Derajat Kebebasan)
Derajat kebebasan untuk uji dua sampel independen dihitung sebagai berikut:
\[df = n_1 + n_2 - 2\]
\[df = 253 + 238 - 2 = 489\]
g. Nilai Kritis (Critical Value)
Untuk uji dua sisi dengan tingkat signifikansi \(\alpha = 0.05\) dan derajat kebebasan \(df = 489\), nilai kritis dari distribusi t adalah:
\[t_{critical} = \pm 1.965\]
h. Pengambilan Keputusan Berdasarkan Nilai Kritis
Perbandingan dilakukan antara nilai absolut statistik uji dan nilai kritis:
\[|t_{observed}| = 0.698\]
\[t_{critical} = 1.965\]
Karena:
\[0.698 < 1.965\]
maka keputusan statistik adalah gagal menolak hipotesis nol (H₀).
i. Perhitungan p-value
Berdasarkan distribusi t dengan \(df = 489\) dan statistik uji \(t = -0.700\) untuk uji dua sisi, diperoleh:
\[p\text{-value} = 0.484\]
Karena nilai p-value lebih besar dari tingkat signifikansi (\(p > 0.05\)), maka keputusan statistik konsisten, yaitu gagal menolak H₀.
j. Confidence Interval (95%)
Interval kepercayaan untuk selisih rata-rata dihitung menggunakan rumus:
\[(\bar{X}_1 - \bar{X}_2) \pm t_{critical} \times SE\]
Margin of error:
\[1.965 \times 11.62 = 22.83\]
Batas bawah:
\[-8.13 - 22.83 = -30.96\]
Batas atas:
\[-8.13 + 22.83 = 14.70\]
Sehingga interval kepercayaan 95% adalah:
\[(-30.95,\; 14.70)\]
Karena interval kepercayaan mencakup nilai nol, maka tidak terdapat perbedaan rata-rata yang signifikan secara statistik.
k. Ringkasan Perhitungan
Berdasarkan seluruh tahapan perhitungan di atas, diperoleh hasil sebagai berikut:
Hasil ini menunjukkan bahwa tidak terdapat perbedaan rata-rata Total_Amount yang signifikan antara pelanggan Male dan Female.
Visualisasi ini menjelaskan mengapa kita Gagal Menolak \(H_0\) (Tidak ada perbedaan signifikan):
Boxplot (Kiri): Garis tengah (median) pria dan wanita sejajar, dan kotak distribusinya sangat tumpang tindih (overlap). Ini bukti nyata bahwa pola belanja keduanya hampir identik. Titik-titik di bagian atas adalah outliers (belanjaan besar) yang ada di kedua kelompok.
Histogram (Kanan): Grafik biru dan merah saling menumpuk (membentuk area ungu). Ini menunjukkan bahwa di setiap rentang harga belanja, jumlah pria dan wanita yang membeli cenderung sama banyak. Tidak ada pergeseran distribusi yang mencolok.
Kesimpulan: Secara visual, perbedaan rata-rata sebesar $8.13 terlalu kecil untuk dianggap sebagai perbedaan nyata. Perbedaan tersebut hanya variasi acak dalam data.
Interpretasi Kurva Distribusi T
Visualisasi kurva ini merangkum hasil pengujian hipotesis secara teknis:
5. Interpretasi Bisnis (Insight)
Berdasarkan hasil uji statistik, berikut adalah rekomendasi strategis bagi manajemen:
Daya Beli yang Homogen: Gender bukan prediktor utama nilai transaksi. Perusahaan tidak perlu memisahkan anggaran pemasaran secara drastis antara Male dan Female.
Peluang Unisex Marketing: Fokus pada kampanye inklusif (gender-neutral) dapat meningkatkan efisiensi biaya produksi konten iklan.
Fokus pada Variabel Lain: Manajemen disarankan mengeksplorasi variabel lain seperti Kategori Produk atau Membership Level yang mungkin lebih berpengaruh terhadap segmentasi pelanggan
6. Alasan Pakai two-tailed test
Digunakan uji dua sisi karena pada awal analisis tidak ada hipotesis arah yang spesifik mengenai perbedaan rata-rata antara dua kelompok. Tujuan pengujian adalah untuk mengetahui apakah terdapat perbedaan secara umum, baik lebih besar maupun lebih kecil, sehingga uji dua sisi lebih tepat dan konservatif.
7. Kesimpulan Akhir
Melalui prosedur Independent Samples T-Test, diperoleh nilai \(p\text{-value} = 0.484\) (\(p > 0.05\)) dengan statistik uji \(t = -0.700\). Karena nilai tersebut berada di dalam daerah penerimaan, maka diputuskan:
Gagal Menolak Hipotesis Nol (\(H_0\)). Tidak terdapat perbedaan rata-rata pengeluaran yang signifikan antara pelanggan Male dan Female. Perbedaan kecil pada sampel hanyalah variasi acak dan tidak mewakili perbedaan nyata di tingkat populasi.
Uji Kruskal-Wallis adalah uji statistik nonparametrik yang digunakan untuk membandingkan median dari tiga kelompok atau lebih yang independen. Uji ini merupakan alternatif dari ANOVA one-way ketika asumsi normalitas tidak terpenuhi atau ketika data berbentuk ordinal.
Karakteristik Utama:
• Berbasis Ranking: Uji ini bekerja dengan meranking seluruh data dari terkecil ke terbesar, kemudian membandingkan rata-rata ranking antar kelompok.
• Nonparametrik: Tidak memerlukan asumsi distribusi normal, sehingga lebih robust terhadap outlier dan data yang miring (skewed).
• Independen: Setiap kelompok harus independen satu sama lain (tidak ada hubungan antar observasi di kelompok berbeda).
Hipotesis:
H₀: Median semua kelompok adalah sama
H₁: Setidaknya satu kelompok memiliki median yang berbeda
Formula Statistik H:
\[H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)\]
Di mana:
Statistik H mengikuti distribusi Chi-Square dengan derajat kebebasan (df) = k - 1.
Kasus Studi:
Apakah terdapat perbedaan signifikan dalam Total_Amount pembelanjaan antar berbagai tingkat Membership_Level (Bronze, Silver, Gold, Platinum)?
Level Signifikansi: α = 0.05
Ringkasan Data
Statistik Deskriptif memberikan gambaran umum tentang karakteristik data sebelum melakukan uji statistik. Dalam konteks Uji Kruskal-Wallis, kita fokus pada median karena uji ini membandingkan median antar kelompok, bukan mean.
Observasi dari Data:
Dari tabel statistik deskriptif, kita dapat melihat:
• Ukuran Sampel relatif seimbang antar kelompok (n = 117-139), sehingga tidak ada bias dari ukuran sampel yang sangat berbeda.
• Median berkisar antara $68 hingga $84, dengan selisih maksimal sekitar $15. Ini menunjukkan bahwa tidak ada perbedaan yang sangat besar antar kelompok.
• Mean berkisar antara $102 hingga $126. Perhatikan bahwa mean lebih tinggi dari median di semua kelompok, yang mengindikasikan distribusi miring ke kanan (right-skewed) karena adanya nilai-nilai tinggi yang menarik mean ke atas.
• Standard Deviation berkisar antara $64 hingga $80, menunjukkan variabilitas yang cukup konsisten antar kelompok.
Interpretasi Awal:
Dari statistik deskriptif, kita dapat menduga bahwa tidak ada perbedaan signifikan antar kelompok membership, karena nilai median yang sangat mirip. Namun, ini hanya dugaan awal—uji statistik formal diperlukan untuk memastikan.
| Membership_Level | n | Median | Mean | SD |
|---|---|---|---|---|
| Bronze | 140 | 90.32 | 100.32 | 65.47 |
| Silver | 132 | 73.34 | 90.01 | 69.30 |
| Gold | 121 | 83.98 | 101.35 | 75.90 |
| Platinum | 107 | 81.03 | 96.04 | 62.03 |
Perbandingan Distribusi
• Box (Kotak): Menunjukkan Interquartile Range (IQR), yaitu rentang antara kuartil pertama (Q1/25%) dan kuartil ketiga (Q3/75%).
• Garis Tengah dalam Box: Menunjukkan median (Q2/50%), yang merupakan fokus utama dalam Uji Kruskal-Wallis.
• Whiskers (Kumis): Garis yang memanjang dari box hingga nilai maksimum dan minimum dalam rentang 1.5 × IQR.
• Titik-titik di luar whiskers: Outliers, yaitu nilai ekstrem yang berada di luar rentang normal.
Analisis Visual:
Dari box plot kita dapat mengobservasi:
Kesimpulan Visual: Distribusi keempat kelompok sangat mirip, yang mendukung hipotesis nol (H₀) bahwa tidak ada perbedaan signifikan.
Insight:
Membership level bukan predictor yang baik untuk total pembelanjaan. Faktor lain seperti kategori produk, timing promosi, atau demografi mungkin lebih berpengaruh.
Eksplorasi Data Multidimensi
Interpretasi 3D Scatter Plot:
• Sumbu X: Membership Level (Bronze, Silver, Gold, Platinum)
• Sumbu Y: Total Amount dalam dollar ($)
• Sumbu Z: Density Index (urutan data 1-500)
• Warna: Coding per membership tier
Insight dari 3D Plot:
Interpretasi Statistik H
Konsep Kunci:
Statistik H dari Uji Kruskal-Wallis, ketika ukuran sampel cukup besar, mengikuti distribusi Chi-Square dengan derajat kebebasan (df) = k - 1, di mana k adalah jumlah kelompok.
Dalam kasus ini: df = 4 - 1 = 3
Interpretasi Distribusi Chi-Square 3D:
• Surface Ungu-Merah: Menunjukkan kurva distribusi Chi-Square dengan df = 3. Area di bawah kurva merepresentasikan probabilitas.
• Garis Hijau: Posisi H-statistic kita (3.5). Ini adalah nilai yang kita hitung dari data.
• Garis Merah: Batas kritis χ² = 7.815 pada α = 0.05. Jika H > batas ini, kita tolak H₀.
Area Keputusan:
• Kiri Garis Merah (Acceptance Region): Jika H berada di sini, kita gagal tolak H₀—tidak ada bukti perbedaan signifikan.
• Kanan Garis Merah (Rejection Region 5%): Jika H berada di sini, kita tolak H₀—ada perbedaan signifikan.
Dalam Kasus Ini:
H = 3.5 << χ² kritis = 7.815
H berada jauh di sebelah kiri garis merah, dengan selisih 4.32. Ini berarti kita gagal menolak H₀—tidak ada bukti statistik untuk menyatakan bahwa median Total_Amount berbeda antar membership level.
Kesimpulan Statistik
H = 3.5 | p = 0.321 | α = 0.05
Gagal Tolak H₀
Tidak ada perbedaan signifikan dalam median Total_Amount antar membership level
Step-by-Step Calculation
Langkah 1: Ranking Data
Gabungkan semua data dari keempat kelompok (N = 500) dan beri ranking dari 1 (terkecil) hingga N (terbesar). Jika ada nilai yang sama (ties), gunakan rata-rata ranking.
Langkah 2: Hitung Sum of Ranks per Kelompok
Jumlahkan ranking untuk setiap kelompok:
Bronze: R₁ = 3.6804^{4}
Silver: R₂ = 2.7172^{4}
Gold: R₃ = 3.053^{4}
Platinum: R₄ = 3.0744^{4}
Langkah 3: Hitung R²/n untuk Setiap Kelompok
Bronze: 9.675246^{6}
Silver: 6.900164^{6}
Gold: 7.061219^{6}
Platinum: 7.811517^{6}
Σ(R²/n) = 3.1448146^{7}
Langkah 4: Substitusi ke Formula
\[H = \frac{12}{N(N+1)} \sum \frac{R_i^2}{n_i} - 3(N+1)\]
\[H = \frac{12}{500 \times 501} \times 3.1448146\times 10^{7} - 3 \times 501\]
\[H = 3.498\]
Verifikasi:
H (manual) = 3.498
H (R function) = 3.5
| Membership | n | Sum of Ranks | Avg Rank |
|---|---|---|---|
| Bronze | 140 | 36804 | 262.89 |
| Silver | 132 | 30530 | 231.29 |
| Gold | 121 | 30744 | 254.08 |
| Platinum | 107 | 27172 | 253.94 |
Formula Kruskal-Wallis:
\[H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1)\]
Parameter:
N = 500 (total sampel)
k = 4 (jumlah kelompok)
df = k - 1 = 3
Hasil Akhir:
H-statistic = 3.5
p-value = 0.321
χ² kritis (α=0.05, df=3) = 7.815
Keputusan: Karena H < χ² kritis dan p > 0.05, maka GAGAL TOLAK H₀
Implikasi Bisnis dari Hasil Uji Kruskal-Wallis
Hasil analisis menunjukkan bahwa tidak ada perbedaan signifikan dalam total pembelanjaan antar membership level. Ini memiliki implikasi penting untuk strategi bisnis:
1. Evaluasi Program Membership
Program membership saat ini tidak efektif dalam mendorong pembelanjaan lebih tinggi di tier premium:
Pelanggan Platinum tidak belanja lebih banyak dari Bronze
Selisih median hanya ~$15 (tidak material)
ROI program membership perlu dievaluasi ulang
2. Strategi Pemasaran Alternatif
Karena membership bukan predictor pembelanjaan, fokus pada faktor lain:
Kategori Produk: Apa yang dibeli? (fashion, elektronik, groceries)
Metode Pembayaran: Credit card, digital wallet, installment
Timing: Flash sale, weekend, seasonal campaign
Demografi: Usia, gender, lokasi geografis
Delivery: Express shipping vs standard
Business Insights & Recommendations
3. Rekomendasi Aksi
Re-design Program Loyalitas: Personalisasi berdasarkan perilaku pembelian, bukan tier statis
Tingkatkan Benefit Premium: Diskon eksklusif >20%, free shipping tanpa minimum, early access produk baru
Analisis Mendalam: Multiple regression untuk identifikasi driver utama pembelanj
A/B Testing: Uji berbagai incentive program untuk menemukan yang paling efektif
Behavioral Segmentation: RFM analysis (Recency, Frequency, Monetary) untuk segmentasi lebih akurat
Kesimpulan Akhir
H = 3.5 | p = 0.321
Tidak ada perbedaan yang signifikan dalam Total Amount antar Membership Level
Action Required:
Evaluasi ulang strategi membership & fokus pada faktor-faktor lain
yang lebih berpengaruh