
Ukuran Penyebaran Data
Definisi Ukuran Penyebaran Data -> Iyalah suatu
konsep dalam statistika yang menggambarkan sejauh mana nilai-nilai dalam
suatau dataset tersebar atau bervariasi dari nilai pusat (misalnya
rata-rata, median). Ukuran ini memberikan informasi tentang distribusi
data, membantu mengidentifikasi tingkat kehomogenan atau keheterogenan
data, serta mendeteksi keberadaan outlier.
A. Jangkauan (Range)
1. Definisi Jangkauan (Range)
adalah suatau ukuran penyebaran data yang paling sederhana, yang
menunjukkan selisih antara nilai maksimum dan nilai minimum dalam suatu
dataset. Jangkauan memberikan gambaran kasar tentang rentang distribusi
data.
2. Rumus:
\[
\text{Range} = \text{Nilai Maksimum} - \text{Nilai Minimum}
\] Contoh:
Jika sebuah dataset memiliki nilai: \(3, 7,
8, 15, 22\)
- Nilai maksimum = \(22\)
- Nilai minimum = \(3\)
Maka, jangkauan (range) adalah: \[
\text{Range} = 22 - 3 = 19
\]
3. Kelebihan:
- Mudah dihitung
- Memberikan informasi dasar tentang rentang distribusi data.
4. Kekurangan:
- Tidak memperhitungkan distribusi data di antara nilai-nilai
tersebut.
- Sangat sensitif terhadap outlier (nilai ekstrem).
Jangkauan biasanya digunakan sebagai langkah awal untuk memahami
sebaran data sebelum menggunakan ukuran penyebaran lainnya yang lebih
kompleks, seperti varians atay standar deviasi.
B. Jangkauan Antar Kuartil (IQR)
1. Definisi IQR
Jangkauan Antar Kuartil adalah ukuran penyebaran data yang
menggambarkan rentang antara kuartil ketiga\((Q3)\) dan kuartil pertama \((Q1)\). IQR menunjukan rentang nilai tengah
dari dataset, yaitu data yang berada di antara 25% hingga 75%
distribusi.
2. Rumus:
\[
\text{IQR} = Q_3 - Q_1
\]
- \(Q1\) (Kuartil
Pertama): Nilai yang memisahkan 25% data terkecil dari
sisanya.
- $Q3 (Kuartil Ketiga): Nilai yang memisahkan 25%
data terbessar dari sisanya.
3. Contoh:
Jika sebuah dataset memiliki nilai: \[
5, 7, 8, 12, 15, 18, 20
\]
- Urutkan data.
- Tentukan \(Q1\) (kuartil pertama):
Median dari setengah data pertama \((5, 7,
8)\) adalah \(7\).
- Tentukan \(Q3\) (kuartil ketiga):
Median dari setengah data kedua \((15, 18,
20)\) adalah \(18\).
- Hitung IQR: \[
IQR = Q3 - Q1 = 18 - 7 = 11
\]
4. Fungsi IQR:
- Mengukur konsentrasi nilai tengah dalam dataset.
- Membantu mengidentifikasi outlier: data yang jauh dari luar rentang
\[
Q_1 - 1.5 \times \text{IQR} \quad \text{atau} \quad Q_3 + 1.5 \times
\text{IQR} \quad \text{dianggap sebagai outlier.}
\]
IQR lebih stabil terhadap outlier dibandingkan jangkauan (range)
karena hanya mengggunakan nilai tengah distribusi data.
C. Varians
1. Definisi Varians
Varians adalah ukuran penyebaran data yang menunjukan sejauh mana
nilai-nilai dalam dataset tersebar atau berbeda dari nilai rata-rata
(mean). Varians mengukur rata-rata kuadrat deviasi (selisih) setiap
nilai data terhadap nilai rata-rata.
2. Rumus Varians:
Untuk dataset dnegan \(n\) data,
varians dihitung dengan rumus:
Varians untuk populasi: \[
\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
\] Di mana:
\(\sigma^2\) adalah varians
populasi.
\(N\) adalah jumlah data dalam
populasi.
\(X_i\) adalah nilai individual
dalam data.
\(\mu\) adalah rata-rata
populasi.
Untuk sampel, varians dirumuskan sebagai: \[
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
\]
3. Interpretasi:
- Varians tinggi menunjukan bahwa data memiliki
penyebaran yang besar (data lebih jauh dari rata-rata).
- Varians rendahmenunjukkan bahwa data lebih
terkonsentrasi di sekitar rata-rata.
4. Contoh
Jika data \[
[2, 4, 6, 8]:
\]
- Hitung rata-rata: \[
\bar{X} = \frac{2 + 4 + 6 + 8}{4} = 5
\]
- Hitung selsih kuadrat setiap data dari rata-rata: \[
(2 - 5)^2, (4 - 5)^2, (6 - 5)^2, (8 - 5)^2 \implies 9, 1, 1, 9
\]
- Hitung rata-rata selisih kuadrat tersebut:
- Jika populasi: \[ \frac{9 + 1 + 1 + 9}{4}
= 5 \]
- Jika sampel: \[ \frac{9 + 1 + 1 + 9}{3} =
6.67\]
Varians digunakan dalam berbagai bidang, termasuk statistik, ekonomi,
dan machine learning,untuk mengukur penyebaran data.
D. Standar Deviasi
1. Definisi Standar Deviasi
Standar Deviasi adalah ukuran statistik yang menunjukkan seberapa
tersebar atau bervariasinya data dari nilai rata-rata (mean) dalam suatu
distribusi. Standar deviasi memberikan gambaran seberapa jauh setiap
data dalam kumpulan tersebut dari nilai rata-rata.
2. Definisi Matematika:
Standar deviasi dihitung dengan rumus: \[
sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}
\]
Penjelasan Komponen:
- \(\sigma\): Standar deviasi.
- \(X_i\): Setiap nilai dalam
kumpulan data.
- \(\mu\): Rata-rata dari seluruh
data. \(n\): Jumlah data.
3. Fungsi Standar Deviasi:
- Mengukur Variabilitas data: Semakin kecil standar
deviasi, semakin dekat data dengan rata-rata, dan sebaliknya.
- Membantu dalam Analisis risiko atau
Variabilitas hasil, misalnya dalam keuangan dan
statistik.
- Memahami Penyebaran data dalam suatu distribusi
normal.
Jenis Standar Deviasi: 1. Populasi
digunakan saat seluruh populasi data diketahui. [
= ] 2. Sampel digunakan saat hanya sebagian data
(sampel) yang dianalisis. \[
s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}
\]
4. Contoh:
Misalkan kumpulan data adalah: \(2, 4, 6,
8, 10\).
- Hitung rata-rata \((\mu)\): \((2 + 4 + 6 + 8 + 10)/ 5 = 6\)
- Hitung selisih setiap data dari rata-rata, kuadratkan, lalu cari
rata-rata kuadrat tersebut.
- Ambil akar kaudrat dari rata-rata kuadrat.
Dengan hasilnya, Anda mengetahui bagaimana data menyebar dari
rata-rata.
E. Koefisien Variasi
1. Definisi Koefisien
Koefisien Variasi (CV) adalah statistik yang menunjukkan tingkat
variasi dalam suatu datset relatif terhadap rata-rata dataset tersebut.
CV digunakan untuk membandingkan variasi data antar grup atau dataset
yang memiliki satuan atau skala yang berbeda.
2. Rumus Koefisien Varisi:
\[
CV = \left( \frac{\sigma}{\mu} \right) \times 100
\] Di mana:
- \(\sigma\) = Simpangan baku
(standar deviasi).
- \(\mu\) = Rata-rata (mean).
- \(CV\) = Koefisien variasi dalam
bentuk presentase.
3. Penjelasan Elemen dalam Rumus
- Simpangan Baku (Standard Deviation) : Simpangan
baku \(\sigma\) mengukur seberapa besar
data terbesar dari rata-rata. Semakin besar simpangan baku, semakin
besar penyebaran data.
- Rata-rata (Mean): Rata-rata \(\mu\) adalah nilai pusat dari data, yang
dihitung dengan menjumlahkan semua nilai data dan membaginya dengan
jumlah data.
- Koefisien Variasi (CV): CV memberikan gambaran
tentang tingkat variasi data relatif terhadap rata-rata, lalu mengalikan
hasil pembagian simpangan baku dengan rata-rata, lalu mengalikannya
dengan \(100\), kita memperoleh
persentase variasi yang lebih mudah dibandingkan dengan satuan asli
data.
4. Interpretasi Koefisien Variasi
- CV rendah: Jika relatif rendah, itu menunjukkan
bahwa data lebih terkonsentrasi di sekitar rata-rata. Variasi dalam data
kecil dibandingkan dengan rata-rata. _ CV tinggi: Jika
CV tinggi, itu menunjukkan bahwa data lebih tersebar. Variasi dalam data
besar dibandingkan dengan rata-rata.
5. Contoh Penggunan koefisien Variasi
Misalkan ada dua kolompok siswa yang mengikuti ujian matematika:
- Kelompok A memiliki rata-rata nilai \(80\) dan simpangan baku \(5\).
- Kelompok B memiliki rata-rata nilai \(90\) dan simpangan baku \(10\).
Menghitung CV untuk kedua kelompok:
- Kelompok A \[
CV_A = \left( \frac{5}{80} \right) \times 100 = 6.25\%
\]
- Kelompok B \[
CV_B = \left(\frac{10}{90}\right) \times 100 = 11.11%
\]
Dari perhitungan di atas, meskipun kelompok B memiliki rata-rata yang
lebih tinggi, variasi (atau sebaran) nilai dalam kelompok B lebih besar,
sebagaimana ditunjukkan oleh nilai CV yang lebih tinggi.
F. Rentang Semi-Interkuartil
1. Definisi Rentang Semi-Interkuartil
Rentang Semi-Interkuartil adalah salah satu jenis rentang dalam
analisis statistik yang digunakan untuk mengukur variabilitas atau
penyebaran data. Rentang ini dihitung dengan cara mengurangi nilar
kuartil pertama \((Q1)\) dari nilai
kuartil ketiga \((Q3)\). Dengan kata
lain, rentang semi-interkuartil (atau disebut juga interquartile
range / IQR) menggambarkan sebaran data pada 50% tengah dari
kumpulan data yang telah diurutkan.
2. Rumus Rentang Semi-Interkuaril (IQR)
Rentang Semi-Interkuartil dihitung menggunakan rumus: \[
IQR = Q_3 - Q_1
\]
Di mana:
- \(Q1\) = Kuartil ketiga (nilai pada
posisi ke 75% data)
- \(Q1\) = Kuartil pertama (nilai
pada posisi ke 25% data)
3. Langkah-langkah Menghitung Rentang Semi-Interkuartil
(IQR)
Untuk menghitung IQR, berikut adalah langkah-langkah dilakukan:
Langkah 1: Urutkan Data
Langkah pertama yaitu mengurutkan data dalam urutan menaik (dari yang
terkecil hingga terbesar). Contoh data: \(3,7,8,12,14,18,19,21,22,30\)
Langkah 2: Tentukan Kuartil Pertama (Q1)
Kuartil pertama (Q1) adalah median dari data bagian bawah (nilai yang
terletak di bawah median keseluruhan). Data ini dibagi menjadi dua
bagian, dan Q1 adalah median dari bagian yang lebih kecil.
Langkah 3: Tentukan Kuartil (Q3)
Kuartil ketiga (Q3) adalah median dari data bagian atas (nilai yang
terletak di atas median keseluruhan). Data ini dibagi menjadi dua
bagian, dan Q3 adalah median dari bagian yang lebih besar.
Langakh 4: Hitung IQR
Setelah menemukan nilai Q1 dan Q3, IQR dapat dihitung dengan
mengurangkan Q1 dari Q3: \[
IQR = Q_3 - Q_1
\]
4. Contoh Perhitungan IQR
Misalkan kita memiliki data berikut yang sudah diurutkan: \(1,4,7,9,12,15,18,20,25,30\)
- Median (Q2): Nilai tengah dari data adalah \(12\) (nilai pada posisi \(5\) dan \(6\)).
- Kuartil pertama (Q1): Median dari \(1, 4, 7, 9, 12\) adalah \(7\)
- Kuartil ketiga (Q3): Meidan dari \(15, 18, 20, 25, 30\) adalah \(20\).
Jadi, perhitungan IQR adalah: \[
IQR = Q3 - Q1 = 20 - 7 = 13
\]
Latihan 1
Sebuah perusahaan ingin memahami karakteristik penyebaran data hasil
penjualan dari empat cabang (A, B, C, dan D) selama satu bulan terakhir.
Data penjualan (dalam juta rupiah) dari keempat cabang tersebut adalah
sebagai berikut:
- Cabang A: 50, 55, 60, 65, 70
- Cabang B: 40, 50, 60, 70, 80
- Cabang C: 30, 30, 35, 40, 45
- Cabang D: 70, 75, 80, 85, 90
Soal 2. Cabang mana yang memiliki penyebaran data paling
kecil? Jelaskan alasannya.
Cabang yang memiliki penyebaran data paling kecil
adalah Cabang C, karena standar
deviasi dari data penjualan Cabang C adalah yang paling rendah,
yaitu \(5,83\) juta
Penjelasan:
1. Standar deviasi
Standar deviasi adalah ukuran statistik yang menggambarkan seberapa
tersebar data terhadap rata-rata. Semakin kecil nilai standar deviasi,
semakin dekat data terhadap rata-rata, yang berarti penyebaran data
lebih kecil.
2. Perbandingan standar deviasi antar cabang:
- Cabang A = 7,07 juta
- Cabang B = 14,14 juta
- Cabang C = 5,83 juta (paling kecil)
- Cabang D = 7,07 juta
3. Interpretasi untuk Cabang C:
- Data penjualan Cabang C lebih seragam atau konsisten dibandingkan
cabang lainnya.
- Rentang data di Cabang C juga lebih sempit \((30\) hingga \(45)\)
4. Kesimpulannya:
Cabang C memiliki penyebaran data paling kecil karena data mereka
lebih seragam, dan nilai standar deviasinya adalah yang terendah di
antara semua cabang.**
Soal 3. Jika target penjualan minimum adalah 50 juta rupiah,
cabang mana saja yang gagal mencapai target di semua
datanya?
Cabang yang gagal mencapai target penjualan minimum sebesar 50 juta
rupiah untuk semua datanya adalah Cabang C.
1. Alasan:
- Data penjualan Cabang C: \([30,30,35,40,45]\)
- Seluruh nilai dalam data tersebut kurang dari target 50 juta,
sehingga Cabang C gagal mencapai target di semua
datanya.
2. Pengecekan untuk cabang lain:
- Cabang A: \([50,55,60,65,70]\)
Semua data memenuhi target 50 juta.
- Cabang B: \([40,50,60,70,80]\)
Ada daya yang gagal \((40)\), tetapi
tidak semuanya.
- Cabang D: \([70,75,80,85,90]\)
Semua data memenuhi target 50 juta.
3. Kesimpulan:
Hanya Cabang C yang gagal mencapai target penjualan
50 juta rupiah di semua datanya.
Soal 4. Buatlah diagram kotak (box plot) untuk
memvisualisasikan penyebaran data setiap cabang.
2. Cabang B dalam Boxplot
3. Cabang C dalam Boxplot
4. Cabang D dalam Boxplot
5. Boxplot Cabang A, B, C, dan D
Latihan 2
Perusahaan XYZ mengelola pengeiriman barang ke berbagai wilayah
dengan menggunakan berbagai jenis transportasi. Setiap pengiriman
melibatkan biaya transportasi, waktu yang dibutuhkan, dan jumlah barang
yang dikirim. Berikut adalah data terkait pengriman barang berdasarkan
wilayah dan jenis barang:
Soal 1. Analisis Efisiensi Pengiriman:
- Visualisasikan Pengiriman barang berdasarkan jumlah barang, waktu
pengiriman, dan biaya per unit dengan menggunakan Boxplot 3D.
- Tentukan Wilayah mana yang memiliki efisiensi pengiriman terendah
berdasarkan biaya per unit dan waktu pengiriman.
A. Visualisasi Boxplot 3D
B. Analisis Efisiensi Pengiriman
Berdasarkan data pengiriman barang yang mencakup berbagai wilayah,
jenis barang, waktu pengiriman, dan biaya, kita dapat menganalisis
efisiensi pengiriman dengan cara menghitung biaya per
unit dan waktu pengiriman.
- Penghitungan Biaya Per Unit dan Efisiensi
- Biaya per unit dihitung dengan membagi biaya
pengiriman dengan jumlah unit barang yang dikirim.
- Efisiensi pengiriman dihitung dengan mengalikan
biaya per unit dengan waktu pengiriman (jam). Hal ini memberikan
gambaran tentang berapa banyak biaya yang dikeluarkan untuk setiap unit
barang dalam waktu tertentu.
- Wilayah dengan Efisiensi Pengiriman Terendah
Setelah melakukan perhitungan efisiensi, kita dapat menentukan wilayah
dengan efisiensi pengiriman terendah, yaitu wilayah yang memiliki nilai
biaya per unit dan waktu pengiriman
yang paling rendah.
Berdasarkan perhitungan, wilayah dengan efisiensi pengiriman terendah
adalah Wilayah Tengah dengan nilai efisiensi sebesar 178.2857.
Artinya, pengiriman barang di wilayah Tengah memiliki kombinasi biaya
per unit dan waktu pengiriman yang lebih efisien dibandingkan dengan
wilayah lainnya.
- Kesimpulan
- Wilayah Tengah menunjukkan efisiensi pengiriman
terendah dengan efisiensi sebesar \(178.2857\).
- Visualisasi 3D memberikan gambaran yang jelas tentang pengaruh
jumlah barang, waktu pengiriman, dan biaya per unit terhadap efisiensi
pengiriman di berbagai wilayah.
Dengan informasi ini, perusahaan dapat lebih fokus pada wilayah
Tengah untuk meningkatkan efisiensi pengiriman, baik
dengan mengurangi biaya atau memperpendek waktu pengiriman guna mencapai
performa yang lebih baik dalam pengelolaan logistik.
Soal 2. Rekomendasi Operasional
1. Wilayah yang Memerlukan Perhatian Khusus
- Wilayah Tengah adalah wilayah yang menunjukkan
efisiensi pengiriman terendah. Meskipun biaya per unitnya tidak terlalu
tinggi, waktu pengiriman di wilayah ini cukup panjang (jam) dibandingkan
dengan wilayah lainnya.
- Wilayah ini perlu diperhatikan karena kombinasi biaya dan waktu yang
tinggi dapat mempengaruhi profitabilitas perusahaan serta kepuasan
pelanggan.
- Apa rekomendasi untuk mengurangi biaya dan waktu pengiriman di
wilayah tersebut?
2. Rekomendasi untuk Mengurangi Biaya dan Waktu Pengiriman
di Wilayah Tengah
Berdasarkan hasil analisis, beberapa rekomendasi yang dapat
diterapkan untuk mengurangi biaya dan waktu pengiriman di
Wilayah Tengah adalah:
- Optimalkan Rute Pengiriman::
- Melakukan analisis rute pengiriman untuk mengidentifikasi apakah
rute yang digunakan sudah efisien. Penggunaan teknologi seperti sistem
manajemen transportasi (TMS) dapat membantu untuk merencanakan rute
terbaik yang meminimalkan waktu dan biaya.
- Penggunaan kendaraan dengan kapasitas yang lebih sesuai untuk jumlah
barang yang dikirim juga bisa mengurangi waktu dan biaya
pengiriman.
- Peningkatan Pengelolaan Waktu Pengiriman:
- Melakukan perbaikan dalam manajemen logistik untuk mengurangi waktu
tunggu di titik distribusi dan mempercepat proses loading dan unloading
barang.
- Mengoptimalkan jam operasional gudang dan distribusi untuk
mempersingkat waktu pengiriman dari pusat distribusi ke konsumen.
Soal 3. Analisis Kinerja Pengiriman Berdasarkan Jenis Barang
dan Wilayah
Untuk menganalisis kinerja pengiriman berdasarkan jenis barang dan
wilayah, kita akan melihat dua faktor utama: waktu
pengiriman dan biaya per unit.
Tujuan dari analisis ini adalah untuk
mengidentifikasi jenis barang dan wilayah yang memiliki:
- Waktu pengiriman lebih cepet.
- Biaya per unit lebih rendah.
1. Pengelompokan Berdasarkan Jenis Barang dan
Wilayah
Sebelum melakukan analisis lebih lanjut, kita akan membagi data
berdasarkan jenis barang dan wilayah.
Berikut adalah dua metrik utama yang akan dianalisis:
- **Waktu Pengiriman (Jam): Berapa lama waktu yang dibutuhkan untuk
pengiriman.
- Biaya per Unit: Biaya per unit barang yang
dikirim.
2. Wilayah dengan Kinerja Terbaik Berdasarkan Waktu
Pnegiriman dan Biaya per Unit
Dari analisis kinerja pengiriman berdasarkan wilayah, kita dapat
mengidentifikasi wilayah yang menunjukkan pengiriman lebih
cepat dan biaya lebih rendah:
- Wilayah Utara untuk Pakaian dan
Elektronik memiliki biaya per unit yang lebih
rendah dan waktu pengiriman yang lebih cepat
dibandingkan dengan wilayah lainnya.
- Wilayah Timur menunjukkan waktu pengiriman
yang lebih cepat pada Makanan dibandingkan
wilayah lainnya.
3. Kesimpulan
Berdasarkan analisis, kita dapat menyimpulkan bahwa:
- Jenis barang dengan waktu pengiriman lebih cepat: Makanan.
- Jenis barang dengan biaya per unit lebih rendah: Pakaian.
- Wilayah dengan kinerja pengiriman terbaik:
- Wilayah Utara memiliki biaya lebih rendah dan waktu pengiriman lebih
cepat untuk Elektronik dan Pakaian.
- Wilayah Timur memiliki waktu pengiriman yang lebih cepat untuk
Makanan.
Untuk meningkatkan kinerja pengiriman secara keseluruhan, perusahaan
dapat lebih fokus pada Makanan di wilayah Timur yang memiliki waktu
pengiriman yang lebih cepat, serta pada Pakaian di wilayah Utara untuk
mengurangi biaya per unit dan meningkatkan efisiensi.
Kesimpulan AKhir
Penyebaran data menunjukkan perbedaan signifikan dalam efisiensi
pengiriman antar wilayah dan jenis barang. Wilayah Tengah memerlukan
perhatian lebih untuk mengoptimalkan biaya dan waktu pengiriman,
sementara wilayah Utara dan Timur dapat dijadikan model untuk efisiensi
yang lebih baik. Strategi pengelolaan yang disesuaikan dengan pola
penyebaran ini dapat meningkatkan efisiensi operasional perusahaan.
Refrensi
- DSciencelabs. (n.d.) Pengantar Statistika untuk Sains Data.
Bookdown. Retrieved from
Klik disini
- Dr. Anita Rahayu, S.Si., M.Si.Ukuran Penyebaran Data. Binus
University. Bookdown. Retrived from
klik
disini
- Khatib A. Latief.Ukuran Penyebaran Data.UIN. Bookdown. Retrived from
m
Klik disini
