Sampling itu adalah proses memilih data dari sebuah subset individu,
beberapa item, atau observasi dari sebuah populasi yang besar untuk
perkiraan karakteristik dari seluruh populasi. Itu banyak digunakan
dalam riset, bisnis, dan kebijakan publik untuk membuat efisiensi
keputusan berdasakan data.
Di dalam Vidio itu menjelaskan tentang sampling, Sampling itu adalah
teknik yang mereprentasikan Seluruh data menjadi Sebagian kecil data,
dalam hal ini sample yang representatif akan berusaha untuk mencerminkan
seluruh populasi. Untuk lebih pasti ukurna sample harus cukup besar dan
ada langkah langkah yang dapat di ambil untuk memastikan yaitu: -
Memastikan Sampel anda acak - Membuat Multiple Sampel
Contoh dalam Vidio Sampling ada 2 yaitu:
Data di sebuah kota. Menjelaskan bahwa mengumpulkan data di dalam
sebuah kota itu membutuhkan Korelasi antara βBerapa Umur mu?β dan βApa
Pekerjaan mu?β.
Data di sebuah sekolah. Menjelaskan tentang mengumpulkan data di
dalam sebuah sekolah yang berisi 1000 siswa menggunakan susu coklat dan
menjelaskan sample yang akurat dan tidak akurat, di contoh ini awal
sample menggunakan 10 siswa itu menandakan sample tidak akurat karena
jumlah mahasiswa terlalu banyak, tetapi di jelaskan juga yang lebih baik
yaitu menggunakan 100 siswa dalam sample atau 1/10 dari jumlah siswa
tersebut, tetapi untuk pengujian tidak selalu menggunakan 1/10, sesuai
dengan jumlah populasi yang ada.
2. Populasi vs Sampel
Dalam Statistik, memahami perbedaan antara populasi dan sampel sangat
penting untuk analis data, inferensi, dan pengambilan keputusan.
2.1. Populasi
Populasi adalah setiap orang, benda, atau titik data yang termasuk
kelompok tertentu.
Misalnya populasi adalah setiap orang yang merupakan warga negara
asal anda atau populasi dari setiap celana yang di produksi oleh
perusahaan, tapi sebenarnya itu bisa apa saja, tetapi bahwa populasi
terdiri dari setiap benda yang termasuk dalam kelompok itu.
Simbol yang digunakan :
\(\mu=\) Mean
\(p=\) Proportion
\(\sigma=\) Std. Deviasi
\(N=\) Size
\(\rho=\) Correlation
Coefficient
2.2 Sample
Sample adalah bagian kecil dari populasi yang besar.
Contoh : 1. Survey terhadap 1000 orang di suatu negara. 2. Celana
yang diproduksi dalam waktu tertentu.
Simbol yang digunakan :
\(\bar{x}=\) Mean
\(\hat{p}=\) Proportion
\(s=\) Std. Deviasi
\(n=\) Size
\(r=\) Correlation Coefficient
2.3 Perbedaan Utama
Saat melakukan penelitian statistik, penting untuk membedakan antara
data populasi dan data sampel. Populasi itu mengacu pada seluruh
kelompok yang menjadi perhatian dalam sebuah penelitian, Sedangkan
sampel adalah bagian yang kecil dipilih dari populasi tersebut untuk
dianalisis.
Fitur
Populasi (N)
Sample(n)
Definisi
Seluruh Kelompok yang diminati
Subset yang dipilih untuk dipelajari
Ukuran
Besar atau tak terbatas
Porsi lebih kecil dan mudah diatur
Notasi
Menggunakan Huruf Besar
Menggunakan Huruf Kecil
Parameter
Nilai Sebenarnya
Perkiraan
Biaya & Waktu
Tinggi
Lebih Rendah
Ketepatan
Memberikan Informasi yang akurat
Memberikan Perkiran dengan Beberapa margin
Kesalahan
3. Mengapa menggunakan Sampel?
1. Efektivitas Biaya. Karena pengumpulan data jika
kita menggunakan populasi maka akan banyak biayanya, Jika kita
menggunakan sampel itu dapat mengurangi biaya yang terkait dengan
pengumpulam, proses, dan analisis data.
2. Efisiensi Waktu Karena Waktu yang diperlukan
cukup banyak jika kita mempelajari atau menanalisis dari keseluruhan
populasi, Jadi agar efisiensi yang baik dengan cara menggunaakan sampel
untuk memungkinkan pengumpulan data yang lebih cepat.
3. Kelayakan Beberapa populasi terlalu besar atau
tidak dapat diakses secara menyeluruh, jadi kita menggunakan sampel
untuk melakukan penelitian.
4. Akurasi dan Keandalan Sampel dapat memberikan
wawasan yang sangat akurat dan handal.
5. Mengurangi Kompleksitas Pengelolaan data Karena
seluruh data cukup besar untuk dianalisis, jadi sampel ini
menyederhanakan pengolaan data serta mewakili seluruh kesimpulan yang
bemakna.
6. Pertimbangan Etis Beberapa Penelitian
(Kesehatan/Medis). mungkin mengandung risiko.
4. Menghindari Bias Sampel
Bias dalam pengambilan sampel terjadi ketika anggota populasi
tertentu secara sistematis dikecualikan atau terwakili secara berlebihan
dalam sample. Saya juga sudah merangkum beberapa point yang di ambil
dari vidio youtube yang di berikan, berikut adalah rangkuman
tersebut:
Di dalam vidio tersebut kita disuruh membayangkan mempunyai
termometer yang selalu memberikan pembacaan lima derajat lebih tinggi
dari suhu sebenarnya. Apa itu bias?, Setiap yang kita lakukan dengan
termometer ini akan salah karena ada pola di dalam kesalahan ini,
kesalahan ini bersifat sistematis bukan acak, dalam sains hal ini
dinamakan dengan bias.
Agar penelitian bisa akurat, kita harus mewaspadai bias dan harus
selalu berusaha untuk menghilangkannya. Nah dalam kasus termometer yang
rusak, kita bisa mengganti termometernya, Namun jenis bias lain biasanya
lebih sulit di identifikasi dan di hindari.
Seleksi Bias Bayangkan anda sedang menguji vaksin
baru untuk melawan virus mematikan, anda mengumpulkan sampel dari
universitas setempat. Jika semua peserta adalah pria sehat berumur 20an
tahun, hasil penelitian jadi tidak akurat. Mungkin vaksin tersebut
memiliki efek samping terhadap wanita atau memiliki efek samping yang
hanya muncul pada orang tau yang memiliki penyakit jantung, karena
sampel yang dilakukan tidak mewakili populasi secara banyak atau luas,
penelitian ini menjadi terbatas. Kesalahan ini terjadi ketika sampel
tidak mewakili populasi target salah satu cara untuk menghindari ini
adalah pengambilan sampel secara acak.
Lalu disini juga ada Konfirmasi Bias, disini anda
menyelidiki bahwa pewarna makanan buatan dapat menyebabkan
hyperaktif pada anak anak, disini anda membagi dua kelompok
yaitu kelompok memakan permen menggunakan pewarna dan satu lagi kelompok
pemakan buah segar. Ternyata anak anak yang memakan permen lebih aktif
dibandingkan dengan memakan buah segar. Namun disini ada penjelasan
alternatif yang harus dipertimbangkan, yaitu kandungan gula terhadap
permen lebih besar dari buah, kesalahan sistematis ini sering terjadi
agar sesuai dengan hipotesis yang kita buat. Cara menghindarinya adalah
dengan selalu mempertimbangkan penjelasan alternatif dan secara aktif
yang bisa membantah hipotesis yang kita buat.
Kesimpulan : Bias bisa muncul di setiap penelitian, mulai dari
perancangan metode, pengumpulan data, hingga interpretasi hasil dan
penarikan kesimpulan.
Berikut ini beberapa penyebab bias pengambilan sampel:
Aspek
Keterangan
Cara Mengatasi
Kurangnya Cakupan
Beberapa Kelompok dalam populasi tidak dimasukkan dalam
kerangka sampel
Gunakan kerangka sampel yang representatif untuk
memastikan semua kelompok tercakup
Representasi Berlebih
Kelompok tertentu memiliki peluang yang jauh lebih
tinggi untuk dipilih
Gunakan Pengambilan sampel berstrata untuk menjaga
posisi seimbang
Bias Seleksi Diri
Peserta secara sukarela memilih untuk mengambil bagian,
sehingga menghasilkan sampel non acak
Gunakan undangan acak dan pertimbangkan insentif untuk
menarik kelompok responden yang lebih beragam.
Meminimalkan bias pengambilan sampel itu sangat penting untuk
meenghasilkan temuan yang valid, dan dapat digeneralisasi. Dengan
pengambilan sampel yang dibangun secara baik, pengambilan metode secara
acak, dan mengurangi efek pilihan sendiri, peneliti dapat membangun
kualitas serta akurasi penelitian mereka.
5. Pengacakan dalam pengambilan sampel
Pengacakan adalah proses yang memastikan setiap anggota populasi
memiliki peluang yang sama untuk dipilih. Hal ini bisa mengurangi bias
pengambilan sampel dan meningkatkan generalisasi temuan penelitian.
Disini saya juga sudah merangkum isi dari vidio youtube yang di berikan,
Berikut adalah rangkuman vidio tentang sampling dan randomisasi dalam
Data Science:
Di dalam vidio tersebut mengatakan ada 7 langkah yang terus digunakan
dalam berbagai analisis data yaitu:
Define
Identify
Design
Implement
Explore
Test
Communicate
Pemahaman tentang desain penelitian sangat penting untuk menentukan
masalah, mengidentifikasi data yang diperlukan, serta memilih variabel
dan metode analisis yang tepat.
Disini akan membahas Berapa rata rata gaji seorang Data Scientist,
ada beberapa faktor yang harus diperhatikan yaitu:
Lokasi: Gaji berbeda di berbagai kota dan negara.
Demografi: Ada faktor seperti gender gay pap dan pengaruh ras/gender
terhadap gaji.
Waktu: Kondisi ekonomi, seperti pandemi covid-19, bisa mempengaruhi
gaji dan kebijakan kompensasi.
Metode Penelitian
Studi Eksperimental :
ππ» Mengontrol lingkungan penelitian dari mengacak peserta
ππ» Sulit Dilakukan untuk studi gaji karena banyak faktor lain yang
memengaruhi hasil
Studi Observasional :
ππ» Mengumpul data tanpa intervensi langsung.
ππ» Lebih mudah dilakukan, tetapi tidak bisa menentukan hubungan
sebab-akibat
Tantangan dalam pengukuran data
Realibitas : Konsistensi data jika diatur ulang
Validitas : Apakah kita benar-benar mengukur apa yang ingin kita
ukur?
Bias dalam Self-Report: Peserta bisa melebih-lebihkan atau
menyembunyikan informasi
Pengambilan sampel dan bias seleksi:
Sampel harus representatif agar hasil dapat
digeneralisasi
Bias seleksi bisa muncul jika hanya data scientist tertentu yang
berpartisipasi
Kesimpulan dalam video tersebut, penelitian data science menghadapi
banyak tantangan dalam desain studi, pengukuran, dan sampling. Memahami
konsep-konsep ini membantu kita menghasilkan data yang lebih akurat dan
berguna.
5.1 Pengambilan sampel acak
Suatu metode dimana setiap elemen dalam populasi memiliki
probabilitas pemilihan yang sama, sehingga menghasilkan sampel secara
acak. Berikut cara kerjanya:
Menggunakan Nomor untuk setiap populasi
Menggunakan sistem lotre untuk memilih peserta
Contoh : Sebuah perusahaan memiliki 5000 karyawan, perusahaan
tersebut ingin mensurvei 500 karyawan, setiap karyawan diberi nomor dan
akan di undi secara acak menggunakan sistem.
5.2 Pengambilan sampel sistematis
Metode yang memilih elemen secara berkala dari daftar berurutan.
Berikut cara kerjanya:
Tentukan ukuran sample (Misalnya memilih 100 orang dari 1000)
Hitung interval pengambilan sample: Ukuran populasi \(\div\) Ukuran sampel (Misalnya 1000 \(\div\) 100 = 10)
Pilih titik awal secara acak, lalu pilih setiap orang ke 10
Contoh: Seorang sales ingin mensurvei setiap pelanggan ke 3 dari 600
daftar pembeli. Jika titik awalnya adalah 5, individu yang dipilih akan
berada di urutan ke-5, ke-8, ke-11, dst.
5.3 Pengambilan sample subkelompok
Suatu metode yang membagi populasi ke dalam subkelompok bedasarkan
statistik yang sama, kemudian secara acak memilih sejumlah partisipan
yang berbeda dari setiap subkelompok. Berikut cara kerjanya:
Identifikasi Subkelompok yang relevan(Seperti, kelompok usia,
tingkat pendapatan, dan pendidikan).
Tentukan proporsisi subkelompok dalam populasi.
Melakukan pengambilan sample secara acak dalam subkelompok.
Contoh: Sebuah universitas ingin mensurvei mahasiswa dari berbagai
tahun akademik. Jika 40% mahasiswa adalah baru, 30% adalah mahasiswa
tingkat dua, 20% adalah mahasiswa tingkat tiga, dan 10% mahasiswa
tingkat empat, maka sample akan mencerminkan proporsi ini.
Penggunaan pengambilan metode secara acak seperti SRS, Pengambilan
sample secara sistematis, dan pengambilan secara subkelompok membantu
memastikan sample yang adil, tidak bias, dan representatif. Hal ini
meningkatkan kendalan dan validitas temuan penelitian, sehingga bisa
lebih dapat digeneralisasikan ke seluruh populasi.
6. Tantangan dalam pengambilan Sample
Proses ini memiliki beberapa tantangan yang dapat memengaruhi akurasi
dan keandalan. Berikut beberapa tantangan utama beserta penyebab dan
kemungkinan solusinya.
Tantangan
Penyebab
Solusi
Bias Non Respon
Peserta tidak mau atau tidak mampu menanggapi. Survei
terlalu panjang atau rumit. Kelompok tertentu cenderung tidak
berpartisipasi.
Kirim pengingat tindak lanjut. Tawarkan insentif.
Sederhanakan format survei.
Kesalahan Rangka Sampling
Daftar yang kedaluwarsa atau tidak lengkap. Klasifikasi
yang salah. Peserta yang duplikat atau tidak memenuhi syarat
disertakan
Jaga agar kerangka sampel tetap mutakhir. Periksa
kembali sumber data. Gunakan sampel berstrata
Ukuran Sampel Tidak Memadai
Sumber daya terbatas untuk sampel besar. Ukuran sampel
salah perhitungan. Tingkat putus sekolah tinggi dalam studi
longitudinal.
Gunakan metode statistik untuk menentukan ukuran sampel
yang tepat. Perhitungkan kemungkinan adanya dropout.
Kendala biaya dan Waktu
Biaya tinggi untuk pengumpulan data. Keterlambatan
dalam menjangkau partisipan. Perlunya peralatan atau personel
khusus.
Gunakan metode yang hemat biaya seperti survei online.
Otomatisasi pengumpulan data. Optimalkan sumber daya.
Dengan Menerapkan solusi yang efektif, peneliti dapat meminimalkan
kesalahan dan meningkatkan kualitas studi secara keseluruhan.
7. Aplikasi Dalam Insdustri
Pengambilan sample juga memainkan peran penting terutama di bidang
industri, yang memungkinkan organisasi untuk mengumupulkan wawasan,
keputusan yang tepat, dan mengoptimalkan proses. Berikut ini adalah area
utama dimana pengambilan sampel digunakan secara luas:
Industri
Aplikasi
Tujuan
Riset Pasar
Melakukan survei dan kelompok fokus
Memahami preferensi tren, dan perilaku pelanggan
Pelayanan Kesehatan
Mempelajari data pasien dan uji klinis
Memperkirakan prevalensi penyakit, efektivitas
pengobatan, dan tren kesehatan masyarakat
Kontrol Kualitas
Memeriksa sebagian produk dalam proses konduksi
Memastikan kualitas produk dalam proses produksi
Keuangan
Menganalisis transaksi keuangan dan tren pasar
Menilai risiko, mendeteksi penipuan, dan membuat
keputusan investasi
Dengan pengambilan sampel yang tepat, industri dapat memperoleh
wawasan akurat dan handal sekaligus meminimalkan kesalahan atau bias.
Hal ini memastikan pengambilan keputusan yang lebih baik, penghematan
biaya, dan peningkatan efisiensi operasional.