Sebelumnya telah dijelaskan apa itu populasi dan sampel, serta jenis data kuantitatif dan kualitatif. Populasi adalah himpunan data (biasanya besar, kadang-kadang konseptual) yang menjadi target perhatian kita, sedangkan sampel adalah subset data yang dipilih dari populasi. Adapun data kuantitatif adalah data yang mewakili kuantitas atau jumlah sesuatu, yang diukur dalam skala numerik, sedangkan data kualitatif adalah data yang tidak dapat diukur dalam skala numerik secara alami, yakni hanya dapat diklasifikasikan ke dalam beberapa kategori.
Setelah Anda memutuskan jenis data—kuantitatif atau kualitatif—yang sesuai untuk masalah yang dihadapi, Anda perlu mengumpulkan data tersebut. Secara umum, Anda bisa memperoleh data dengan tiga cara berbeda:
Terkadang, kumpulan data yang diinginkan sudah dikumpulkan untuk Anda dan tersedia dalam sumber yang dipublikasikan, seperti buku, jurnal, koran, atau situs web. Sebagai contoh, seorang engineer transportasi mungkin ingin meneliti dan meringkas tingkat kematian akibat kecelakaan mobil di 50 negara bagian Amerika Serikat. Anda dapat menemukan kumpulan data ini (serta banyak kumpulan data lainnya) di perpustakaan Anda dalam Statistical Abstract of the United States, yang diterbitkan setiap tahun oleh pemerintah AS. Internet (World Wide Web) sekarang menyediakan media di mana data dari sumber yang dipublikasikan dapat diakses dengan mudah.
Metode kedua yang lebih umum dalam mengumpulkan data di bidang teknik dan sains melibatkan pelaksanaan eksperimen yang dirancang, di mana peneliti melakukan kontrol ketat terhadap unit-unit (orang, objek, atau peristiwa) dalam studi tersebut. Sebagai contoh, sebuah studi medis yang sering dikutip meneliti potensi aspirin dalam mencegah serangan jantung. Dokter sukarelawan dibagi menjadi dua kelompok—kelompok perlakuan dan kelompok kontrol. Dalam kelompok perlakuan, setiap dokter mengonsumsi satu tablet aspirin sehari selama 1 tahun, sementara setiap dokter dalam kelompok kontrol mengonsumsi plasebo bebas aspirin (tanpa obat) yang dibuat menyerupai tablet aspirin. Para peneliti, bukan para dokter yang diteliti, yang mengontrol siapa yang menerima aspirin (perlakuan) dan siapa yang menerima plasebo. Eksperimen yang dirancang dengan baik memungkinkan Anda untuk memperoleh lebih banyak informasi dari data dibandingkan dengan studi yang tidak terkontrol.
Terakhir, studi observasional dapat digunakan untuk mengumpulkan data. Dalam studi observasional, peneliti mengamati unit eksperimen dalam lingkungan alami mereka dan mencatat variabel yang menjadi perhatian. Sebagai contoh, seorang engineer industri mungkin mengamati dan mencatat tingkat produktivitas dari sampel pekerja lini perakitan. Berbeda dengan eksperimen yang dirancang, studi observasional adalah studi di mana peneliti tidak berusaha mengendalikan aspek apapun dari unit eksperimen. Salah satu jenis umum dari studi observasional adalah survei, di mana peneliti mengambil sampel sekelompok orang, mengajukan satu atau lebih pertanyaan, dan mencatat jawabannya.
Eksperimen yang dirancang adalah metode pengumpulan data di mana peneliti memiliki kendali penuh atas karakteristik unit eksperimen yang diambil sampelnya. Eksperimen ini biasanya melibatkan sekelompok unit eksperimen yang diberi perlakuan dan kelompok yang tidak diberi perlakuan (atau, kelompok kontrol).
Studi observasional adalah metode pengumpulan data di mana unit eksperimen yang diambil sampelnya diamati dalam lingkungan alami mereka. Tidak ada upaya untuk mengendalikan karakteristik unit eksperimen yang diambil sampelnya. (Contohnya termasuk jajak pendapat dan survei.)
Terlepas dari metode pengumpulan data yang digunakan, kemungkinan besar data tersebut akan berupa sampel dari suatu populasi. Dan jika kita ingin menerapkan statistik inferensial, kita harus mendapatkan sampel yang representatif. Sampel yang representatif (representative sample) menunjukkan karakteristik yang khas dari populasi yang menjadi perhatian.
Sebagai contoh, pertimbangkan sebuah jajak pendapat yang dilakukan untuk memperkirakan persentase semua warga negara AS yang percaya pada pemanasan global. Sang penyelenggara jajak pendapat tidak akan bijaksana jika mengandalkan data survei yang dikumpulkan dari sampel warga yang tergabung dalam organisasi Greenpeace (sebuah kelompok yang mengungkap dan melawan penyalahgunaan lingkungan). Perkiraan semacam itu hampir dipastikan akan terdistorsi tinggi; akibatnya, hal itu tidak akan terlalu dapat diandalkan.
Cara yang paling umum untuk memenuhi persyaratan sampel yang representatif adalah dengan memilih sampel acak sederhana (simple random sample). Sampel acak sederhana memastikan bahwa setiap subset dengan ukuran tetap dalam populasi memiliki peluang yang sama untuk dimasukkan dalam sampel. Jika penyelenggara jajak pendapat mengambil sampel 1.500 dari 150 juta warga negara AS dalam populasi sehingga setiap subset dari 1.500 warga memiliki peluang yang sama untuk dipilih, dia telah merancang sebuah sampel acak sederhana.
Sampel acak sederhana dari n unit eksperimen adalah sampel yang dipilih dari populasi dengan cara sehingga setiap sampel berbeda dengan ukuran n memiliki peluang yang sama untuk dipilih.
Prosedur untuk memilih sampel acak sederhana biasanya mengandalkan generator angka acak. Generator angka acak tersedia dalam bentuk tabel, online,* dan di sebagian besar paket perangkat lunak statistik. Paket perangkat lunak statistik yang disajikan dalam teks ini semua memiliki generator angka acak yang mudah digunakan untuk membuat sampel acak. Dua contoh berikut mengilustrasikan prosedurnya.
Mari kita buat sebuah populasi yang terdiri dari 100 nama menggunakan R.
# Set seed for reproducibility
set.seed(123)
# Membuat populasi
population <- paste("Mahasiswa", 1:100)
population
## [1] "Mahasiswa 1" "Mahasiswa 2" "Mahasiswa 3" "Mahasiswa 4"
## [5] "Mahasiswa 5" "Mahasiswa 6" "Mahasiswa 7" "Mahasiswa 8"
## [9] "Mahasiswa 9" "Mahasiswa 10" "Mahasiswa 11" "Mahasiswa 12"
## [13] "Mahasiswa 13" "Mahasiswa 14" "Mahasiswa 15" "Mahasiswa 16"
## [17] "Mahasiswa 17" "Mahasiswa 18" "Mahasiswa 19" "Mahasiswa 20"
## [21] "Mahasiswa 21" "Mahasiswa 22" "Mahasiswa 23" "Mahasiswa 24"
## [25] "Mahasiswa 25" "Mahasiswa 26" "Mahasiswa 27" "Mahasiswa 28"
## [29] "Mahasiswa 29" "Mahasiswa 30" "Mahasiswa 31" "Mahasiswa 32"
## [33] "Mahasiswa 33" "Mahasiswa 34" "Mahasiswa 35" "Mahasiswa 36"
## [37] "Mahasiswa 37" "Mahasiswa 38" "Mahasiswa 39" "Mahasiswa 40"
## [41] "Mahasiswa 41" "Mahasiswa 42" "Mahasiswa 43" "Mahasiswa 44"
## [45] "Mahasiswa 45" "Mahasiswa 46" "Mahasiswa 47" "Mahasiswa 48"
## [49] "Mahasiswa 49" "Mahasiswa 50" "Mahasiswa 51" "Mahasiswa 52"
## [53] "Mahasiswa 53" "Mahasiswa 54" "Mahasiswa 55" "Mahasiswa 56"
## [57] "Mahasiswa 57" "Mahasiswa 58" "Mahasiswa 59" "Mahasiswa 60"
## [61] "Mahasiswa 61" "Mahasiswa 62" "Mahasiswa 63" "Mahasiswa 64"
## [65] "Mahasiswa 65" "Mahasiswa 66" "Mahasiswa 67" "Mahasiswa 68"
## [69] "Mahasiswa 69" "Mahasiswa 70" "Mahasiswa 71" "Mahasiswa 72"
## [73] "Mahasiswa 73" "Mahasiswa 74" "Mahasiswa 75" "Mahasiswa 76"
## [77] "Mahasiswa 77" "Mahasiswa 78" "Mahasiswa 79" "Mahasiswa 80"
## [81] "Mahasiswa 81" "Mahasiswa 82" "Mahasiswa 83" "Mahasiswa 84"
## [85] "Mahasiswa 85" "Mahasiswa 86" "Mahasiswa 87" "Mahasiswa 88"
## [89] "Mahasiswa 89" "Mahasiswa 90" "Mahasiswa 91" "Mahasiswa 92"
## [93] "Mahasiswa 93" "Mahasiswa 94" "Mahasiswa 95" "Mahasiswa 96"
## [97] "Mahasiswa 97" "Mahasiswa 98" "Mahasiswa 99" "Mahasiswa 100"
# Mengambil sampel acak sederhana
sample_size <- 10
random_sample <- sample(population, sample_size)
random_sample
## [1] "Mahasiswa 31" "Mahasiswa 79" "Mahasiswa 51" "Mahasiswa 14" "Mahasiswa 67"
## [6] "Mahasiswa 42" "Mahasiswa 50" "Mahasiswa 43" "Mahasiswa 97" "Mahasiswa 25"
Selain sampel acak sederhana, terdapat desain pengambilan sampel acak yang lebih kompleks yang dapat digunakan. Ini termasuk (tetapi tidak terbatas pada) pengambilan sampel acak terstratifikasi (stratified random sampling), pengambilan sampel klaster (cluster sampling), dan pengambilan sampel sistematik (systematic sampling).
Pengambilan sampel acak terstratifikasi biasanya digunakan ketika unit eksperimen yang terkait dengan populasi dapat dipisahkan menjadi dua kelompok atau lebih, yang disebut strata, di mana karakteristik unit eksperimen lebih mirip di dalam strata daripada di antara strata. Sampel acak dari unit eksperimen diperoleh untuk setiap strata, kemudian unit-unit tersebut digabungkan untuk membentuk sampel keseluruhan. Sebagai contoh, seorang engineer transportasi yang tertarik untuk memperkirakan waktu perjalanan rata-rata kendaraan di sebuah kota mungkin ingin melakukan stratifikasi berdasarkan batas kecepatan maksimum jalan (misalnya, 25 mph, 40 mph, atau 55 mph), memastikan bahwa sampel representatif dari kendaraan (dalam proporsi yang sesuai dengan populasi target) yang melaju di setiap strata jalan termasuk dalam sampel.
Terkadang, lebih nyaman dan logis untuk mengambil sampel dari pengelompokan alami (klaster) unit eksperimen terlebih dahulu, kemudian mengumpulkan data dari semua unit eksperimen dalam setiap klaster. Ini melibatkan penggunaan pengambilan sampel klaster. Sebagai contoh, anggaplah seorang engineer perangkat lunak ingin memperkirakan proporsi baris kode komputer yang mengandung kesalahan dalam 150 program yang terkait dengan proyek tertentu. Alih-alih mengumpulkan sampel acak sederhana dari semua baris kode dalam 150 program (yang akan sangat sulit dan mahal dilakukan), engineer tersebut akan secara acak mengambil sampel 10 dari 150 program (klaster), kemudian memeriksa semua baris kode dalam setiap program yang diambil sampelnya.
Metode pengambilan sampel yang populer lainnya adalah pengambilan sampel sistematik. Metode ini melibatkan pemilihan secara sistematis setiap unit eksperimen ke-k dari daftar semua unit eksperimen. Sebagai contoh, seorang engineer pengendalian kualitas di pabrik manufaktur mungkin memilih setiap item ke-10.
Tidak peduli jenis desain pengambilan sampel apa yang Anda gunakan untuk mengumpulkan data untuk studi Anda, berhati-hatilah untuk menghindari bias seleksi. Bias seleksi terjadi ketika beberapa unit eksperimen dalam populasi memiliki peluang lebih kecil untuk dimasukkan dalam sampel dibandingkan yang lainnya. Hal ini menghasilkan sampel yang tidak representatif dari populasi. Pertimbangkan sebuah jajak pendapat tentang apakah perangkat untuk mencegah penggunaan ponsel saat mengemudi harus dipasang di semua mobil. Misalkan jajak pendapat ini menggunakan survei telepon atau survei pos. Setelah mengumpulkan sampel acak dari nomor telepon atau alamat pos, setiap orang dalam sampel dihubungi melalui telepon atau pos, dan survei dilakukan. Sayangnya, jenis survei ini sering kali mengalami bias seleksi akibat nonrespon. Beberapa individu mungkin tidak berada di rumah saat telepon berdering, atau lainnya mungkin menolak untuk menjawab pertanyaan atau mengembalikan kuesioner. Akibatnya, tidak ada data yang diperoleh untuk nonresponden dalam sampel. Jika nonresponden dan responden sangat berbeda dalam suatu isu, maka bias nonrespon terjadi. Misalnya, mereka yang memilih untuk menjawab pertanyaan tentang penggunaan ponsel saat mengemudi mungkin memiliki kepentingan tersendiri dalam hasil survei—misalnya, orang tua dari remaja yang memiliki ponsel, atau karyawan perusahaan yang memproduksi ponsel. Lainnya yang tidak memiliki kepentingan mungkin memiliki pendapat tentang isu tersebut tetapi mungkin tidak meluangkan waktu untuk merespons. Akhirnya, kami memperingatkan bahwa Anda mungkin menemukan sampel yang bias yang disengaja, dengan tujuan semata-mata untuk menyesatkan publik. Peneliti semacam itu akan bersalah atas praktik statistik yang tidak etis.
Bias seleksi terjadi ketika sekelompok unit eksperimen dalam populasi memiliki sedikit atau tidak ada peluang untuk dipilih sebagai sampel.
Bias nonrespon adalah jenis bias seleksi yang terjadi ketika data dari semua unit eksperimen dalam sebuah sampel tidak diperoleh.
Secara sengaja memilih sampel yang bias untuk menghasilkan statistik yang menyesatkan dianggap sebagai praktik statistik yang tidak etis.
Berikut ini adalah dua contoh yang melibatkan studi pengambilan sampel yang sebenarnya.
Contoh 1. Sebagai bagian dari kesepakatan penelitian bersama antara Amerika Serikat dan Jepang, sebuah bangunan beton bertulang skala penuh dirancang dan diuji di bawah kondisi gempa bumi yang disimulasikan di Jepang. Untuk salah satu bagian dari studi tersebut (yang diterbitkan dalam Journal of Structural Engineering), beberapa engineer desain AS yang berada di pantai barat diminta untuk mengevaluasi desain baru tersebut. Dari 48 engineer yang disurvei, 75% percaya bahwa dinding geser struktur tersebut terlalu sedikit diperkuat.
Jawab:
Contoh 2. Salah satu fitur dari antarmuka komputer yang ramah pengguna adalah tampilan menu bertumpuk. Setiap kali item menu dipilih, submenu ditampilkan sebagian di atas menu induk, sehingga menciptakan serangkaian menu “bertumpuk”. Sebuah studi (yang diterbitkan dalam Special Interest Group on Computer Human Interaction Bulletin) dirancang untuk menentukan efek menu bertumpuk pada waktu pencarian komputer. Misalkan 20 pemain video game berpengalaman dipilih secara acak dari semua pemain berpengalaman yang menghadiri konferensi permainan video. Para peserta kemudian dibagi secara acak ke dalam dua kelompok, setengah dalam kelompok eksperimen dan setengah dalam kelompok kontrol. Setiap peserta diminta untuk mencari sebuah item dalam paket perangkat lunak berbasis menu. Dalam kelompok eksperimen, format menu bertumpuk digunakan; dalam kelompok kontrol, hanya menu saat ini yang ditampilkan. Waktu pencarian (dalam menit) dari kedua kelompok dibandingkan.
Jawab: