Modul ini mengikuti struktur pada buku Elementary Survey Sampling, yaitu: pengenalan istilah teknis, cara memilih sampel, sumber-sumber galat dalam survei, dan perencanaan survei. Inti bab ini adalah bahwa hasil survei tidak hanya ditentukan oleh rumus, tetapi juga oleh cara sampel dipilih dan bagaimana proses survei dirancang. Pada modul ini digunakan beberapa R package yaitu:
survey
sampling
SDAResources
Mengapa Kita Tidak Melakukan Sensus?
Bayangkan Anda ingin mengetahui apakah air di sebuah danau layak minum. Apakah Anda harus meminum seluruh air danau tersebut untuk memastikannya? Tentu tidak. Anda cukup mengambil satu botol kecil air dari beberapa titik, lalu memeriksanya di laboratorium.
Satu botol air itulah yang kita sebut sebagai Sampel, dan seluruh air di danau adalah Populasi. Dalam statistika, tantangan terbesarnya bukan pada cara memeriksa airnya, melainkan pada pertanyaan: “Bagaimana cara mengambil sampel air yang benar agar satu botol tadi benar-benar mewakili seluruh isi danau?”
Dalam survei, kita membedakan populasi, sampel, unit sampling, parameter, dan statistik. Populasi adalah seluruh unit yang menjadi sasaran inferensi. Sampel adalah bagian dari populasi yang benar-benar diamati. Parameter adalah nilai populasi yang ingin diduga, sedangkan statistik adalah nilai yang dihitung dari sampel.
Hal ini merupakan fondasi sebelum masuk ke desain sampel acak sederhana dan stratified sampling. Dengan istilah yang jelas, mahasiswa akan lebih mudah memahami mengapa desain sampling memengaruhi hasil analisis.
Desain survei menjelaskan bagaimana sampel dipilih. Pada modul ini, dua desain yang dipelajari adalah:
Simple Random Sampling
Stratified Random Sampling
Secara praktis, pemilihan desain itu seperti memilih cara terbaik untuk mengambil “wakil” dari populasi. Jika populasi relatif seragam, SRS sudah cukup. Jika populasi memiliki kelompok-kelompok yang jelas dan berbeda, stratified sampling sering lebih efisien.
Desain yang baik harus mempertimbangkan biaya, waktu, dan akurasi.
Galat survei bukan hanya galat sampling. Galat dapat bersumber dari:
bias seleksi,
galat percontohan (sampling error),
nonsampling error.
Bayangkan jika peneliti hanya mewawancarai responden yang sedang berada di kampus pada siang hari. Hasilnya bisa bias karena kelompok yang tidak hadir mungkin memiliki karakteristik berbeda. Atau bayangkan jawaban responden dicatat keliru karena pertanyaan terlalu rumit. Sementara itu, galat percontohan muncul walaupun semua langkah sudah benar, karena sampel tetap hanya bagian kecil dari populasi.
Pada modul ini, fokus utama adalah bias seleksi, galat pengukuran, dan galat percontohan karena ketiganya paling langsung terkait dengan SRS dan stratified sampling.
Walaupun modul ini berfokus pada sampling, Chapter 2 pada buku referensi juga mengingatkan bahwa kuesioner yang buruk dapat menghasilkan data yang buruk meskipun desain samplingnya baik. Pertanyaan yang ambigu, terlalu panjang, atau memancing jawaban tertentu dapat menurunkan kualitas data.
Perencanaan survei mencakup penentuan tujuan, populasi target, variabel yang diukur, ukuran sampel, dan metode pengumpulan data. Dalam praktik, langkah ini harus dilakukan sebelum sampel dipilih. Survei yang baik dimulai dari tujuan yang jelas. Misalnya, jika tujuan survei adalah menduga rata-rata pengeluaran rumah tangga, maka sejak awal peneliti harus menentukan siapa unitnya, apa variabelnya, bagaimana respon dikumpulkan, dan berapa ketelitian yang diinginkan.
Beberapa formula dasar yang dipakai berulang di beberapa penjelasan berikutnya adalah:
\[ \mu = \frac{1}{N}\sum_{i=1}^{N} y_i,\qquad \tau = \sum_{i=1}^{N} y_i = N\mu,\qquad p = \frac{A}{N} \]
Untuk sampel acak sederhana berukuran \(n\):
\[ \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i,\qquad s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2 \]
Selang kepercayaan 95% untuk parameter yang diduga umumnya ditulis sebagai:
\[ \hat{\theta} \pm z_{0.975}\,SE(\hat{\theta}) \]
dengan \(\hat{\theta}\) menyatakan penduga parameter yang dipakai, misalnya \(\bar{y}\), \(\hat{T}\), atau \(\hat{p}\).
Rata-rata, total, dan proporsi adalah ringkasan yang paling sering dipakai dalam survei. Pada populasi besar, mean sering menjadi target utama karena mudah diinterpretasikan dan mudah dihubungkan dengan total.
## [1] 3078
Karena sampel dipilih secara acak, statistik sampel mempunyai distribusi sampling. Inilah alasan mengapa satu sampel tidak cukup untuk memberi gambaran pasti tentang populasi, tetapi cukup untuk membentuk pendugaan dan selang kepercayaan.
Estimasi adalah proses menggunakan statistik sampel untuk menduga parameter populasi. Dalam modul ini, estimator yang dipakai adalah estimator mean, total, dan proporsi untuk SRS dan stratified sampling.
Modul ini menggunakan fungsi R yang sudah jadi dari paket
sampling dan survey.
Simple Random Sampling adalah desain yang paling dasar. Setiap unit populasi mempunyai peluang yang sama untuk terpilih. Pengacakan ini dapat dilakukan dengan lotere, tabel bilangan acak, atau komputer. Dalam modul ini, ide tersebut dipakai untuk membangun langkah yang bisa diikuti mahasiswa secara mandiri: identifikasi populasi, beri nomor unit, acak unit, lalu gunakan sampel untuk menduga parameter.
Jika populasi berukuran \(N\) dan sampel berukuran \(n\), maka peluang setiap sampel SRSWOR yang mungkin adalah:
\[ P(s) = \frac{1}{\binom{N}{n}} \]
Bobot sampel pada SRS biasanya sama untuk semua unit:
\[ w_i = \frac{N}{n} \]
Bayangkan sebuah kelas berisi beberapa mahasiswa yang masing-masing diberi nomor urut. Dosen ingin memilih empat mahasiswa untuk dijadikan responden, tetapi pemilihan harus benar-benar adil. Pada situasi seperti ini, SRS memberi setiap mahasiswa peluang yang sama untuk terpilih. Ide ini diperlihatkan dengan lotere, tabel bilangan acak, dan komputer; di R, kita memakai fungsi siap pakai agar proses pengacakan lebih cepat dan tidak bias.
sampling## [1] 0 1 1 0 0 0 0 1 0 1
## [1] 2 3 8 10
Data agpop berisi ribuan county, sehingga pemilihan
langsung dengan tangan tidak realistis. Dengan SRS, kita dapat mengambil
100 county secara acak dari seluruh populasi dan kemudian melihat
bagaimana sampel itu dipakai untuk menduga rata-rata dan total luas
lahan.
set.seed(2024)
idx_srs <- srswor(100, N)
samp_srs <- getdata(agpop, idx_srs)
head(samp_srs[, c("county", "state", "acres92", "region")])## county state acres92 region
## 35 FRANKLIN COUNTY AL 130063 S
## 68 TUSCALOOSA COUNTY AL 96194 S
## 105 IZARD COUNTY AR 183895 S
## 118 MILLER COUNTY AR 173861 S
## 147 YELL COUNTY AR 190363 S
## 153 GREENLEE COUNTY AZ 137834 W
Pada SRS, penduga mean populasi adalah mean sampel. Penduga total populasi adalah jumlah unit populasi dikalikan mean sampel. Setelah parameter diduga, langkah berikutnya adalah menghitung galat baku, margin of error, dan selang kepercayaan.
Rumus yang dipakai adalah:
\[ \hat{\mu} = \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i \]
\[ \widehat{V}(\bar{y}) = \left(1-\frac{n}{N}\right)\frac{s^2}{n} \]
\[ SE(\bar{y}) = \sqrt{\widehat{V}(\bar{y})} \]
\[ MOE = z_{0.975}\,SE(\bar{y}) \]
\[ CI_{95\%}(\mu)=\bar{y}\pm MOE \]
Untuk total populasi:
\[ \hat{T} = N\bar{y} \]
\[ \widehat{V}(\hat{T}) = N^2\widehat{V}(\bar{y}) \]
\[ SE(\hat{T}) = \sqrt{\widehat{V}(\hat{T})} \]
\[ CI_{95\%}(T)=\hat{T}\pm z_{0.975}\,SE(\hat{T}) \]
ybar_srs <- mean(samp_srs$acres92, na.rm = TRUE)
s2_srs <- var(samp_srs$acres92, na.rm = TRUE)
n_srs <- sum(!is.na(samp_srs$acres92))
var_ybar_srs <- (1 - n_srs/N) * s2_srs / n_srs
se_ybar_srs <- sqrt(var_ybar_srs)
moe_ybar_srs <- qnorm(0.975) * se_ybar_srs
ci_ybar_srs <- c(ybar_srs - moe_ybar_srs, ybar_srs + moe_ybar_srs)
T_hat_srs <- N * ybar_srs
var_T_srs <- N^2 * var_ybar_srs
se_T_srs <- sqrt(var_T_srs)
moe_T_srs <- qnorm(0.975) * se_T_srs
ci_T_srs <- c(T_hat_srs - moe_T_srs, T_hat_srs + moe_T_srs)
c(mean = ybar_srs, se = se_ybar_srs, moe = moe_ybar_srs)## mean se moe
## 319263.30 38668.13 75788.14
## [1] 243475.2 395051.4
## total se moe
## 982692447 119020501 233275895
## [1] 749416552 1215968342
cut_srs <- median(samp_srs$acres92, na.rm = TRUE)
ind_srs <- as.integer(samp_srs$acres92 > cut_srs)
p_hat_srs <- mean(ind_srs, na.rm = TRUE)
s2_p_srs <- var(ind_srs, na.rm = TRUE)
n_p_srs <- length(ind_srs)
var_p_srs <- (1 - n_p_srs/N) * s2_p_srs / n_p_srs
se_p_srs <- sqrt(var_p_srs)
moe_p_srs <- qnorm(0.975) * se_p_srs
ci_p_srs <- c(p_hat_srs - moe_p_srs, p_hat_srs + moe_p_srs)
c(prop = p_hat_srs, se = se_p_srs, moe = moe_p_srs)## prop se moe
## 0.49494949 0.04942884 0.09687875
## [1] 0.3980707 0.5918282
Bayangkan seorang peneliti hanya punya anggaran terbatas, tetapi ingin hasil yang cukup presisi. Ia harus memilih ukuran sampel yang tidak terlalu kecil agar hasilnya stabil, tetapi juga tidak terlalu besar agar biaya tidak membengkak. Margin of error dan ragam awal dari survei pendahuluan menjadi input utama. Dalam R, perhitungan ini biasanya dilakukan dengan rumus, bukan dengan satu fungsi khusus, sehingga mahasiswa memahami hubungan antara target akurasi dan ukuran sampel.
B_mean <- 50000
z <- qnorm(0.975)
n_mean <- (N * z^2 * s2_srs) / (B_mean^2 * (N - 1) + z^2 * s2_srs)
n_mean## [1] 218.4098
Proporsi adalah mean dari peubah indikator 0-1. Karena itu, semua langkah inferensi pada proporsi mengikuti logika yang sama seperti mean. Misalnya, jika kita ingin mengetahui proporsi county dengan luas lahan di atas nilai median, maka setiap county diberi kode 1 jika memenuhi kondisi itu dan 0 jika tidak. Setelah itu, proporsi diduga dengan mean dari kode tersebut.
Rumus proporsi pada SRS adalah:
\[ \hat{p} = \bar{I} = \frac{1}{n}\sum_{i=1}^{n} I_i \]
dengan \(I_i=1\) jika kejadian yang diamati terjadi, dan \(I_i=0\) jika tidak.
Ragam penduga proporsi:
\[ \widehat{V}(\hat{p}) = \left(1-\frac{n}{N}\right)\frac{s_I^2}{n} \]
dengan \(s_I^2\) adalah ragam sampel dari peubah indikator.
Galat baku, margin of error, dan selang kepercayaan:
\[ SE(\hat{p}) = \sqrt{\widehat{V}(\hat{p})}, \qquad MOE = z_{0.975}\,SE(\hat{p}), \qquad CI_{95\%}(p)=\hat{p}\pm MOE \]
Perbandingan pendugaan rata-rata, total, dan proporsi untuk menunjukkan bahwa sebuah estimator harus dinilai tidak hanya dari nilainya, tetapi juga dari ragam dan galat bakunya.
SRS mudah dipahami, mudah diacak, dan menjadi dasar bagi banyak metode lain. Namun, SRS tidak selalu paling efisien jika populasi heterogen.
Gunakan konsep dan rumus pada Chapter 4 (Elementary Survey Sampling) untuk menyelesaikan soal berikut.
Kadang kala, populasi kita tidak seragam. Bayangkan Anda sedang meneliti pendapatan penduduk di satu provinsi. Jika Anda hanya menggunakan SRS, ada risiko semua sampel yang terambil berasal dari kota besar, sementara penduduk desa tidak terwakili.
Untuk mengatasinya, kita gunakan Stratified Random Sampling. Kita bagi populasi menjadi kelompok yang mirip (Strata), misalnya: Strata Desa dan Strata Kota. Kemudian, kita ambil sampel secara acak dari masing-masing strata.
Bayangkan sebuah provinsi dengan wilayah yang berbeda-beda: ada kawasan industri, kawasan pertanian, dan kawasan pesisir. Jika kita langsung mengambil sampel acak sederhana dari seluruh provinsi, bisa jadi sebagian wilayah terlalu sedikit terwakili. Stratified sampling mengatasi masalah itu dengan membagi populasi ke dalam strata yang lebih seragam, lalu mengambil sampel dari setiap strata. Tujuan stratifikasi adalah meningkatkan efisiensi pendugaan dan, pada banyak kasus, mengurangi ragam.
Jika populasi dibagi ke dalam \(L\) strata, dengan ukuran strata ke-\(h\) adalah \(N_h\), maka bobot strata adalah:
\[ W_h = \frac{N_h}{N}, \qquad \sum_{h=1}^{L} W_h = 1 \]
Sebelum memilih sampel, peneliti harus memutuskan bagaimana populasi dibagi. Pembagian ini tidak boleh sembarangan: strata dipilih karena masing-masing kelompok diharapkan relatif homogen terhadap variabel yang akan diduga. Setelah strata dibentuk, kita melakukan pengacakan di dalam setiap strata.
Sampel diambil dengan cara melakukan SRS di dalam setiap strata. Jika \(n_h\) adalah ukuran sampel pada strata ke-\(h\), maka sampel total adalah
\[ n = \sum_{h=1}^{L} n_h \]
##
## NC NE S W
## 1054 220 1382 422
Nh <- table(agpop$region)
n_total <- 200
nh_prop <- floor(n_total * as.numeric(Nh) / sum(Nh))
names(nh_prop) <- names(Nh)
rem <- n_total - sum(nh_prop)
if (rem > 0) {
frac <- n_total * as.numeric(Nh) / sum(Nh) - nh_prop
ord <- order(frac, decreasing = TRUE)
nh_prop[ord[seq_len(rem)]] <- nh_prop[ord[seq_len(rem)]] + 1
}
nh_prop## NC NE S W
## 69 14 90 27
Bayangkan tiap strata sebagai “kelas kecil” yang diacak
sendiri-sendiri. Dengan cara ini, strata besar tetap punya peluang
representasi yang wajar, dan strata kecil tidak tenggelam dalam populasi
besar. Fungsi strata() dari paket sampling
melakukan pengacakan ini untuk kita.
set.seed(777)
s_strat <- strata(agpop, stratanames = "region", size = nh_prop, method = "srswor")
samp_strat <- getdata(agpop, s_strat)
head(samp_strat[, c("county", "state", "acres92", "region")])## county state acres92 region
## 1 ALEUTIAN ISLANDS AREA AK 683533 W
## 2 ANCHORAGE AREA AK 47146 W
## 152 GRAHAM COUNTY AZ 1846497 W
## 153 GREENLEE COUNTY AZ 137834 W
## 154 LA PAZ COUNTY AZ 246038 W
## 156 MOHAVE COUNTY AZ 1981938 W
Penduga mean stratified adalah mean berbobot dari mean tiap strata. Penduga total stratified adalah jumlah total tiap strata. Setelah itu, galat baku, margin of error, dan selang kepercayaan dihitung seperti pada SRS, tetapi dengan ragam stratified.
Rumus penduga mean stratified:
\[ \hat{\mu}_{st} = \sum_{h=1}^{L} W_h \bar{y}_h \]
Rumus penduga total stratified:
\[ \hat{T}_{st} = \sum_{h=1}^{L} N_h \bar{y}_h = N\hat{\mu}_{st} \]
Ragam penduga mean stratified:
\[ \widehat{V}(\hat{\mu}_{st}) = \sum_{h=1}^{L} W_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_h^2}{n_h} \]
Ragam penduga total stratified:
\[ \widehat{V}(\hat{T}_{st}) = \sum_{h=1}^{L} N_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_h^2}{n_h} = N^2 \widehat{V}(\hat{\mu}_{st}) \]
Galat baku, margin of error, dan selang kepercayaan:
\[ SE(\hat{\mu}_{st})=\sqrt{\widehat{V}(\hat{\mu}_{st})}, \qquad MOE = z_{0.975}\,SE(\hat{\mu}_{st}), \qquad CI_{95\%}(\mu_{st})=\hat{\mu}_{st}\pm MOE \]
\[ SE(\hat{T}_{st})=\sqrt{\widehat{V}(\hat{T}_{st})}, \qquad CI_{95\%}(T_{st})=\hat{T}_{st}\pm z_{0.975}\,SE(\hat{T}_{st}) \]
Wh <- as.numeric(Nh / sum(Nh))
names(Wh) <- names(Nh)
ybar_h <- tapply(samp_strat$acres92, samp_strat$region, mean, na.rm = TRUE)
s2_h <- tapply(samp_strat$acres92, samp_strat$region, var, na.rm = TRUE)
n_h <- tapply(samp_strat$acres92, samp_strat$region, function(x) sum(!is.na(x)))
Wh_use <- Wh[names(ybar_h)]
Nh_use <- as.numeric(Nh[names(ybar_h)])
mu_st <- sum(Wh_use * ybar_h)
var_mu_st <- sum((Wh_use^2) * (1 - n_h / Nh_use) * (s2_h / n_h))
se_mu_st <- sqrt(var_mu_st)
moe_mu_st <- qnorm(0.975) * se_mu_st
ci_mu_st <- c(mu_st - moe_mu_st, mu_st + moe_mu_st)
T_st <- sum(as.numeric(Nh_use) * ybar_h)
var_T_st <- sum((as.numeric(Nh_use)^2) * (1 - n_h / Nh_use) * (s2_h / n_h))
se_T_st <- sqrt(var_T_st)
moe_T_st <- qnorm(0.975) * se_T_st
ci_T_st <- c(T_st - moe_T_st, T_st + moe_T_st)
c(mean = mu_st, se = se_mu_st, moe = moe_mu_st)## mean se moe
## 295176.93 31748.46 62225.84
## [1] 232951.1 357402.8
## total se moe
## 908554585 97721756 191531122
## [1] 717023463 1100085707
Ukuran sampel stratified tergantung pada ragam tiap strata dan alokasi sampel. Terdapat beberapa cara alokasi, termasuk alokasi proporsional dan alokasi yang mempertimbangkan ragam strata.
Untuk target galat tertentu, prinsip umumnya tetap sama: tentukan batas galat yang diinginkan, lalu turunkan ukuran sampel yang membuat ragam penduga cukup kecil.
Jika target pendugaan mean adalah dengan batas galat \(B\), maka secara umum digunakan kondisi:
\[ MOE = z_{0.975}SE(\hat{\mu}_{st}) \le B \]
Setelah strata ditentukan, pertanyaan berikutnya adalah: berapa banyak sampel yang harus diambil dari tiap strata? Terhadap beberapa aturan alokasi, dan pilihan alokasi ini memengaruhi presisi penduga. Jika strata besar diberi sampel lebih besar, kita disebut memakai alokasi proporsional. Jika setiap strata mendapat jumlah yang sama, itu alokasi seimbang. Jika ragam strata berbeda, alokasi Neyman atau alokasi berbasis biaya bisa lebih efisien.
Alokasi sampel di setiap strata dapat ditentukan dengan beberapa aturan.
Alokasi proporsional:
\[ n_h = n\frac{N_h}{N} \]
Alokasi seimbang:
\[ n_h = \frac{n}{L} \]
Alokasi Neyman:
\[ n_h = n\frac{N_h S_h}{\sum_{h=1}^{L} N_h S_h} \]
Jika biaya observasi per strata berbeda, maka alokasi optimal memakai bobot biaya:
\[ n_h = n \frac{N_h S_h/\sqrt{c_h}}{\sum_{k=1}^{L} N_k S_k/\sqrt{c_k}} \]
## NC NE S W
## 69 14 90 27
Proporsi stratified dihitung sebagai rata-rata tertimbang proporsi tiap strata. Misalnya, bila kita ingin tahu proporsi county yang memiliki luas lahan di atas median, kita tidak menghitung satu angka untuk seluruh populasi terlebih dahulu. Kita hitung proporsi di setiap strata, lalu menggabungkannya dengan bobot strata.
Kode berikut membuat indikator sederhana dan menghitung penduga proporsi stratified.
Rumus proporsi stratified:
\[ \hat{p}_{st} = \sum_{h=1}^{L} W_h \hat{p}_h \]
dengan \[ \hat{p}_h = \frac{1}{n_h}\sum_{i=1}^{n_h} I_{hi}. \]
Ragam penduga proporsi stratified:
\[ \widehat{V}(\hat{p}_{st}) = \sum_{h=1}^{L} W_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_{I,h}^2}{n_h} \]
Galat baku, margin of error, dan selang kepercayaan:
\[ SE(\hat{p}_{st}) = \sqrt{\widehat{V}(\hat{p}_{st})}, \qquad MOE = z_{0.975}SE(\hat{p}_{st}), \qquad CI_{95\%}(p_{st})=\hat{p}_{st}\pm MOE \]
samp_strat$high <- as.integer(samp_strat$acres92 > median(samp_strat$acres92, na.rm = TRUE))
p_h <- tapply(samp_strat$high, samp_strat$region, mean, na.rm = TRUE)
s2_p_h <- tapply(samp_strat$high, samp_strat$region, var, na.rm = TRUE)
n_p_h <- tapply(samp_strat$high, samp_strat$region, function(x) sum(!is.na(x)))
Wh_p <- Wh[names(p_h)]
Nh_p <- as.numeric(Nh[names(p_h)])
p_st <- sum(Wh_p * p_h)
var_p_st <- sum((Wh_p^2) * (1 - n_p_h / Nh_p) * (s2_p_h / n_p_h))
se_p_st <- sqrt(var_p_st)
moe_p_st <- qnorm(0.975) * se_p_st
ci_p_st <- c(p_st - moe_p_st, p_st + moe_p_st)
c(prop = p_st, se = se_p_st, moe = moe_p_st)## prop se moe
## 0.57380513 0.06419907 0.12582786
## [1] 0.4479773 0.6996330
Untuk proporsi, logika ukuran sampel sama seperti pada mean, tetapi
ragam komponen mengikuti p(1-p) pada masing-masing
strata.
Stratified sampling sangat berguna ketika strata benar-benar homogen di dalam dan berbeda antarstrata. Jika stratanya tidak tepat, efisiensi bisa turun. Karena itu, pemilihan strata harus didasarkan pada pengetahuan substantif tentang populasi.
Chapter 5 juga membahas pemilihan strata yang optimal. Intinya, strata yang baik adalah strata yang memisahkan unit-unit yang memang berbeda secara substantif terhadap variabel respons yang diteliti.
Jika strata baru diketahui setelah sampel terpilih, teknik poststratification dapat digunakan. Ini merupakan perluasan dari stratified sampling.
Jika informasi strata awal belum lengkap, dua tahap sampling dapat dipakai. Ini memperluas ide stratifikasi ke situasi yang lebih realistis.
Stratified sampling sering memberi penduga yang lebih efisien daripada SRS, terutama jika strata dipilih dengan baik. Rata-rata, total, dan proporsi semuanya dapat diduga dengan bobot strata yang jelas.
Gunakan konsep pada Chapter 5 (Elementary Survey Sampling) untuk menyelesaikan soal berikut.
Kerjakan soal berikut secara mandiri. Setiap mahasiswa cukup mengerjakan 3 (tiga) soal saja, sesuai pembagian berikut:
Soal ganjil (1,3,5) jika NIM ganjil
Soal genap (2,4,6) jika NIM genap
Tunjukkan seluruh langkah perhitungan secara lengkap dan jelas. Lalu kumpulkan melalui portal class.ipb.ac.id.
Sebuah rumah sakit memiliki \(N = 484\) akun pasien yang belum dibayar. Diambil sampel acak sederhana sebanyak \(n = 9\) akun. Data jumlah tagihan (dalam dolar) adalah:
33.5, 32.0, 52.0, 43.0, 40.0, 41.0, 45.0, 42.5, 39.0
Hitung:
Penduga rata-rata populasi \(\bar{y}\)
Penduga total populasi \(\hat{\tau}\)
Galat baku mean
Margin of error (95%)
Selang kepercayaan 95% untuk mean
Sebuah populasi terdiri dari \(N = 1000\) rumah tangga. Diambil sampel acak sederhana sebanyak \(n = 50\). Diketahui:
\(\bar{y} = 75\)
\(s^2 = 225\)
Hitung:
Penduga mean populasi
Penduga total populasi
Galat baku mean
Selang kepercayaan 95%
Dalam survei kepuasan pelanggan, dari \(n = 120\) responden terdapat 78 responden yang puas.
Hitung:
Penduga proporsi populasi
Galat baku proporsi
Margin of error (95%)
Selang kepercayaan 95%
Sebuah populasi dibagi menjadi 3 strata dengan ukuran:
Diketahui:
Hitung:
Bobot tiap strata (\(W_h\))
Penduga mean stratified \(\bar{y}_{st}\)
Gunakan data berikut:
| Strata | \(N_h\) | \(\bar{y}_h\) | \(s_h^2\) | \(n_h\) |
|---|---|---|---|---|
| 1 | 100 | 50 | 25 | 10 |
| 2 | 200 | 70 | 36 | 20 |
| 3 | 300 | 90 | 49 | 30 |
Hitung:
Penduga mean stratified
Ragam penduga
Galat baku
Selang kepercayaan 95%
Sebuah survei stratified dilakukan pada 3 strata dengan proporsi:
Ukuran populasi:
Sehingga: \[ N = 500 \]
Ukuran sampel:
Hitung:
Bobot tiap strata: \[ W_h = \frac{N_h}{N} \]
Penduga proporsi stratified: \[ \hat{p}_{st} = \sum_{h=1}^{3} W_h p_h \]
Ragam penduga: \[ V(\hat{p}_{st}) = \sum_{h=1}^{3} W_h^2 \left(1 - \frac{n_h}{N_h}\right)\frac{p_h(1-p_h)}{n_h} \]
Galat baku: \[ SE = \sqrt{V(\hat{p}_{st})} \]
Margin of error (95%): \[ MOE = z_{0.975} \times SE \]
Selang kepercayaan 95%: \[ \hat{p}_{st} \pm MOE \]
Scheaffer, R. L., Mendenhall, W., Ott, R. L., & Gerow, K. (2011). Elementary Survey Sampling (7th ed.). Brooks/Cole, Cengage Learning.
Lu, Y., & Lohr, S. L. (2021). R Companion for Sampling: Design and Analysis (3rd ed. companion). CRC Press.
Modul ini disusun dengan bantuan alat kecerdasan buatan.1
ChatGPT (OpenAI) dan Gemini (Google) digunakan untuk membantu penyusunan narasi dan kode, dengan verifikasi oleh penulis.↩︎