1. Elements of the Sampling Problem

Modul ini mengikuti struktur pada buku Elementary Survey Sampling, yaitu: pengenalan istilah teknis, cara memilih sampel, sumber-sumber galat dalam survei, dan perencanaan survei. Inti bab ini adalah bahwa hasil survei tidak hanya ditentukan oleh rumus, tetapi juga oleh cara sampel dipilih dan bagaimana proses survei dirancang. Pada modul ini digunakan beberapa R package yaitu:

  • survey

  • sampling

  • SDAResources

Mengapa Kita Tidak Melakukan Sensus?

Bayangkan Anda ingin mengetahui apakah air di sebuah danau layak minum. Apakah Anda harus meminum seluruh air danau tersebut untuk memastikannya? Tentu tidak. Anda cukup mengambil satu botol kecil air dari beberapa titik, lalu memeriksanya di laboratorium.

Satu botol air itulah yang kita sebut sebagai Sampel, dan seluruh air di danau adalah Populasi. Dalam statistika, tantangan terbesarnya bukan pada cara memeriksa airnya, melainkan pada pertanyaan: “Bagaimana cara mengambil sampel air yang benar agar satu botol tadi benar-benar mewakili seluruh isi danau?”

1.1 Technical Terms

Dalam survei, kita membedakan populasi, sampel, unit sampling, parameter, dan statistik. Populasi adalah seluruh unit yang menjadi sasaran inferensi. Sampel adalah bagian dari populasi yang benar-benar diamati. Parameter adalah nilai populasi yang ingin diduga, sedangkan statistik adalah nilai yang dihitung dari sampel.

Hal ini merupakan fondasi sebelum masuk ke desain sampel acak sederhana dan stratified sampling. Dengan istilah yang jelas, mahasiswa akan lebih mudah memahami mengapa desain sampling memengaruhi hasil analisis.

1.2 How to Select the Sample: The Design of the Sample Survey

Desain survei menjelaskan bagaimana sampel dipilih. Pada modul ini, dua desain yang dipelajari adalah:

  1. Simple Random Sampling

  2. Stratified Random Sampling

Secara praktis, pemilihan desain itu seperti memilih cara terbaik untuk mengambil “wakil” dari populasi. Jika populasi relatif seragam, SRS sudah cukup. Jika populasi memiliki kelompok-kelompok yang jelas dan berbeda, stratified sampling sering lebih efisien.

Desain yang baik harus mempertimbangkan biaya, waktu, dan akurasi.

1.3 Sources of Errors in Surveys

Galat survei bukan hanya galat sampling. Galat dapat bersumber dari:

  • bias seleksi,

  • galat percontohan (sampling error),

  • nonsampling error.

Bayangkan jika peneliti hanya mewawancarai responden yang sedang berada di kampus pada siang hari. Hasilnya bisa bias karena kelompok yang tidak hadir mungkin memiliki karakteristik berbeda. Atau bayangkan jawaban responden dicatat keliru karena pertanyaan terlalu rumit. Sementara itu, galat percontohan muncul walaupun semua langkah sudah benar, karena sampel tetap hanya bagian kecil dari populasi.

Pada modul ini, fokus utama adalah bias seleksi, galat pengukuran, dan galat percontohan karena ketiganya paling langsung terkait dengan SRS dan stratified sampling.

1.4 Designing a Questionnaire

Walaupun modul ini berfokus pada sampling, Chapter 2 pada buku referensi juga mengingatkan bahwa kuesioner yang buruk dapat menghasilkan data yang buruk meskipun desain samplingnya baik. Pertanyaan yang ambigu, terlalu panjang, atau memancing jawaban tertentu dapat menurunkan kualitas data.

1.5 Planning a Survey

Perencanaan survei mencakup penentuan tujuan, populasi target, variabel yang diukur, ukuran sampel, dan metode pengumpulan data. Dalam praktik, langkah ini harus dilakukan sebelum sampel dipilih. Survei yang baik dimulai dari tujuan yang jelas. Misalnya, jika tujuan survei adalah menduga rata-rata pengeluaran rumah tangga, maka sejak awal peneliti harus menentukan siapa unitnya, apa variabelnya, bagaimana respon dikumpulkan, dan berapa ketelitian yang diinginkan.

2. Some Basic Concepts of Statistics

Beberapa formula dasar yang dipakai berulang di beberapa penjelasan berikutnya adalah:

\[ \mu = \frac{1}{N}\sum_{i=1}^{N} y_i,\qquad \tau = \sum_{i=1}^{N} y_i = N\mu,\qquad p = \frac{A}{N} \]

Untuk sampel acak sederhana berukuran \(n\):

\[ \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i,\qquad s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(y_i-\bar{y})^2 \]

Selang kepercayaan 95% untuk parameter yang diduga umumnya ditulis sebagai:

\[ \hat{\theta} \pm z_{0.975}\,SE(\hat{\theta}) \]

dengan \(\hat{\theta}\) menyatakan penduga parameter yang dipakai, misalnya \(\bar{y}\), \(\hat{T}\), atau \(\hat{p}\).

2.1 Summarizing Information in Populations and Samples

Rata-rata, total, dan proporsi adalah ringkasan yang paling sering dipakai dalam survei. Pada populasi besar, mean sering menjadi target utama karena mudah diinterpretasikan dan mudah dihubungkan dengan total.

data(agpop)
N <- nrow(agpop)
N
## [1] 3078

2.2 Sampling Distributions

Karena sampel dipilih secara acak, statistik sampel mempunyai distribusi sampling. Inilah alasan mengapa satu sampel tidak cukup untuk memberi gambaran pasti tentang populasi, tetapi cukup untuk membentuk pendugaan dan selang kepercayaan.

2.3 Estimation

Estimasi adalah proses menggunakan statistik sampel untuk menduga parameter populasi. Dalam modul ini, estimator yang dipakai adalah estimator mean, total, dan proporsi untuk SRS dan stratified sampling.

3. Simple Random Sampling

Modul ini menggunakan fungsi R yang sudah jadi dari paket sampling dan survey.

3.1 Introduction

Simple Random Sampling adalah desain yang paling dasar. Setiap unit populasi mempunyai peluang yang sama untuk terpilih. Pengacakan ini dapat dilakukan dengan lotere, tabel bilangan acak, atau komputer. Dalam modul ini, ide tersebut dipakai untuk membangun langkah yang bisa diikuti mahasiswa secara mandiri: identifikasi populasi, beri nomor unit, acak unit, lalu gunakan sampel untuk menduga parameter.

Rumus utama SRS

Jika populasi berukuran \(N\) dan sampel berukuran \(n\), maka peluang setiap sampel SRSWOR yang mungkin adalah:

\[ P(s) = \frac{1}{\binom{N}{n}} \]

Bobot sampel pada SRS biasanya sama untuk semua unit:

\[ w_i = \frac{N}{n} \]

3.2 How to Draw a Simple Random Sample

Bayangkan sebuah kelas berisi beberapa mahasiswa yang masing-masing diberi nomor urut. Dosen ingin memilih empat mahasiswa untuk dijadikan responden, tetapi pemilihan harus benar-benar adil. Pada situasi seperti ini, SRS memberi setiap mahasiswa peluang yang sama untuk terpilih. Ide ini diperlihatkan dengan lotere, tabel bilangan acak, dan komputer; di R, kita memakai fungsi siap pakai agar proses pengacakan lebih cepat dan tidak bias.

Pengacakan dengan R

set.seed(123)
sample(1:10, 4, replace = FALSE)
## [1]  3 10  2  8

Pengacakan dengan package sampling

set.seed(123)
s <- srswor(4, 10)
s
##  [1] 0 1 1 0 0 0 0 1 0 1
(1:10)[s == 1]
## [1]  2  3  8 10

Ilustrasi

Data agpop berisi ribuan county, sehingga pemilihan langsung dengan tangan tidak realistis. Dengan SRS, kita dapat mengambil 100 county secara acak dari seluruh populasi dan kemudian melihat bagaimana sampel itu dipakai untuk menduga rata-rata dan total luas lahan.

set.seed(2024)
idx_srs <- srswor(100, N)
samp_srs <- getdata(agpop, idx_srs)
head(samp_srs[, c("county", "state", "acres92", "region")])
##                county state acres92 region
## 35    FRANKLIN COUNTY    AL  130063      S
## 68  TUSCALOOSA COUNTY    AL   96194      S
## 105      IZARD COUNTY    AR  183895      S
## 118     MILLER COUNTY    AR  173861      S
## 147       YELL COUNTY    AR  190363      S
## 153   GREENLEE COUNTY    AZ  137834      W

3.3 Estimation of a Population Mean and Total

Pada SRS, penduga mean populasi adalah mean sampel. Penduga total populasi adalah jumlah unit populasi dikalikan mean sampel. Setelah parameter diduga, langkah berikutnya adalah menghitung galat baku, margin of error, dan selang kepercayaan.

Rumus yang dipakai adalah:

\[ \hat{\mu} = \bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i \]

\[ \widehat{V}(\bar{y}) = \left(1-\frac{n}{N}\right)\frac{s^2}{n} \]

\[ SE(\bar{y}) = \sqrt{\widehat{V}(\bar{y})} \]

\[ MOE = z_{0.975}\,SE(\bar{y}) \]

\[ CI_{95\%}(\mu)=\bar{y}\pm MOE \]

Untuk total populasi:

\[ \hat{T} = N\bar{y} \]

\[ \widehat{V}(\hat{T}) = N^2\widehat{V}(\bar{y}) \]

\[ SE(\hat{T}) = \sqrt{\widehat{V}(\hat{T})} \]

\[ CI_{95\%}(T)=\hat{T}\pm z_{0.975}\,SE(\hat{T}) \]

ybar_srs <- mean(samp_srs$acres92, na.rm = TRUE)
s2_srs <- var(samp_srs$acres92, na.rm = TRUE)
n_srs <- sum(!is.na(samp_srs$acres92))

var_ybar_srs <- (1 - n_srs/N) * s2_srs / n_srs
se_ybar_srs <- sqrt(var_ybar_srs)
moe_ybar_srs <- qnorm(0.975) * se_ybar_srs
ci_ybar_srs <- c(ybar_srs - moe_ybar_srs, ybar_srs + moe_ybar_srs)

T_hat_srs <- N * ybar_srs
var_T_srs <- N^2 * var_ybar_srs
se_T_srs <- sqrt(var_T_srs)
moe_T_srs <- qnorm(0.975) * se_T_srs
ci_T_srs <- c(T_hat_srs - moe_T_srs, T_hat_srs + moe_T_srs)

c(mean = ybar_srs, se = se_ybar_srs, moe = moe_ybar_srs)
##      mean        se       moe 
## 319263.30  38668.13  75788.14
ci_ybar_srs
## [1] 243475.2 395051.4
c(total = T_hat_srs, se = se_T_srs, moe = moe_T_srs)
##     total        se       moe 
## 982692447 119020501 233275895
ci_T_srs
## [1]  749416552 1215968342

Pendugaan proporsi

cut_srs <- median(samp_srs$acres92, na.rm = TRUE)
ind_srs <- as.integer(samp_srs$acres92 > cut_srs)

p_hat_srs <- mean(ind_srs, na.rm = TRUE)
s2_p_srs <- var(ind_srs, na.rm = TRUE)
n_p_srs <- length(ind_srs)

var_p_srs <- (1 - n_p_srs/N) * s2_p_srs / n_p_srs
se_p_srs <- sqrt(var_p_srs)
moe_p_srs <- qnorm(0.975) * se_p_srs
ci_p_srs <- c(p_hat_srs - moe_p_srs, p_hat_srs + moe_p_srs)

c(prop = p_hat_srs, se = se_p_srs, moe = moe_p_srs)
##       prop         se        moe 
## 0.49494949 0.04942884 0.09687875
ci_p_srs
## [1] 0.3980707 0.5918282

3.4 Selecting the Sample Size for Estimating Population Means and Totals

Bayangkan seorang peneliti hanya punya anggaran terbatas, tetapi ingin hasil yang cukup presisi. Ia harus memilih ukuran sampel yang tidak terlalu kecil agar hasilnya stabil, tetapi juga tidak terlalu besar agar biaya tidak membengkak. Margin of error dan ragam awal dari survei pendahuluan menjadi input utama. Dalam R, perhitungan ini biasanya dilakukan dengan rumus, bukan dengan satu fungsi khusus, sehingga mahasiswa memahami hubungan antara target akurasi dan ukuran sampel.

B_mean <- 50000
z <- qnorm(0.975)
n_mean <- (N * z^2 * s2_srs) / (B_mean^2 * (N - 1) + z^2 * s2_srs)
n_mean
## [1] 218.4098

3.5 Estimation of a Population Proportion

Proporsi adalah mean dari peubah indikator 0-1. Karena itu, semua langkah inferensi pada proporsi mengikuti logika yang sama seperti mean. Misalnya, jika kita ingin mengetahui proporsi county dengan luas lahan di atas nilai median, maka setiap county diberi kode 1 jika memenuhi kondisi itu dan 0 jika tidak. Setelah itu, proporsi diduga dengan mean dari kode tersebut.

Rumus proporsi pada SRS adalah:

\[ \hat{p} = \bar{I} = \frac{1}{n}\sum_{i=1}^{n} I_i \]

dengan \(I_i=1\) jika kejadian yang diamati terjadi, dan \(I_i=0\) jika tidak.

Ragam penduga proporsi:

\[ \widehat{V}(\hat{p}) = \left(1-\frac{n}{N}\right)\frac{s_I^2}{n} \]

dengan \(s_I^2\) adalah ragam sampel dari peubah indikator.

Galat baku, margin of error, dan selang kepercayaan:

\[ SE(\hat{p}) = \sqrt{\widehat{V}(\hat{p})}, \qquad MOE = z_{0.975}\,SE(\hat{p}), \qquad CI_{95\%}(p)=\hat{p}\pm MOE \]

3.6 Comparing Estimates

Perbandingan pendugaan rata-rata, total, dan proporsi untuk menunjukkan bahwa sebuah estimator harus dinilai tidak hanya dari nilainya, tetapi juga dari ragam dan galat bakunya.

SRS mudah dipahami, mudah diacak, dan menjadi dasar bagi banyak metode lain. Namun, SRS tidak selalu paling efisien jika populasi heterogen.

3.7 Latihan Soal

Gunakan konsep dan rumus pada Chapter 4 (Elementary Survey Sampling) untuk menyelesaikan soal berikut.

  1. Sebuah populasi terdiri dari \(N = 500\) unit. Diambil sampel acak sederhana sebanyak \(n = 50\). Diketahui rata-rata sampel \(\bar{y} = 120\) dan ragam sampel \(s^2 = 400\).
    • Hitung penduga mean populasi
    • Hitung galat baku
    • Hitung margin of error (95%)
    • Tentukan selang kepercayaan 95%
  2. Dari populasi yang sama (\(N = 500\)), gunakan hasil soal (1) untuk:
    • Menduga total populasi
    • Hitung galat baku total
    • Tentukan selang kepercayaan total
  3. Dalam sebuah survei, dari \(n = 100\) responden terdapat 60 yang menjawab “ya”.
    • Hitung penduga proporsi
    • Hitung galat baku proporsi
    • Tentukan margin of error dan selang kepercayaan 95%
  4. Seorang peneliti ingin margin of error untuk mean tidak lebih dari 5 satuan. Diketahui \(N = 1000\), \(s^2 = 100\), dan tingkat kepercayaan 95%.
    • Hitung ukuran sampel minimum yang diperlukan

4. Stratified Random Sampling

4.1 Introduction

Kadang kala, populasi kita tidak seragam. Bayangkan Anda sedang meneliti pendapatan penduduk di satu provinsi. Jika Anda hanya menggunakan SRS, ada risiko semua sampel yang terambil berasal dari kota besar, sementara penduduk desa tidak terwakili.

Untuk mengatasinya, kita gunakan Stratified Random Sampling. Kita bagi populasi menjadi kelompok yang mirip (Strata), misalnya: Strata Desa dan Strata Kota. Kemudian, kita ambil sampel secara acak dari masing-masing strata.

Bayangkan sebuah provinsi dengan wilayah yang berbeda-beda: ada kawasan industri, kawasan pertanian, dan kawasan pesisir. Jika kita langsung mengambil sampel acak sederhana dari seluruh provinsi, bisa jadi sebagian wilayah terlalu sedikit terwakili. Stratified sampling mengatasi masalah itu dengan membagi populasi ke dalam strata yang lebih seragam, lalu mengambil sampel dari setiap strata. Tujuan stratifikasi adalah meningkatkan efisiensi pendugaan dan, pada banyak kasus, mengurangi ragam.

Rumus dasar stratified sampling

Jika populasi dibagi ke dalam \(L\) strata, dengan ukuran strata ke-\(h\) adalah \(N_h\), maka bobot strata adalah:

\[ W_h = \frac{N_h}{N}, \qquad \sum_{h=1}^{L} W_h = 1 \]

4.2 How to Draw a Stratified Random Sample

Sebelum memilih sampel, peneliti harus memutuskan bagaimana populasi dibagi. Pembagian ini tidak boleh sembarangan: strata dipilih karena masing-masing kelompok diharapkan relatif homogen terhadap variabel yang akan diduga. Setelah strata dibentuk, kita melakukan pengacakan di dalam setiap strata.

Menetapkan strata

Sampel diambil dengan cara melakukan SRS di dalam setiap strata. Jika \(n_h\) adalah ukuran sampel pada strata ke-\(h\), maka sampel total adalah

\[ n = \sum_{h=1}^{L} n_h \]

table(agpop$region)
## 
##   NC   NE    S    W 
## 1054  220 1382  422

Alokasi proporsional dengan package dan fungsi sederhana

Nh <- table(agpop$region)
n_total <- 200

nh_prop <- floor(n_total * as.numeric(Nh) / sum(Nh))
names(nh_prop) <- names(Nh)

rem <- n_total - sum(nh_prop)
if (rem > 0) {
  frac <- n_total * as.numeric(Nh) / sum(Nh) - nh_prop
  ord <- order(frac, decreasing = TRUE)
  nh_prop[ord[seq_len(rem)]] <- nh_prop[ord[seq_len(rem)]] + 1
}

nh_prop
## NC NE  S  W 
## 69 14 90 27

Pengacakan di dalam strata

Bayangkan tiap strata sebagai “kelas kecil” yang diacak sendiri-sendiri. Dengan cara ini, strata besar tetap punya peluang representasi yang wajar, dan strata kecil tidak tenggelam dalam populasi besar. Fungsi strata() dari paket sampling melakukan pengacakan ini untuk kita.

set.seed(777)
s_strat <- strata(agpop, stratanames = "region", size = nh_prop, method = "srswor")
samp_strat <- getdata(agpop, s_strat)
head(samp_strat[, c("county", "state", "acres92", "region")])
##                    county state acres92 region
## 1   ALEUTIAN ISLANDS AREA    AK  683533      W
## 2          ANCHORAGE AREA    AK   47146      W
## 152         GRAHAM COUNTY    AZ 1846497      W
## 153       GREENLEE COUNTY    AZ  137834      W
## 154         LA PAZ COUNTY    AZ  246038      W
## 156         MOHAVE COUNTY    AZ 1981938      W

4.3 Estimation of a Population Mean and Total

Penduga mean stratified adalah mean berbobot dari mean tiap strata. Penduga total stratified adalah jumlah total tiap strata. Setelah itu, galat baku, margin of error, dan selang kepercayaan dihitung seperti pada SRS, tetapi dengan ragam stratified.

Rumus penduga mean stratified:

\[ \hat{\mu}_{st} = \sum_{h=1}^{L} W_h \bar{y}_h \]

Rumus penduga total stratified:

\[ \hat{T}_{st} = \sum_{h=1}^{L} N_h \bar{y}_h = N\hat{\mu}_{st} \]

Ragam penduga mean stratified:

\[ \widehat{V}(\hat{\mu}_{st}) = \sum_{h=1}^{L} W_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_h^2}{n_h} \]

Ragam penduga total stratified:

\[ \widehat{V}(\hat{T}_{st}) = \sum_{h=1}^{L} N_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_h^2}{n_h} = N^2 \widehat{V}(\hat{\mu}_{st}) \]

Galat baku, margin of error, dan selang kepercayaan:

\[ SE(\hat{\mu}_{st})=\sqrt{\widehat{V}(\hat{\mu}_{st})}, \qquad MOE = z_{0.975}\,SE(\hat{\mu}_{st}), \qquad CI_{95\%}(\mu_{st})=\hat{\mu}_{st}\pm MOE \]

\[ SE(\hat{T}_{st})=\sqrt{\widehat{V}(\hat{T}_{st})}, \qquad CI_{95\%}(T_{st})=\hat{T}_{st}\pm z_{0.975}\,SE(\hat{T}_{st}) \]

Wh <- as.numeric(Nh / sum(Nh))
names(Wh) <- names(Nh)

ybar_h <- tapply(samp_strat$acres92, samp_strat$region, mean, na.rm = TRUE)
s2_h <- tapply(samp_strat$acres92, samp_strat$region, var, na.rm = TRUE)
n_h <- tapply(samp_strat$acres92, samp_strat$region, function(x) sum(!is.na(x)))

Wh_use <- Wh[names(ybar_h)]
Nh_use <- as.numeric(Nh[names(ybar_h)])

mu_st <- sum(Wh_use * ybar_h)
var_mu_st <- sum((Wh_use^2) * (1 - n_h / Nh_use) * (s2_h / n_h))
se_mu_st <- sqrt(var_mu_st)
moe_mu_st <- qnorm(0.975) * se_mu_st
ci_mu_st <- c(mu_st - moe_mu_st, mu_st + moe_mu_st)

T_st <- sum(as.numeric(Nh_use) * ybar_h)
var_T_st <- sum((as.numeric(Nh_use)^2) * (1 - n_h / Nh_use) * (s2_h / n_h))
se_T_st <- sqrt(var_T_st)
moe_T_st <- qnorm(0.975) * se_T_st
ci_T_st <- c(T_st - moe_T_st, T_st + moe_T_st)

c(mean = mu_st, se = se_mu_st, moe = moe_mu_st)
##      mean        se       moe 
## 295176.93  31748.46  62225.84
ci_mu_st
## [1] 232951.1 357402.8
c(total = T_st, se = se_T_st, moe = moe_T_st)
##     total        se       moe 
## 908554585  97721756 191531122
ci_T_st
## [1]  717023463 1100085707

4.4 Selecting the Sample Size for Estimating Population Means and Totals

Ukuran sampel stratified tergantung pada ragam tiap strata dan alokasi sampel. Terdapat beberapa cara alokasi, termasuk alokasi proporsional dan alokasi yang mempertimbangkan ragam strata.

Untuk target galat tertentu, prinsip umumnya tetap sama: tentukan batas galat yang diinginkan, lalu turunkan ukuran sampel yang membuat ragam penduga cukup kecil.

Jika target pendugaan mean adalah dengan batas galat \(B\), maka secara umum digunakan kondisi:

\[ MOE = z_{0.975}SE(\hat{\mu}_{st}) \le B \]

4.5 Allocation of the Sample

Setelah strata ditentukan, pertanyaan berikutnya adalah: berapa banyak sampel yang harus diambil dari tiap strata? Terhadap beberapa aturan alokasi, dan pilihan alokasi ini memengaruhi presisi penduga. Jika strata besar diberi sampel lebih besar, kita disebut memakai alokasi proporsional. Jika setiap strata mendapat jumlah yang sama, itu alokasi seimbang. Jika ragam strata berbeda, alokasi Neyman atau alokasi berbasis biaya bisa lebih efisien.

Alokasi proporsional

Alokasi sampel di setiap strata dapat ditentukan dengan beberapa aturan.

Alokasi proporsional:

\[ n_h = n\frac{N_h}{N} \]

Alokasi seimbang:

\[ n_h = \frac{n}{L} \]

Alokasi Neyman:

\[ n_h = n\frac{N_h S_h}{\sum_{h=1}^{L} N_h S_h} \]

Jika biaya observasi per strata berbeda, maka alokasi optimal memakai bobot biaya:

\[ n_h = n \frac{N_h S_h/\sqrt{c_h}}{\sum_{k=1}^{L} N_k S_k/\sqrt{c_k}} \]

nh_prop
## NC NE  S  W 
## 69 14 90 27

Alokasi seimbang

nh_equal <- rep(floor(n_total / length(Nh)), length(Nh))
names(nh_equal) <- names(Nh)
nh_equal[1] <- nh_equal[1] + (n_total - sum(nh_equal))
nh_equal
## NC NE  S  W 
## 50 50 50 50

4.6 Estimation of a Population Proportion

Proporsi stratified dihitung sebagai rata-rata tertimbang proporsi tiap strata. Misalnya, bila kita ingin tahu proporsi county yang memiliki luas lahan di atas median, kita tidak menghitung satu angka untuk seluruh populasi terlebih dahulu. Kita hitung proporsi di setiap strata, lalu menggabungkannya dengan bobot strata.

Kode berikut membuat indikator sederhana dan menghitung penduga proporsi stratified.

Rumus proporsi stratified:

\[ \hat{p}_{st} = \sum_{h=1}^{L} W_h \hat{p}_h \]

dengan \[ \hat{p}_h = \frac{1}{n_h}\sum_{i=1}^{n_h} I_{hi}. \]

Ragam penduga proporsi stratified:

\[ \widehat{V}(\hat{p}_{st}) = \sum_{h=1}^{L} W_h^2 \left(1-\frac{n_h}{N_h}\right)\frac{s_{I,h}^2}{n_h} \]

Galat baku, margin of error, dan selang kepercayaan:

\[ SE(\hat{p}_{st}) = \sqrt{\widehat{V}(\hat{p}_{st})}, \qquad MOE = z_{0.975}SE(\hat{p}_{st}), \qquad CI_{95\%}(p_{st})=\hat{p}_{st}\pm MOE \]

samp_strat$high <- as.integer(samp_strat$acres92 > median(samp_strat$acres92, na.rm = TRUE))

p_h <- tapply(samp_strat$high, samp_strat$region, mean, na.rm = TRUE)
s2_p_h <- tapply(samp_strat$high, samp_strat$region, var, na.rm = TRUE)
n_p_h <- tapply(samp_strat$high, samp_strat$region, function(x) sum(!is.na(x)))

Wh_p <- Wh[names(p_h)]
Nh_p <- as.numeric(Nh[names(p_h)])

p_st <- sum(Wh_p * p_h)
var_p_st <- sum((Wh_p^2) * (1 - n_p_h / Nh_p) * (s2_p_h / n_p_h))
se_p_st <- sqrt(var_p_st)
moe_p_st <- qnorm(0.975) * se_p_st
ci_p_st <- c(p_st - moe_p_st, p_st + moe_p_st)

c(prop = p_st, se = se_p_st, moe = moe_p_st)
##       prop         se        moe 
## 0.57380513 0.06419907 0.12582786
ci_p_st
## [1] 0.4479773 0.6996330

4.7 Selecting the Sample Size and Allocating the Sample to Estimate Proportions

Untuk proporsi, logika ukuran sampel sama seperti pada mean, tetapi ragam komponen mengikuti p(1-p) pada masing-masing strata.

Additional Comments on Stratified Sampling

Stratified sampling sangat berguna ketika strata benar-benar homogen di dalam dan berbeda antarstrata. Jika stratanya tidak tepat, efisiensi bisa turun. Karena itu, pemilihan strata harus didasarkan pada pengetahuan substantif tentang populasi.

An Optimal Rule for Choosing Strata

Chapter 5 juga membahas pemilihan strata yang optimal. Intinya, strata yang baik adalah strata yang memisahkan unit-unit yang memang berbeda secara substantif terhadap variabel respons yang diteliti.

Stratification after Selection of the Sample

Jika strata baru diketahui setelah sampel terpilih, teknik poststratification dapat digunakan. Ini merupakan perluasan dari stratified sampling.

Double Sampling for Stratification

Jika informasi strata awal belum lengkap, dua tahap sampling dapat dipakai. Ini memperluas ide stratifikasi ke situasi yang lebih realistis.

Summary

Stratified sampling sering memberi penduga yang lebih efisien daripada SRS, terutama jika strata dipilih dengan baik. Rata-rata, total, dan proporsi semuanya dapat diduga dengan bobot strata yang jelas.

4.9. Latihan Soal

Gunakan konsep pada Chapter 5 (Elementary Survey Sampling) untuk menyelesaikan soal berikut.

  1. Sebuah populasi dibagi menjadi 3 strata dengan ukuran:
    • \(N_1 = 100\), \(N_2 = 200\), \(N_3 = 300\) Total sampel \(n = 60\).
    • Tentukan alokasi proporsional (\(n_h\))
    • Tentukan alokasi seimbang
  2. Untuk ketiga strata pada soal (1), diketahui:
    • \(\bar{y}_1 = 50\), \(\bar{y}_2 = 70\), \(\bar{y}_3 = 90\)
    • \(s_1^2 = 25\), \(s_2^2 = 36\), \(s_3^2 = 49\)
    • \(n_1 = 10\), \(n_2 = 20\), \(n_3 = 30\)
    • Hitung penduga mean stratified
    • Hitung ragam dan galat baku
  3. Gunakan data pada soal (2):
    • Hitung penduga total populasi
    • Hitung selang kepercayaan 95% untuk total
  4. Dalam survei stratified, diketahui proporsi pada tiap strata:
    • \(p_1 = 0.2\), \(p_2 = 0.5\), \(p_3 = 0.8\)
    • Gunakan bobot strata dari soal (1)
    • Hitung proporsi stratified
    • Hitung galat baku dan selang kepercayaan 95%

5. Tugas Mandiri

Kerjakan soal berikut secara mandiri. Setiap mahasiswa cukup mengerjakan 3 (tiga) soal saja, sesuai pembagian berikut:

  • Soal ganjil (1,3,5) jika NIM ganjil

  • Soal genap (2,4,6) jika NIM genap

Tunjukkan seluruh langkah perhitungan secara lengkap dan jelas. Lalu kumpulkan melalui portal class.ipb.ac.id.


Soal 1

Sebuah rumah sakit memiliki \(N = 484\) akun pasien yang belum dibayar. Diambil sampel acak sederhana sebanyak \(n = 9\) akun. Data jumlah tagihan (dalam dolar) adalah:

33.5, 32.0, 52.0, 43.0, 40.0, 41.0, 45.0, 42.5, 39.0

Hitung:

  1. Penduga rata-rata populasi \(\bar{y}\)

  2. Penduga total populasi \(\hat{\tau}\)

  3. Galat baku mean

  4. Margin of error (95%)

  5. Selang kepercayaan 95% untuk mean


Soal 2

Sebuah populasi terdiri dari \(N = 1000\) rumah tangga. Diambil sampel acak sederhana sebanyak \(n = 50\). Diketahui:

  • \(\bar{y} = 75\)

  • \(s^2 = 225\)

Hitung:

  1. Penduga mean populasi

  2. Penduga total populasi

  3. Galat baku mean

  4. Selang kepercayaan 95%


Soal 3

Dalam survei kepuasan pelanggan, dari \(n = 120\) responden terdapat 78 responden yang puas.

Hitung:

  1. Penduga proporsi populasi

  2. Galat baku proporsi

  3. Margin of error (95%)

  4. Selang kepercayaan 95%


Soal 4

Sebuah populasi dibagi menjadi 3 strata dengan ukuran:

  • \(N_1 = 155\), \(N_2 = 62\), \(N_3 = 93\)

Diketahui:

  • \(\bar{y}_1 = 10\), \(\bar{y}_2 = 15\), \(\bar{y}_3 = 20\)

Hitung:

  1. Bobot tiap strata (\(W_h\))

  2. Penduga mean stratified \(\bar{y}_{st}\)


Soal 5

Gunakan data berikut:

Strata \(N_h\) \(\bar{y}_h\) \(s_h^2\) \(n_h\)
1 100 50 25 10
2 200 70 36 20
3 300 90 49 30

Hitung:

  1. Penduga mean stratified

  2. Ragam penduga

  3. Galat baku

  4. Selang kepercayaan 95%


Soal 6

Sebuah survei stratified dilakukan pada 3 strata dengan proporsi:

  • \(p_1 = 0.2\), \(p_2 = 0.5\), \(p_3 = 0.8\)

Ukuran populasi:

  • \(N_1 = 100\), \(N_2 = 150\), \(N_3 = 250\)

Sehingga: \[ N = 500 \]

Ukuran sampel:

  • \(n_1 = 10\), \(n_2 = 15\), \(n_3 = 25\)

Hitung:

  1. Bobot tiap strata: \[ W_h = \frac{N_h}{N} \]

  2. Penduga proporsi stratified: \[ \hat{p}_{st} = \sum_{h=1}^{3} W_h p_h \]

  3. Ragam penduga: \[ V(\hat{p}_{st}) = \sum_{h=1}^{3} W_h^2 \left(1 - \frac{n_h}{N_h}\right)\frac{p_h(1-p_h)}{n_h} \]

  4. Galat baku: \[ SE = \sqrt{V(\hat{p}_{st})} \]

  5. Margin of error (95%): \[ MOE = z_{0.975} \times SE \]

  6. Selang kepercayaan 95%: \[ \hat{p}_{st} \pm MOE \]


Catatan

  • Gunakan rumus sesuai yang telah dijelaskan pada modul
  • Gunakan notasi yang benar (\(\bar{y}\), \(s^2\), \(W_h\), dll)
  • Interpretasikan hasil secara singkat

REFERENSI

Scheaffer, R. L., Mendenhall, W., Ott, R. L., & Gerow, K. (2011). Elementary Survey Sampling (7th ed.). Brooks/Cole, Cengage Learning.

Lu, Y., & Lohr, S. L. (2021). R Companion for Sampling: Design and Analysis (3rd ed. companion). CRC Press.

Modul ini disusun dengan bantuan alat kecerdasan buatan.1


  1. ChatGPT (OpenAI) dan Gemini (Google) digunakan untuk membantu penyusunan narasi dan kode, dengan verifikasi oleh penulis.↩︎