Metode Penarikan Contoh - Konsep Dasar

Video Pembelajaran - P1

Video Pembelajaran dapat diakses melalui link berikut : https://ipb.link/materis2mpc

Metode Penarikan Contoh

Penjelasan:
Metode penarikan contoh adalah bagian dari statistika inferensial yang bertujuan untuk membuat kesimpulan tentang populasi berdasarkan informasi dari sampel. Istilah penting dalam penarikan contoh meliputi:
- Unsur (element): Objek tempat pengukuran dilakukan.
- Populasi (\(N\)): Kumpulan semua elemen yang menjadi objek penelitian.
- Sampel (\(n\)): Subset dari populasi yang diamati.
- Kerangka (frame): Daftar elemen dalam populasi yang memungkinkan pengambilan sampel.

Dalam banyak kasus, pengamatan seluruh populasi (\(N\)) tidak memungkinkan karena keterbatasan sumber daya atau waktu. Oleh karena itu, digunakan sampel (\(n\)) yang representatif untuk melakukan inferensi.

Mengapa Menggunakan Sampel?

Penjelasan:
Menggunakan sampel memiliki beberapa keuntungan:
1. Efisiensi: Mengurangi waktu dan biaya.
2. Kepraktisan: Menghindari pengamatan yang merusak, seperti uji daya tahan barang.
3. Kemustahilan: Tidak memungkinkan untuk mengamati seluruh populasi dalam banyak kasus.

Teknik Pengumpulan Data

Penjelasan:
1. Observasi: Mengamati data tanpa mengontrol variabel bebas. Cocok untuk studi deskriptif.
2. Percobaan: Melibatkan manipulasi variabel untuk melihat dampak terhadap respon. Cocok untuk analisis sebab-akibat.
3. Survei: Menggunakan sampel untuk membuat inferensi tentang populasi.

Jenis-Jenis Sampling

1. Probability Sampling

Setiap elemen dalam populasi memiliki peluang yang diketahui untuk terpilih. Contoh:
- Simple Random Sampling (SRS): Semua elemen memiliki peluang yang sama (\(P = \frac{1}{N}\)).
- Stratified Sampling: Populasi dibagi menjadi kelompok (strata) dan sampel diambil dari setiap strata.
- Cluster Sampling: Populasi dibagi menjadi kelompok (cluster) dan beberapa cluster dipilih untuk diamati.

2. Non-Probability Sampling

Peluang elemen untuk terpilih tidak diketahui. Contoh:
- Convenience Sampling: Mengambil sampel berdasarkan kemudahan akses.
- Snowball Sampling: Sampel diperoleh dari rekomendasi responden sebelumnya.

Sintaks R untuk Simple Random Sampling:

# Populasi
populasi <- 1:100

# Simple Random Sampling
set.seed(123)
sampel <- sample(populasi, 10)

sampel

##  [1] 31 79 51 14 67 42 50 43 97 25

Kesalahan dalam Survei

Sampling Error: Kesalahan karena menggunakan sampel alih-alih seluruh populasi. Sampling error dapat diminimalkan dengan meningkatkan ukuran sampel (\(n\)).
Non-Sampling Error: Kesalahan yang tidak terkait dengan metode sampling, seperti bias responden atau kesalahan pencatatan data.

Simulasi Sampling Error di R:

# Populasi dengan distribusi normal
populasi <- rnorm(1000, mean = 50, sd = 10)

# Sampel acak
set.seed(123)
sampel <- sample(populasi, 100)

# Perbedaan rata-rata
error_sampling <- mean(populasi) - mean(sampel)

list(
  Mean_Populasi = mean(populasi),
  Mean_Sampel = mean(sampel),
  Error_Sampling = error_sampling
)

## $Mean_Populasi
## [1] 50.09539
## 
## $Mean_Sampel
## [1] 50.75469
## 
## $Error_Sampling
## [1] -0.6592957

Hubungan Error dengan Ukuran Sampel

Penjelasan:
Semakin besar ukuran sampel (\(n\)), semakin kecil sampling error. Secara matematis:
\[ SE = \frac{\sigma}{\sqrt{n}} \]
di mana \(SE\) adalah standard error, \(\sigma\) adalah simpangan baku populasi, dan \(n\) adalah ukuran sampel.

Simulasi di R:

# Ukuran sampel bervariasi
ukuran_sampel <- c(10, 50, 100, 200)
error <- sapply(ukuran_sampel, function(n) {
  sampel <- sample(populasi, n)
  mean(populasi) - mean(sampel)
})

data.frame(Ukuran_Sampel = ukuran_sampel, Error = error)

##   Ukuran_Sampel      Error
## 1            10 -0.7737249
## 2            50  0.7669653
## 3           100 -0.1072065
## 4           200  0.3644872

Dalil Limit Pusat

Penjelasan:
Dalil limit pusat menyatakan bahwa untuk sampel acak berukuran besar (\(n \to \infty\)), distribusi rata-rata sampel (\(\bar{x}\)) akan mendekati distribusi normal dengan parameter:
\[ \bar{x} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \]
di mana \(\mu\) adalah rata-rata populasi, dan \(\sigma^2\) adalah varians populasi.

Simulasi di R:

# Simulasi CLT
set.seed(123)
sampel_rataan <- replicate(1000, mean(sample(rnorm(1000, 50, 10), 30)))

hist(sampel_rataan, main = "CLT: Rata-rata Sampel", col = "skyblue", xlab = "Rata-rata")

Distribusi \(t\)

Penjelasan:
Ketika varians populasi (\(\sigma^2\)) tidak diketahui, digunakan distribusi \(t\) untuk menggantikan distribusi normal. Statistik \(t\) dihitung sebagai:
\[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}} \]
di mana \(s\) adalah simpangan baku sampel, dan derajat bebas (\(df\)) adalah \(n-1\).

Implementasi Distribusi \(t\) di R:

# Data sampel
set.seed(123)
data <- rnorm(10, mean = 50, sd = 10)

# Statistik t
x_bar <- mean(data)
s <- sd(data)
n <- length(data)
t_stat <- (x_bar - 50) / (s / sqrt(n))

# P-value
df <- n - 1
p_value <- 2 * pt(-abs(t_stat), df)

list(
  Statistik_t = t_stat,
  P_Value = p_value
)

## $Statistik_t
## [1] 0.2474218
## 
## $P_Value
## [1] 0.8101338