Pendahuluan

Dalam statistika, sering kali tidak memungkinkan untuk mengamati seluruh anggota populasi karena keterbatasan waktu, biaya, dan sumber daya. Oleh karena itu, analisis statistik umumnya dilakukan berdasarkan data contoh (sampel) yang diambil dari populasi.

Materi ini membahas alasan penggunaan data contoh, metode penarikan contoh, serta konsep sebaran penarikan contoh sebagai dasar inferensi statistik.

Kenapa Menggunakan Data Contoh?

Penggunaan data contoh bertujuan untuk memperoleh informasi mengenai populasi secara efisien. Dengan teknik penarikan contoh yang tepat, sampel dapat mewakili karakteristik populasi sehingga kesimpulan yang diperoleh tetap akurat.

Statistika inferensial menggunakan data contoh untuk menduga parameter populasi dan melakukan pengujian hipotesis.

Metode Penarikan Contoh

Beberapa metode penarikan contoh yang umum digunakan antara lain:

Simple Random Sampling

Simple Random Sampling adalah metode penarikan sampel di mana setiap anggota populasi memiliki peluang yang sama untuk terpilih sebagai sampel. Pemilihan dilakukan secara acak tanpa mempertimbangkan karakteristik tertentu.

# Populasi mahasiswa (ID 1 sampai 100)
populasi <- 1:100

# Mengambil sampel acak sederhana
set.seed(123)
sampel <- sample(populasi, size = 20)

sampel
##  [1] 31 79 51 14 67 42 50 43 97 25 90 69 57  9 72 26  7 95 87 36

Stratified Sampling

Stratified Sampling dilakukan dengan membagi populasi ke dalam beberapa kelompok homogen yang disebut strata. Sampel kemudian diambil dari setiap strata, sehingga seluruh kelompok dalam populasi tetap terwakili. Contoh Konseptual

Populasi mahasiswa dibagi berdasarkan jenis kelamin:

Strata 1: Laki-laki

Strata 2: Perempuan

Sampel diambil secara acak dari masing-masing strata.

library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
# Data contoh
data <- data.frame(
  id = 1:20,
  gender = rep(c("L", "P"), each = 10)
)

# Sampel acak dari tiap strata
set.seed(123)
sampel_strata <- data %>%
  group_by(gender) %>%
  sample_n(3)

sampel_strata
## # A tibble: 6 × 2
## # Groups:   gender [2]
##      id gender
##   <int> <chr> 
## 1     3 L     
## 2    10 L     
## 3     2 L     
## 4    12 P     
## 5    16 P     
## 6    13 P

Systematic Sampling

Systematic Sampling dilakukan dengan memilih satu unit awal secara acak, kemudian memilih unit berikutnya secara berkala dengan selang tertentu. Contoh Konseptual

Dari daftar 100 rumah, ingin dipilih 10 rumah.

Interval pemilihan = 100 / 10 = 10

Pilih rumah ke-3 sebagai awal

Sampel: rumah ke-3, 13, 23, 33, dan seterusnya

# Populasi
populasi <- 1:100

# Interval
k <- 10
awal <- sample(1:k, 1)

# Sampel sistematik
sampel_sistematik <- populasi[seq(awal, 100, by = k)]

sampel_sistematik
##  [1]  5 15 25 35 45 55 65 75 85 95

Cluster Sampling

Cluster Sampling dilakukan dengan membagi populasi ke dalam kelompok besar yang disebut gugus (cluster). Beberapa gugus dipilih secara acak, dan seluruh unit dalam gugus terpilih dijadikan sampel.

Contoh Konseptual

Populasi siswa tersebar di 10 kelas.

Dipilih 3 kelas secara acak

Semua siswa dalam 3 kelas tersebut dijadikan sampel

# Data contoh
kelas <- data.frame(
  siswa = 1:100,
  kelas = rep(1:10, each = 10)
)

# Memilih cluster secara acak
set.seed(123)
kelas_terpilih <- sample(unique(kelas$kelas), 3)

# Sampel cluster
sampel_cluster <- kelas[kelas$kelas %in% kelas_terpilih, ]

sampel_cluster
##     siswa kelas
## 11     11     2
## 12     12     2
## 13     13     2
## 14     14     2
## 15     15     2
## 16     16     2
## 17     17     2
## 18     18     2
## 19     19     2
## 20     20     2
## 21     21     3
## 22     22     3
## 23     23     3
## 24     24     3
## 25     25     3
## 26     26     3
## 27     27     3
## 28     28     3
## 29     29     3
## 30     30     3
## 91     91    10
## 92     92    10
## 93     93    10
## 94     94    10
## 95     95    10
## 96     96    10
## 97     97    10
## 98     98    10
## 99     99    10
## 100   100    10
Metode Cara Pemilihan Kapan Digunakan
Simple Random Acak langsung Populasi homogen
Stratified Per strata Populasi heterogen
Systematic Setiap interval Daftar berurutan
Cluster Per gugus Populasi luas

Sebaran Penarikan Contoh

Sebaran penarikan contoh adalah sebaran dari suatu statistik sampel (rataan, jumlah kuadrat, atau rasio jumlah kuadrat) apabila proses pengambilan sampel diulang berkali-kali dari populasi yang sama.

Sebaran Rataan Contoh

Sebaran rataan contoh menggambarkan perilaku nilai rata-rata sampel jika pengambilan sampel dilakukan secara berulang. Konsep ini menjadi dasar Teorema Limit Pusat.

# Simulasi sebaran rataan contoh
rataan_sampel <- replicate(
  1000,
  mean(sample(populasi, size = 30))
)

# Visualisasi
hist(rataan_sampel,
     main = "Sebaran Rataan Contoh",
     xlab = "Rataan Sampel",
     col = "lightblue")

Uji Chi-Square dan Uji F

Uji Chi-Square dan Uji F merupakan uji statistik yang berasal dari konsep sebaran penarikan contoh, khususnya sebaran jumlah kuadrat dan rasio jumlah kuadrat. Kedua uji ini banyak digunakan dalam inferensi statistik dan analisis lanjutan seperti regresi dan analisis varians.

Sebaran Jumlah Kuadrat

Jumlah kuadrat penyimpangan dari rataan digunakan dalam estimasi ragam. Statistik ini berperan penting dalam uji berbasis distribusi Chi-Square. Uji Chi-Square digunakan dalam beberapa kondisi berikut: - Menguji apakah ragam populasi sama dengan nilai tertentu - Menguji kesesuaian distribusi data (goodness of fit) - Menguji hubungan atau independensi antarvariabel kategorik

Untuk pengujian ragam populasi, statistik uji Chi-Square dirumuskan sebagai:

\[ \chi^2 = \frac{(n-1)s^2}{\sigma_0^2} \]

dengan: - \(s^2\) adalah ragam sampel
- \(\sigma_0^2\) adalah ragam populasi yang diuji
- \(n\) adalah ukuran sampel

Misalkan seorang peneliti ingin menguji apakah ragam berat badan mahasiswa sama dengan nilai tertentu yang diasumsikan berdasarkan standar kesehatan. Uji Chi-Square dapat digunakan untuk menjawab pertanyaan tersebut.

# Data contoh
data <- rnorm(30, mean = 50, sd = 10)

# Ragam sampel
s2 <- var(data)

# Ragam hipotesis
sigma2_0 <- 100

# Statistik uji Chi-Square
chi_square <- (length(data) - 1) * s2 / sigma2_0
chi_square
## [1] 34.31245

Rasio Jumlah Kuadrat

Rasio dua jumlah kuadrat digunakan dalam pengujian berbasis distribusi F, yang menjadi dasar analisis varians (ANOVA) dan uji simultan dalam regresi.

Uji F

Uji F digunakan untuk membandingkan dua ragam atau untuk menguji pengaruh variabel secara simultan dalam suatu model. Uji ini didasarkan pada distribusi F, yang merupakan rasio dari dua jumlah kuadrat.

Uji F digunakan dalam beberapa konteks utama: - Membandingkan dua ragam populasi - Menguji pengaruh variabel independen secara simultan - Analisis varians (ANOVA) - Uji signifikansi model regresi

Statistik uji F dirumuskan sebagai:

\[ F = \frac{s_1^2}{s_2^2} \]

dengan \(s_1^2\) dan \(s_2^2\) adalah ragam dari dua sampel independen. Misalkan ingin dibandingkan ragam nilai ujian antara dua kelas yang berbeda. Uji F dapat digunakan untuk menilai apakah kedua kelas memiliki keragaman nilai yang sama.

# Dua sampel acak
set.seed(123)
kelas_A <- rnorm(30, mean = 70, sd = 8)
kelas_B <- rnorm(30, mean = 70, sd = 10)

# Uji F
var.test(kelas_A, kelas_B)
## 
##  F test to compare two variances
## 
## data:  kelas_A and kelas_B
## F = 0.88316, num df = 29, denom df = 29, p-value = 0.7402
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.4203528 1.8555146
## sample estimates:
## ratio of variances 
##          0.8831596

Kaitan dengan Inferensi Statistik

Dalam analisis regresi linier, uji F digunakan untuk menguji signifikansi model secara keseluruhan, sedangkan uji t digunakan untuk menguji koefisien secara parsial. Pada analisis varians (ANOVA), uji F menjadi dasar utama dalam membandingkan variasi antar kelompok.

Kesimpulan

Teknik penarikan contoh memungkinkan peneliti memperoleh informasi populasi secara efisien. Sebaran penarikan contoh menjelaskan perilaku statistik sampel dan menjadi fondasi utama inferensi statistik dalam analisis data.