Pendahuluan

Distribusi sampling merupakan distribusi probabilitas dari suatu statistik yang diperoleh dari pengambilan sampel berulang pada suatu populasi. Salah satu statistik yang paling sering digunakan adalah rata-rata sampel.

Dalam statistika inferensia, distribusi sampling memiliki peranan penting karena menjadi dasar dalam proses estimasi parameter dan pengujian hipotesis. Konsep ini juga menjadi dasar dalam metode bootstrap, yaitu teknik resampling yang digunakan untuk mengestimasi distribusi suatu statistik tanpa harus mengetahui distribusi populasi secara langsung.

Pada praktikum ini dilakukan simulasi menggunakan data yang dibangkitkan dari distribusi normal. Selanjutnya dilakukan pengambilan sampel berulang dan dihitung rata-rata dari setiap sampel untuk mempelajari karakteristik distribusi rata-rata sampel.

Tujuan Praktikum

  1. Membangkitkan data dari distribusi normal.
  2. Mengambil sampel berulang dari suatu populasi.
  3. Menghitung rata-rata dari setiap sampel.
  4. Mempelajari distribusi rata-rata sampel.
  5. Membandingkan distribusi data asli dengan distribusi rata-rata sampel.

Dasar Teori

Distribusi Normal

Distribusi normal merupakan distribusi kontinu yang banyak digunakan dalam statistika. Distribusi ini memiliki bentuk simetris menyerupai lonceng (bell-shaped curve) dan ditentukan oleh dua parameter yaitu rata-rata (μ) dan simpangan baku (σ).

Distribusi Sampling

Distribusi sampling adalah distribusi probabilitas dari suatu statistik yang diperoleh melalui pengambilan sampel berulang dari suatu populasi.

Teorema Limit Pusat (Central Limit Theorem)

Teorema Limit Pusat menyatakan bahwa distribusi rata-rata sampel akan mendekati distribusi normal apabila ukuran sampel cukup besar, terlepas dari bentuk distribusi populasi asal.

Hubungan dengan Bootstrap

Metode bootstrap menggunakan prinsip pengambilan sampel berulang (resampling) dari data yang tersedia untuk membentuk distribusi sampling suatu statistik.

Metodologi

Langkah-langkah yang dilakukan dalam praktikum ini adalah:

  1. Menetapkan nilai seed sebesar 150.
  2. Membangkitkan 1000 observasi dari distribusi normal dengan rata-rata 30 dan simpangan baku 2,5.
  3. Mengambil 50 sampel dari data tersebut.
  4. Menghitung rata-rata dari masing-masing sampel.
  5. Menyimpan hasil rata-rata dalam sebuah vektor.
  6. Membandingkan distribusi data asli dan distribusi rata-rata sampel menggunakan histogram.

Implementasi Program

Pembangkitan Data

set.seed(150)

data_asli <- rnorm(
  n = 1000,
  mean = 30,
  sd = 2.5
)

head(data_asli)
## [1] 25.91923 29.84251 28.23638 29.21455 29.33263 30.38290
rata_sampel <- numeric(50)

for(i in 1:50){

  sampel <- sample(
    data_asli,
    size = 30,
    replace = TRUE
  )

  rata_sampel[i] <- mean(sampel)

}

rata_sampel
##  [1] 30.62018 29.40175 29.14913 29.44911 29.61297 30.61114 30.31577 29.62514
##  [9] 29.30315 30.03616 29.51691 30.07556 29.68163 29.45476 31.15973 29.92226
## [17] 29.72954 29.99679 30.03054 29.95485 29.86738 29.12227 29.87347 29.30146
## [25] 30.41955 30.50686 29.34598 30.44362 29.65193 29.87748 30.19688 30.08418
## [33] 30.41547 30.22426 30.50423 29.51167 30.17520 29.73383 29.52756 29.89345
## [41] 30.22087 29.93959 30.41592 29.80145 29.38629 29.81230 30.09678 30.09313
## [49] 29.67071 30.75131
summary(data_asli)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   22.24   28.26   29.84   29.92   31.63   36.78
sd(data_asli)
## [1] 2.475175
summary(rata_sampel)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29.12   29.62   29.91   29.93   30.21   31.16
sd(rata_sampel)
## [1] 0.4470488
hist(
  data_asli,
  breaks = 20,
  main = "Histogram 1000 Observasi",
  xlab = "Nilai",
  ylab = "Frekuensi",
  col = "lightblue",
  border = "black"
)

hist(
  rata_sampel,
  breaks = 10,
  main = "Histogram Rata-rata Sampel",
  xlab = "Rata-rata Sampel",
  ylab = "Frekuensi",
  col = "lightgreen",
  border = "black"
)

par(mfrow = c(1,2))

hist(
  data_asli,
  breaks = 20,
  main = "Data Asli",
  xlab = "Nilai",
  col = "lightblue",
  border = "black"
)

hist(
  rata_sampel,
  breaks = 10,
  main = "Rata-rata Sampel",
  xlab = "Mean Sampel",
  col = "lightgreen",
  border = "black"
)

par(mfrow = c(1,1))
hasil <- data.frame(
  Statistik = c("Mean","Standar Deviasi"),
  Data_Asli = c(
    mean(data_asli),
    sd(data_asli)
  ),
  Rata_Rata_Sampel = c(
    mean(rata_sampel),
    sd(rata_sampel)
  )
)

hasil
##         Statistik Data_Asli Rata_Rata_Sampel
## 1            Mean 29.920679       29.9302429
## 2 Standar Deviasi  2.475175        0.4470488