Distribusi sampling merupakan distribusi probabilitas dari suatu statistik yang diperoleh dari pengambilan sampel berulang pada suatu populasi. Salah satu statistik yang paling sering digunakan adalah rata-rata sampel.
Dalam statistika inferensia, distribusi sampling memiliki peranan penting karena menjadi dasar dalam proses estimasi parameter dan pengujian hipotesis. Konsep ini juga menjadi dasar dalam metode bootstrap, yaitu teknik resampling yang digunakan untuk mengestimasi distribusi suatu statistik tanpa harus mengetahui distribusi populasi secara langsung.
Pada praktikum ini dilakukan simulasi menggunakan data yang dibangkitkan dari distribusi normal. Selanjutnya dilakukan pengambilan sampel berulang dan dihitung rata-rata dari setiap sampel untuk mempelajari karakteristik distribusi rata-rata sampel.
Distribusi normal merupakan distribusi kontinu yang banyak digunakan dalam statistika. Distribusi ini memiliki bentuk simetris menyerupai lonceng (bell-shaped curve) dan ditentukan oleh dua parameter yaitu rata-rata (μ) dan simpangan baku (σ).
Distribusi sampling adalah distribusi probabilitas dari suatu statistik yang diperoleh melalui pengambilan sampel berulang dari suatu populasi.
Teorema Limit Pusat menyatakan bahwa distribusi rata-rata sampel akan mendekati distribusi normal apabila ukuran sampel cukup besar, terlepas dari bentuk distribusi populasi asal.
Metode bootstrap menggunakan prinsip pengambilan sampel berulang (resampling) dari data yang tersedia untuk membentuk distribusi sampling suatu statistik.
Langkah-langkah yang dilakukan dalam praktikum ini adalah:
set.seed(150)
data_asli <- rnorm(
n = 1000,
mean = 30,
sd = 2.5
)
head(data_asli)
## [1] 25.91923 29.84251 28.23638 29.21455 29.33263 30.38290
rata_sampel <- numeric(50)
for(i in 1:50){
sampel <- sample(
data_asli,
size = 30,
replace = TRUE
)
rata_sampel[i] <- mean(sampel)
}
rata_sampel
## [1] 30.62018 29.40175 29.14913 29.44911 29.61297 30.61114 30.31577 29.62514
## [9] 29.30315 30.03616 29.51691 30.07556 29.68163 29.45476 31.15973 29.92226
## [17] 29.72954 29.99679 30.03054 29.95485 29.86738 29.12227 29.87347 29.30146
## [25] 30.41955 30.50686 29.34598 30.44362 29.65193 29.87748 30.19688 30.08418
## [33] 30.41547 30.22426 30.50423 29.51167 30.17520 29.73383 29.52756 29.89345
## [41] 30.22087 29.93959 30.41592 29.80145 29.38629 29.81230 30.09678 30.09313
## [49] 29.67071 30.75131
summary(data_asli)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 22.24 28.26 29.84 29.92 31.63 36.78
sd(data_asli)
## [1] 2.475175
summary(rata_sampel)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 29.12 29.62 29.91 29.93 30.21 31.16
sd(rata_sampel)
## [1] 0.4470488
hist(
data_asli,
breaks = 20,
main = "Histogram 1000 Observasi",
xlab = "Nilai",
ylab = "Frekuensi",
col = "lightblue",
border = "black"
)
hist(
rata_sampel,
breaks = 10,
main = "Histogram Rata-rata Sampel",
xlab = "Rata-rata Sampel",
ylab = "Frekuensi",
col = "lightgreen",
border = "black"
)
par(mfrow = c(1,2))
hist(
data_asli,
breaks = 20,
main = "Data Asli",
xlab = "Nilai",
col = "lightblue",
border = "black"
)
hist(
rata_sampel,
breaks = 10,
main = "Rata-rata Sampel",
xlab = "Mean Sampel",
col = "lightgreen",
border = "black"
)
par(mfrow = c(1,1))
hasil <- data.frame(
Statistik = c("Mean","Standar Deviasi"),
Data_Asli = c(
mean(data_asli),
sd(data_asli)
),
Rata_Rata_Sampel = c(
mean(rata_sampel),
sd(rata_sampel)
)
)
hasil
## Statistik Data_Asli Rata_Rata_Sampel
## 1 Mean 29.920679 29.9302429
## 2 Standar Deviasi 2.475175 0.4470488