Exercises

Latihan 1 Tetapkan set.seed Anda pada angka 150. Hasilkan distribusi normal acak dari 1000 observasi, dengan rata-rata 30 dan simpangan baku 2,5. Hitung rata-rata dari 50 sampel dari 1000 observasi dari kumpulan data tersebut. Simpan hasil Anda dalam vektor. Fungsi yang relevan: set.seed(), rnorm(), for(i in x), sample().

Latihan 2 Hasilkan dua histogram untuk menampilkan secara grafis distribusi rata-rata yang diperoleh dalam Latihan 1 serta nilai dari 1000 observasi dalam kumpulan data asli Anda. Gabungkan histogram ini menjadi satu grafik keseluruhan. Fungsi yang relevan: par(), hist().

Sintax R

Latihan 1

set.seed(150)

me_Data <- rnorm(1000, mean = 30, sd = 2.5)
rata_rata <- numeric(50)

for(i in 1:50){
  sampel_sementara <- sample(me_Data, size = 50, replace = TRUE)
  rata_rata[i] <- mean(sampel_sementara)
}

rata_rata
##  [1] 30.14309 29.02990 29.76690 30.48360 29.73881 29.71241 29.86385 29.50678
##  [9] 30.56253 29.79078 30.12034 29.86928 29.54955 29.55482 30.04611 30.07912
## [17] 30.16797 29.64843 30.13613 30.47296 30.24592 29.79687 29.70930 29.79885
## [25] 30.11966 30.25528 29.48354 29.84970 30.02096 30.38388 29.65810 30.26251
## [33] 30.29870 29.64380 30.04316 30.29065 30.60772 29.66573 29.80451 29.08342
## [41] 29.63084 30.34124 29.88440 29.82377 29.02525 29.77596 29.64970 29.86317
## [49] 29.88076 29.31903

tambahan

df_rata_rata <- data.frame(
  Sampel = 1:50,
  Rata_rata = rata_rata
)

df_rata_rata
##    Sampel Rata_rata
## 1       1  30.14309
## 2       2  29.02990
## 3       3  29.76690
## 4       4  30.48360
## 5       5  29.73881
## 6       6  29.71241
## 7       7  29.86385
## 8       8  29.50678
## 9       9  30.56253
## 10     10  29.79078
## 11     11  30.12034
## 12     12  29.86928
## 13     13  29.54955
## 14     14  29.55482
## 15     15  30.04611
## 16     16  30.07912
## 17     17  30.16797
## 18     18  29.64843
## 19     19  30.13613
## 20     20  30.47296
## 21     21  30.24592
## 22     22  29.79687
## 23     23  29.70930
## 24     24  29.79885
## 25     25  30.11966
## 26     26  30.25528
## 27     27  29.48354
## 28     28  29.84970
## 29     29  30.02096
## 30     30  30.38388
## 31     31  29.65810
## 32     32  30.26251
## 33     33  30.29870
## 34     34  29.64380
## 35     35  30.04316
## 36     36  30.29065
## 37     37  30.60772
## 38     38  29.66573
## 39     39  29.80451
## 40     40  29.08342
## 41     41  29.63084
## 42     42  30.34124
## 43     43  29.88440
## 44     44  29.82377
## 45     45  29.02525
## 46     46  29.77596
## 47     47  29.64970
## 48     48  29.86317
## 49     49  29.88076
## 50     50  29.31903

Interpretasi

Pada Latihan 1, kita menghasilkan 1000 observasi data (me_Data) yang bertindak sebagai “Populasi” dengan rata-rata (\(\mu\)) yang ditetapkan sebesar 30. Kemudian, kita mengambil 50 kelompok sampel (masing-masing berisi 50 observasi acak) dan menghitung rata-rata dari setiap kelompok tersebut.

Hasil Observasi:

  • Output berupa 50 angka (dari 30.14, 29.02, hingga 29.31) adalah kumpulan nilai rata-rata dari ke-50 sampel tersebut.
  • Jika kita perhatikan, semua angka rata-rata tersebut berkisar sangat dekat dengan angka 30 (nilai terendah sekitar 29.02 dan tertinggi sekitar 30.60).

Hal ini membuktikan bahwa meskipun kita mengambil sampel acak yang berbeda-beda, rata-rata dari sampel tersebut akan selalu berpusat atau mendekati rata-rata populasi aslinya (yaitu 30).

Latihan 2

par(mfrow = c(1, 2))

hist(me_Data, 
     main = "Distribusi Data Asli\n(1000 Observasi)", 
     xlab = "Nilai", 
     col = "lightblue", 
     border = "white")

hist(rata_rata, 
     main = "Distribusi Rata-Rata\n(50 Sampel)", 
     xlab = "Rata-rata Sampel", 
     col = "lightgreen", 
     border = "white")

Interpretasi

Grafik pada Latihan 2 memberikan visualisasi yang sangat jelas mengenai konsep Standard Error dan sebaran data. Terdapat perbedaan kontras antara kedua histogram:

A. Histogram Kiri (warna lightblue) : Distribusi Data Asli (1000 Observasi)

  • Pusat Data: Terpusat di angka 30, sesuai dengan parameter mean = 30 yang kita tetapkan.

  • Sebaran (Spread): Data menyebar cukup luas, mulai dari nilai di bawah 25 hingga di atas 35. Hal ini mencerminkan variasi individual dari setiap data acak dengan simpangan baku (sd) sebesar 2.5.

  • Bentuk: Membentuk kurva lonceng sempurna yang menunjukkan distribusi normal.

B. Histogram Kanan (warna (lightgreen): Distribusi Rata-Rata (50 Sampel)

  • Pusat Data: Sama seperti data asli, histogram ini juga memusat di angka 30.
  • Sebaran (Spread): Sangat sempit dibandingkan data asli. Rentang nilainya hanya berada di sekitar 29.0 hingga 30.6.
  • Makna: Mengapa sebarannya menyempit? Karena grafik ini bukan memplot nilai individu, melainkan nilai rata-rata kelompok. Nilai individu yang ekstrem (sangat tinggi atau sangat rendah) akan “saling meniadakan” atau diratakan dengan nilai lainnya di dalam sampel tersebut, sehingga hasil rata-ratanya menjadi jauh lebih stabil dan tidak menyimpang jauh dari titik tengah.

Kesimpulan

Latihan ini memberikan demonstrasi visual yang sangat baik mengenai sifat distribusi sampling. Secara keseluruhan, dapat disimpulkan bahwa rata-rata yang diperoleh dari sampel acak (\(\bar{x}\)) merupakan penduga yang tepat dan dapat diandalkan untuk menebak nilai rata-rata populasinya (\(\mu\)). Selain itu, terlihat jelas bahwa sebaran atau variasi dari distribusi rata-rata sampel (yang dikenal sebagai Standard Error) selalu lebih kecil dan sempit dibandingkan dengan variasi data populasinya. Hal ini menegaskan bahwa nilai rata-rata kelompok cenderung lebih stabil daripada nilai individu, di mana jika ukuran sampel terus diperbesar, bentuk sebaran pada histogram rata-rata sampel akan menjadi semakin meruncing di sekitar nilai pusatnya.