Tugas Praktikum Metode Simulasi dan Resampling

Kelompok 2

Ananda Herlina Lutfitasari (G1401201032)
Angelika Anggreni Batubara (G1401201040)
Hanung Safrizal (G1401201050)
Agsyan Muhammad Sayidar (G1401201088)

1. Data dari sebaran simetris

set.seed(123)
sim_data <- rnorm(1000, mean = 0, sd = 1)
hist(sim_data)

Dibangkitkan dari 1000 angka acak yang berdistribusi secara normal dengan mean 0 dan standar deviasi 1 dan histogram hasil bangkitan data simetris menunjukkan bahwa data terdistribusi secara merata di sekitar nilai tengah.

2. Data campuran

a) 50% dari sebaran normal + 50% dari sebaran chisquare

n <- 1000
mix_data_a <- c(rnorm(n/2, mean = 0, sd = 1), rchisq(n/2, df = 5))
hist(mix_data_a)

Berdasarkan histogram diatas, terlihat bahwa data campuran 50% dari sebaran normal + 50% dari sebaran chisquare, data menjulur ke kanan atau data lebih banyak berkumpul disebelah kiri.

b) 50% sebaran chisquare dengan parameter a + 50% sebaran chisquare dengan parameter b

n <- 1000
mix_data_b <- c(rchisq(n/2, df = 2), rchisq(n/2, df = 8))
hist(mix_data_b)

Berdasarkan histogram diatas, terlihat bahwa data campuran 50% sebaran chisquare dengan parameter a(dengan a sebesar 2) + 50% sebaran chisquare dengan parameter b(dengan b sebesar 8), data menjulur ke kanan atau data lebih banyak berkumpul disebelah kiri.

c) 25% sebaran chisquare dengan parameter a + 25% sebaran chisquare dengan parameter b + 25% sebaran normal dengan parameter a + 25% sebaran normal dengan parameter b

# Mengatur seed untuk pengulangan
set.seed(1234)
n <- 1000
# Menghasilkan 25% sebaran chisquare dengan parameter a=2
data_chisq_a <- rchisq(n/4, df = 2)
data_chisq_a_25pct <- data_chisq_a * 0.25

# Menghasilkan 25% sebaran chisquare dengan parameter b=8
data_chisq_b <- rchisq(n/4, df = 8)
data_chisq_b_25pct <- data_chisq_b * 0.25

# Menghasilkan 25% sebaran normal dengan parameter a=2
data_norm_a <- rnorm(n/4, mean = 2, sd = sd(data_chisq_a))
data_norm_a_25pct <- data_norm_a * 0.25

# Menghasilkan 25% sebaran normal dengan parameter b=8
data_norm_b <- rnorm(n/4, mean = 8, sd = sd(data_chisq_b))
data_norm_b_25pct <- data_norm_b * 0.25

# Menggabungkan semua data
data <- c(data_chisq_a_25pct, data_chisq_b_25pct, data_norm_a_25pct, data_norm_b_25pct)
hist(data)

Berdasarkan histogram diatas, terlihat bahwa data campuran 25% sebaran chisquare dengan parameter a + 25% sebaran chisquare dengan parameter b + 25% sebaran normal dengan parameter a + 25% sebaran normal dengan parameter b, data menjulur ke kanan atau data lebih banyak disebelah kiri.

3. Ambil sampel dengan n = 4, 12, 20, 60, 100

data <- rnorm(1000, mean = 0, sd = 1)
sample_n_4 <- sample(data, 4)
sample_n_4

## [1] -1.767531099  0.294729666 -0.004847402 -0.166388629

sample_n_12 <- sample(data, 12)
sample_n_12

##  [1]  0.2068197 -0.8031056 -0.4884802 -0.5983144 -0.9675148 -0.8556053
##  [7]  1.4107007  0.1581475  0.4760222 -1.3645489 -0.7014037  0.4518667

sample_n_20 <- sample(data, 20)
sample_n_20

##  [1]  0.21308148 -0.36980147  2.01910293 -0.07927686  0.31672606 -1.08800020
##  [7] -0.71730198  0.11102871 -0.77402106 -0.20873707 -0.96751475  0.84922797
## [13]  0.54761401 -1.67105947 -1.27333701  1.44983465  0.51847961  0.94183529
## [19]  1.68535662 -0.10567918

sample_n_60 <- sample(data, 60)
sample_n_60

##  [1] -0.92412490 -1.33545314 -3.12158956  1.29999660 -1.81722907 -0.42466538
##  [7]  0.12683070 -2.17895349 -1.28943804  0.59121993  1.23388452 -2.31793757
## [13] -0.05004926  1.77287949 -1.36936431  0.35920383  0.06724029 -0.14761310
## [19] -0.06804701 -0.22265129  0.94094672 -0.66357842 -0.48161155  1.23393059
## [25] -0.80087948 -0.32605102  2.11278760  0.07694441  0.98679343 -1.56921421
## [31]  0.26911145  0.72163439 -0.48848017  0.32893590 -1.33738431 -0.67407021
## [37]  0.84630489  0.02339644  1.57429328  0.07055077  0.63369298  0.55741650
## [43]  1.24239293 -0.53191049  0.51194690 -0.36322504  0.68730693  0.47547105
## [49]  0.01153115  0.16518785  1.27917971 -0.07927686  0.61094196 -0.29947822
## [55] -2.27043570  0.05532339 -0.23063005 -0.16960283 -2.17988227 -1.29797042

sample_n_100 <- sample(data, 100)
sample_n_100

##   [1]  0.29472967  0.23391832  0.62119026 -0.14422094 -1.15562484  0.47286390
##   [7]  1.67254711 -0.94382402  1.23388452  0.04152571  0.04576848 -0.20708699
##  [13]  0.06724029 -0.29947822 -1.55956854  0.23310955 -1.66021337  0.74830720
##  [19] -0.10567918 -1.24055158 -0.91093710  0.54745230  0.60913303  0.72186988
##  [25] -0.20899887  1.48374463  0.31901114 -2.10593143  0.51692045  2.04793696
##  [31] -0.55663076  1.98278464 -0.60602903  0.87755233  1.90282750 -1.26114915
##  [37] -0.87360263 -0.23117597 -0.66338076  0.76887323 -1.51877572 -0.62684584
##  [43]  0.62783390  0.45101702  0.44513675  1.81071925 -0.11743930 -1.94395922
##  [49]  0.85920791  0.47782446 -1.10159336  0.07146261  0.13542598 -0.12470270
##  [55] -1.63852314 -1.76753110 -0.12350208  2.22606725 -1.07462563 -1.21164881
##  [61] -0.18652522  0.40977154 -0.83946864  0.37877728  0.07333886 -0.36003279
##  [67] -0.31008109  1.58111928  1.37126650  0.55741650 -0.37443873  0.18307867
##  [73]  0.82696832 -0.17512462 -0.09396451 -0.92626938 -0.24300154 -1.64265658
##  [79]  0.46334691  1.41070075  0.72163439  0.05054810 -1.61928645 -0.65099025
##  [85]  0.31043318 -0.36322504 -0.92474762 -0.73912332  0.62995608 -0.29086468
##  [91]  1.30341763 -1.23444910  0.39598296  1.22705249  1.27425588  1.63493326
##  [97] -1.16417322 -0.59831441  1.76644280  0.95807577

hist(data)

hist(sample_n_4)

hist(sample_n_12)

hist(sample_n_20)

hist(sample_n_60)

hist(sample_n_100)

Data dibangkitkan dari 1000 angka acak yang terdistribusi secara normal dengan mean 0 dan standar deviasi 1. Dari ke 5 sampel n yang ada masing-masing menunjukkan ciri yang berbeda-beda, yaitu

Histogram dengan pengambilan sampel sebanyak (n=4) Karena nilai n yang terlalu kecil sehingga masih belum dapat ditentukan sebaran datanya
Histogram dengan pengambilan sampel sebanyak (n=12) Berdasarkan histogram dengan n=12, sebaran data menunjukkan karakteristik sebaran seragam
Histogram dengan pengambilan sampel sebanyak (n=20) Berdasarkan histogram dengan n=20, frekuensi data di bagian kiri (lebih kecil dari mean) lebih tinggi sehingga menjulur ke kanan
Histogram dengan pengambilan sampel sebanyak (n=60) Berdasarkan histogram dengan n = 60 data mulai menunjukkan bentuk hampir normal akan tetapi belum dapat dikatakan normal karena memiliki dua puncak
Histogram dengan pengambilan sampel sebanyak (n=100) Berdasarkan histogram dengan n=100, sebaran data terlihat menyebar secara normal dibandingkan nilai n lainnya

4. Pada n berapa sebaran rataan dari masing-masing data mulai simetris/mendekati sebaran normal? Apakah data yang simetris lebih cepat mendekati sebaran normal? (note: lebih cepat berarti dengan n yang tidak terlalu banyak sudah mulai mendekati sebaran normal)

means4 <- sapply(sample_n_4, mean)
means4

## [1] -1.767531099  0.294729666 -0.004847402 -0.166388629

means12 <- sapply(sample_n_12, mean)
means12

##  [1]  0.2068197 -0.8031056 -0.4884802 -0.5983144 -0.9675148 -0.8556053
##  [7]  1.4107007  0.1581475  0.4760222 -1.3645489 -0.7014037  0.4518667

means20 <- sapply(sample_n_20, mean)
means20

##  [1]  0.21308148 -0.36980147  2.01910293 -0.07927686  0.31672606 -1.08800020
##  [7] -0.71730198  0.11102871 -0.77402106 -0.20873707 -0.96751475  0.84922797
## [13]  0.54761401 -1.67105947 -1.27333701  1.44983465  0.51847961  0.94183529
## [19]  1.68535662 -0.10567918

means60 <- sapply(sample_n_60, mean)
means60

##  [1] -0.92412490 -1.33545314 -3.12158956  1.29999660 -1.81722907 -0.42466538
##  [7]  0.12683070 -2.17895349 -1.28943804  0.59121993  1.23388452 -2.31793757
## [13] -0.05004926  1.77287949 -1.36936431  0.35920383  0.06724029 -0.14761310
## [19] -0.06804701 -0.22265129  0.94094672 -0.66357842 -0.48161155  1.23393059
## [25] -0.80087948 -0.32605102  2.11278760  0.07694441  0.98679343 -1.56921421
## [31]  0.26911145  0.72163439 -0.48848017  0.32893590 -1.33738431 -0.67407021
## [37]  0.84630489  0.02339644  1.57429328  0.07055077  0.63369298  0.55741650
## [43]  1.24239293 -0.53191049  0.51194690 -0.36322504  0.68730693  0.47547105
## [49]  0.01153115  0.16518785  1.27917971 -0.07927686  0.61094196 -0.29947822
## [55] -2.27043570  0.05532339 -0.23063005 -0.16960283 -2.17988227 -1.29797042

means100 <- sapply(sample_n_100, mean)
means100

##   [1]  0.29472967  0.23391832  0.62119026 -0.14422094 -1.15562484  0.47286390
##   [7]  1.67254711 -0.94382402  1.23388452  0.04152571  0.04576848 -0.20708699
##  [13]  0.06724029 -0.29947822 -1.55956854  0.23310955 -1.66021337  0.74830720
##  [19] -0.10567918 -1.24055158 -0.91093710  0.54745230  0.60913303  0.72186988
##  [25] -0.20899887  1.48374463  0.31901114 -2.10593143  0.51692045  2.04793696
##  [31] -0.55663076  1.98278464 -0.60602903  0.87755233  1.90282750 -1.26114915
##  [37] -0.87360263 -0.23117597 -0.66338076  0.76887323 -1.51877572 -0.62684584
##  [43]  0.62783390  0.45101702  0.44513675  1.81071925 -0.11743930 -1.94395922
##  [49]  0.85920791  0.47782446 -1.10159336  0.07146261  0.13542598 -0.12470270
##  [55] -1.63852314 -1.76753110 -0.12350208  2.22606725 -1.07462563 -1.21164881
##  [61] -0.18652522  0.40977154 -0.83946864  0.37877728  0.07333886 -0.36003279
##  [67] -0.31008109  1.58111928  1.37126650  0.55741650 -0.37443873  0.18307867
##  [73]  0.82696832 -0.17512462 -0.09396451 -0.92626938 -0.24300154 -1.64265658
##  [79]  0.46334691  1.41070075  0.72163439  0.05054810 -1.61928645 -0.65099025
##  [85]  0.31043318 -0.36322504 -0.92474762 -0.73912332  0.62995608 -0.29086468
##  [91]  1.30341763 -1.23444910  0.39598296  1.22705249  1.27425588  1.63493326
##  [97] -1.16417322 -0.59831441  1.76644280  0.95807577

Berdarkan hasil perhitungan rata-rata pada masing-masing sampel, kita dapat melihat bahwa data yang simetris tidak selalu lebih cepat mendekati rata-rata distribusi normal. Pada ukuran sampel n=4, n=12, dan n=20, rata-rata pada sampel lebih jauh dari rata-rata distribusi normal. Pada ukuran sampel yang lebih besar dengan n=60 dan n=100, rata-rata pada semua sampel sudah mulai mendekati rata-rata distribusi normal.

Berdasarkan histogram hasil pengambilan sampel dengan n= 4, 12, 20, 60, 100, terlihat bahwa pengambilan sampel sebanyak 100 memiliki sebaran data yang terlihat mendekati sebaran normal. Jika dilihat dari histogram dari data sample, kita dapat melihat bahwa semakin besar n, semakin mendekati sebaran normal