Materi UAS

Rancangan Percobaan

Rancangan pengumpulan data

Kenapa harus dirancang?

  • Untuk mendapatkan penduga yang tidak berbias

  • Untuk meningkatkan presisi kesimpulan

  • Kesimpulan dapat digeneralisasi ke populasi target

Apa itu rancangan percobaan?

sebuah peungujian atau serangkaian pengujian untuk perubahan yang diinginkan yang berasal dari peubah input dari suatu proses atau sistem sehingga dapat diamati dan diidentifikasi alasan-alasan perubahan dari output responnya.

Tujuan dari perancangan percobaan

  1. Memilih peubah terkendali (X) yang paling berpengaruh terhadap respon (Y)

  2. Memilih gugus peubah X yang paling mendekati nilai harapan Y

  3. Memilih gugus peubah X yang menyebabkan keragaman respon (\(\sigma^2\)) paling kecil

  4. Memilih gugus peubah X yang mengakibatkan pengaruh peubah tak terkendali paling kecil.

Prinsip dasar

Ada tiga prinsip dasar yang perlu diperhatikan dalam merancang suatu percobaan, yaitu:

1. Pengacakan (Randomization)

Pengacakan memiliki makna setiap unit percobaan memiliki peluang yang sama untuk diberikan suatu perlakuan.

  • Menghindari galat sistematik

  • Meningkatkan validitas kesimpulan

  • Caraya: lotere, tabel bilangan acak, komputer

2. Ulangan (Replication)

Ulangan memiliki makna bahwa penerapan perlakuan yang sama terhadap beberapa unit percobaan

  • Untuk menduga galat percobaan

  • Untuk menduga standard error rataan perlakuan

  • Untuk meningkatkan presisi kesimpulan

Berapa jumlah ulangan? Minimal 3 dan minimal db-galat 15

3. Pengendalian lingkungan (Local control)

Yang dimaksud local control ialah pengendalian kondisi-kondisi lingkungan yang berpotensi mempengaruhi respon dari perlakuan.

  • Tujuannya untuk meningkatkan presisi kesimpulan

  • Strategi yang digunakan yaitu dengan metode pengelompokan. satu arah, dua arah, dan multi arah

  • Kelompok berhasil jika keragaman dalam kelompok lebih kecil dibandingkan keragaman antar kelompok

  • Syarat kelompok : tidak berinteraksi dengan perlakuan.

Istilah-istilah dasar

Sebelum menyusun eksperimen, penting untuk memahami istilah-istilah berikut:

  • Perlakuan adalah suatu prosedur atau metode yang diterapkan pada unit percobaan

  • Satuan/unit percobaan : satuan/unit terkecil dari suatu percobaan yang dikenai suatu perlakuan

  • Satuan/unit pengamatan : bagian dari unit percobaan dimana respon diukur

  • Faktor adalah peubah bebas yang dicobakan dalam percobaan sebagai penyusun struktur perlakuan

  • Level/taraf dari faktor adalah nilai-nilai dari peubah bebas (faktor) yang dicobakan dalam percobaan

Langkah-langkah dalam merancang suatu percobaan

  • Pilih sejumlah perlakuan yang akan dibandingkan

  • Tentukan unit percobaan yang akan digunakan dimana perlakuan tersebut diberikan

  • Tentukan aturan untuk menempatkan perlakuan dalam unit-unit percobaan

  • Tentukan cara pengukuran respon atau catatan lain untuk masing-masing unit percobaan

Ilustrasi Kasus

Seorang ahli pengembangan produk tertarik untuk meneliti mengenai kekuatan tensile dari sebuah serat sintetik baru yang akan digunakan sebagai pakaian untuk kaos pria. Sang ahli mengetahui bahwa dari pengalaman sebelumnya bahwa kekuatan tensile tergantung kepada persentase berat kapas dalam serat. Lebih lanjut, dia menduga bahwa kenaikan persentase kapas akan menaikkan kekuatan tensile. Dia juga mengetahui bahwa presentase kandungan kapas berada dalam selang 10-40 jika produk akhir dipertimbangkan mempunyai karakteristik kualitas produk yang berbeda. Akhirnya sang ahli memutuskan untuk menguji specimen dalam lima taraf persentase kapas yaitu : 15, 20, 25, 30, dan 35 persen. Dia juga memutuskan untuk menguji lima specimen pada masing-masing level dari persentase kapas.

Identifikasi Permasalahan

Faktor yang dicobakan:

Taraf dari faktor:

Ulangan:

Unit percobaan:

Respon yang diukur:

Permasalahan:

Langkah pengacakan

Beri label nomor pada masing-masing perlakuan beserta ulangannya, begitu juga dengan unit percobaannya.

Kemudian pilih secara acak nomor 1-25. Nomor pertama yang terambil merupakan nomor perlakuan yang diberikan pada specimen pertama. Nomor kedua yang terambil merupakan nomor perlakuan yang diberikan pada specimen kedua. Begitu seterusnya sampai nomor 25 terambil.

Data yang diperoleh sebagai berikut

Hipotesis

$H_0 : _1 = _2 = … = _p $ \(H_1 :\) Minimal ada sepasang \(\mu_i \ne \mu_j\)

Tabel anova

Pengambilan keputusan

Jika nilai \(p-value > \alpha\), gagal menolah \(H_0\)

Komputasi

persentase_kapas <- rep(c(15, 20, 25, 30, 35), each = 5)
ulangan <- rep(1:5, times = 5)
hasil <- c(
  7, 7, 15, 11, 9,     # 15%
  12, 14, 12, 18, 18,  # 20%
  14, 18, 18, 19, 19,  # 25%
  19, 25, 22, 19, 23,  # 30%
  7, 10, 11, 15, 11    # 35%
)

df_kapas <- data.frame(
  kapas = factor(persentase_kapas),
  ulangan = factor(ulangan),
  hasil = hasil
)
df_kapas
   kapas ulangan hasil
1     15       1     7
2     15       2     7
3     15       3    15
4     15       4    11
5     15       5     9
6     20       1    12
7     20       2    14
8     20       3    12
9     20       4    18
10    20       5    18
11    25       1    14
12    25       2    18
13    25       3    18
14    25       4    19
15    25       5    19
16    30       1    19
17    30       2    25
18    30       3    22
19    30       4    19
20    30       5    23
21    35       1     7
22    35       2    10
23    35       3    11
24    35       4    15
25    35       5    11
library(ggplot2)
ggplot(df_kapas, aes(x = kapas, y = hasil)) +
  geom_boxplot(fill = "skyblue") +
  labs(
    title = "Distribusi Hasil Berdasarkan Persentase Kapas",
    x = "Persentase Kapas",
    y = "Hasil"
  )

anova_model <- aov(hasil ~ kapas, data = df_kapas)
summary(anova_model)
            Df Sum Sq Mean Sq F value   Pr(>F)    
kapas        4  475.0  118.76   14.96 8.28e-06 ***
Residuals   20  158.8    7.94                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Jenis-jenis rancangan percobaan

Rancangan Acak Lengkap

RAL adalah rancangan paling sederhana yang digunakan ketika semua unit percobaan dianggap homogen (memiliki kondisi awal yang sama atau sebanding). Setiap perlakuan diberikan secara acak penuh kepada unit percobaan.

Contoh kasus

nutrsi <- factor(rep(c("No Breakfast", "Light Breakfast", "Full Breakfast"), each=5))
skor <- c(8,7,9,13,10,14,16,12,17,11,10,12,16,15,12)
data_nutrisi <- data.frame(nutrsi,skor)
data_nutrisi
            nutrsi skor
1     No Breakfast    8
2     No Breakfast    7
3     No Breakfast    9
4     No Breakfast   13
5     No Breakfast   10
6  Light Breakfast   14
7  Light Breakfast   16
8  Light Breakfast   12
9  Light Breakfast   17
10 Light Breakfast   11
11  Full Breakfast   10
12  Full Breakfast   12
13  Full Breakfast   16
14  Full Breakfast   15
15  Full Breakfast   12
aov1 <- aov(skor~nutrsi, data = data_nutrisi)
summary(aov1)
            Df Sum Sq Mean Sq F value Pr(>F)  
nutrsi       2  58.53  29.267   4.933 0.0273 *
Residuals   12  71.20   5.933                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Analisis Data Kategorik

Goodness of Fit (Uji Kesusaian)

Uji ini digunakan untuk mengetahui apakah distribusi data observasi sesuai dengan distribusi yang diharapkan.

Studi Kasus

  • Apakah jumlah panggilan layanan teknis selama seminggu merata (uniform)?

  • Sebuah survei menunjukkan: Merah (45), Biru (30), Hijau (25). Apakah preferensi warna seimbang?

Penerapannya dalam R

Hari Jumlah Panggilan
M 290
T 250
W 238
T 257
F 265
S 230
S 192
Total 1722
# Frekuensi observasi
observed <- c(290, 250, 238, 257, 265, 230, 192)

# Uji chi-square dengan asumsi distribusi seragam
chisq.test(x = observed, p = rep(1/length(observed), length(observed)))

    Chi-squared test for given probabilities

data:  observed
X-squared = 23.049, df = 6, p-value = 0.0007803

nilai p-value < 0.05, maka Hipotesis nol di tolak. Sehingga dapat disimpulkan bahwa distribusi jumlah panggilan layanan teknis selama seminggu tidak merata.

Uji Chi-Square untuk Indepedensi

Uji ini digunakan untuk mengetahui apakah ada hubungan antar dua variabel kategorik. Data harus berbentuk tabel kontingensi (r × c).

Studi Kasus

  • Apakah tingkat pendidikan (SMA, Sarjana, Pascasarjana) berhubungan dengan jenis pekerjaan (PNS, Swasta, Wirausaha)?

  • Visual, Auditori, Kinestetik × Prestasi (tinggi/rendah). Uji apakah gaya belajar mempengaruhi prestasi

Penerapannya dalam R

Apakah ada hubungan antara preferensi tangan dan jenis kelamin?

Left-Handed Right-Handed Total
Male 24 156 180
Female 12 108 120
Total 36 264 300
# Membuat matriks kontingensi
tabel <- matrix(c(24, 156, 12, 108), nrow = 2, byrow = TRUE)
colnames(tabel) <- c("Left", "Right")
rownames(tabel) <- c("Male", "Female")
tabel
       Left Right
Male     24   156
Female   12   108
# Uji Chi-square untuk independensi
chisq.test(tabel)

    Pearson's Chi-squared test with Yates' continuity correction

data:  tabel
X-squared = 0.4748, df = 1, p-value = 0.4908

nilai p-value > 0.05, maka gagal menolah \(H_0\). Dapat disimpulkan bahwa tidak ada hubungan yang signifikan antara jenis kelamin dan preferensi tangan.

Regresi Logistik

Konsep

Apa itu regresi logistik? Regresi logistik adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen dengan variabel dependen yang bersifat dikotomis (biner), seperti ya/tidak, berhasil/gagal, atau lulus/tidak lulus. Model ini memprediksi probabilitas kejadian suatu peristiwa, bukan nilai eksak seperti regresi linear.

Aspek Regresi Linier Regresi Logistik
Jenis Y Kuantitatif (kontinu) Kategorik (Biner: 0/1)
Bentuk Hubungan Linier langsung Non-linier (Fungsi logit)
Prediksi Nilai rata-rata Y Probabilitas Kejadian (antara 0 dan 1)
Metode Estimasi OLS MLE
Output Utama koefisien, R-square, p-value koefisien, Odds ratio, p-value, pseudo R-square

Penerapan di R

set.seed(123)
data <- data.frame(
  taat_pajak = rbinom(100, 1, 0.6),
  kualitas_layanan = rnorm(100, mean = 3.5, sd = 0.8),
  persepsi_pengelolaan = rnorm(100, mean = 4, sd = 1),
  persepsi_akses = rnorm(100, mean = 3, sd = 1)
)

# Regresi logistik
model <- glm(taat_pajak ~ kualitas_layanan + persepsi_pengelolaan + persepsi_akses,
             data = data, family = binomial)
summary(model)

Call:
glm(formula = taat_pajak ~ kualitas_layanan + persepsi_pengelolaan + 
    persepsi_akses, family = binomial, data = data)

Coefficients:
                     Estimate Std. Error z value Pr(>|z|)
(Intercept)           -0.8843     1.5071  -0.587    0.557
kualitas_layanan       0.1505     0.2699   0.558    0.577
persepsi_pengelolaan   0.3197     0.2337   1.368    0.171
persepsi_akses        -0.1606     0.2116  -0.759    0.448

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 134.60  on 99  degrees of freedom
Residual deviance: 131.96  on 96  degrees of freedom
AIC: 139.96

Number of Fisher Scoring iterations: 4
exp(coef(model))  # Odds ratio
         (Intercept)     kualitas_layanan persepsi_pengelolaan 
           0.4129851            1.1624281            1.3767611 
      persepsi_akses 
           0.8516318 

Pengayaan

Analisis Non Parametrik

Uji nonparametrik digunakan ketika:

  • Data berskala nominal atau ordinal

  • Distribusi data tidak diketahui atau tidak normal

Jenis-jenis uji ini disebut “distribution-free” karena tidak bergantung pada bentuk distribusi populasi.

Sign Test

Mengetahui apakah ada kecenderungan perubahan arah pada data berpasangan.

Misal, dari 30 responden. 18 orang memilih merek A dan 12 memilih merek B.

library(BSDA)

SIGN.test(x=18, n=30, alternative = "two.sided")

    One-sample Sign-Test

data:  18
s = 1, p-value = 1
alternative hypothesis: true median is not equal to 0
0 percent confidence interval:
 18 18
sample estimates:
median of x 
         18 

karena p-value = 1, maka tidak ada bukti statistik untuk menyimpulkan bahwa terdapat perbedaan arah perubahan yang signifikan antara dua kondisi yang diuji.

Wilcoxon Signed-Rank Test

Mengukur apakah terdapat perbedaan median dua kondisi berpasangan.

Waktu pengiriman dokumen oleh dua jasa: OverNight dan NiteFlite di 10 kota. Gunakan Wilcoxon untuk mengecek perbedaan waktu kirim.

# Data waktu kirim (dalam jam)
overnight <- c(32, 30, 19, 16, 15, 18, 14, 10, 7, 16)
niteflite <- c(25, 24, 15, 15, 13, 15, 15, 8, 9, 11)

wilcox.test(overnight, niteflite, paired = TRUE)

    Wilcoxon signed rank test with continuity correction

data:  overnight and niteflite
V = 49.5, p-value = 0.0279
alternative hypothesis: true location shift is not equal to 0

Nilai p-value < 0.05, maka tolak \(H_0\). Artinya, terdapat perbedaan signifikan antara waktu pengiriman dokumen oleh jasa OverNight dan NiteFlite. Dengan kata lain, salah satu jasa memiliki waktu kirim yang secara statistik berbeda dari yang lain.

Mann-Whitney U Test

Menguji apakah dua sampel independen berasal dari distribusi yang sama.

Biaya energi tahunan (dalam USD) untuk 10 freezer Westin dan 10 freezer Easton:

  • Westin: 55.1, 54.5, 53.2, 53.0, 55.5, 54.9, 55.8, 54.0, 54.2, 55.2

  • Easton: 56.1, 54.7, 54.4, 55.4, 54.1, 56.0, 55.5, 55.0, 54.3, 57.0

westin <- c(55.1, 54.5, 53.2, 53.0, 55.5, 54.9, 55.8, 54.0, 54.2, 55.2)
easton <- c(56.1, 54.7, 54.4, 55.4, 54.1, 56.0, 55.5, 55.0, 54.3, 57.0)

wilcox.test(westin, easton)

    Wilcoxon rank sum test with continuity correction

data:  westin and easton
W = 31.5, p-value = 0.1735
alternative hypothesis: true location shift is not equal to 0

nilai p-value > 0.05, maka tidak cukup bukti untuk menolak \(H_0\). Tidak terdapat perbedaan yang signifikan secara statistik antara biaya energi freezer Westin dan Easton.Tidak terdapat perbedaan yang signifikan secara statistik antara biaya energi freezer Westin dan Easton. Perbedaan biaya energi kedua merek bisa terjadi karena variasi alami, bukan karena satu merek memang lebih efisien dari yang lain secara konsisten.

Latihan

  1. Gunakan data berikut: Jumlah kelahiran per hari selama satu minggu (345, 370, 360, 342, 356, 330, 310). Uji apakah distribusinya seragam.

  2. Jumlah pemilih yang memilih 4 kandidat: A (260), B (240), C (300), D (200). Apakah pilihan pemilih merata?

  3. Distribusi warna mobil di kampus: Hitam (90), Putih (60), Abu-abu (50), Merah (40). Apakah ada preferensi warna yang signifikan?

  4. Gunakan data di bawah ini

Suka Film A Suka Film B
Laki-Laki 60 40
Perempuan 50 70

Apakah jenis kelamin berpengaruh terhadap preferensi film?

  1. Hubungan antara program studi (Statistik, Komputer, Ekonomi) dan tempat tinggal (Kost, Rumah Orang Tua, Asrama). Berikut data kontingensi untuk digunakan:
Prodi Kost Rumah Orang Tua Asrama
Statistik 20 10 5
Komputer 15 20 10
Ekonomi 10 25 10
  1. 24 siswa menunjukkan peningkatan nilai setelah kursus, 8 penurunan, 3 sama. Apakah ada perbedaan signifikan? Sign Test

  2. Gunakan Wilcoxon:

  • Skor sebelum pelatihan: 75, 70, 68, 72, 69

  • Skor sesudah: 78, 74, 70, 75, 72

  1. Gunakan Mann-Whitney:
  • Kelompok A: 62, 65, 66, 70, 68

  • Kelompok B: 58, 60, 59, 63, 61

  1. Gunakanlah dataset pada link berikut untuk menjawab pertanyaan di bawah ini.
  • Are European Union membership variable and development variable independent from each other?

  • Do the Women Entrepreneurship Index and Global Entrepreneurship Index values show a statistically significant difference between the countries that are members of the European Union and not? (Method Mann-Whitney U)

  • Is there a statistically significant relationship between Women’s Entrepreneurship Index and Global Entrepreneurship Index values?

SEM (Structural Equation Modelling)

SEM adalah metode analisis multivariat yang menggabungkan analisis faktor, regresi, dan path analysis untuk menguji hubungan kausal antar variabel (laten dan manifest).

Komponen Utama SEM

  1. Variabel laten (ξ/η): Konstruk teoritis yang tidak terukur langsung (contoh: Kepuasan Pelanggan).

  2. Variabel Manifest (X/Y): Indikator terukur yang merepresentasikan variabel laten.

  3. Notasi

  • γ = Pengaruh variabel eksogen → endogen.

  • β = Pengaruh antar variabel endogen.

  • λ = Loading factor (korelasi indikator dengan variabel laten).

  • δ/ε = Error pengukuran.

Diagram SEM

Langkah Analisis SEM

  1. Pengembangan Model Teoritis: Landasan teori harus kuat.

  2. Path Diagram: Visualisasi hubungan kausal (panah satu arah) dan korelasi (panah dua arah).

  3. Konversi ke Model Struktural: Persamaan matematis (contoh: η1 = γ1ξ1 + β1η2 + ζ1).

  4. Evaluasi Goodness-of-Fit:

  • Chi-square (p-value > 0.05).

  • RMSEA < 0.05.

  • CFI/GFI > 0.90.

  1. Interpretasi: Efek langsung/tidak langsung, validitas, dan reliabilitas.

Contoh Aplikasi SEM

  • Marketing: Pengaruh Harga, Promosi, dan Kualitas terhadap Kepuasan Pelanggan.

  • SDM: Dampak Beban Kerja dan Komitmen terhadap Kinerja Karyawan.

Keunggulan SEM

  • Bisa menguji validitas instrumen dan model kausal.

  • Mendukung data mentah/matriks kovarians.

  • Output mencakup model struktural dan pengukuran.

Catatan Penting SEM

  • Ukuran Sampel: Minimal 100-200 (ideal 10x jumlah parameter).

  • Asumsi: Linearitas, random sampling, dan tidak ada outliers.

Visualisasi Path Analysis

Analisis Deret Waktu

Analisis deret waktu digunakan untuk memprediksi nilai masa depan berdasarkan pola historis data yang diamati secara berurutan. Berikut ringkasan lengkapnya:

Jenis Data

  • Cross Section: Data diamati pada satu waktu (contoh: harga saham perusahaan di BEJ pada 27 Februari 2008).

  • Time Series: Data diamati selama periode tertentu (contoh: harga saham Telkom Januari–Februari 2008).

  • Longitudinal/Panel: Gabungan cross-section dan time series (contoh: harga saham Telkom, Indosat, Mobile8 selama Januari–Februari 2008).

Pola Data Time Series

  • Konstan: Tidak ada tren atau musiman.

  • Trend: Peningkatan/penurunan seiring waktu.

  • Seasonal: Pola berulang (contoh: penjualan Natal).

  • Cyclic: Fluktuasi tidak teratur (contoh: siklus ekonomi).

Metode Forecasting

Smoothing

Prinsip: Menghaluskan fluktuasi lokal dengan rata-rata atau bobot eksponensial.

  1. Single Moving Average (SMA)
  • Cocok untuk data konstan

  • Formula

\[F_t = \frac{X_t + X_{t-1} + \cdots + X_{t-m+1}}{m}\]

  1. Double Moving Average
  • Untuk Data Trend

  • Dilakukan Smoothing dua kali

  1. Exponential Smoothing
  • Single (SES): Bobot eksponensial pada data baru

\[S_t = \alpha X_t + (1 - \alpha) S_{t-1}\] - Double (DES): Menangani tren dengan komponen level (\(L_t\)) dan tren (\(T_t\)).

  1. Metode Winters
  • Untuk Data Musiman

  • Aditif: \(Y_t = L_t + T_t + M_t\)

  • Multiplikatif: \(Y_t = (L_t + T_t) \times M_t\)

Modelling

  • Regresi Trend: Hubungan linier antara waktu (\(X\)) dan variabel (Y).

\[Y_t = a + b X_t + e_t\]

  • ARIMA: Untuk data non-stasioner.

  • ARCH/GARCH: Memodelkan volatilitas (contoh: harga saham).

Pemilihan Model

  • Training-Testing Split: Data dibagi untuk validasi.

  • Ukuran Akurasi:

MAD (Mean Absolute Deviation): \(\text{MAD} = \frac{1}{n} \sum \left| Y_t - F_t \right|\)

MAPE (Mean Absolute Percentage Error): \(\text{MAPE} = \frac{100\%}{n} \sum \left| \frac{Y_t - F_t}{Y_t} \right|\)

Pola Data

Contoh Aplikasi

Kasus: Prediksi penjualan produk dengan tren naik dan musiman.

  1. Gunakan Metode Winters Multiplikatif untuk memodelkan musiman.

  2. Evaluasi dengan MAPE dan bandingkan dengan DES.

Ilustrasi tren Linier

Tambahan Penting

  • Stationarity: Data harus stasioner (rata-rata konstan) sebelum analisis ARIMA.

  • Transformasi: Gunakan differencing atau log untuk menstabilkan varians.

  • Software: Tools seperti R (forecast), Python (statsmodels), atau Excel cocok untuk analisis ini.