Kesimpulan dapat digeneralisasi ke populasi target
Apa itu rancangan percobaan?
sebuah peungujian atau serangkaian pengujian untuk perubahan yang diinginkan yang berasal dari peubah input dari suatu proses atau sistem sehingga dapat diamati dan diidentifikasi alasan-alasan perubahan dari output responnya.
Tujuan dari perancangan percobaan
Memilih peubah terkendali (X) yang paling berpengaruh terhadap respon (Y)
Memilih gugus peubah X yang paling mendekati nilai harapan Y
Memilih gugus peubah X yang menyebabkan keragaman respon (\(\sigma^2\)) paling kecil
Memilih gugus peubah X yang mengakibatkan pengaruh peubah tak terkendali paling kecil.
Prinsip dasar
Ada tiga prinsip dasar yang perlu diperhatikan dalam merancang suatu percobaan, yaitu:
1. Pengacakan (Randomization)
Pengacakan memiliki makna setiap unit percobaan memiliki peluang yang sama untuk diberikan suatu perlakuan.
Menghindari galat sistematik
Meningkatkan validitas kesimpulan
Caraya: lotere, tabel bilangan acak, komputer
2. Ulangan (Replication)
Ulangan memiliki makna bahwa penerapan perlakuan yang sama terhadap beberapa unit percobaan
Untuk menduga galat percobaan
Untuk menduga standard error rataan perlakuan
Untuk meningkatkan presisi kesimpulan
Berapa jumlah ulangan? Minimal 3 dan minimal db-galat 15
3. Pengendalian lingkungan (Local control)
Yang dimaksud local control ialah pengendalian kondisi-kondisi lingkungan yang berpotensi mempengaruhi respon dari perlakuan.
Tujuannya untuk meningkatkan presisi kesimpulan
Strategi yang digunakan yaitu dengan metode pengelompokan. satu arah, dua arah, dan multi arah
Kelompok berhasil jika keragaman dalam kelompok lebih kecil dibandingkan keragaman antar kelompok
Syarat kelompok : tidak berinteraksi dengan perlakuan.
Istilah-istilah dasar
Sebelum menyusun eksperimen, penting untuk memahami istilah-istilah berikut:
Perlakuan adalah suatu prosedur atau metode yang diterapkan pada unit percobaan
Satuan/unit percobaan : satuan/unit terkecil dari suatu percobaan yang dikenai suatu perlakuan
Satuan/unit pengamatan : bagian dari unit percobaan dimana respon diukur
Faktor adalah peubah bebas yang dicobakan dalam percobaan sebagai penyusun struktur perlakuan
Level/taraf dari faktor adalah nilai-nilai dari peubah bebas (faktor) yang dicobakan dalam percobaan
Langkah-langkah dalam merancang suatu percobaan
Pilih sejumlah perlakuan yang akan dibandingkan
Tentukan unit percobaan yang akan digunakan dimana perlakuan tersebut diberikan
Tentukan aturan untuk menempatkan perlakuan dalam unit-unit percobaan
Tentukan cara pengukuran respon atau catatan lain untuk masing-masing unit percobaan
Ilustrasi Kasus
Seorang ahli pengembangan produk tertarik untuk meneliti mengenai kekuatan tensile dari sebuah serat sintetik baru yang akan digunakan sebagai pakaian untuk kaos pria. Sang ahli mengetahui bahwa dari pengalaman sebelumnya bahwa kekuatan tensile tergantung kepada persentase berat kapas dalam serat. Lebih lanjut, dia menduga bahwa kenaikan persentase kapas akan menaikkan kekuatan tensile. Dia juga mengetahui bahwa presentase kandungan kapas berada dalam selang 10-40 jika produk akhir dipertimbangkan mempunyai karakteristik kualitas produk yang berbeda. Akhirnya sang ahli memutuskan untuk menguji specimen dalam lima taraf persentase kapas yaitu : 15, 20, 25, 30, dan 35 persen. Dia juga memutuskan untuk menguji lima specimen pada masing-masing level dari persentase kapas.
Identifikasi Permasalahan
Faktor yang dicobakan:
Taraf dari faktor:
Ulangan:
Unit percobaan:
Respon yang diukur:
Permasalahan:
Langkah pengacakan
Beri label nomor pada masing-masing perlakuan beserta ulangannya, begitu juga dengan unit percobaannya.
Kemudian pilih secara acak nomor 1-25. Nomor pertama yang terambil merupakan nomor perlakuan yang diberikan pada specimen pertama. Nomor kedua yang terambil merupakan nomor perlakuan yang diberikan pada specimen kedua. Begitu seterusnya sampai nomor 25 terambil.
library(ggplot2)ggplot(df_kapas, aes(x = kapas, y = hasil)) +geom_boxplot(fill ="skyblue") +labs(title ="Distribusi Hasil Berdasarkan Persentase Kapas",x ="Persentase Kapas",y ="Hasil" )
anova_model <-aov(hasil ~ kapas, data = df_kapas)summary(anova_model)
Df Sum Sq Mean Sq F value Pr(>F)
kapas 4 475.0 118.76 14.96 8.28e-06 ***
Residuals 20 158.8 7.94
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Jenis-jenis rancangan percobaan
Rancangan Acak Lengkap
RAL adalah rancangan paling sederhana yang digunakan ketika semua unit percobaan dianggap homogen (memiliki kondisi awal yang sama atau sebanding). Setiap perlakuan diberikan secara acak penuh kepada unit percobaan.
Chi-squared test for given probabilities
data: observed
X-squared = 23.049, df = 6, p-value = 0.0007803
nilai p-value < 0.05, maka Hipotesis nol di tolak. Sehingga dapat disimpulkan bahwa distribusi jumlah panggilan layanan teknis selama seminggu tidak merata.
Uji Chi-Square untuk Indepedensi
Uji ini digunakan untuk mengetahui apakah ada hubungan antar dua variabel kategorik. Data harus berbentuk tabel kontingensi (r × c).
Studi Kasus
Apakah tingkat pendidikan (SMA, Sarjana, Pascasarjana) berhubungan dengan jenis pekerjaan (PNS, Swasta, Wirausaha)?
Visual, Auditori, Kinestetik × Prestasi (tinggi/rendah). Uji apakah gaya belajar mempengaruhi prestasi
Penerapannya dalam R
Apakah ada hubungan antara preferensi tangan dan jenis kelamin?
# Uji Chi-square untuk independensichisq.test(tabel)
Pearson's Chi-squared test with Yates' continuity correction
data: tabel
X-squared = 0.4748, df = 1, p-value = 0.4908
nilai p-value > 0.05, maka gagal menolah \(H_0\). Dapat disimpulkan bahwa tidak ada hubungan yang signifikan antara jenis kelamin dan preferensi tangan.
Regresi Logistik
Konsep
Apa itu regresi logistik? Regresi logistik adalah metode statistik yang digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen dengan variabel dependen yang bersifat dikotomis (biner), seperti ya/tidak, berhasil/gagal, atau lulus/tidak lulus. Model ini memprediksi probabilitas kejadian suatu peristiwa, bukan nilai eksak seperti regresi linear.
Aspek
Regresi Linier
Regresi Logistik
Jenis Y
Kuantitatif (kontinu)
Kategorik (Biner: 0/1)
Bentuk Hubungan
Linier langsung
Non-linier (Fungsi logit)
Prediksi
Nilai rata-rata Y
Probabilitas Kejadian (antara 0 dan 1)
Metode Estimasi
OLS
MLE
Output Utama
koefisien, R-square, p-value
koefisien, Odds ratio, p-value, pseudo R-square
Penerapan di R
set.seed(123)data <-data.frame(taat_pajak =rbinom(100, 1, 0.6),kualitas_layanan =rnorm(100, mean =3.5, sd =0.8),persepsi_pengelolaan =rnorm(100, mean =4, sd =1),persepsi_akses =rnorm(100, mean =3, sd =1))# Regresi logistikmodel <-glm(taat_pajak ~ kualitas_layanan + persepsi_pengelolaan + persepsi_akses,data = data, family = binomial)summary(model)
Call:
glm(formula = taat_pajak ~ kualitas_layanan + persepsi_pengelolaan +
persepsi_akses, family = binomial, data = data)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.8843 1.5071 -0.587 0.557
kualitas_layanan 0.1505 0.2699 0.558 0.577
persepsi_pengelolaan 0.3197 0.2337 1.368 0.171
persepsi_akses -0.1606 0.2116 -0.759 0.448
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 134.60 on 99 degrees of freedom
Residual deviance: 131.96 on 96 degrees of freedom
AIC: 139.96
Number of Fisher Scoring iterations: 4
Jenis-jenis uji ini disebut “distribution-free” karena tidak bergantung pada bentuk distribusi populasi.
Sign Test
Mengetahui apakah ada kecenderungan perubahan arah pada data berpasangan.
Misal, dari 30 responden. 18 orang memilih merek A dan 12 memilih merek B.
library(BSDA)SIGN.test(x=18, n=30, alternative ="two.sided")
One-sample Sign-Test
data: 18
s = 1, p-value = 1
alternative hypothesis: true median is not equal to 0
0 percent confidence interval:
18 18
sample estimates:
median of x
18
karena p-value = 1, maka tidak ada bukti statistik untuk menyimpulkan bahwa terdapat perbedaan arah perubahan yang signifikan antara dua kondisi yang diuji.
Wilcoxon Signed-Rank Test
Mengukur apakah terdapat perbedaan median dua kondisi berpasangan.
Waktu pengiriman dokumen oleh dua jasa: OverNight dan NiteFlite di 10 kota. Gunakan Wilcoxon untuk mengecek perbedaan waktu kirim.
Wilcoxon signed rank test with continuity correction
data: overnight and niteflite
V = 49.5, p-value = 0.0279
alternative hypothesis: true location shift is not equal to 0
Nilai p-value < 0.05, maka tolak \(H_0\). Artinya, terdapat perbedaan signifikan antara waktu pengiriman dokumen oleh jasa OverNight dan NiteFlite. Dengan kata lain, salah satu jasa memiliki waktu kirim yang secara statistik berbeda dari yang lain.
Mann-Whitney U Test
Menguji apakah dua sampel independen berasal dari distribusi yang sama.
Biaya energi tahunan (dalam USD) untuk 10 freezer Westin dan 10 freezer Easton:
Wilcoxon rank sum test with continuity correction
data: westin and easton
W = 31.5, p-value = 0.1735
alternative hypothesis: true location shift is not equal to 0
nilai p-value > 0.05, maka tidak cukup bukti untuk menolak \(H_0\). Tidak terdapat perbedaan yang signifikan secara statistik antara biaya energi freezer Westin dan Easton.Tidak terdapat perbedaan yang signifikan secara statistik antara biaya energi freezer Westin dan Easton. Perbedaan biaya energi kedua merek bisa terjadi karena variasi alami, bukan karena satu merek memang lebih efisien dari yang lain secara konsisten.
Latihan
Gunakan data berikut: Jumlah kelahiran per hari selama satu minggu (345, 370, 360, 342, 356, 330, 310). Uji apakah distribusinya seragam.
Jumlah pemilih yang memilih 4 kandidat: A (260), B (240), C (300), D (200). Apakah pilihan pemilih merata?
Distribusi warna mobil di kampus: Hitam (90), Putih (60), Abu-abu (50), Merah (40). Apakah ada preferensi warna yang signifikan?
Gunakan data di bawah ini
Suka Film A
Suka Film B
Laki-Laki
60
40
Perempuan
50
70
Apakah jenis kelamin berpengaruh terhadap preferensi film?
Hubungan antara program studi (Statistik, Komputer, Ekonomi) dan tempat tinggal (Kost, Rumah Orang Tua, Asrama). Berikut data kontingensi untuk digunakan:
Prodi
Kost
Rumah Orang Tua
Asrama
Statistik
20
10
5
Komputer
15
20
10
Ekonomi
10
25
10
24 siswa menunjukkan peningkatan nilai setelah kursus, 8 penurunan, 3 sama. Apakah ada perbedaan signifikan? Sign Test
Gunakan Wilcoxon:
Skor sebelum pelatihan: 75, 70, 68, 72, 69
Skor sesudah: 78, 74, 70, 75, 72
Gunakan Mann-Whitney:
Kelompok A: 62, 65, 66, 70, 68
Kelompok B: 58, 60, 59, 63, 61
Gunakanlah dataset pada link berikut untuk menjawab pertanyaan di bawah ini.
Are European Union membership variable and development variable independent from each other?
Do the Women Entrepreneurship Index and Global Entrepreneurship Index values show a statistically significant difference between the countries that are members of the European Union and not? (Method Mann-Whitney U)
Is there a statistically significant relationship between Women’s Entrepreneurship Index and Global Entrepreneurship Index values?
SEM (Structural Equation Modelling)
SEM adalah metode analisis multivariat yang menggabungkan analisis faktor, regresi, dan path analysis untuk menguji hubungan kausal antar variabel (laten dan manifest).
Komponen Utama SEM
Variabel laten (ξ/η): Konstruk teoritis yang tidak terukur langsung (contoh: Kepuasan Pelanggan).
Variabel Manifest (X/Y): Indikator terukur yang merepresentasikan variabel laten.
Notasi
γ = Pengaruh variabel eksogen → endogen.
β = Pengaruh antar variabel endogen.
λ = Loading factor (korelasi indikator dengan variabel laten).
δ/ε = Error pengukuran.
Diagram SEM
Langkah Analisis SEM
Pengembangan Model Teoritis: Landasan teori harus kuat.
Path Diagram: Visualisasi hubungan kausal (panah satu arah) dan korelasi (panah dua arah).
Konversi ke Model Struktural: Persamaan matematis (contoh: η1 = γ1ξ1 + β1η2 + ζ1).
Evaluasi Goodness-of-Fit:
Chi-square (p-value > 0.05).
RMSEA < 0.05.
CFI/GFI > 0.90.
Interpretasi: Efek langsung/tidak langsung, validitas, dan reliabilitas.
Contoh Aplikasi SEM
Marketing: Pengaruh Harga, Promosi, dan Kualitas terhadap Kepuasan Pelanggan.
SDM: Dampak Beban Kerja dan Komitmen terhadap Kinerja Karyawan.
Keunggulan SEM
Bisa menguji validitas instrumen dan model kausal.
Mendukung data mentah/matriks kovarians.
Output mencakup model struktural dan pengukuran.
Catatan Penting SEM
Ukuran Sampel: Minimal 100-200 (ideal 10x jumlah parameter).
Asumsi: Linearitas, random sampling, dan tidak ada outliers.
Visualisasi Path Analysis
Analisis Deret Waktu
Analisis deret waktu digunakan untuk memprediksi nilai masa depan berdasarkan pola historis data yang diamati secara berurutan. Berikut ringkasan lengkapnya:
Jenis Data
Cross Section: Data diamati pada satu waktu (contoh: harga saham perusahaan di BEJ pada 27 Februari 2008).
Time Series: Data diamati selama periode tertentu (contoh: harga saham Telkom Januari–Februari 2008).
Longitudinal/Panel: Gabungan cross-section dan time series (contoh: harga saham Telkom, Indosat, Mobile8 selama Januari–Februari 2008).
Pola Data Time Series
Konstan: Tidak ada tren atau musiman.
Trend: Peningkatan/penurunan seiring waktu.
Seasonal: Pola berulang (contoh: penjualan Natal).
Cyclic: Fluktuasi tidak teratur (contoh: siklus ekonomi).
Metode Forecasting
Smoothing
Prinsip: Menghaluskan fluktuasi lokal dengan rata-rata atau bobot eksponensial.