Komputasi Statistika
~ Final Exam ~
| Kontak | : \(\downarrow\) |
| diyasaryanugroho@gmail.com | |
| https://www.instagram.com/diasary_nm/ | |
| RPubs | https://rpubs.com/diyasarya/ |
1 Probability Distributions
Distribusi Probabilitas adalah kegiatan dalam statistika untuk
memperkirakan terjadinya peluang/probabilitas yang dihubungkan dengan
terjadinya peristiwa tersebut dalam beberapa keadaan. Jika kita
mengetahui keseluruhan probabilitas dari kemungkinan outcome yang
terjadi, seluruh probabilitas kejadian tersebut akan membentuk suatu
distribusi probabilitas.
Berikut macam-macam Distribusi
Probabilitas:
Distribusi Binomial
Distribusi binomial adalah distribusi probabilitas diskrit.
Eksperimen Binomial adalah eksperimen yang mempunyai sifat-sifat sebagai
berikut:
1. Eksperimen mengandung n percobaan yang
identik.
2. Setiap percobaan menghasilkan 2 hasil yang mungkin yang
dinamakan sukses (S) dan tidak sukses
(F).
3. Untuk tiap percobaan, probabilitas sukses
adalah p = P(S) dan probabilitas tidak sukses adalah
P(F) = 1 - p = q.
4. Percobaan-percobaan bersifat
independen.
5. Variabel random Y adalah banyak
sukses yang ditemukan dalam n percobaan.
Keterangan :
B = Probabilitas binomial
x = Jumlah
total “keberhasilan” (sukses atau gagal, dll.)
P = Probabilitas
keberhasilan pada percobaan individu
n = Jumlah percobaan
Kasus
Suatu sistem yang dapat mendeteksi pesawat terbang, mengandung 4 unit radar identik yang beroperasi secara independen satu dengan yang lain. Anggap masing-masing radar mempunyai probabilitas 0,95 untuk dapat mendeteksi pesawat terbang musuh. Variabel random Y, yaitu banyak unit radar yang tidak mendeteksi pesawat musuh.Berapa probabilitas radar tersebut tidak mendeteksi pesawat musuh lebih dari 3 radar.
n = 4
P = 0.05
x = 3
pbinom(q = x, size = n, p = P, lower.tail = F)## [1] 6.25e-06
Jadi, probabilitas radar tersebut tidak mendeteksi pesawat musuh lebih dari 3 radar adalah 6.25e-06.
Distribusi Poisson
Distribusi poisson adalah disribusi probabilitas diskrit dari
kejadian peristiwa independen dalam suatu interval. Disribusi poisson
merupakan model yang baik untuk menentukan distribusi probabilitas dari
banyak kecelakaan mobil, kecelakaan dalam industri, dll.
Keterangan :
λ = Kejadian rata-rata per interval
x
= Kejadian dalam interval tertentu
Kasus
Apabila probabilitas bahwa seorang individu akan mengalami reaksi yang buruk terhadap injeksi dari suatu serum adalah 0,001 maka tentukan probabilitas bahwa dari 2000 individu, tepat 3 individu akan mengalami reaksi buruk.
p = 0.001
n = 2000
lamda = n*p
x = 3
dpois(x = x, lambda = lamda)## [1] 0.180447
Jadi, probabilitas tepat 3 individu akan mengalami reaksi buruk adalah 0,180447 atau 18,04%.
Distribusi Seragam Kontinu
Distribusi seragam adalah jenis probabilitas dimana semua variabel
memiliki probabilitas yang sama. Variabel random Y yang mempunyai
disribusi seragam kontinu akan mempunyai fungsi kepadatan probabilitas
Keterangan : θ1 dan θ2 = Parameter dari fungsi kepadatan probabilitas seragam
Kasus
Kasus saat waktu menunggu di lampu lalu lintas. Waktu ini mungkin berdistribusi seragampada interval [0,2]. Untuk mendapatkan waktu acak yaitu bilangan-bilangan acak yangmenyatakan lama (waktu) menunggu di lampu merah dapat dilakukan dengan cara
a = 0
b = 2
runif(1, min = a, max = b)## [1] 1.447864
Distribusi Eksponensial
Distribusi eksponensial menggambarkan waktu kedatangan urutan
peristiwa independen yang berulang secara acak. Variabel random kontinu
Y berdistribusi eksponensial dengan parameter β bila fungsi kepadatan
probabilitasnya dinyatakan sebagai
Kasus
Daya tahan lampu yang dihasilkan oleh suatu pabrik berdostribusi eksponensial dengan rata-rata 3000 jam. Berapa probabilitas bahwa sebuah lampu yang diambil secara acak akan rusak/mati sebelum dipakai sampai 3000 jam.
n = 3000
x = 1/n
pexp(q = n, rate = x, lower.tail = T, log.p = F)## [1] 0.6321206
Jadi, probabilitas sebuah lampu yang diambil akan rusak/mati sebelum dipakai sampai 3000 jam adalah 0,6321 atau 63,21%.
Distribusi Normal
Pada kasus dimana n cukup besar dan p tidak terlalu kecil (tidak
mendekati 0, … , 1) maka dilakukan pendekatan memakai distribusi normal
(Gauss). Variabel random kontinu Y dinyatakan berdistribusi normal
dengan mean μ dan variasi σ^2 jika Y mempunyai fungsi kepadatan
probabilitas berbentuk
Kasus
Dari penelitian terhadap 150 orang laki-laki yang berumur 40 – 60 tahun didapatkan rata-rata kadarkolesterol mereka 215 mg % dan simpangan baku Sd = 45 mg %. Hitunglah peluang kita mendapatkan seorang yang kadar kolesterolnya lebih dari 250 mg %.
n = 150
rata = 215
sd = 45
x = 250
pnorm(q = x, mean = rata, sd = sd, lower.tail = F)## [1] 0.21835
Jadi, probabilitas seorang laki-laki berumus 40-60 yang memiliki kadar kolesterol lebih dari 250 mg % adalah 0,2184 atau 21,84%.
Distribusi Chi-Kuadrat
Distribusi chi-kuadrat biasa digunakan peneliti untuk menguji
siginifikansi antara frekuensi yang diamati dengan frekuensi teoritis
dan menguji kebebasan antar faktor pada tabel kontingensi. Variabel
random Y yang berdistribusi Gamma dengan parameter α = ν/2 dan β = 2
dinamakan variabel random chi-kuadrat dengan derajat bebas ν atau
dinotasikan dengan χ2ν.
atau Rumus untuk mengukur perbedaan frekuensi observasi dan
frekuensi diharpakan menggunakan rumus dibawah ini.
Rumus Chi-Kuadrat
Keterangan
χ2 = Chi-Square
O = Frekuensi sampel
e = Frekuensi harapan
Kasus
Sebuah rubik memiliki 6 warna yaitu merah, biru, kuning, hijau, putih, dan hitam. Rubik ini dilemparkan sebanyak 240 kali. Frekuensi yang bisa muncul adalah warna pada rubik yaitu merah, biru, kuning, hijau, putih dan hitam dengan frekuensi masing masing adalah 36, 42, 48, 31, 35, 48. Ujilah apakah rubik tersebut simetris?
n = 6
O <- c(36, 42, 48, 31, 35, 48)
e <- rep(240/6, 6)
x = sum((O-e)^2/e)
p = pchisq(q = x, df = n-1, ncp = 0, lower.tail = F)
cat(" x.square =", x,
"df =", n-1,
"p-value =", p)## x.square = 6.35 df = 5 p-value = 0.2736362
Jadi, karena p-value > alpha = 0,05 maka, H0 diterima yang artinya “tidak terdapat perbedaan frekuensi munculnya semua warna yang menandakan bahwa dadu simetris”.
Distribusi Student t
Distribusi t mirip dengan distribusi normal, yang membedakan adalah
parameter yang diperlukan hanyalah derajat bebas. Misalkan Z peubah acak
normal baku dan V peubah acak chi-square dengan derajat bebas v. Bila Z
dan V adalah peubah acak yang independen, maka distribusi dari
Kasus
Misalkan siswa kelas 6 sekolah A yang menjadi sampel penelitian sebesar 50 orang, maka apabila hasilnya nanti misalkan rata-rata tinggi badan sebesar 145 cm. Apakah 145 cm ini berbeda signifikan secara statistik dengan rata-rata tinggi badan nasional kelas 6 adalah 150 cm pada tingkat kepercayaan penelitian 95%? Di sinilah fungsi dari uji t student untuk menjawab hipotesis tersebut.
mu0 = 145
n = 50
xbar = 150
s = 15
t = (xbar - mu0)/(s/sqrt(n))
p = pt(q = t, df = n-1, lower.tail = F)
cat(" t-value =", t,
"df =", n-1,
"p-value =", p)## t-value = 2.357023 df = 49 p-value = 0.01123112
Jadi, karena p-value < alpha = 0,05 maka, H0 ditolak yang artinya terdapat “perbedaan rata-rata tinggi badan antara sekolah A dan nasional”.
2 Confidence Interval
Interval kepercayaan
Untuk menaksir interval taksiran parameter θ dengan koefisien
kepercayaan Y, maka sebuah sampel acak diambil, lalu hitung nilai-nilai
statistik yang diperlukan. Perumusan dalam bentuk peluang untuk
parameter θ antara A dan B:
dengan A
dan B fungsi dari statistik, jadi merupakan variabel random, tidak
bergantung pada θ.
Arti dari formula diatas adalah secara Y% percaya bahwa
parameter θ akan ada didalam interval (A,B).
Interval Kepercayaan Rata-Rata
Misalkan sebuah populasi berukuran N dengan mean μ dan standar deviasi σ. Lalu, dihitung xbar dari μ dan s dari σ. Untuk memperoleh taksiran interval gunakan derajat kepercayaan yang lebih tinggi.
Simpangan Baku diketahui dan Populasi berdistribusi Normal
Untuk mengetahui perkiraan interval rata-rata populasi μ dengan
varians σ yang diketahui dan juga mengukur akurasinya, gunakan rumus
berikut
Keterangan :
y = Koefisien kepercayaan
Z(1/2y) =
Z-score dari tabel normal
Sebuah sampel acak terdiri dari 100 mahasiswa telah diambil dari
sebuah universitas lain dengan nilai IQ-nya dicatat. Didapat xbar = 112
dan s = 10, maka berapa nilai taksiran interval dengan level kepercayaan
95%.
n = 100
xbar = 112
sigma = 10
sem = sigma/sqrt(n)
E = qnorm(0.975)*sem
int = xbar + c(-E, E)
cat("Rata-Rata =", xbar, "\n",
"Interval Kepercayaan =", int)## Rata-Rata = 112
## Interval Kepercayaan = 110.04 113.96
Jadi, didapat 95% interval kepercayaan untuk IQ rata-rata mahasiswa 112 adalah 110,04 < μ < 113,96.
Simpangan Baku tidak diketahui dan Populasi berdistribusi Normal
Kasus di mana standar deviasi populasi diasumsikan tidak diketahui
maka, kita gunakan rumus dibawah ini:
Keterangan :
y = Koefisien kepercayaan
tp =
T-score dari tabel student t
Sebuah sampel acak terdiri dari 20 siswa SMA 4 Kab. Tangerang,
tentukan perkiraan tinggi badan dan taksiran interval dengan level
kepercayaan 95%.
data = read.table("Tinggibdn.csv", header=TRUE, sep=";")
t.test(data)##
## One Sample t-test
##
## data: data
## t = 7.0865, df = 39, p-value = 1.631e-08
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 60.52426 108.87574
## sample estimates:
## mean of x
## 84.7
Jadi, didapat bahwa dengan 95% interval kepercayaan untuk tinggi badan rata-rata 84,7 adalah 60,52 < μ < 108,88.
Ukuran Sampel Rata-Rata
Dalam beberapa kasus, diketahui margin error, rata-rata, dan varians.
Jika, kita ingin mengetahui berapa ukuran sampel yang diperlukan untuk
memperkirakan interval kepercayaan, gunakan rumus dibawah ini
Asumsikan standar deviasi populasi dari tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin error 1,2 cm pada tingkat kepercayaan 95%.
zstar = qnorm(0.975)
sigma = 9.48
E = 1.2
zstar^2*sigma^2/E^2## [1] 239.7454
Jadi, untuk mencapai margin error 1,2 cm pada tingkat kepercayaan 95% dibutuhkan 239,75 sampel atau 240 sampel.
Interval Kepercayaan Populasi
Misalkan populasi berdistribusi binom berukuran N, terdapat proporsi
π kejadian A. Maka interval kepercayaan untuk taksiran π dengan
koefisien kepercayaan y% yaitu :
dengan p = x/n dan q = 1 - p.
Misalkan kita ingin menaksir ada berapa persen anggota
masyarakat berumur 15 tahun keatas yang termasuk ke dalam golongan A.
Untuk ini sampel acak berukuran n = 1200 diambil yang menghasilkan 504
tergolong kategori A.
n = 1200
p = 504/n
SE = sqrt(p*(1-p)/n)
E = qnorm(0.975)*SE
int = p + c(-E, E)
cat("Proporsi =", p, "\n",
"Interval Kepercayaan =", int)## Proporsi = 0.42
## Interval Kepercayaan = 0.3920748 0.4479252
Jadi, didapat dari 95% interval kepercayaan untuk proporsi masyarakat golongan A 0,42 adalah 0,392 < π < 0,448.
Ukuran Sampel Proporsi
Untuk menentukan berapa banyak sampel yang dibutuhkan kita dapat
menggunakan rumus ini
Misalkan kita ingin menaksir berapa ukuran sampel yang diperlukan anggota masyarakat berumur 15 tahun keatas yang termasuk ke dalam golongan A, proporsi 42% dengan margin error adalah 2,78%.
zstar = qnorm(0.975)
p = 0.42
E = 0.0278
zstar^2*p*(1-p)/E^2## [1] 1210.832
Jadi, untuk mencapai margin erro 2,78% pada tingkat kepercayaan 95% dibutuhkan 1210.832 sampel atau 1211 sampel.
3 Hypothesis Testing
Pada suatu hipotesis yang teah dibuat maka terdapat dua kemungkinan tindak lanjut yaitu pertama, menolak hipotesis atau menyimpulkan bahwa hipotesis tidak benar dan yang kedua menerima hipotesis dimana tidak cukup informasi dari sampel bahwa hipotesis harus kita tolak, artinya walaupun hipotesis itu kita terima tidak berarti hipotesis itu benar. Pembuatan rumusan pengujian hipotesis hendaknya membuat pernyataan hipotesis yang diharapkan akan ditolak disebut hipotesis nol (Ho). Penolakan hipotesis nol akan menjurus pada penerimaan hipotesis alternatif / tandingan ditulis H1.
One-Tailed
Pada uji satu arah, bila hipotesis nol H0: θ = θ0 dilawan dengan
Hipotesis alternatif H1: θ > θ0 atau H1: θ < θ0 . Uji satu arah
ditandai dengan adanya satu daerah penolakan hipotesis nol yang
bergantung pada nilai kritis tertentu.
One-Tailed Rata-Rata diketahui Standar Deviasi
Hipotesis nol dari uji satu arah(kiri / kanan) dari rata-rata
populasi μ dan σ dapat dinyatakan sebagai berikut:
Mari kita definisikan statistik pengujian z dalam hal rata-rata
sampel, ukuran sampel dan standar deviasi populasi σ :
One-Tailed Rata-Rata tidak diketahui Standar Deviasi
Hipotesis nol dari uji satu ekor (kiri / kanan) dari rata-rata
populasi μ dan tidak diketahui σ dapat dinyatakan sebagai berikut:
Mari kita definisikan statistik pengujian t dalam hal rata-rata
sampel, ukuran sampel dan standar deviasi sampel s :
One-Tailed Proporsi
Hipotesis nol uji satu arah kiri proporsi populasi dapat dinyatakan
sebagai berikut:
Mari kita definisikan statistik pengujian z dalam hal proporsi sampel
dan ukuran sampel:
Two-Tailed
Pada uji dua arah bila hipotesis nol H0: θ = θ0 dilawan dengan
hipotesis alternatif H1 : θ ≠ θ0. Uji dua arah ditandai dengan adanya
dua daerah penolakan hipotesis nol yang juga bergantung pada nilai
kritis tertentu. Nilai kritis ini diperoleh dari tabel untuk nilai α/2
yang telah dipilih sebelumnya.
Two-Tailed Rata-Rata diketahui Standar Deviasi
Hipotesis nol dari uji dua arah populasi rata-rata μ μ dan σ dapat
dinyatakan sebagai berikut:
Mari kita definisikan statistik pengujian z dalam hal rata-rata
sampel, ukuran sampel dan standar deviasi populasi σ :
Two-Tailed Rata-Rata tidak diketahui Standar Deviasi
Hipotesis nol dari uji dua arah populasi rata-rata μ dan tidak
diketahui σ dapat dinyatakan sebagai berikut:
Mari kita definisikan statistik pengujian t dalam hal rata-rata
sampel, ukuran sampel dan standar deviasi sampel s:
Two-Tailed Proporsi
Hipotesis nol dari uji dua arah tentang proporsi populasi dapat
dinyatakan sebagai berikut:
mana p0 adalah nilai hipotesis dari proporsi populasi sebenarnya
p. Mari kita definisikan statistik pengujian z dalam hal proporsi sampel
dan ukuran sampel:
4 A/B Testing
A/B Testing
A/B testing adalah cari untuk membandingkan dua versi dari sesuatu
untuk melihat mana yang bekerja lebih baik. Keuntungan menggunakan A/B
testing bagi para pelaku bisnis adalah mereka mengetahui strategi
periklanan dan pemasaran online yang dapat diterapkan pada bisnis
mereka. Contoh A/B testing adalah ketika Kamu telah membuat situs web
bisnismu sendiri dan ingin membandingkan dua warna berbeda untuk tombol
CTA (Call to Action) Kamu.
Dalam hal ini, Kamu dapat membuat situs
web dengan dua tombol berbeda. Sekarang bandingkan kedua situs web
tersebut. Cari tahu situs web mana yang dikunjungi pengunjung dan lebih
sering diklik.
Gambar diatas menyimpulkan dengan menggunakan A/B testing kita dapat
melihat perbandingan versi mana yang lebih menguntungkan. Untuk versi A
jumlah sign-up ada 50 sedangkan, versi B jumlah
sing-up ada 75. Maka, pengujian ini berhasil untuk
menentukan mana versi yang terbaik.
Tujuan A/B Testing pada strategi periklanan
1. Meningkatkan
Website Traffic
2. Meningkatkan Conversion Rate
3. Menurunkan
Bounce Rate
4. Meningkatkan User Engagement
A/A Testing
Pengaturan A/A Testing yang paling khas adalah pemisahan 50/50 antara dua halaman yang identik. Dalam A/B Testing, tujuannya adalah untuk menemukan tingkat konversi yang lebih tinggi sedangkan, dalam A/A Testing, tujuannya untuk memeriksa apakah variasi memiliki peningkatan yang sama.
5 Goodness of Fit
Uji goodness of fit digunakan untuk menguji apakah data sampel sesuai
dengan distribusi dari populasi tertentu (yaitu populasi dengan
distribusi normal atau populasi dengan distribusi Weibull). Dengan kata
lain, ini memberi tahu Anda jika data sampel Anda mewakili data yang
Anda harapkan untuk ditemukan dalam populasi aktual. Goodness of fit
test yang biasa digunakan dalam statistik adalah:
1. Chi-square.
2. Kolmogorov-Smirnov.
3. Anderson-Darling.
4.
Shipiro-Wilk.
Chi-Square
Chi-square ( χ2 ) adalah melakukan uji hipotesis untuk proporsi satu
atau lebih variabel kategoris multinomial. Statistik pengujian atau
Rumus untuk mengukur perbedaan frekuensi observasi dan frekuensi
diharpakan menggunakan rumus dibawah ini.
Rumus Chi-Kuadrat
Keterangan
χ2 = Chi-Square
O = Frekuensi sampel
e = Frekuensi harapan
Keuntungan
Beberapa keuntungan dari uji Chi-Square, yaitu antara lain:
a.
Konsep uji Chi-Square dalam statistik nonparametrik mudah untuk
dimengerti.
b. Dapat digunakan untuk menganalisa data yang
berbentuk hitungan maupun peringkat(rank).
c. Perhitungan yang
harus dilakukan pada umumnya sederhana dan mudah, khususnya untuk data
yang kecil.
Kerugian
Beberapa kerugian dari uji Chi-Square, yaitu:
a. Uji ini
sensitif terhadap banyaknya sampel yang digunakan.
b. Uji
Chi-Square hanya memberikan informasi tentang ada atau tidaknya hubungan
antara kedua variabel.
c. Uji Chi-Square hanya bagus digunakan
untuk skala data nominal untuk kedua variabel yang diuji.
6 Non-Parametric Methods
Metode statistik disebut non-parametrik jika tidak membuat asumsi
pada distribusi populasi atau ukuran sampel. Metode non-parametrik
digunakan untuk menganalisis data ketika asumsi distribusi dari prosedur
yang lebih umum tidak terpenuhi. Sebagai contoh, banyak prosedur
statistik mengasumsikan bahwa distribusi kesalahan yang mendasarinya
adalah Gaussian, karenanya meluasnya penggunaan sarana dan standar
deviasi. Ketika distribusi kesalahan tidak diketahui, uji statistik
non-parametrik mungkin lebih aman untuk diterapkan.
Secara umum,
kesimpulan yang diambil dari metode non-parametrik tidak sekuat yang
parametrik. Namun, karena metode non-parametrik membuat lebih sedikit
asumsi, mereka lebih fleksibel, lebih kuat, dan berlaku untuk data
non-kuantitatif.
Sign Test
Sign test digunakan untuk memutuskan apakah distribusi binomial
memiliki peluang keberhasilan dan kegagalan yang sama.
Sebuah perusahaan minuman ringan telah menemukan minuman baru
dan ingin mengetahui apakah itu akan sepopuler minuman favorit yang ada.
Untuk tujuan ini, departemen penelitiannya mengatur 18 peserta untuk
pengujian rasa. Setiap peserta mencoba kedua minuman secara acak sebelum
memberikan pendapatnya. Ternyata 5 peserta lebih menyukai minuman baru,
dan sisanya lebih suka yang lama. Pada tingkat signifikansi 05, dapatkah
kita menolak anggapan bahwa kedua minuman itu sama-sama populer?
binom.test(5,18)##
## Exact binomial test
##
## data: 5 and 18
## number of successes = 5, number of trials = 18, p-value = 0.09625
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
## 0.09694921 0.53480197
## sample estimates:
## probability of success
## 0.2777778
Pada tingkat signifikansi 05, kami tidak menolak anggapan bahwa kedua minuman tersebut sama-sama populer.
Wilcoxon Signed-Rank Test
Dua sampel data dicocokkan jika mereka berasal dari pengamatan
berulang dari subjek yang sama. Dengan menggunakan
Wilcoxon Signed-Rank Test, kita dapat memutuskan apakah
distribusi populasi data yang sesuai identik tanpa mengasumsikan mereka
mengikuti distribusi normal.
Mann-Whitney-Wilcoxon Test
Dua sampel data independen jika mereka berasal dari populasi yang
berbeda dan sampel tidak saling mempengaruhi. Dengan menggunakan Uji
Mann-Whitney-Wilcoxon, kita dapat memutuskan apakah
distribusi populasi identik tanpa mengasumsikan mereka mengikuti
distribusi normal.
Kruskal-Walls Test
Uji Kruskal-Wallis berdasarkan peringkat adalah alternatif non-parametrik untuk uji ANOVA satu arah, yang memperluas uji Wilcoxon dua sampel dalam situasi di mana ada lebih dari dua kelompok. Kumpulan sampel data bersifat independen jika berasal dari populasi yang tidak terkait dan sampel tidak saling mempengaruhi. Dengan menggunakan Uji Kruskal-Wallis, kita dapat memutuskan apakah distribusi populasi identik tanpa mengasumsikan mereka mengikuti distribusi normal.
7 Simple Linear Regression
Model regresi biasanya kita menggambarkan hubungan antara satu atau
lebih variabel penjelas dan mungkin satu atau lebih variabel respons.
Penerapan regresi linear sederhana dapat ditemukan secara luas di
berbagai bidang seperti bidang pertanian, ekonomi, medis dan pendidikan.
Contohnya antara lain:
1. Pengaruh jumlah pupuk terhadap produksi
pertanian.
2. Pengaruh IQ terhadap IPK.
3. Pengaruh berat
badan terhadap tekanan darah.
4. Pengaruh penghasilan terhadap
tingkat inflasi.
Secara umum, persamaan regresi linear sederhana dapat ditulis
sebagai berikut:
Pada persamaan diatas y merupakan variabel depende, x merupakan
variabel independen, β0 merupakan konstanta (Intercept), β1 merupakan
koefisien (Slope) dan e adalah variabel pengganggu atau residual.
Persamaan regresi linear sederhana dapat dibuat dalam grafik kartesius,
sebagai berikut:
Normality Test
Uji kenormalan pada regresi digunakan untuk menguji apakah nilai
residual yang dihasilkan dari regresi terdistribusi secara normal atau
tidak. Model regresi yang baik adalah yang memiliki nilai residual yang
terdistribusi secara normal. Langkah-langkah uji kenormalan :
Langkah 1 : Hipotesis, H0 (berdistribusi Normal) atau H1 (tidak
berdistribusi Normal)
Langkah 2 : Tingkat signifikansi (α)
Langkah 3 : Uji statistik
Langkah 4 : Keputusan terima H0 jika
p-value > α
Langkah 5 : Kesimpulan
Metode Estimasi Parameter
Koefisien regresi β0 dan β1 merupakan parameter dan nilainya tidak
diketahui, tetapi parameter tersebut dapat diestimasikan dari data
sampel. Terdapat dua metode estimasi yang biasa digunakan untuk
mengestimatinya, yaitu:
a. Ordinary Least Square (OLS)
b.
Metode Maksimum Likelihood (MML)
Ordinary Least Square (OLS)
Jika mempunyai sampel berukuran n, yaitu (xi,yi) dimana i = 1,2,…,n
dari sebuah populasi, maka:
Dengan,
Error OLS
SSE merupakan jumlah kuadrat kesalahan garis regresi, sehingga :
SSE OLS
untuk menghitung estimasi dari β0 maka gunakan rumus ini
β0 OLS
Sedangkan estimasi dari β1 dapat diperoleh dengan menurunkan error
terhadap β1. Sehingga diperoleh:
β1 OLS
8 Inference in Linear Regression
Inferensi dalam analisis regresi sederhana dilakukan pada masing-masing parameternya, yaitu:
Inference about α
Interval kepercayaan untuk α, pada tingkat kepercayaan (1-φ)100%
adalah:
Interval Kepercayaan α
Uji hipotesis untuk α digunakan untuk mengetahui apakah garis regresi
melalui titik pusat atau tidak.
H0 : α = 0 (garis regresi melalui
titik pusat)
H1 : α ≠ 0 (sebaliknya)
Karena H0 : α = 0 maka
statistik uji yang digunakan adalah:
Inferensi α
Inference about β
Untuk inferensi tentang β dapat digunakan transformasi. Parameter β
berdistribusi t dengan derajat bebas (n-2) adalah:
Interval kepercayaan β
Uji hipotesis untuk β digunakan untuk mengetahui hubungan linear
antara variabel depende (Y) dengan variabel independen (X).
H0 : β
= 0 (Tidak terdapat hubungan linear antara Y dan X)
H1 : β ≠ 0
(Sebaliknya)
Karena β = 0, maka statistik uji yang digunakan
adalah:
Inferensi β
9 Multiple Linear Regression
Sebagian besar analisis regresi melibatkan penggunaan lebih dari satu
regresi. Model untuk regresi linear berganda adalah:
Persamaan Regresi Linear Berganda
Assumption 1 : Linearity
Pemodelan regresi linier mengasumsikan bahwa hubungan antara hasil
dan masing-masing Variabel penjelas adalah linier, namun ini mungkin
tidak selalu terjadi.
Misal terdapat dua plot yang menunjukan
linear (kiri) dan non-linear (kanan).
Plot Linearity
Pada bagian kanan, menggunakan variabel HourlyWage (Y) dan Age (X).
Pada plot terlihat membentuk pola non-linear maka, kita dapat melakukan
transformasi hubungan kuadrat log antara HourlyWage dengan Age.
Persamaan sebelum ditransformasi
Persamaan Linearity
Persamaan setelah dilakukan transformasi
Persamaan Log Linearity
Assumption 2 : Normal Distribution of Residuals
Nilai terurut dari residu standar diplot terhadap nilai yang
diharapkan dari distribusi normal standar. Jika residu terdistribusi
normal, mereka harus lie, approximately, pada diagonal.
Perbandingan Plot
Contoh plot kiri menunjukkan plot untuk regresi linier sederhana dan
plot kanan menunjukkan plot untuk regresi linier berganda. Kita dapat
melihat bahwa garis menyimpang dari diagonal di plot kiri, sedangkan di
contoh plot kanan garis lebih dekat dengan diagonal. Contoh regresi
linier berganda di sini memiliki residu yang mengikuti distribusi normal
lebih dekat. Kita bisa menggunakan pengujian untuk normalitas seperti
statistik Shapiro-Wilk atau Kolmogorov-Smirov.
Plot Lonceng
Pada plot diatas menunjukkan bahwa distibusi normal berbentuk pola lonceng dimana regresi linear berganda lebih baik dalam mengikuti distribusi normal.
Assumption 3 : Homoscedasticity
Homoskedastisitas mengacu pada distribusi residu atau istilah kesalahan. Jika asumsi ini berlaku maka istilah kesalahan memiliki varians konstan – dengan kata lain, kesalahan untuk setiap pengamatan tidak bergantung pada variabel apa pun dalam model.
Assumption 4 : Multicolinearity
Ketika dua variabel penjelas dalam model sangat berkorelasi (dan
karena itu dapat digunakan untuk memprediksi satu sama lain), kita
mengatakan bahwa mereka collinear.
Dalam model kami, mungkin
variabel-variabel ini sebenarnya mewakili faktor-faktor sosial yang sama
yang mempengaruhi tingkat penyakit - kita dapat menyelidiki ini dengan
menghapus salah satu variabel dan menghasilkan model alternatif.
10 Logistic Regression
Regresi logistik digunakan untuk memprediksi kelas (atau kategori)
individu berdasarkan satu atau beberapa variabel prediktor (x). Ini
digunakan untuk memodelkan hasil biner, yaitu variabel, yang hanya dapat
memiliki dua nilai yang mungkin: 0 atau 1, ya atau tidak, sakit atau
tidak sakit.
Fungsi regresi logistik standar, untuk memprediksi
hasil pengamatan yang diberikan variabel prediktor (x), adalah kurva
berbentuk s dimana persamaan untuk model regresi ini adalah:
Persamaan Logistik Regresi
Contoh kurva Logistik Regresi
11 ANOVA
ANOVA menguji apakah ada perbedaan mean kelompok pada setiap tingkat variabel independen. Metode statistik ini merupakan perpanjangan dari uji statistik untuk memperkirakan bagaimana variabel dependen kuantitatif berubah sesuai dengan tingkat satu atau lebih variabel independen kategoris.
Assumptions
Pada uji ANOVA juga sama dengan regresi memiliki asumsi pada
pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi
normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
Perhatikan bahwa jika
asumsi di atas tidak terpenuhi ada alternatif non-parametrik (uji
Kruskal-Wallis) untuk ANOVA satu arah.
ANOVA one-way
Satu faktor tetap (tingkat yang ditetapkan oleh peneliti) yang dapat
memiliki jumlah pengamatan yang tidak sama (tidak seimbang) atau sama
(seimbang) per kombinasi perlakuan. Analisis varians satu arah, juga
dikenal sebagai ANOVA satu faktor, adalah perpanjangan dari uji t dua
sampel independen untuk membandingkan rata-rata dalam situasi di mana
ada lebih dari dua kelompok. Berikut persamaan ANOVA satu arah:
Persamaan ANOVA one-way
Hipotesis ANOVA satu arah adalah:
Hipotesis ANOVA one-way
Kita kemudian akan menguraikan varians, seperti yang telah kita lihat
sebelumnya dalam regresi. Variasi total mengukur seberapa banyak
pengamatan bervariasi tentang rata-rata sampel keseluruhan, mengabaikan
kelompok.
Varians Total ANOVA
Variasi antara kelompok melihat seberapa jauh rata-rata sampel
individu dari rata-rata sampel keseluruhan.
Varians antar Kelompok ANOVA
Terakhir, variasi dalam kelompok mengukur seberapa jauh pengamatan
dari rata-rata sampel kelompoknya.
Varians dalam Kelompok ANOVA
Tabel ANOVA satu arah
Tabel ANOVA one-way
ANOVA two-ways
ANOVA dua arah ini digunakan bila sumber keragaman yang terjadi tidak
hanya karena satu faktor (perlakuan).Faktor lain yang mungkin menjadi
sumber keragaman respon juga harus diperhatikan. Tujuan dan pengujian
ANOVA 2 arah ini adalah untuk mengetahui apakah ada pengaruh dari
berbagai kriteria yang diuji terhadap hasil yang diinginkan. Misal,
seorang manajer teknik menguji apakah ada pengaruh antara jenis pelumas
yang dipergunakan pada roda pendorong dengan kecepatan roda pendorong
terhadap hasil penganyaman sebuah karung plastik pada mesin circular.
Berikut tabel ANOVA dua arah:
Tabel ANOVA two-ways
dimana JKB = SSB, JKK = SSW, dan JKT = SST.
12 RM-ANOVA
ANOVA repeated-measures digunakan untuk menganalisis data di mana
subjek yang sama diukur lebih dari sekali. Misal kita mempunyai tiga
faktor yaitu sex(2 levels), age(4 levels), dan person(27 levels). Kami
memperlakukan usia sebagai variabel kategoris. Ini memberi kita
fleksibilitas maksimal karena kita tidak perlu peduli dengan bentuk
fungsional dari efek usia. Maka model yang kita peroleh adalah
Persamaan RM-ANOVA
dengan i = sex, j = person, k = time-point.
Assumptions
Pada uji RM-ANOVA juga sama dengan ANOVA memiliki asumsi pada
pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi
normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Perbedaan antar
kelompok harus sama.
Perhatikan bahwa: Jika asumsi di atas tidak
terpenuhi, ada alternatif non-parametrik (uji Friedman) untuk tindakan
berulang satu arah ANOVA.
13 Mixed Effects ANOVA
ANOVA campuran digunakan untuk membandingkan rata-rata kelompok yang
diklasifikasikan silang oleh dua jenis variabel faktor yang berbeda.
Persamaan Mixed Effects ANOVA
Assumptions
Pada uji Mixed Effects ANOVA juga sama dengan ANOVA memiliki asumsi
pada pengujiannya.
1. Populasi-populasi yang akan diuji
berdistribusi normal.
2. Varians untuk masing-masing populasi
adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4.
Perbedaan antar kelompok harus sama.
5. Matriks kovarians harus
sama diseluruh sel yang dibentuk oleh faktor antar-subjek.
14 ANCOVA
ANCOVA merupakan perpaduan antara analysis of variance (ANOVA) dan
regresi. Ini mirip dengan ANOVA faktorial, karena dapat memberi tahu
Anda informasi tambahan apa yang bisa Anda dapatkan dengan
mempertimbangkan satu variabel independen (faktor) pada satu waktu,
tanpa pengaruh yang lain. Ini dapat digunakan sebagai:
1.
Perpanjangan regresi berganda untuk membandingkan garis regresi
berganda.
2. Perpanjangan analisis varians.
Assumptions
Pada uji ANCOVA juga sama dengan ANOVA memiliki asumsi pada
pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi
normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Linearitas antara
kovariat dan variabel hasil pada setiap tingkat variabel pengelompokan.
5. Kemiringan garis regresi, yang dibentuk oleh kovariat dan
variabel hasil, harus sama untuk setiap kelompok.
15 MANOVA
Multivariate Analysis Of Variance (MANOVA) adalah ANOVA dengan dua atau lebih variabel hasil (atau respons) berkelanjutan. Perhatikan bahwa, MANOVA sesuai dalam situasi eksperimental, di mana kita memiliki beberapa variabel hasil (dependen) yang semuanya mengukur aspek yang berbeda dari beberapa tema kohesif.
Assumptions
Pada uji MANOVA juga sama dengan ANOVA memiliki asumsi pada
pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi
normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Linearitas antara
semua pasangan variabel dependen, semua pasangan kovariat, dan semua
pasangan variabel-kovariat dependen di setiap sel.
Referensi :
https://bookdown.org/BaktiSiregar/data-science-for-beginners-part-2/2-Confidence-Intervals.html https://drive.google.com/file/d/1LhNFruU4B9_DPvzTqEYTMutR6qrryMO3/view https://medium.com/statistics-uii/distribusi-peluang-dengan-r-b50bd0c7973a http://www.lelyria.lecture.ub.ac.id/files/2015/09/4.-Distribusi-probabilitas-summary.pdf https://repository.unikom.ac.id/32853/1/INTERVAL%20KEPERCAYAAN.pdf http://eprints.binadarma.ac.id/9234/1/PER%2014_Pengantar%20Pengujian%20Hipotesis%282020-2021%29Genap_UNIVERSITAS%20BINA%20DARMA.pdf https://www.researchgate.net/publication/340511441_Regresi_Linear_Sederhana https://www.researchgate.net/publication/368578080_INFERENSI_MODEL_REGRESI_LINEAR_UNTUK_EKSPOR_DAN_IMPOR_PROVINSI_KALIMANTAN_SELATAN_TAHUN_2020 https://www.researchgate.net/publication/357992043_Machine_Learning_-Regression https://hummedia.manchester.ac.uk/institutes/cmist/archive-publications/working-papers/2020/multiple-linear-regression.pdf https://www2.stat.duke.edu/courses/Spring13/sta102.001/Lec/Lec20.pdf http://www.sthda.com/english/articles/36-classification-methods-essentials/151-logistic-regression-essentials-in-r/?authuser=1 http://fe.unisma.ac.id/MATERI%20AJAR%20DOSEN/STATS/AriRiz/MA%20Anova.pdf https://pendidikan-akuntansi.fe.uny.ac.id/sites/pendidikan-akuntansi.fe.uny.ac.id/files/Modul%202%20(ANOVA).pdf https://ethz.ch/content/dam/ethz/special-interest/math/statistics/sfs/Education/Advanced%20Studies%20in%20Applied%20Statistics/course-material-1719/Repeated/2_rm_anova.pdf