Komputasi Statistika

~ Final Exam ~


Kontak : \(\downarrow\)
Email
Instagram https://www.instagram.com/diasary_nm/
RPubs https://rpubs.com/diyasarya/

1 Probability Distributions

Distribusi Probabilitas adalah kegiatan dalam statistika untuk memperkirakan terjadinya peluang/probabilitas yang dihubungkan dengan terjadinya peristiwa tersebut dalam beberapa keadaan. Jika kita mengetahui keseluruhan probabilitas dari kemungkinan outcome yang terjadi, seluruh probabilitas kejadian tersebut akan membentuk suatu distribusi probabilitas.
Berikut macam-macam Distribusi Probabilitas:

Distribusi Binomial

Distribusi binomial adalah distribusi probabilitas diskrit. Eksperimen Binomial adalah eksperimen yang mempunyai sifat-sifat sebagai berikut:
1. Eksperimen mengandung n percobaan yang identik.
2. Setiap percobaan menghasilkan 2 hasil yang mungkin yang dinamakan sukses (S) dan tidak sukses (F).
3. Untuk tiap percobaan, probabilitas sukses adalah p = P(S) dan probabilitas tidak sukses adalah P(F) = 1 - p = q.
4. Percobaan-percobaan bersifat independen.
5. Variabel random Y adalah banyak sukses yang ditemukan dalam n percobaan.


Rumus Distribusi Binomial

Keterangan :
B = Probabilitas binomial
x = Jumlah total “keberhasilan” (sukses atau gagal, dll.)
P = Probabilitas keberhasilan pada percobaan individu
n = Jumlah percobaan

Kasus

Suatu sistem yang dapat mendeteksi pesawat terbang, mengandung 4 unit radar identik yang beroperasi secara independen satu dengan yang lain. Anggap masing-masing radar mempunyai probabilitas 0,95 untuk dapat mendeteksi pesawat terbang musuh. Variabel random Y, yaitu banyak unit radar yang tidak mendeteksi pesawat musuh.Berapa probabilitas radar tersebut tidak mendeteksi pesawat musuh lebih dari 3 radar.

n = 4
P = 0.05
x = 3
pbinom(q = x, size = n, p = P, lower.tail = F)
## [1] 6.25e-06

Jadi, probabilitas radar tersebut tidak mendeteksi pesawat musuh lebih dari 3 radar adalah 6.25e-06.

Distribusi Poisson

Distribusi poisson adalah disribusi probabilitas diskrit dari kejadian peristiwa independen dalam suatu interval. Disribusi poisson merupakan model yang baik untuk menentukan distribusi probabilitas dari banyak kecelakaan mobil, kecelakaan dalam industri, dll.


Rumus Distribusi Poisson

Keterangan :
λ = Kejadian rata-rata per interval
x = Kejadian dalam interval tertentu

Kasus

Apabila probabilitas bahwa seorang individu akan mengalami reaksi yang buruk terhadap injeksi dari suatu serum adalah 0,001 maka tentukan probabilitas bahwa dari 2000 individu, tepat 3 individu akan mengalami reaksi buruk.

p = 0.001
n = 2000
lamda = n*p
x = 3
dpois(x = x, lambda = lamda)
## [1] 0.180447

Jadi, probabilitas tepat 3 individu akan mengalami reaksi buruk adalah 0,180447 atau 18,04%.

Distribusi Seragam Kontinu

Distribusi seragam adalah jenis probabilitas dimana semua variabel memiliki probabilitas yang sama. Variabel random Y yang mempunyai disribusi seragam kontinu akan mempunyai fungsi kepadatan probabilitas


Rumus Distribusi Seragam

Keterangan : θ1 dan θ2 = Parameter dari fungsi kepadatan probabilitas seragam

Kasus

Kasus saat waktu menunggu di lampu lalu lintas. Waktu ini mungkin berdistribusi seragampada interval [0,2]. Untuk mendapatkan waktu acak yaitu bilangan-bilangan acak yangmenyatakan lama (waktu) menunggu di lampu merah dapat dilakukan dengan cara

a = 0
b = 2
runif(1, min = a, max = b)
## [1] 1.447864

Distribusi Eksponensial

Distribusi eksponensial menggambarkan waktu kedatangan urutan peristiwa independen yang berulang secara acak. Variabel random kontinu Y berdistribusi eksponensial dengan parameter β bila fungsi kepadatan probabilitasnya dinyatakan sebagai


Rumus Distribusi Eksponensial

Kasus

Daya tahan lampu yang dihasilkan oleh suatu pabrik berdostribusi eksponensial dengan rata-rata 3000 jam. Berapa probabilitas bahwa sebuah lampu yang diambil secara acak akan rusak/mati sebelum dipakai sampai 3000 jam.

n = 3000
x = 1/n
pexp(q = n, rate = x, lower.tail = T, log.p = F)
## [1] 0.6321206

Jadi, probabilitas sebuah lampu yang diambil akan rusak/mati sebelum dipakai sampai 3000 jam adalah 0,6321 atau 63,21%.

Distribusi Normal

Pada kasus dimana n cukup besar dan p tidak terlalu kecil (tidak mendekati 0, … , 1) maka dilakukan pendekatan memakai distribusi normal (Gauss). Variabel random kontinu Y dinyatakan berdistribusi normal dengan mean μ dan variasi σ^2 jika Y mempunyai fungsi kepadatan probabilitas berbentuk


Rumus Distribusi Normal

Kasus

Dari penelitian terhadap 150 orang laki-laki yang berumur 40 – 60 tahun didapatkan rata-rata kadarkolesterol mereka 215 mg % dan simpangan baku Sd = 45 mg %. Hitunglah peluang kita mendapatkan seorang yang kadar kolesterolnya lebih dari 250 mg %.

n = 150
rata = 215
sd = 45
x = 250
pnorm(q = x, mean = rata, sd = sd, lower.tail = F)
## [1] 0.21835

Jadi, probabilitas seorang laki-laki berumus 40-60 yang memiliki kadar kolesterol lebih dari 250 mg % adalah 0,2184 atau 21,84%.

Distribusi Chi-Kuadrat

Distribusi chi-kuadrat biasa digunakan peneliti untuk menguji siginifikansi antara frekuensi yang diamati dengan frekuensi teoritis dan menguji kebebasan antar faktor pada tabel kontingensi. Variabel random Y yang berdistribusi Gamma dengan parameter α = ν/2 dan β = 2 dinamakan variabel random chi-kuadrat dengan derajat bebas ν atau dinotasikan dengan χ2ν.


Rumus Fungsi Kepadatan Distribusi Chi-Kuadrat


atau Rumus untuk mengukur perbedaan frekuensi observasi dan frekuensi diharpakan menggunakan rumus dibawah ini.

Rumus Chi-Kuadrat

Keterangan
χ2 = Chi-Square
O = Frekuensi sampel
e = Frekuensi harapan

Kasus

Sebuah rubik memiliki 6 warna yaitu merah, biru, kuning, hijau, putih, dan hitam. Rubik ini dilemparkan sebanyak 240 kali. Frekuensi yang bisa muncul adalah warna pada rubik yaitu merah, biru, kuning, hijau, putih dan hitam dengan frekuensi masing masing adalah 36, 42, 48, 31, 35, 48. Ujilah apakah rubik tersebut simetris?

n = 6
O <- c(36, 42, 48, 31, 35, 48)
e <- rep(240/6, 6)

x = sum((O-e)^2/e)
p = pchisq(q = x, df = n-1, ncp = 0, lower.tail = F)
cat(" x.square =", x,
    "df =", n-1,
    "p-value =", p)
##  x.square = 6.35 df = 5 p-value = 0.2736362

Jadi, karena p-value > alpha = 0,05 maka, H0 diterima yang artinya “tidak terdapat perbedaan frekuensi munculnya semua warna yang menandakan bahwa dadu simetris”.

Distribusi Student t

Distribusi t mirip dengan distribusi normal, yang membedakan adalah parameter yang diperlukan hanyalah derajat bebas. Misalkan Z peubah acak normal baku dan V peubah acak chi-square dengan derajat bebas v. Bila Z dan V adalah peubah acak yang independen, maka distribusi dari


Rumus Distribusi Student t

Kasus

Misalkan siswa kelas 6 sekolah A yang menjadi sampel penelitian sebesar 50 orang, maka apabila hasilnya nanti misalkan rata-rata tinggi badan sebesar 145 cm. Apakah 145 cm ini berbeda signifikan secara statistik dengan rata-rata tinggi badan nasional kelas 6 adalah 150 cm pada tingkat kepercayaan penelitian 95%? Di sinilah fungsi dari uji t student untuk menjawab hipotesis tersebut.

mu0 = 145
n = 50
xbar = 150
s = 15
t = (xbar - mu0)/(s/sqrt(n))
p = pt(q = t, df = n-1, lower.tail = F)
cat(" t-value =", t,
    "df =", n-1,
    "p-value =", p)
##  t-value = 2.357023 df = 49 p-value = 0.01123112

Jadi, karena p-value < alpha = 0,05 maka, H0 ditolak yang artinya terdapat “perbedaan rata-rata tinggi badan antara sekolah A dan nasional”.

2 Confidence Interval

Interval kepercayaan

Untuk menaksir interval taksiran parameter θ dengan koefisien kepercayaan Y, maka sebuah sampel acak diambil, lalu hitung nilai-nilai statistik yang diperlukan. Perumusan dalam bentuk peluang untuk parameter θ antara A dan B:


Interval Kepercayaan dengan A dan B fungsi dari statistik, jadi merupakan variabel random, tidak bergantung pada θ.


Arti dari formula diatas adalah secara Y% percaya bahwa parameter θ akan ada didalam interval (A,B).

Interval Kepercayaan Rata-Rata

Misalkan sebuah populasi berukuran N dengan mean μ dan standar deviasi σ. Lalu, dihitung xbar dari μ dan s dari σ. Untuk memperoleh taksiran interval gunakan derajat kepercayaan yang lebih tinggi.

Simpangan Baku diketahui dan Populasi berdistribusi Normal

Untuk mengetahui perkiraan interval rata-rata populasi μ dengan varians σ yang diketahui dan juga mengukur akurasinya, gunakan rumus berikut


Interval Kepercayaan

Keterangan :
y = Koefisien kepercayaan
Z(1/2y) = Z-score dari tabel normal


Sebuah sampel acak terdiri dari 100 mahasiswa telah diambil dari sebuah universitas lain dengan nilai IQ-nya dicatat. Didapat xbar = 112 dan s = 10, maka berapa nilai taksiran interval dengan level kepercayaan 95%.

n = 100
xbar = 112
sigma = 10
sem = sigma/sqrt(n)
E = qnorm(0.975)*sem
int = xbar + c(-E, E)
cat("Rata-Rata =", xbar, "\n",
    "Interval Kepercayaan =", int)
## Rata-Rata = 112 
##  Interval Kepercayaan = 110.04 113.96

Jadi, didapat 95% interval kepercayaan untuk IQ rata-rata mahasiswa 112 adalah 110,04 < μ < 113,96.

Simpangan Baku tidak diketahui dan Populasi berdistribusi Normal

Kasus di mana standar deviasi populasi diasumsikan tidak diketahui maka, kita gunakan rumus dibawah ini:


Interval Kepercayaan

Keterangan :
y = Koefisien kepercayaan
tp = T-score dari tabel student t


Sebuah sampel acak terdiri dari 20 siswa SMA 4 Kab. Tangerang, tentukan perkiraan tinggi badan dan taksiran interval dengan level kepercayaan 95%.

data = read.table("Tinggibdn.csv", header=TRUE, sep=";")
t.test(data)
## 
##  One Sample t-test
## 
## data:  data
## t = 7.0865, df = 39, p-value = 1.631e-08
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##   60.52426 108.87574
## sample estimates:
## mean of x 
##      84.7

Jadi, didapat bahwa dengan 95% interval kepercayaan untuk tinggi badan rata-rata 84,7 adalah 60,52 < μ < 108,88.

Ukuran Sampel Rata-Rata

Dalam beberapa kasus, diketahui margin error, rata-rata, dan varians. Jika, kita ingin mengetahui berapa ukuran sampel yang diperlukan untuk memperkirakan interval kepercayaan, gunakan rumus dibawah ini


Interval Kepercayaan

Asumsikan standar deviasi populasi dari tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin error 1,2 cm pada tingkat kepercayaan 95%.

zstar = qnorm(0.975)
sigma = 9.48
E = 1.2
zstar^2*sigma^2/E^2
## [1] 239.7454

Jadi, untuk mencapai margin error 1,2 cm pada tingkat kepercayaan 95% dibutuhkan 239,75 sampel atau 240 sampel.

Interval Kepercayaan Populasi

Misalkan populasi berdistribusi binom berukuran N, terdapat proporsi π kejadian A. Maka interval kepercayaan untuk taksiran π dengan koefisien kepercayaan y% yaitu :


Interval Kepercayaan

dengan p = x/n dan q = 1 - p.


Misalkan kita ingin menaksir ada berapa persen anggota masyarakat berumur 15 tahun keatas yang termasuk ke dalam golongan A. Untuk ini sampel acak berukuran n = 1200 diambil yang menghasilkan 504 tergolong kategori A.

n = 1200
p = 504/n
SE = sqrt(p*(1-p)/n)
E = qnorm(0.975)*SE
int = p + c(-E, E)
cat("Proporsi =", p, "\n",
    "Interval Kepercayaan =", int)
## Proporsi = 0.42 
##  Interval Kepercayaan = 0.3920748 0.4479252

Jadi, didapat dari 95% interval kepercayaan untuk proporsi masyarakat golongan A 0,42 adalah 0,392 < π < 0,448.

Ukuran Sampel Proporsi

Untuk menentukan berapa banyak sampel yang dibutuhkan kita dapat menggunakan rumus ini


Interval Kepercayaan

Misalkan kita ingin menaksir berapa ukuran sampel yang diperlukan anggota masyarakat berumur 15 tahun keatas yang termasuk ke dalam golongan A, proporsi 42% dengan margin error adalah 2,78%.

zstar = qnorm(0.975)
p = 0.42
E = 0.0278
zstar^2*p*(1-p)/E^2
## [1] 1210.832

Jadi, untuk mencapai margin erro 2,78% pada tingkat kepercayaan 95% dibutuhkan 1210.832 sampel atau 1211 sampel.

3 Hypothesis Testing

Pada suatu hipotesis yang teah dibuat maka terdapat dua kemungkinan tindak lanjut yaitu pertama, menolak hipotesis atau menyimpulkan bahwa hipotesis tidak benar dan yang kedua menerima hipotesis dimana tidak cukup informasi dari sampel bahwa hipotesis harus kita tolak, artinya walaupun hipotesis itu kita terima tidak berarti hipotesis itu benar. Pembuatan rumusan pengujian hipotesis hendaknya membuat pernyataan hipotesis yang diharapkan akan ditolak disebut hipotesis nol (Ho). Penolakan hipotesis nol akan menjurus pada penerimaan hipotesis alternatif / tandingan ditulis H1.

One-Tailed

Pada uji satu arah, bila hipotesis nol H0: θ = θ0 dilawan dengan Hipotesis alternatif H1: θ > θ0 atau H1: θ < θ0 . Uji satu arah ditandai dengan adanya satu daerah penolakan hipotesis nol yang bergantung pada nilai kritis tertentu.


Daerah Penerimaan dan Penolakan satuarah

One-Tailed Rata-Rata diketahui Standar Deviasi

Hipotesis nol dari uji satu arah(kiri / kanan) dari rata-rata populasi μ dan σ dapat dinyatakan sebagai berikut:


Hipotesis Satu Arah Rata-Rata

Mari kita definisikan statistik pengujian z dalam hal rata-rata sampel, ukuran sampel dan standar deviasi populasi σ :


Uji Z

One-Tailed Rata-Rata tidak diketahui Standar Deviasi

Hipotesis nol dari uji satu ekor (kiri / kanan) dari rata-rata populasi μ dan tidak diketahui σ dapat dinyatakan sebagai berikut:


Hipotesis Satu Arah Rata-Rata

Mari kita definisikan statistik pengujian t dalam hal rata-rata sampel, ukuran sampel dan standar deviasi sampel s :


Uji T

One-Tailed Proporsi

Hipotesis nol uji satu arah kiri proporsi populasi dapat dinyatakan sebagai berikut:


Hipotesis Satu Arah Proporsi

Mari kita definisikan statistik pengujian z dalam hal proporsi sampel dan ukuran sampel:


Uji Z

Two-Tailed

Pada uji dua arah bila hipotesis nol H0: θ = θ0 dilawan dengan hipotesis alternatif H1 : θ ≠ θ0. Uji dua arah ditandai dengan adanya dua daerah penolakan hipotesis nol yang juga bergantung pada nilai kritis tertentu. Nilai kritis ini diperoleh dari tabel untuk nilai α/2 yang telah dipilih sebelumnya.


Daerah Penerimaan dan Penolakan duaarah

Two-Tailed Rata-Rata diketahui Standar Deviasi

Hipotesis nol dari uji dua arah populasi rata-rata μ μ dan σ dapat dinyatakan sebagai berikut:


Hipotesis Dua Arah Rata-Rata

Mari kita definisikan statistik pengujian z dalam hal rata-rata sampel, ukuran sampel dan standar deviasi populasi σ :


Uji Z

Two-Tailed Rata-Rata tidak diketahui Standar Deviasi

Hipotesis nol dari uji dua arah populasi rata-rata μ dan tidak diketahui σ dapat dinyatakan sebagai berikut:


Hipotesis Dua Arah Rata-Rata

Mari kita definisikan statistik pengujian t dalam hal rata-rata sampel, ukuran sampel dan standar deviasi sampel s:


Uji T

Two-Tailed Proporsi

Hipotesis nol dari uji dua arah tentang proporsi populasi dapat dinyatakan sebagai berikut:


Hipotesis Dua Arah Proporsi

mana p0 adalah nilai hipotesis dari proporsi populasi sebenarnya p. Mari kita definisikan statistik pengujian z dalam hal proporsi sampel dan ukuran sampel:


Uji Z

4 A/B Testing

A/B Testing

A/B testing adalah cari untuk membandingkan dua versi dari sesuatu untuk melihat mana yang bekerja lebih baik. Keuntungan menggunakan A/B testing bagi para pelaku bisnis adalah mereka mengetahui strategi periklanan dan pemasaran online yang dapat diterapkan pada bisnis mereka. Contoh A/B testing adalah ketika Kamu telah membuat situs web bisnismu sendiri dan ingin membandingkan dua warna berbeda untuk tombol CTA (Call to Action) Kamu.
Dalam hal ini, Kamu dapat membuat situs web dengan dua tombol berbeda. Sekarang bandingkan kedua situs web tersebut. Cari tahu situs web mana yang dikunjungi pengunjung dan lebih sering diklik.


Contoh A/B Testing

Gambar diatas menyimpulkan dengan menggunakan A/B testing kita dapat melihat perbandingan versi mana yang lebih menguntungkan. Untuk versi A jumlah sign-up ada 50 sedangkan, versi B jumlah sing-up ada 75. Maka, pengujian ini berhasil untuk menentukan mana versi yang terbaik.


Tujuan A/B Testing pada strategi periklanan
1. Meningkatkan Website Traffic
2. Meningkatkan Conversion Rate
3. Menurunkan Bounce Rate
4. Meningkatkan User Engagement

A/A Testing

Pengaturan A/A Testing yang paling khas adalah pemisahan 50/50 antara dua halaman yang identik. Dalam A/B Testing, tujuannya adalah untuk menemukan tingkat konversi yang lebih tinggi sedangkan, dalam A/A Testing, tujuannya untuk memeriksa apakah variasi memiliki peningkatan yang sama.

5 Goodness of Fit

Uji goodness of fit digunakan untuk menguji apakah data sampel sesuai dengan distribusi dari populasi tertentu (yaitu populasi dengan distribusi normal atau populasi dengan distribusi Weibull). Dengan kata lain, ini memberi tahu Anda jika data sampel Anda mewakili data yang Anda harapkan untuk ditemukan dalam populasi aktual. Goodness of fit test yang biasa digunakan dalam statistik adalah:
1. Chi-square.
2. Kolmogorov-Smirnov.
3. Anderson-Darling.
4. Shipiro-Wilk.

Chi-Square

Chi-square ( χ2 ) adalah melakukan uji hipotesis untuk proporsi satu atau lebih variabel kategoris multinomial. Statistik pengujian atau Rumus untuk mengukur perbedaan frekuensi observasi dan frekuensi diharpakan menggunakan rumus dibawah ini.

Rumus Chi-Kuadrat

Keterangan
χ2 = Chi-Square
O = Frekuensi sampel
e = Frekuensi harapan

Keuntungan

Beberapa keuntungan dari uji Chi-Square, yaitu antara lain:
a. Konsep uji Chi-Square dalam statistik nonparametrik mudah untuk dimengerti.
b. Dapat digunakan untuk menganalisa data yang berbentuk hitungan maupun peringkat(rank).
c. Perhitungan yang harus dilakukan pada umumnya sederhana dan mudah, khususnya untuk data yang kecil.

Kerugian

Beberapa kerugian dari uji Chi-Square, yaitu:
a. Uji ini sensitif terhadap banyaknya sampel yang digunakan.
b. Uji Chi-Square hanya memberikan informasi tentang ada atau tidaknya hubungan antara kedua variabel.
c. Uji Chi-Square hanya bagus digunakan untuk skala data nominal untuk kedua variabel yang diuji.

6 Non-Parametric Methods

Metode statistik disebut non-parametrik jika tidak membuat asumsi pada distribusi populasi atau ukuran sampel. Metode non-parametrik digunakan untuk menganalisis data ketika asumsi distribusi dari prosedur yang lebih umum tidak terpenuhi. Sebagai contoh, banyak prosedur statistik mengasumsikan bahwa distribusi kesalahan yang mendasarinya adalah Gaussian, karenanya meluasnya penggunaan sarana dan standar deviasi. Ketika distribusi kesalahan tidak diketahui, uji statistik non-parametrik mungkin lebih aman untuk diterapkan.
Secara umum, kesimpulan yang diambil dari metode non-parametrik tidak sekuat yang parametrik. Namun, karena metode non-parametrik membuat lebih sedikit asumsi, mereka lebih fleksibel, lebih kuat, dan berlaku untuk data non-kuantitatif.

Sign Test

Sign test digunakan untuk memutuskan apakah distribusi binomial memiliki peluang keberhasilan dan kegagalan yang sama.


Sebuah perusahaan minuman ringan telah menemukan minuman baru dan ingin mengetahui apakah itu akan sepopuler minuman favorit yang ada. Untuk tujuan ini, departemen penelitiannya mengatur 18 peserta untuk pengujian rasa. Setiap peserta mencoba kedua minuman secara acak sebelum memberikan pendapatnya. Ternyata 5 peserta lebih menyukai minuman baru, dan sisanya lebih suka yang lama. Pada tingkat signifikansi 05, dapatkah kita menolak anggapan bahwa kedua minuman itu sama-sama populer?

binom.test(5,18)
## 
##  Exact binomial test
## 
## data:  5 and 18
## number of successes = 5, number of trials = 18, p-value = 0.09625
## alternative hypothesis: true probability of success is not equal to 0.5
## 95 percent confidence interval:
##  0.09694921 0.53480197
## sample estimates:
## probability of success 
##              0.2777778

Pada tingkat signifikansi 05, kami tidak menolak anggapan bahwa kedua minuman tersebut sama-sama populer.

Wilcoxon Signed-Rank Test

Dua sampel data dicocokkan jika mereka berasal dari pengamatan berulang dari subjek yang sama. Dengan menggunakan Wilcoxon Signed-Rank Test, kita dapat memutuskan apakah distribusi populasi data yang sesuai identik tanpa mengasumsikan mereka mengikuti distribusi normal.

Mann-Whitney-Wilcoxon Test

Dua sampel data independen jika mereka berasal dari populasi yang berbeda dan sampel tidak saling mempengaruhi. Dengan menggunakan Uji Mann-Whitney-Wilcoxon, kita dapat memutuskan apakah distribusi populasi identik tanpa mengasumsikan mereka mengikuti distribusi normal.

Kruskal-Walls Test

Uji Kruskal-Wallis berdasarkan peringkat adalah alternatif non-parametrik untuk uji ANOVA satu arah, yang memperluas uji Wilcoxon dua sampel dalam situasi di mana ada lebih dari dua kelompok. Kumpulan sampel data bersifat independen jika berasal dari populasi yang tidak terkait dan sampel tidak saling mempengaruhi. Dengan menggunakan Uji Kruskal-Wallis, kita dapat memutuskan apakah distribusi populasi identik tanpa mengasumsikan mereka mengikuti distribusi normal.

7 Simple Linear Regression

Model regresi biasanya kita menggambarkan hubungan antara satu atau lebih variabel penjelas dan mungkin satu atau lebih variabel respons. Penerapan regresi linear sederhana dapat ditemukan secara luas di berbagai bidang seperti bidang pertanian, ekonomi, medis dan pendidikan. Contohnya antara lain:
1. Pengaruh jumlah pupuk terhadap produksi pertanian.
2. Pengaruh IQ terhadap IPK.
3. Pengaruh berat badan terhadap tekanan darah.
4. Pengaruh penghasilan terhadap tingkat inflasi.


Secara umum, persamaan regresi linear sederhana dapat ditulis sebagai berikut:


Persamaan Regresi Linear Sederhana

Pada persamaan diatas y merupakan variabel depende, x merupakan variabel independen, β0 merupakan konstanta (Intercept), β1 merupakan koefisien (Slope) dan e adalah variabel pengganggu atau residual. Persamaan regresi linear sederhana dapat dibuat dalam grafik kartesius, sebagai berikut:


Grafik Regresi Linear Sederhana

Normality Test

Uji kenormalan pada regresi digunakan untuk menguji apakah nilai residual yang dihasilkan dari regresi terdistribusi secara normal atau tidak. Model regresi yang baik adalah yang memiliki nilai residual yang terdistribusi secara normal. Langkah-langkah uji kenormalan :
Langkah 1 : Hipotesis, H0 (berdistribusi Normal) atau H1 (tidak berdistribusi Normal)
Langkah 2 : Tingkat signifikansi (α)
Langkah 3 : Uji statistik
Langkah 4 : Keputusan terima H0 jika p-value > α
Langkah 5 : Kesimpulan

Metode Estimasi Parameter

Koefisien regresi β0 dan β1 merupakan parameter dan nilainya tidak diketahui, tetapi parameter tersebut dapat diestimasikan dari data sampel. Terdapat dua metode estimasi yang biasa digunakan untuk mengestimatinya, yaitu:
a. Ordinary Least Square (OLS)
b. Metode Maksimum Likelihood (MML)

Ordinary Least Square (OLS)

Jika mempunyai sampel berukuran n, yaitu (xi,yi) dimana i = 1,2,…,n dari sebuah populasi, maka:


OLS Regresi Linear Sederhana

Dengan,

Error OLS

SSE merupakan jumlah kuadrat kesalahan garis regresi, sehingga :

SSE OLS

untuk menghitung estimasi dari β0 maka gunakan rumus ini

β0 OLS

Sedangkan estimasi dari β1 dapat diperoleh dengan menurunkan error terhadap β1. Sehingga diperoleh:

β1 OLS

8 Inference in Linear Regression

Inferensi dalam analisis regresi sederhana dilakukan pada masing-masing parameternya, yaitu:

Inference about α

Interval kepercayaan untuk α, pada tingkat kepercayaan (1-φ)100% adalah:

Interval Kepercayaan α

Uji hipotesis untuk α digunakan untuk mengetahui apakah garis regresi melalui titik pusat atau tidak.
H0 : α = 0 (garis regresi melalui titik pusat)
H1 : α ≠ 0 (sebaliknya)
Karena H0 : α = 0 maka statistik uji yang digunakan adalah:

Inferensi α

Inference about β

Untuk inferensi tentang β dapat digunakan transformasi. Parameter β berdistribusi t dengan derajat bebas (n-2) adalah:

Interval kepercayaan β

Uji hipotesis untuk β digunakan untuk mengetahui hubungan linear antara variabel depende (Y) dengan variabel independen (X).
H0 : β = 0 (Tidak terdapat hubungan linear antara Y dan X)
H1 : β ≠ 0 (Sebaliknya)
Karena β = 0, maka statistik uji yang digunakan adalah:

Inferensi β

9 Multiple Linear Regression

Sebagian besar analisis regresi melibatkan penggunaan lebih dari satu regresi. Model untuk regresi linear berganda adalah:

Persamaan Regresi Linear Berganda

Assumption 1 : Linearity

Pemodelan regresi linier mengasumsikan bahwa hubungan antara hasil dan masing-masing Variabel penjelas adalah linier, namun ini mungkin tidak selalu terjadi.
Misal terdapat dua plot yang menunjukan linear (kiri) dan non-linear (kanan).

Plot Linearity

Pada bagian kanan, menggunakan variabel HourlyWage (Y) dan Age (X). Pada plot terlihat membentuk pola non-linear maka, kita dapat melakukan transformasi hubungan kuadrat log antara HourlyWage dengan Age.
Persamaan sebelum ditransformasi

Persamaan Linearity

Persamaan setelah dilakukan transformasi

Persamaan Log Linearity

Assumption 2 : Normal Distribution of Residuals

Nilai terurut dari residu standar diplot terhadap nilai yang diharapkan dari distribusi normal standar. Jika residu terdistribusi normal, mereka harus lie, approximately, pada diagonal.

Perbandingan Plot

Contoh plot kiri menunjukkan plot untuk regresi linier sederhana dan plot kanan menunjukkan plot untuk regresi linier berganda. Kita dapat melihat bahwa garis menyimpang dari diagonal di plot kiri, sedangkan di contoh plot kanan garis lebih dekat dengan diagonal. Contoh regresi linier berganda di sini memiliki residu yang mengikuti distribusi normal lebih dekat. Kita bisa menggunakan pengujian untuk normalitas seperti statistik Shapiro-Wilk atau Kolmogorov-Smirov.

Plot Lonceng

Pada plot diatas menunjukkan bahwa distibusi normal berbentuk pola lonceng dimana regresi linear berganda lebih baik dalam mengikuti distribusi normal.

Assumption 3 : Homoscedasticity

Homoskedastisitas mengacu pada distribusi residu atau istilah kesalahan. Jika asumsi ini berlaku maka istilah kesalahan memiliki varians konstan – dengan kata lain, kesalahan untuk setiap pengamatan tidak bergantung pada variabel apa pun dalam model.

Assumption 4 : Multicolinearity

Ketika dua variabel penjelas dalam model sangat berkorelasi (dan karena itu dapat digunakan untuk memprediksi satu sama lain), kita mengatakan bahwa mereka collinear.
Dalam model kami, mungkin variabel-variabel ini sebenarnya mewakili faktor-faktor sosial yang sama yang mempengaruhi tingkat penyakit - kita dapat menyelidiki ini dengan menghapus salah satu variabel dan menghasilkan model alternatif.

10 Logistic Regression

Regresi logistik digunakan untuk memprediksi kelas (atau kategori) individu berdasarkan satu atau beberapa variabel prediktor (x). Ini digunakan untuk memodelkan hasil biner, yaitu variabel, yang hanya dapat memiliki dua nilai yang mungkin: 0 atau 1, ya atau tidak, sakit atau tidak sakit.
Fungsi regresi logistik standar, untuk memprediksi hasil pengamatan yang diberikan variabel prediktor (x), adalah kurva berbentuk s dimana persamaan untuk model regresi ini adalah:

Persamaan Logistik Regresi

Contoh kurva Logistik Regresi

11 ANOVA

ANOVA menguji apakah ada perbedaan mean kelompok pada setiap tingkat variabel independen. Metode statistik ini merupakan perpanjangan dari uji statistik untuk memperkirakan bagaimana variabel dependen kuantitatif berubah sesuai dengan tingkat satu atau lebih variabel independen kategoris.

Assumptions

Pada uji ANOVA juga sama dengan regresi memiliki asumsi pada pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
Perhatikan bahwa jika asumsi di atas tidak terpenuhi ada alternatif non-parametrik (uji Kruskal-Wallis) untuk ANOVA satu arah.

ANOVA one-way

Satu faktor tetap (tingkat yang ditetapkan oleh peneliti) yang dapat memiliki jumlah pengamatan yang tidak sama (tidak seimbang) atau sama (seimbang) per kombinasi perlakuan. Analisis varians satu arah, juga dikenal sebagai ANOVA satu faktor, adalah perpanjangan dari uji t dua sampel independen untuk membandingkan rata-rata dalam situasi di mana ada lebih dari dua kelompok. Berikut persamaan ANOVA satu arah:

Persamaan ANOVA one-way

Hipotesis ANOVA satu arah adalah:

Hipotesis ANOVA one-way

Kita kemudian akan menguraikan varians, seperti yang telah kita lihat sebelumnya dalam regresi. Variasi total mengukur seberapa banyak pengamatan bervariasi tentang rata-rata sampel keseluruhan, mengabaikan kelompok.

Varians Total ANOVA

Variasi antara kelompok melihat seberapa jauh rata-rata sampel individu dari rata-rata sampel keseluruhan.

Varians antar Kelompok ANOVA

Terakhir, variasi dalam kelompok mengukur seberapa jauh pengamatan dari rata-rata sampel kelompoknya.

Varians dalam Kelompok ANOVA

Tabel ANOVA satu arah

Tabel ANOVA one-way

ANOVA two-ways

ANOVA dua arah ini digunakan bila sumber keragaman yang terjadi tidak hanya karena satu faktor (perlakuan).Faktor lain yang mungkin menjadi sumber keragaman respon juga harus diperhatikan. Tujuan dan pengujian ANOVA 2 arah ini adalah untuk mengetahui apakah ada pengaruh dari berbagai kriteria yang diuji terhadap hasil yang diinginkan. Misal, seorang manajer teknik menguji apakah ada pengaruh antara jenis pelumas yang dipergunakan pada roda pendorong dengan kecepatan roda pendorong terhadap hasil penganyaman sebuah karung plastik pada mesin circular. Berikut tabel ANOVA dua arah:

Tabel ANOVA two-ways

dimana JKB = SSB, JKK = SSW, dan JKT = SST.

12 RM-ANOVA

ANOVA repeated-measures digunakan untuk menganalisis data di mana subjek yang sama diukur lebih dari sekali. Misal kita mempunyai tiga faktor yaitu sex(2 levels), age(4 levels), dan person(27 levels). Kami memperlakukan usia sebagai variabel kategoris. Ini memberi kita fleksibilitas maksimal karena kita tidak perlu peduli dengan bentuk fungsional dari efek usia. Maka model yang kita peroleh adalah

Persamaan RM-ANOVA

dengan i = sex, j = person, k = time-point.

Assumptions

Pada uji RM-ANOVA juga sama dengan ANOVA memiliki asumsi pada pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Perbedaan antar kelompok harus sama.
Perhatikan bahwa: Jika asumsi di atas tidak terpenuhi, ada alternatif non-parametrik (uji Friedman) untuk tindakan berulang satu arah ANOVA.

13 Mixed Effects ANOVA

ANOVA campuran digunakan untuk membandingkan rata-rata kelompok yang diklasifikasikan silang oleh dua jenis variabel faktor yang berbeda.

Persamaan Mixed Effects ANOVA

Assumptions

Pada uji Mixed Effects ANOVA juga sama dengan ANOVA memiliki asumsi pada pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Perbedaan antar kelompok harus sama.
5. Matriks kovarians harus sama diseluruh sel yang dibentuk oleh faktor antar-subjek.

14 ANCOVA

ANCOVA merupakan perpaduan antara analysis of variance (ANOVA) dan regresi. Ini mirip dengan ANOVA faktorial, karena dapat memberi tahu Anda informasi tambahan apa yang bisa Anda dapatkan dengan mempertimbangkan satu variabel independen (faktor) pada satu waktu, tanpa pengaruh yang lain. Ini dapat digunakan sebagai:
1. Perpanjangan regresi berganda untuk membandingkan garis regresi berganda.
2. Perpanjangan analisis varians.

Assumptions

Pada uji ANCOVA juga sama dengan ANOVA memiliki asumsi pada pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Linearitas antara kovariat dan variabel hasil pada setiap tingkat variabel pengelompokan.
5. Kemiringan garis regresi, yang dibentuk oleh kovariat dan variabel hasil, harus sama untuk setiap kelompok.

15 MANOVA

Multivariate Analysis Of Variance (MANOVA) adalah ANOVA dengan dua atau lebih variabel hasil (atau respons) berkelanjutan. Perhatikan bahwa, MANOVA sesuai dalam situasi eksperimental, di mana kita memiliki beberapa variabel hasil (dependen) yang semuanya mengukur aspek yang berbeda dari beberapa tema kohesif.

Assumptions

Pada uji MANOVA juga sama dengan ANOVA memiliki asumsi pada pengujiannya.
1. Populasi-populasi yang akan diuji berdistribusi normal.
2. Varians untuk masing-masing populasi adalah sama.
3. Sampel tidak berhubungan satu sama lain.
4. Linearitas antara semua pasangan variabel dependen, semua pasangan kovariat, dan semua pasangan variabel-kovariat dependen di setiap sel.

Referensi :

https://bookdown.org/BaktiSiregar/data-science-for-beginners-part-2/2-Confidence-Intervals.html https://drive.google.com/file/d/1LhNFruU4B9_DPvzTqEYTMutR6qrryMO3/view https://medium.com/statistics-uii/distribusi-peluang-dengan-r-b50bd0c7973a http://www.lelyria.lecture.ub.ac.id/files/2015/09/4.-Distribusi-probabilitas-summary.pdf https://repository.unikom.ac.id/32853/1/INTERVAL%20KEPERCAYAAN.pdf http://eprints.binadarma.ac.id/9234/1/PER%2014_Pengantar%20Pengujian%20Hipotesis%282020-2021%29Genap_UNIVERSITAS%20BINA%20DARMA.pdf https://www.researchgate.net/publication/340511441_Regresi_Linear_Sederhana https://www.researchgate.net/publication/368578080_INFERENSI_MODEL_REGRESI_LINEAR_UNTUK_EKSPOR_DAN_IMPOR_PROVINSI_KALIMANTAN_SELATAN_TAHUN_2020 https://www.researchgate.net/publication/357992043_Machine_Learning_-Regression https://hummedia.manchester.ac.uk/institutes/cmist/archive-publications/working-papers/2020/multiple-linear-regression.pdf https://www2.stat.duke.edu/courses/Spring13/sta102.001/Lec/Lec20.pdf http://www.sthda.com/english/articles/36-classification-methods-essentials/151-logistic-regression-essentials-in-r/?authuser=1 http://fe.unisma.ac.id/MATERI%20AJAR%20DOSEN/STATS/AriRiz/MA%20Anova.pdf https://pendidikan-akuntansi.fe.uny.ac.id/sites/pendidikan-akuntansi.fe.uny.ac.id/files/Modul%202%20(ANOVA).pdf https://ethz.ch/content/dam/ethz/special-interest/math/statistics/sfs/Education/Advanced%20Studies%20in%20Applied%20Statistics/course-material-1719/Repeated/2_rm_anova.pdf