A/B Testing

Lab 5 - Unit 4


Kontak : \(\downarrow\)
Email
Instagram https://www.instagram.com/saram.05/
RPubs https://rpubs.com/sausanramadhani/

Matched Samples

Pada built-in dataset immer, sudah tercatat hasil jelainya pada tahun 1931 dan 1932 di bidang yang sama. Data hasil disajikan dalam kolom data frame Y1 dan Y2.

library(MASS)
DT::datatable(immer)

Exercise 18

Perkirakan selisih rata-rata sampel yang cocok (matched sample) menggunakan formula textbookmu.

Jawaban dan Penjelasannya

Y1.immer = immer$Y1
Y2.immer = immer$Y2
beda = Y1.immer - Y2.immer

n = length(beda) ; n
## [1] 30
d = mean(beda) ; d
## [1] 15.91333
s = sqrt((1/(n-1))*sum(beda^2)) ; s
## [1] 30.81475

Dengan didapatnya selisih tiap nilai pada tahun 1931 dan 1932, kita bisa dapatkan banyaknya nilai selisih tersebut ada 30. Kemudian, kita dapatkan rata-ratanya sebesar 15.91333 dan standar deviasinya sebesar 30.81475.

alpha = 1-0.95 ; alpha
## [1] 0.05
t = qt(1-(alpha/2), df = n-1)
E =  c(-t,t) * (s/sqrt(n)); E
## [1] -11.50642  11.50642

Dengan menggunakan 95% confidence level, kita dapatkan t sebesar -11.50642 dengan eror 11.50642.

Interval = round(d+E, digits = 3) ; Interval
## [1]  4.407 27.420

Dari rata-rata selisih nilai pada tahun 1931 dan 1932 yang sudah ditemukan yaitu sebesar 15.91333, didapatkan confidence intervalnya antara 4.407 dan 27.420.

Independent Samples

Pada kolom dataframe mpg di dataset mtcars, terdapat gas mileage data di various 1974 U.S automobiles.

DT::datatable(mtcars)

Exercise

Estimasikan perbedaan antara dua proporsi populasi menggunakan formula textbookmu.

Jawaban dan Penjelasannya

L = mtcars$am == 0
mpg.auto = mtcars[L,]$mpg 
mpg.manual = mtcars[!L,]$mpg

n.auto = length(mpg.auto)
n.manual = length(mpg.manual)
auto.bar = mean(mpg.auto)
manual.bar = mean(mpg.manual)
s.auto = sd(mpg.auto)
s.manual = sd(mpg.manual)
alpha = 1-0.95
t. = qt(1-(alpha/2), df = n.auto+n.manual-2) ; t.
## [1] 2.042272
t = (auto.bar-manual.bar) / (sqrt(((((n.manual-1)*s.manual^2)+((n.auto-1)*s.auto^2)) / (n.manual+n.auto - 2))*((1/n.manual)+(1/n.auto))))

Didapatkan t. sebesar 2.042272. Kemudian kita cari intervalnya.

lower = (auto.bar-manual.bar) - t. * sqrt((s.auto)^2/(n.auto)+(s.manual)^2/(n.manual))
lower
## [1] -11.17264
upper = (auto.bar-manual.bar) + t. * sqrt((s.auto)^2/(n.auto)+(s.manual)^2/(n.manual))
upper
## [1] -3.317237

Berdasarkan hasil di atas, confidence intervalnya antara -11.17264 dan -3.317237.

Comparison Proportions

Pada built-in dataset bernama quine, anak-anak asal Australia sudah terklasifikasi berdasarkan latarbelakang etnis, gender, umur, status pembelajaran dan jumlah hari absen sekolah. Dengan demikian, kolom dataframe Eth mengidentifikasi baik siswa aboriginal ataupun tidak (“A” atau “N”), dan kolom sex mengidentifikasi male atau female (“M” atau “F”). Asumsikan bahwa data quine menggunakan distribusi normal.

library(MASS)
DT::datatable(quine)
table(quine$Eth, quine$Sex)
##    
##      F  M
##   A 38 31
##   N 42 35

Exercise

Estimasikan perbedaan antara dua proporsi populasi menggunakan formula textbookmu.

Jawaban dan Penjelasannya

n1 = 38+31
n2 = 42+35

# female
AF = 38/n1
NF = 42/n2

p.bar = (38+42)/(n1+n2)
p.bar
## [1] 0.5479452

Dengan menggunakan data Eth female, didapatkan rata-rata proporsi sebesar 0.5479452.

Untuk lebih mengetahui detailnya, kita bisa mencari confidence interval data tersebut. Sebelum mencari confidence intervalnya, kita harus menemukan standar deviasinya terlebih dahulu.

s = sqrt(((AF*(1-AF))/n1)+((NF*(1-NF))/n2))
s
## [1] 0.08249739

Didapatkan standar deviasinya sebesar 0.08249739.

alpha = 0.05
z = 1.96

lower = (AF-NF)-z*s
lower
## [1] -0.1564248
upper = (AF-NF)+z*s
upper
## [1] 0.166965

Dengan 95% confidence level dan nilai z 1.96, diperoleh confidence intervalnya antara -0.1564248 dan 0.166965.