1 Mathced Samples

Pada bagian pertama ini, kita akan mencoba untuk menentukan selang kepercayaan untuk hasil panen dari tahun ke tahun seperti apa dan kita akan melihat apakah ada perbedaan yang signifikan atau tidak. Dalam kasus ini, kita akan menggunakan dataset immer yang terdapat pada library MASS dan pada dataset ini terdiri dari beberapa variabel, tapi kita akan gunakan 2 variabel saja, yaitu Y1 dan Y2.

library(MASS)

DT::datatable(immer)

1.1 Pengujian

Kita sudah memanggil untuk dataset immer tersebut, sehingga kita bisa lanjut untuk memperkirakan selang kepercayaan yang tepat dengan langkah sebagai berikut.

Y1 = immer$Y1
Y2 = immer$Y2

diff = Y1-Y2

n = length(diff)
d = mean(diff)
sigma = sqrt((1/(n-1))*sum(diff^2))

alpha = 0.05

sd = sigma/sqrt(n)

e = qnorm(0.975) * sd

e

## [1] 11.02671

Berdasarkan hasil tersebut dapat diketahui bahwa nilai error adalah 11.02671 dan untuk langkah selanjutnya adalah menentukan point estimate terlebih dahulu sebelum mencari selang kepercayaannya.

## [1] 15.91333

Di dapat untuk nilainya adalah seperti di atas, sehingga kita dapat menentukan untuk selangnya.

int_conf <- d + c(-e, e)

int_conf

## [1]  4.886618 26.940048

Kesimpulannya adalah untuk rata-rata panen Barley pada tahun 1931 dan 1932 dapat diperkirakan di antara 4.88 < x < 26.94

Selanjutnya, kita bisa mencari p-value dengan cara seperti berikut ini. Akan tetapi, sebelum mencari p-value sudah seharusnya untuk menentukan Hipotesis dan kriteria pengujian, dimana:

H0 : Rata-rata tahun 1931 dan 1932 tidak berbeda
H1 : Rata-rata tahun 1931 dan 1932 berbeda

Dengan kriteria uji :

Jika p-value < taraf signifikan, maka tolak H0. Dimana, pada kasus ini kita akan menggunakan taraf signifikan 0.05

n1 <- length(immer$Y1)
n2 <- length(immer$Y2)
x1_bar <- mean(immer$Y1)
x2_bar <- mean(immer$Y2)
s1 <- sd(immer$Y1)
s2 <- sd(immer$Y2)


sd <- sqrt(((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2))


t_stat <- (x1_bar - x2_bar) / (sd * sqrt(1/n1 + 1/n2))


df <- n1 + n2 - 2


p_value <- 2 * pt(-abs(t_stat), df)


cat("t = ", t_stat, ", p-value = ", p_value, "\n")

## t =  2.319955 , p-value =  0.0238836

Didapat p-value sebesar 0.0238836 maka dapat kita pastikan bahwa p-value < taraf signifikansi, sehingga kita menolak H0 yang artinya rata-rata panen Barleys pada tahun 1931 dan 1932 berbeda secara signifikan.

2 Independent Samples

Pada bagian ini, kita mengembangkan metodologi sampel besar dan sampel kecil untuk membandingkan dua rata-rata populasi. Perhatikan bahwa dalam kasus sampel kecil kami menggunakan t-statistik. Rata-Rata Populasi Antara Dua Sampel Independen Dua sampel data dikatakan independen jika berasal dari populasi yang tidak berhubungan dan sampel tersebut tidak saling mempengaruhi. Di sini, kita mengasumsikan bahwa populasi data mengikuti distribusi normal.

data(mtcars)

mpg_manual <- mtcars$mpg[mtcars$am == 1]
mpg_auto <- mtcars$mpg[mtcars$am == 0]

mean_manual <- mean(mpg_manual)
mean_auto <- mean(mpg_auto)
sd_manual <- sd(mpg_manual)
sd_auto <- sd(mpg_auto)

se_diff <- sqrt((sd_manual^2 / length(mpg_manual)) + (sd_auto^2 / length(mpg_auto)))

t_stat <- (mean_manual - mean_auto) / se_diff


df <- length(mpg_manual) + length(mpg_auto) - 2


t_crit <- qt(0.025, df)


me <- t_crit * se_diff


conf_int <- c((mean_auto - mean_manual) + me, (mean_auto - mean_manual) - me)

conf_int

## [1] -11.172642  -3.317237

Menggunakan cara tersebut kita mendapat hasil estimasi perbedaan proporsi populasi menggunakan cara manual, untuk estimasinya adalah -11.17 < x < -3.32

3 Comparison Proportions

Survei yang dilakukan pada dua populasi berbeda akan menghasilkan hasil yang berbeda. Seringkali perlu untuk membandingkan proporsi respons survei antara dua populasi. Di sini, kita mengasumsikan bahwa populasi data mengikuti distribusi normal.
Pada built-in dataset bernama quine, anak-anak asal Australia sudah terklasifikasi berdasarkan latarbelakang etnis, gender, umur, status pembelajaran dan jumlah hari absen sekolah. Dengan demikian, kolom dataframe Eth mengidentifikasi baik siswa aboriginal ataupun tidak (“A” atau “N”), dan kolom sex mengidentifikasi male atau female (“M” atau “F”). Asumsikan bahwa data quine menggunakan distribusi normal.

DT::datatable(quine)

table(quine$Eth, quine$Sex)

##    
##      F  M
##   A 38 31
##   N 42 35

females <- quine[quine$Sex == "F",]


ab_females <- females[females$Eth == "A",]


na_females <- females[females$Eth == "N",]

n1 = 38+31
n2 = 42+35

p_ab_f <- nrow(ab_females) / n1


p_na_f <- nrow(na_females) / n2


se_diff <- sqrt((p_ab_f * (1 - p_ab_f) / n1) + (p_na_f * (1 - p_na_f) / n2))


z_crit <- qnorm(0.025)


me <- z_crit * se_diff


conf_int <- c((p_ab_f - p_na_f) + me, (p_ab_f - p_na_f) - me)

conf_int

## [1] -0.1564218  0.1669620

Berdasarkan hasil tersebut didapat estimasi perbedaan proporsi perempuan etnis Aboriginal adalah -0.156 < x < 0.167 dengan selang kepercayaan 95%

A/B Testing

Valensius Jimy

March 07, 2023

1 Mathced Samples

1.1 Pengujian

2 Independent Samples

3 Comparison Proportions