Pada bagian pertama ini, kita akan mencoba untuk menentukan selang kepercayaan untuk hasil panen dari tahun ke tahun seperti apa dan kita akan melihat apakah ada perbedaan yang signifikan atau tidak. Dalam kasus ini, kita akan menggunakan dataset immer yang terdapat pada library MASS dan pada dataset ini terdiri dari beberapa variabel, tapi kita akan gunakan 2 variabel saja, yaitu Y1 dan Y2.
library(MASS)DT::datatable(immer)Kita sudah memanggil untuk dataset immer tersebut, sehingga kita bisa lanjut untuk memperkirakan selang kepercayaan yang tepat dengan langkah sebagai berikut.
Y1 = immer$Y1
Y2 = immer$Y2
diff = Y1-Y2
n = length(diff)
d = mean(diff)
sigma = sqrt((1/(n-1))*sum(diff^2))
alpha = 0.05sd = sigma/sqrt(n)
e = qnorm(0.975) * sd
e## [1] 11.02671
Berdasarkan hasil tersebut dapat diketahui bahwa nilai error adalah 11.02671 dan untuk langkah selanjutnya adalah menentukan point estimate terlebih dahulu sebelum mencari selang kepercayaannya.
d## [1] 15.91333
Di dapat untuk nilainya adalah seperti di atas, sehingga kita dapat menentukan untuk selangnya.
int_conf <- d + c(-e, e)
int_conf## [1] 4.886618 26.940048
Kesimpulannya adalah untuk rata-rata panen Barley pada tahun 1931 dan 1932 dapat diperkirakan di antara 4.88 < x < 26.94
Selanjutnya, kita bisa mencari p-value dengan cara seperti berikut ini. Akan tetapi, sebelum mencari p-value sudah seharusnya untuk menentukan Hipotesis dan kriteria pengujian, dimana:
Dengan kriteria uji :
n1 <- length(immer$Y1)
n2 <- length(immer$Y2)
x1_bar <- mean(immer$Y1)
x2_bar <- mean(immer$Y2)
s1 <- sd(immer$Y1)
s2 <- sd(immer$Y2)
sd <- sqrt(((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2))
t_stat <- (x1_bar - x2_bar) / (sd * sqrt(1/n1 + 1/n2))
df <- n1 + n2 - 2
p_value <- 2 * pt(-abs(t_stat), df)
cat("t = ", t_stat, ", p-value = ", p_value, "\n")## t = 2.319955 , p-value = 0.0238836
Didapat p-value sebesar 0.0238836 maka dapat kita pastikan bahwa p-value < taraf signifikansi, sehingga kita menolak H0 yang artinya rata-rata panen Barleys pada tahun 1931 dan 1932 berbeda secara signifikan.
Pada bagian ini, kita mengembangkan metodologi sampel besar dan sampel kecil untuk membandingkan dua rata-rata populasi. Perhatikan bahwa dalam kasus sampel kecil kami menggunakan t-statistik. Rata-Rata Populasi Antara Dua Sampel Independen Dua sampel data dikatakan independen jika berasal dari populasi yang tidak berhubungan dan sampel tersebut tidak saling mempengaruhi. Di sini, kita mengasumsikan bahwa populasi data mengikuti distribusi normal.
data(mtcars)
mpg_manual <- mtcars$mpg[mtcars$am == 1]
mpg_auto <- mtcars$mpg[mtcars$am == 0]
mean_manual <- mean(mpg_manual)
mean_auto <- mean(mpg_auto)
sd_manual <- sd(mpg_manual)
sd_auto <- sd(mpg_auto)
se_diff <- sqrt((sd_manual^2 / length(mpg_manual)) + (sd_auto^2 / length(mpg_auto)))
t_stat <- (mean_manual - mean_auto) / se_diff
df <- length(mpg_manual) + length(mpg_auto) - 2
t_crit <- qt(0.025, df)
me <- t_crit * se_diff
conf_int <- c((mean_auto - mean_manual) + me, (mean_auto - mean_manual) - me)
conf_int## [1] -11.172642 -3.317237
Menggunakan cara tersebut kita mendapat hasil estimasi perbedaan proporsi populasi menggunakan cara manual, untuk estimasinya adalah -11.17 < x < -3.32
Survei yang dilakukan pada dua populasi berbeda akan menghasilkan hasil yang berbeda. Seringkali perlu untuk membandingkan proporsi respons survei antara dua populasi. Di sini, kita mengasumsikan bahwa populasi data mengikuti distribusi normal.
Pada built-in dataset bernama quine, anak-anak asal Australia sudah terklasifikasi berdasarkan latarbelakang etnis, gender, umur, status pembelajaran dan jumlah hari absen sekolah. Dengan demikian, kolom dataframe Eth mengidentifikasi baik siswa aboriginal ataupun tidak (“A” atau “N”), dan kolom sex mengidentifikasi male atau female (“M” atau “F”). Asumsikan bahwa data quine menggunakan distribusi normal.
DT::datatable(quine)table(quine$Eth, quine$Sex)##
## F M
## A 38 31
## N 42 35
females <- quine[quine$Sex == "F",]
ab_females <- females[females$Eth == "A",]
na_females <- females[females$Eth == "N",]
n1 = 38+31
n2 = 42+35
p_ab_f <- nrow(ab_females) / n1
p_na_f <- nrow(na_females) / n2
se_diff <- sqrt((p_ab_f * (1 - p_ab_f) / n1) + (p_na_f * (1 - p_na_f) / n2))
z_crit <- qnorm(0.025)
me <- z_crit * se_diff
conf_int <- c((p_ab_f - p_na_f) + me, (p_ab_f - p_na_f) - me)
conf_int## [1] -0.1564218 0.1669620
Berdasarkan hasil tersebut didapat estimasi perbedaan proporsi perempuan etnis Aboriginal adalah -0.156 < x < 0.167 dengan selang kepercayaan 95%