Email : brigita.melantika@student.matanauniversity.ac.id
RPubs : https://rpubs.com/brigitatiaraem/
Jurusan : Statistika
Address : ARA Center, Matana University Tower
Jl. CBD Barat Kav, RT.1, Curug Sangereng, Kelapa Dua, Tangerang, Banten 15810.
Interval kepercayaan merupakan jangkauan nilai yang dibentuk dari data sampel, sehungga parameter populasi kemungkinan muncul dalam jangkauan tersebut pada probabilitas tertentu. Interval kepercayaan dapat dihitung untuk berbagai statistik, seperti mean, median, atau kemiringan regresi linier. Ini adalah persyaratan umum untuk secara efisien memperkirakan parameter populasi berdasarkan data sampel acak sederhana.
Untuk sampel acak tertentu, kita selalu dapat menghitung rata-rata sampelnya. Meskipun paling sering itu bukan rata-rata populasi sebenarnya, itu berfungsi sebagai perkiraan titik yang baik. Perhatikan bahwa, mean populasi adalah ukuran pusat atau nilai “rata-rata” di seluruh populasi dari variabel yang diukur. Dengan demikian, rata-rata sampel adalah perkiraan sampel dari rata-rata populasi. Ini adalah ukuran pusat yang sama, diperoleh dari sampel. Variabel dalam sampel Anda harus diukur pada tingkat interval atau rasio.
Temukan perkiraan titik rata-rata mahasiswa height dengan data sampel dari survei!
Dalam hal ini, kami menghitung estimasi titik tinggi rata-rata mahasiswa menggunakan mean() fungsi dan mungkin menambahkan na.rm = TRUE jika ada nilai yang hilang. Kemudian terapkan t.test fungsi untuk menghitung beberapa statistik dan uji statistik untuk suatu variabel, termasuk interval kepercayaan.
library(MASS) # memuat survei kumpulan data paket MASS
height.survey = survey$Height # simpan data survei ketinggian siswa
mean(height.survey, na.rm=TRUE) # perkiraan titik tinggi siswa## [1] 172.3809
p.est<-t.test(height.survey, conf.level = 0.95) # menghitung sejumlah uji statistik
p.est$conf.int ## [1] 171.0380 173.7237
## attr(,"conf.level")
## [1] 0.95
Selang kepercayaan untuk tinggi rata-rata mahasiswa dengan data sampel dari survei adalah 171-174. Oleh karena itu, kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini mencakup rata-rata populasi yang sebenarnya adalah sama dengan 172.
Temukan perkiraan titik rata-rata mahasiswa Age dengan data sampel dari survei!
library(MASS)
Age.survey = survey$Age
mean(Age.survey, na.rm=TRUE) ## [1] 20.37451
Setelah kita menemukan estimasi titik dari mean populasi, kita membutuhkan cara untuk mengetahui estimasi interval mean populasi dengan varians yang diketahui dan juga mengukur akurasinya. Di sini, kita membahas kasus di mana standar deviasi populasi σ diasumsikan diketahui.
Mari kita tunjukkan \(100(1−α/2)\) persentil dari distribusi normal standar sebagai \(z_α/2\). Untuk sampel acak dengan ukuran yang cukup besar, titik akhir dari estimasi interval pada \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:
Asumsikan simpangan baku populasi σ tinggi siswa dalam survei adalah 9,48. Tentukan margin of error dan estimasi interval pada tingkat kepercayaan 95%.
library(MASS) # memuat survei kumpulan data paket MASS
height.response = na.omit(survey$Height) # menyaring nilai yang hilang di Tinggi
n = length(height.response) # tetapkan panjang respons
sigma = 9.48 # simpangan baku populasi
sem = sigma/sqrt(n) # kesalahan standar rata-rata
E = qnorm(.975)*sem ;E # margin kesalahan (ekor atas 95% dari CI)## [1] 1.285237
xbar = mean(height.response); xbar ## [1] 172.3809
xbar + c(-E, E) # # interval kepercayaan seperti yang diceritakan## [1] 171.0956 173.6661
Dengan asumsi simpangan baku populasi σ menjadi 9,48, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,2852 sentimeter. Interval kepercayaan adalah antara 171,10 dan 173,67 sentimeter.
Solusi alternatif: Alih-alih menggunakan rumus buku teks, kita dapat menerapkan z.test fungsi dalam TeachingDemos paket. Ini bukan paket inti R, dan harus diinstal dan dimuat ke ruang kerja sebelumnya.
library(TeachingDemos) # memuat paket TeachingDemos
z.test(height.response, sd=sigma) # terapkan z.test##
## One Sample z-test
##
## data: height.response
## z = 262.88, n = 209.00000, Std. Dev. = 9.48000, Std. Dev. of the sample
## mean = 0.65575, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0956 173.6661
## sample estimates:
## mean of height.response
## 172.3809
Hal yang sama seperti yang telah kita lakukan pada estimasi interval mean populasi dengan diketahui \(σ\). Di sini, kita membahas kasus di mana standar deviasi populasi \(σ^2\) diasumsikan tidak diketahui.
Mari kita tunjukkan \(100(1−α/2)\) persentil student-t distribusi dengan \(n−1\) derajat kebebasan sebagai \(tα/2\). Untuk sampel acak dengan ukuran yang cukup besar, dan dengan simpangan baku s, titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:
Tanpa mengasumsikan simpangan baku populasi σ dari tinggi siswa dalam survei, temukan margin kesalahan dan perkiraan interval pada tingkat kepercayaan 95%.
library(MASS) # memuat survei kumpulan data paket MASS
height.response = na.omit(survey$Height) # menyaring nilai yang hilang di Tinggi
n = length(height.response) # tetapkan panjang respons
s = 9.48 # standar deviasi sampel
SE = s/sqrt(n) # perkiraan kesalahan standar
E = qt(.975, df=n-1)*SE; E # margin kesalahan (ekor atas 95% dari CI)## [1] 1.292759
xbar = mean(height.response); xbar # rata-rata sample ## [1] 172.3809
xbar + c(-E, E) # interval kepercayaan seperti yang diceritakan## [1] 171.0881 173.6736
Tanpa asumsi deviasi standar populasi, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,3429 sentimeter. Interval kepercayaan adalah antara 171,04 dan 173,72 sentimeter.
Solusi alternatif: Alih-alih menggunakan rumus buku teks, kita dapat menerapkan fungsi t.test dalam paket statistik bawaan.
library(stats)
t.test(height.response)##
## One Sample t-test
##
## data: height.response
## t = 253.07, df = 208, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0380 173.7237
## sample estimates:
## mean of x
## 172.3809
Dalam beberapa kasus, kami telah meningkatkan kualitas survei sampel dengan meningkatkan ukuran sampel. Kita dapat menggunakan rumus berikut untuk memberikan ukuran sampel yang dibutuhkan di bawah persyaratan estimasi interval rata-rata populasi pada \((1−α)\) tingkat kepercayaan, margin of error \(E\), dan varians populasi \(σ^2\). Di Sini, \(z_α/2\) adalah \(100(1−α/2)\) persentil dari distribusi normal standar.
Asumsikan simpangan baku populasi σ tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 1,2 cm pada tingkat kepercayaan 95%.
zstar = qnorm(.95) # kuantil (tingkat kepercayaan 95%)
sigma = 9.48 # asumsikan simpangan baku populasi
E = 1.2 # kesalahan yang diharapkan
zstar^2*sigma^2/ E^2 # ukuran sampel## [1] 168.853
Berdasarkan asumsi simpangan baku populasi sebesar 9,48, diperlukan ukuran sampel 240 untuk mencapai margin of error 1,2 cm pada tingkat kepercayaan 95%.
Tingkatkan kualitas survei sampel dengan meningkatkan ukuran sampel dengan standar deviasi yang tidak diketahui σ!.
zstar = qnorm(.975)
E = 1
zstar^2*sigma^2/ E^2## [1] 345.2334
Kuesioner pilihan ganda dalam suatu survei sering digunakan untuk mengetahui proporsi suatu populasi dengan karakteristik tertentu. Misalnya, kita dapat memperkirakan proporsi mahasiswi di universitas berdasarkan hasil survei kumpulan data sampel.
library(MASS)
gender.response = na.omit(survey$Sex) # menyaring nilai yang hilang di `gender`
n = length(gender.response) # tanggapan yang valid dihitungUntuk mengetahui jumlah siswa perempuan, kita membandingkan respon gender dengan faktor Female, dan menghitung sum. Membaginya dengan n memberikan proporsi siswa perempuan dalam survei sampel.
library(MASS)
k = sum(gender.response == "Female") # jumlah tanggapan wanita
pbar = k/n; pbar # proporsi siswa perempuan dalam survei## [1] 0.5
Setelah kami menemukan estimasi sampel titik dari proporsi populasi, kami perlu memperkirakan interval kepercayaan. Mari kita tunjukkan \(100(1-α/2)\) persentil dari distribusi normal standar sebagai \(z_α/2\). Jika ukuran sampel \(n\) dan proporsi populasi p memenuhi syarat bahwa \(np≥5\) dan \(n(1−p)≥5\), dari titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan didefinisikan dalam hal proporsi sampel sebagai berikut.
Hitunglah margin of error dan estimasi interval untuk proporsi siswa perempuan dalam survei pada tingkat kepercayaan 95%.
library(MASS)
k = sum(gender.response == "Female") # jumlah tanggapan wanita
pbar = k/n # proporsi siswa perempuan dalam survei
SE = sqrt(pbar*(1-pbar)/n); SE # kesalahan standar## [1] 0.03254723
E = qnorm(.975)*SE; E # margin of error## [1] 0.06379139
pbar + c(-E, E) # the CI of sample proportion## [1] 0.4362086 0.5637914
Pada tingkat kepercayaan 95%, antara 43,6% dan 56,3% mahasiswa adalah perempuan, dan margin kesalahannya adalah 6,4%.
Solusi alternatif: Alih-alih menggunakan rumus buku teks, kita dapat menerapkan prop.testfungsi dalam statspaket bawaan.
library(stats)
prop.test(k, n) # the interval estimate of proportion##
## 1-sample proportions test without continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4367215 0.5632785
## sample estimates:
## p
## 0.5
Kualitas survei sampel dapat ditingkatkan dengan meningkatkan ukuran sampel. Rumus di bawah ini memberikan ukuran sampel yang dibutuhkan di bawah persyaratan perkiraan interval proporsi populasi pada \((1−α)\) tingkat kepercayaan, margin of error \(E\), dan perkiraan proporsi yang direncanakan p. Di Sini, \(zα/2\) adalah \(100(1−α/2)\) persentil dari distribusi normal standar.
Dengan menggunakan perkiraan proporsi 50% yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa perempuan pada tingkat kepercayaan 95%.
zstar = qnorm(.975) # kuantil (tingkat kepercayaan 95%)
p = 0.5 # 50% perkiraan proporsi yang direncanakan
E = 0.05 # expected error
zstar^2*p*(1-p)/E^2 # sampling size## [1] 384.1459
Asumsikan Anda tidak memiliki perkiraan proporsi yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa laki-laki pada tingkat kepercayaan 95%!
zstar = qnorm(.975)
sigma = .975
E = 0.05
zstar^2*sigma^2/ E^2## [1] 1460.715
Lakukan analisis interval kepercayaan pada kumpulan data ini dari tahun 2004 yang mencakup data pendapatan rata-rata per jam, status perkawinan, jenis kelamin, dan usia ribuan orang.
dat=read.csv("cps04.csv")
mean(dat$age, na.rm=TRUE)## [1] 29.75445
p.est<-t.test(dat$age, conf.level=0.95)
p.est$conf.int## [1] 29.69103 29.81786
## attr(,"conf.level")
## [1] 0.95
Dengan keyakinan sebesar 95% bahwa perkiraan interval ini mencakup rata-rata populasi umur yang sebenarnya adalah sama dengan 30.
t.test(dat$age)##
## One Sample t-test
##
## data: dat$age
## t = 919.71, df = 7985, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 29.69103 29.81786
## sample estimates:
## mean of x
## 29.75445
Proporsi Populasi
female=dat$female
n=length(female)
k=sum(female=="1")
pbar=k/n; pbar## [1] 0.414851
Interval Proporsi Populasi
prop.test(k,n)##
## 1-sample proportions test with continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 231.26, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4040262 0.4257582
## sample estimates:
## p
## 0.414851
Pada tingkat kepercayaan 95%, antara 40,4% dan 42,6% data adalah perempuan.