Confidence Intervals
Chapter 2
| Kontak | : \(\downarrow\) |
| clara.evania@student.matanauniversity.ac.id | |
| https://www.instagram.com/claraevania/ | |
| RPubs | https://rpubs.com/claradellaevania/ |
Interval kepercayaan merupakan metode memperkirakan nilai populasi atau parameter dengan menggunakan sampel, hal ini dikarenakan perhitungan langsung pada seluruh populasi tidak memungkinkan untuk dilakukan.
Interval kepercayaan digunakan untuk menunjukkan seberapa akurat statistik yang dihitung. Interval kepercayaan dapat dihitung untuk berbagai statistik, seperti rata -rata, median, atau kemiringan regresi linier. Ini adalah persyaratan umum untuk memperkirakan parameter populasi secara efisien berdasarkan data sampel acak sederhana.
Estimasi titik rata -rata populasi
Untuk sampel acak tertentu juga dapat menghitung rata -rata sampelnya. Meskipun paling sering bukan berarti populasi yang sebenarnya, itu berfungsi sebagai perkiraan poin yang baik. Perhatikan bahwa, rata-rata populasi adalah ukuran dari pusat atau nilai “rata-rata” di seluruh populasi variabel yang diukur. Dengan demikian, rata -rata sampel adalah estimasi sampel dari rata -rata populasi. Ini adalah ukuran pusat yang sama, diperoleh dari sampel. Variabel dalam sampel Anda harus diukur pada tingkat interval atau rasio.
Kasus 14
Mencari perkiraan titik tinggi mahasiswa rata -rata dengan data sampel dari survei
Pertama kita dapat menghitung estimasi titik rata -rata tinggi mahasiswa menggunakan fungsi mean () dan mungkin menambahkan na.rm = true jika ada nilai yang hilang. Kemudian terapkan fungsi t.Test untuk menghitung beberapa statistik dan uji statistik untuk variabel, termasuk interval kepercayaan.
library(MASS) # Muat Survei Set Data Paket Massa
height.survey = survey$Height # Simpan data survei ketinggian siswa
mean(height.survey, na.rm=TRUE) # Perkiraan titik ketinggian siswa## [1] 172.3809
p.est<-t.test(height.survey, conf.level = 0.95) # Menghitung sejumlah tes statistik
p.est$conf.int # Cetak interval kepercayaan## [1] 171.0380 173.7237
## attr(,"conf.level")
## [1] 0.95
Sehingga dapat dilihat bahwa interval kepercayaan rata-rata tinggi mahasiswa dengan data sampel dari survei adalah 171-174. Oleh karena itu, kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini mencakup rata-rata populasi yang sebenarnya sama dengan 172.
Latihan 5
Mencari perkiraan titik usia mahasiswa rata -rata dengan data sampel dari survei!
library(MASS)
Age.survey = survey$Age
mean(Age.survey, na.rm=TRUE) ## [1] 20.37451
Kami menghitung estimasi titik rata -rata usia mahasiswa menggunakan fungsi mean() dan mungkin menambahkan na.rm = TRUE jika terdapat nilai yang hilang.
p.est = t.test(Age.survey, conf.level = 0.95)
p.est$conf.int## [1] 19.54600 21.20303
## attr(,"conf.level")
## [1] 0.95
Rata-Rata Popilasi (diketahui σ)
Setelah ditemukan estimasi titik rata-rata populasi, juga membutuhkan cara untuk mengetahui perkiraan interval-makhluk populasi dengan varian yang diketahui dan juga mengukur akurasinya. Dapat mengenai bahas kasus di mana standar deviasi populasi \(σ\) diasumsikan diketahui.
Dapat menunjukkan persentil \(100 (1 - α / 2)\) dari distribusi normal standar sebagai \(Z_{α/2}\). Untuk sampel acak dengan ukuran yang cukup besar, titik akhir estimasi interval pada \((1 - α)\) tingkat kepercayaan diberikan sebagai berikut:
Kasus 15
Dengan mengasumsikan standar deviasi populasi \(σ\) dari tinggi siswa dalam survei adalah 9,48. Temukan margin kesalahan dan perkiraan interval pada tingkat kepercayaan 95%.
library(MASS) # Muat Survei Set Data Paket MASS
height.response = na.omit(survey$Height) # Menyaring nilai yang hilang di ketinggian
n = length(height.response) # menetapkan panjang respons
sigma = 9.48 # standar deviasi populasi
sem = sigma/sqrt(n) # Kesalahan standar rata -rata
E = qnorm(.975)*sem ;E # Margindari Error (upper tail 95% dari CI)## [1] 1.285237
x_bar = mean(height.response) # rata-rata sample
x_bar ## [1] 172.3809
x_bar + c(-E, E) # interval kepercayaan ## [1] 171.0956 173.6661
Dengan asumsi standar deviasi populasi \(σ\) adalah 9,48, margin kesalahan untuk survei tinggi siswa pada tingkat kepercayaan 95% adalah 1,2852 sentimeter. Interval kepercayaan adalah antara 171,10 dan 173,67 sentimeter.
Solusi Alternative dengan menggunakan formula buku teks, dapat menerapkan fungsi Z.Test dalam package TeachingDemos. Ini bukan package inti dari R, dan harus diinstal dan dimuat ke ruang kerja sebelumnya.
library(TeachingDemos) # me-load packageTeachingDemos
z.test(height.response, sd=sigma) # mengaplikasikan z.test##
## One Sample z-test
##
## data: height.response
## z = 262.88, n = 209.00000, Std. Dev. = 9.48000, Std. Dev. of the sample
## mean = 0.65575, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0956 173.6661
## sample estimates:
## mean of height.response
## 172.3809
Populasi Rata Rata (Tidak Diketahui σ )
Pada materi ini akan membahas kasus di mana standar deviasi populasi \(σ^2\) yang diasumsikan tidak diketahui.
Dengan menunjukkan persentil \(100 (1 - α / 2)\) dari distribusi student t dengan \(n - 1\) derajat kebebasan sebagai \(t_{α / 2}\). Untuk sampel acak dengan ukuran yang cukup besar, dan dengan standar deviasi s, titik akhir dari estimasi interval pada \((1 - α)\) tingkat kepercayaan diberikan sebagai berikut:
Kasus 16
Tanpa mengasumsikan standar deviasi populasi \(σ\) dari tinggi siswa dalam survei, temukan margin kesalahan dan perkiraan interval pada tingkat kepercayaan 95%.
library(MASS) # Muat Survei Set Data Paket MASS
height.response = na.omit(survey$Height) # Menyaring nilai yang hilang di ketinggian
n = length(height.response) # menetapkan panjang respons
s = 9.48 # standar deviasi populasi
SE = s/sqrt(n) # Kesalahan standar rata -rata
E = qt(.975, df=n-1)*SE; E # Margin dari Error (upper tail 95% dari CI)## [1] 1.292759
x_bar1 = mean(height.response)
x_bar1 ## [1] 172.3809
x_bar1 + c(-E, E) ## [1] 171.0881 173.6736
Tanpa asumsi pada standar deviasi populasi, margin kesalahan untuk survei tinggi siswa pada tingkat kepercayaan 95% adalah 1,3429 sentimeter. Interval kepercayaan adalah antara 171,04 dan 173,72 sentimeter.
SOLUSI ALTERNATIVE
Dapat menerapkan fungsi T.Test dalam paket statistik bawaan.
library(stats) # meload package stats
t.test(height.response) # mengaplikasikan z.test##
## One Sample t-test
##
## data: height.response
## t = 253.07, df = 208, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0380 173.7237
## sample estimates:
## mean of x
## 172.3809
Ukuran pengambilan sampel rata -rata populasi (diketahui σ )
Dapat menggunakan rumus berikut untuk memberikan ukuran sampel yang diperlukan di bawah persyaratan estimasi interval rata -rata populasi pada \((1 - α)\) tingkat kepercayaan, margin kesalahan \(E\), dan varians populasi \(σ^2\). Di sini, \(Z_{α / 2}\) adalah persentil \(100 (1 - α / 2)\) dari distribusi normal standar.
Kasus 17
mengasumsikan standar deviasi populasi σ dari tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.
zstar = qnorm(.975) # kuantil (tingkat kepercayaan 95%)
sigma = 9.48 # mengasumsikan standar deviasi populasi
E = 1.2 # Asumsikan standar deviasi populasi
zstar^2*sigma^2/ E^2 # ukuran pengambilan sampel ## [1] 239.7454
Berdasarkan asumsi standar deviasi populasi adalah 9,48, diperlukan ukuran sampel 240 untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.
Latihan 6
Tingkatkan kualitas survei sampel dengan meningkatkan ukuran sampel dengan standar deviasi yang tidak diketahui \(σ\)!
z_star1 = qnorm(.975)
z_star1## [1] 1.959964
E = 1.63
z_star1^2*sigma^2/ E^2 ## [1] 129.9384
Berdasarkan asumsi standar deviasi populasi adalah 9,48, diperlukan ukuran sampel 130 untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%
Estimasi titik proporsi populasi
Kuesioner pilihan ganda dalam survei sering digunakan untuk menentukan proporsi populasi dengan karakteristik tertentu. Sebagai contoh, kami dapat memperkirakan proporsi siswa perempuan di universitas berdasarkan hasil dalam survei set data sampel.
library(MASS) # Memuat MASS package
gender.response = na.omit(survey$Sex) # Memfilter keluar nilai yang hilang dalam 'gender'
n = length(gender.response) # Menjumlah respons yang validUntuk mengetahui jumlah siswa perempuan, kami membandingkan respons gender dengan faktor perempuan, dan menghitung jumlahnya. Membagi dengan n memberikan proporsi siswa perempuan dalam survei sampel.
library(MASS) # Memuat MASS package
k = sum(gender.response == "Female") # Menjumlah respon female
pbar = k/n
pbar # Proporsi Siswa Wanita dalam Survei## [1] 0.5
Perkiraan interval proporsi populasi
Setelah menemukan estimasi sampel titik proporsi populasi, diperlukan memperkirakan interval kepercayaan. Sehingga menunjukkan persentil \(100 (1 - α / 2)\) dari distribusi normal standar sebagai \(z_{α / 2}\). Jika ukuran sampel n dan proporsi populasi p memenuhi kondisi bahwa \(np≥5\) dan \(n (1 - p) ≥5\), daripada titik akhir estimasi interval pada \((1 - α)\) Tingkat kepercayaan didefinisikan dalam hal proporsi sampel sebagai berikut.
Kasus 18
Hitung margin kesalahan dan perkiraan interval untuk proporsi siswa perempuan dalam survei pada tingkat kepercayaan 95%.
library(MASS) # me-load the MASS package
k = sum(gender.response == "Female") # menjumlahkan tanggapan wanita
pbar = k/n # Proporsi Siswa Wanita dalam Survei
SE = sqrt(pbar*(1-pbar)/n); SE # standard error ## [1] 0.03254723
E = qnorm(.975)*SE;
E # margin of error## [1] 0.06379139
pbar + c(-E, E) # the CI of sample proportion## [1] 0.4362086 0.5637914
Pada tingkat kepercayaan 95%, antara 44% dan 56% dari mahasiswa adalah perempuan, dan margin kesalahan adalah 6,4%.
SOLUSI ALTERNATIVE Dapat menerapkan fungsi prop.test dalam paket statistik bawaan.
library(stats) # me-load the MASS package
prop.test(k, n) # Perkiraan interval proporsi##
## 1-sample proportions test without continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4367215 0.5632785
## sample estimates:
## p
## 0.5
Kasus 19
Dengan menggunakan estimasi proporsi yang direncanakan 50%, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa perempuan pada tingkat kepercayaan 95%.
zstar = qnorm(.975) # kuantil (tingkat kepercayaan 95%)
p = 0.5 # 50% perkiraan proporsi yang direncanakan
E = 0.05 # kesalahan yang diharapkan
zstar^2*p*(1-p)/E^2 # ukuran pengambilan sampel## [1] 384.1459
Latihan 7
Mengasumsikan bahwa tidak memiliki perkiraan proporsi yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa laki -laki pada tingkat kepercayaan 95%!
zstar = qnorm(.975)
sigma = .975
E = 0.05
zstar^2*sigma^2/ E^2## [1] 1460.715
Berdasarkan asumsi standar deviasi populasi adalah 9,48, diperlukan ukuran sampel 1461 untuk mencapai margin kesalahan 5% pada tingkat kepercayaan 95%.
Latihan 8
Melakukan analisis interval kepercayaan pada dataset ini dari tahun 2004 yang mencakup data rata -rata pendapatan per jam, status perkawinan, jenis kelamin, dan usia untuk ribuan orang.
a = read.csv("cps04.csv")
mean(a$age, na.rm=TRUE)## [1] 29.75445
p.est = t.test(a$age, conf.level = 0.95)
p.est$conf.int## [1] 29.69103 29.81786
## attr(,"conf.level")
## [1] 0.95
Sehingga dapat dikatakan dengan keyakinan 95% maka perkiraan interval dapat mencakup rata-rata populasi umur yang sebenarnya yaitu 30.
t.test(a$age)##
## One Sample t-test
##
## data: a$age
## t = 919.71, df = 7985, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 29.69103 29.81786
## sample estimates:
## mean of x
## 29.75445
Populasi proporsi
female = a$female
n = length(female)
k = sum(female == "1")
pbar = k/n
pbar## [1] 0.414851
** Interval Populasi Proporsi*
prop.test(k,n)##
## 1-sample proportions test with continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 231.26, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4040262 0.4257582
## sample estimates:
## p
## 0.414851
sehingga pada tingkat kepercayaan 95% dimana pada antara 40,4% sampai 42,6% data adalah perempuan.
Referensi
- https://accendoreliability.com/point-and-interval-estimates/#:~:text=A%20point%20estimate%20of%20the,by%20the%20number%20of%20values.
- https://bookdown.org/BaktiSiregar/data-science-for-beginners-part-2/2-Confidence-Intervals.html