~ Confidence Interval ~
Tugas Komputasi Statistika
| Kontak | : \(\downarrow\) |
| yosia.yosia@student.matanauniversity.ac.id | |
| yyosia | |
| RPubs | https://rpubs.com/yosia/ |
Confidence Interval
Interval konfidensi digunakan untuk mengindikasi seberapa akurat perhitungan statistik yang dihitung. Interval konfidensi dapat dihitung untuk berbagai statistik, seperti mean, median, atau kemiringan regresi linier.
Ini adalah persyaratan umum untuk secara efisien memperkirakan parameter populasi berdasarkan data sampel acak sederhana. Dalam tutorial R di bagian ini, kami mendemonstrasikan cara menghitung perkiraan. Langkah-langkahnya diilustrasikan dengan kerangka data built-in bernama survei.
Estimasi Titik Rata-rata Populasi
Untuk sampel acak tertentu, kita selalu dapat menghitung rata-rata sampelnya. Meskipun paling sering itu bukan rata-rata populasi sebenarnya, itu berfungsi sebagai perkiraan titik yang baik. Perhatikan bahwa, mean populasi adalah ukuran pusat atau nilai “rata-rata” di seluruh populasi dari variabel yang diukur. Dengan demikian, rata-rata sampel adalah perkiraan sampel dari rata-rata populasi. Ini adalah ukuran pusat yang sama, diperoleh dari sampel. Variabel dalam sampel Anda harus diukur pada tingkat interval atau rasio.
Kasus 14
Cari titik estimasi rata rata mahasiswa height dengan
data sample dari survey
di kasus ini, kita mengkalkulasi titik estimasi rata rata tinggi
mahasiswa menggunakan fungsi mean() dan kemungkinan
menambahkan na.rm = TRUE jika ada nilai yang hilang.
kemudian menerapkan fungsi t.test untuk menghitung beberapa
statistik dan uji statistik untuk suatu variabel, termasuk interval
kepercayaan.
library(MASS) # load the MASS package data set survey
height.survey = survey$Height # save the survey data of student heights
mean(height.survey, na.rm=TRUE) # the point estimate of student heights## [1] 172.3809
p.est<-t.test(height.survey, conf.level = 0.95) # computes a number of statistical tests
p.est$conf.int # print confidence intervals## [1] 171.0380 173.7237
## attr(,"conf.level")
## [1] 0.95
Yang kita lihat, selang kepercayaan untuk rata rata tinggi mahasiswa
dengan data sample dari survey 171-174. Oleh karena itu,
kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini
mencakup rata-rata populasi yang sebenarnya adalah sama dengan 172.
Latihan 5
Find a point estimate of average university student Age with the sample data from survey!
library(MASS) # load the MASS package data set survey
age.survey = survey$Age # save the survey data of student heights
mean(age.survey, na.rm=TRUE) ## [1] 20.37451
p.est<-t.test(age.survey, conf.level = 0.95) # computes a number of statistical tests
p.est$conf.int ## [1] 19.54600 21.20303
## attr(,"conf.level")
## [1] 0.95
Population Mean (Known \(\sigma\))
Setelah kita menemukan estimasi titik dari mean populasi, kita membutuhkan cara untuk mengetahui estimasi interval mean populasi dengan varians yang diketahui dan juga mengukur akurasinya. Di sini, kita membahas kasus di mana standar deviasi \(\sigma\) populasi diasumsikan diketahui.
Mari kita tunjukkan \(100(1-\alpha/2)\) persentil dari distribusi normal standar sebagai \(z_{\alpha/2}\). Untuk sampel acak dengan ukuran yang cukup besar, titik akhir dari estimasi interval pada \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:
\[\bar{x}\pm z_{\alpha/2} {\sigma \over \sqrt{n}}\]
Kasus 15
Asumsikan simpangan baku populasi σ tinggi siswa dalam survei adalah 9,48. Tentukan margin of error dan estimasi interval pada tingkat kepercayaan 95%.
library(MASS) # load the MASS package data set survey
height.response = na.omit(survey$Height) # filter out missing values in Height
n = length(height.response) # assign the length of response
sigma = 9.48 # population standard deviation
sem = sigma/sqrt(n) # standard error of the mean
E = qnorm(.975)*sem ;E # margin of error (upper tail 95% of CI)## [1] 1.285237
xbar = mean(height.response); xbar # sample mean ## [1] 172.3809
xbar + c(-E, E) # confidence interval as told## [1] 171.0956 173.6661
Dengan asumsi simpangan baku populasi σ menjadi 9,48, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,2852 sentimeter. Interval kepercayaan adalah antara 171,10 dan 173,67 sentimeter.
Solusi alternatif ;
library(TeachingDemos) # load TeachingDemos package
z.test(height.response, sd=sigma) # apply the z.test##
## One Sample z-test
##
## data: height.response
## z = 262.88, n = 209.00000, Std. Dev. = 9.48000, Std. Dev. of the sample
## mean = 0.65575, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0956 173.6661
## sample estimates:
## mean of height.response
## 172.3809
Population Mean (Unknown \(\sigma\))
Hal yang sama seperti yang telah kita lakukan pada estimasi interval mean populasi dengan diketahui \(σ\). Di sini, kita membahas kasus di mana standar deviasi populasi \(σ^2\) diasumsikan tidak diketahui.
Mari kita tunjukkan \(100(1−α/2)\) persentil student-t distribusi dengan n−1 derajat kebebasan sebagai \(t_{α/2}\). Untuk sampel acak dengan ukuran yang cukup besar, dan dengan simpangan baku \(s\), titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:
\[\bar{x}\pm t_{\alpha/2} {s \over \sqrt{n}}\]
Kasus 16
Tanpa mengasumsikan simpangan baku populasi \(\sigma\) dari tinggi siswa dalam survei, temukan margin kesalahan dan perkiraan interval pada tingkat kepercayaan 95%.
library(MASS) # load the MASS package data set survey
height.response = na.omit(survey$Height) # filter out missing values in Height
n = length(height.response) # assign the length of response
s = 9.48 # sample standard deviation
SE = s/sqrt(n) # standard error estimate
E = qt(.975, df=n-1)*SE; E # margin of error (upper tail 95% of CI)## [1] 1.292759
xbar = mean(height.response); xbar # sample mean ## [1] 172.3809
xbar + c(-E, E) # confidence interval as told## [1] 171.0881 173.6736
Tanpa asumsi deviasi standar populasi, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,3429 sentimeter. Interval kepercayaan adalah antara 171,04 dan 173,72 sentimeter.
Solusi Alternatif ;
library(stats) # load stats package
t.test(height.response) # apply the z.test##
## One Sample t-test
##
## data: height.response
## t = 253.07, df = 208, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 171.0380 173.7237
## sample estimates:
## mean of x
## 172.3809
Sampling Size of Population Mean (Known \(\sigma\))
Dalam beberapa kasus, kami telah meningkatkan kualitas survei sampel dengan meningkatkan ukuran sampel. Kita dapat menggunakan rumus berikut untuk memberikan ukuran sampel yang dibutuhkan di bawah persyaratan estimasi interval rata-rata populasi pada \((1-\alpha)\) tingkat kepercayaan, margin of error E dan varians populasi \(\sigma^2\). \(z_{\alpha / 2}\) adalah \(100(1-\alpha/2)\) persentil dari normal distribusi standar
\[n= {(z_{\alpha/2})^2 \sigma^2 \over E^2}\]
Kasus 17
mengasumsikan standar deviasi populasi σ dari tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.
zstar = qnorm(.975) # quantiles (95% confidence level)
sigma = 9.48 # assume population standard deviation
E = 1.2 # expected error
zstar^2*sigma^2/ E^2 # sampling size ## [1] 239.7454
Berdasarkan asumsi standar deviasi populasi adalah 9,48, diperlukan ukuran sampel 240 untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.
Latihan 6
Tingkatkan kualitas survei sampel dengan meningkatkan ukuran sampel dengan standar deviasi yang tidak diketahui. kita mengasumsikan margin ERROR 5%
zstar = qnorm(.975)
E = 0.05
zstar^2/ (4*E^2)## [1] 384.1459
Point Estimate of Population Proportion
Kuesioner pilihan ganda dalam suatu survei sering digunakan untuk mengetahui proporsi suatu populasi dengan karakteristik tertentu. Misalnya, kita dapat memperkirakan proporsi mahasiswi di universitas berdasarkan hasil survei kumpulan data sampel.
library(MASS) # load the MASS package
gender.response = na.omit(survey$Sex) # filter out missing values in `gender`
n = length(gender.response) # valid responses countuntuk menemukan jumlah dari mahasiswi, kita membandingkan respone
gender faktor Female dan menghitung sum.
Membaginya dengan n memberikan proporsi siswa perempuan dalam survei
sampel.
library(MASS) # load the MASS package
k = sum(gender.response == "Female") # the sum of female responses
pbar = k/n; pbar # female student proportion in survey## [1] 0.5
Interval Estimate of Population Proportion
Setelah kami menemukan estimasi sampel titik dari proporsi populasi, kami perlu memperkirakan interval kepercayaan. mari kita tunjukkan \(100(1−α/2)\) persentil dari distribusi normal standar sebagai \(z_{\alpha/2}\). Jika ukuran sampel n dan proporsi populasi p memenuhi syarat bahwa \(np \ge 5\) dan \(n(1 − p) \ge 5\), dari titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan didefinisikan dalam hal proporsi sampel sebagai berikut.
\[\bar{p}\pm z_{\alpha/2} \sqrt{{\bar{p}(1-\bar{p})\over n}}\]
Kasus 18
Hitunglah margin of error dan estimasi interval untuk proporsi siswa perempuan dalam survei pada tingkat kepercayaan 95%.
library(MASS) # load the MASS package
k = sum(gender.response == "Female") # the sum of female responses
pbar = k/n # female student proportion in survey
SE = sqrt(pbar*(1-pbar)/n); SE # standard error ## [1] 0.03254723
E = qnorm(.975)*SE; E # margin of error## [1] 0.06379139
pbar + c(-E, E) # the CI of sample proportion## [1] 0.4362086 0.5637914
Pada tingkat kepercayaan 95%, antara 43,6% dan 56,3% mahasiswa adalah perempuan, dan margin kesalahannya adalah 6,4%.
Solusi Alternatif ;
library(stats) # load the MASS package
prop.test(k, n) # the interval estimate of proportion##
## 1-sample proportions test without continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4367215 0.5632785
## sample estimates:
## p
## 0.5
Sampling Size of Population Proportion
Kualitas survei sampel dapat ditingkatkan dengan meningkatkan ukuran sampel. Rumus di bawah ini memberikan ukuran sampel yang dibutuhkan di bawah persyaratan perkiraan interval proporsi populasi pada \((1−α)\) confidence level, margin of error \(E\), dan perkiraan proporsi yang direncanakan \(p\). \(z_{\alpha/2}\) adalah \(100(1−α/2)\) persentil dari distribusi normal standar.
\[n={(z_\alpha/2)^2 p(1-p) \over E^2}\]
Kasus 19
Dengan menggunakan perkiraan proporsi 50% yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa perempuan pada tingkat kepercayaan 95%.
zstar = qnorm(.975) # quantiles (95% confidence level)
p = 0.5 # 50% planned proportion estimate
E = 0.05 # expected error
zstar^2*p*(1-p)/E^2 # sampling size## [1] 384.1459
Latihan 7
Asumsikan Anda tidak memiliki perkiraan proporsi yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa laki-laki pada tingkat kepercayaan 95%!
zstar = qnorm(.975) # quantiles (95% confidence level)
E = 0.05 # expected error
zstar^2/E^2 # sampling size## [1] 1536.584
Latihan 8
Lakukan analisis interval kepercayaan pada kumpulan data cps04.csv dari tahun 2004 yang mencakup data pendapatan rata-rata per jam, status perkawinan, jenis kelamin, dan usia ribuan orang.
x= read.csv("cps04.csv")
mean(x$age, na.rm=TRUE) ## [1] 29.75445
p.est<-t.test(x$age, conf.level = 0.95) # computes a number of statistical tests
p.est$conf.int## [1] 29.69103 29.81786
## attr(,"conf.level")
## [1] 0.95
kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini mencakup rata-rata populasi umur yang sebenarnya adalah sama dengan 30.
t.test(x$age)##
## One Sample t-test
##
## data: x$age
## t = 919.71, df = 7985, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 29.69103 29.81786
## sample estimates:
## mean of x
## 29.75445
Population Proportion
female = x$female
n = length(female)
k = sum(female == "1")
pbar = k/n; pbar ## [1] 0.414851
Interval Population Proportion
prop.test(k, n)##
## 1-sample proportions test with continuity correction
##
## data: k out of n, null probability 0.5
## X-squared = 231.26, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.4040262 0.4257582
## sample estimates:
## p
## 0.414851
Pada tingkat kepercayaan 95%, antara 40,4% dan 42,6% data adalah perempuan.