~ Confidence Interval ~

Tugas Komputasi Statistika


Kontak : \(\downarrow\)
Email
Instagram yyosia
RPubs https://rpubs.com/yosia/

Confidence Interval

Interval konfidensi digunakan untuk mengindikasi seberapa akurat perhitungan statistik yang dihitung. Interval konfidensi dapat dihitung untuk berbagai statistik, seperti mean, median, atau kemiringan regresi linier.

Ini adalah persyaratan umum untuk secara efisien memperkirakan parameter populasi berdasarkan data sampel acak sederhana. Dalam tutorial R di bagian ini, kami mendemonstrasikan cara menghitung perkiraan. Langkah-langkahnya diilustrasikan dengan kerangka data built-in bernama survei.

Estimasi Titik Rata-rata Populasi

Untuk sampel acak tertentu, kita selalu dapat menghitung rata-rata sampelnya. Meskipun paling sering itu bukan rata-rata populasi sebenarnya, itu berfungsi sebagai perkiraan titik yang baik. Perhatikan bahwa, mean populasi adalah ukuran pusat atau nilai “rata-rata” di seluruh populasi dari variabel yang diukur. Dengan demikian, rata-rata sampel adalah perkiraan sampel dari rata-rata populasi. Ini adalah ukuran pusat yang sama, diperoleh dari sampel. Variabel dalam sampel Anda harus diukur pada tingkat interval atau rasio.

Kasus 14

Cari titik estimasi rata rata mahasiswa height dengan data sample dari survey

di kasus ini, kita mengkalkulasi titik estimasi rata rata tinggi mahasiswa menggunakan fungsi mean() dan kemungkinan menambahkan na.rm = TRUE jika ada nilai yang hilang. kemudian menerapkan fungsi t.test untuk menghitung beberapa statistik dan uji statistik untuk suatu variabel, termasuk interval kepercayaan.

library(MASS)                                          # load the MASS package data set survey
height.survey = survey$Height                          # save the survey data of student heights
mean(height.survey, na.rm=TRUE)                        # the point estimate of student heights
## [1] 172.3809
p.est<-t.test(height.survey, conf.level = 0.95)        # computes a number of statistical tests 
p.est$conf.int                                         # print confidence intervals
## [1] 171.0380 173.7237
## attr(,"conf.level")
## [1] 0.95

Yang kita lihat, selang kepercayaan untuk rata rata tinggi mahasiswa dengan data sample dari survey 171-174. Oleh karena itu, kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini mencakup rata-rata populasi yang sebenarnya adalah sama dengan 172.

Latihan 5

Find a point estimate of average university student Age with the sample data from survey!

library(MASS)                                          # load the MASS package data set survey
age.survey = survey$Age                          # save the survey data of student heights
mean(age.survey, na.rm=TRUE)   
## [1] 20.37451
p.est<-t.test(age.survey, conf.level = 0.95)        # computes a number of statistical tests 
p.est$conf.int  
## [1] 19.54600 21.20303
## attr(,"conf.level")
## [1] 0.95

Population Mean (Known \(\sigma\))

Setelah kita menemukan estimasi titik dari mean populasi, kita membutuhkan cara untuk mengetahui estimasi interval mean populasi dengan varians yang diketahui dan juga mengukur akurasinya. Di sini, kita membahas kasus di mana standar deviasi \(\sigma\) populasi diasumsikan diketahui.

Mari kita tunjukkan \(100(1-\alpha/2)\) persentil dari distribusi normal standar sebagai \(z_{\alpha/2}\). Untuk sampel acak dengan ukuran yang cukup besar, titik akhir dari estimasi interval pada \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:

\[\bar{x}\pm z_{\alpha/2} {\sigma \over \sqrt{n}}\]

Kasus 15

Asumsikan simpangan baku populasi σ tinggi siswa dalam survei adalah 9,48. Tentukan margin of error dan estimasi interval pada tingkat kepercayaan 95%.

library(MASS)                                          # load the MASS package data set survey
height.response = na.omit(survey$Height)               # filter out missing values in Height
n = length(height.response)                            # assign the length of response
sigma = 9.48                                           # population standard deviation 
sem = sigma/sqrt(n)                                    # standard error of the mean
E = qnorm(.975)*sem ;E                                 # margin of error (upper tail 95% of CI)
## [1] 1.285237
xbar = mean(height.response); xbar                     # sample mean 
## [1] 172.3809
xbar + c(-E, E)                                        # confidence interval as told
## [1] 171.0956 173.6661

Dengan asumsi simpangan baku populasi σ menjadi 9,48, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,2852 sentimeter. Interval kepercayaan adalah antara 171,10 dan 173,67 sentimeter.

Solusi alternatif ;

library(TeachingDemos)                                 # load TeachingDemos package 
z.test(height.response, sd=sigma)                      # apply the z.test
## 
##  One Sample z-test
## 
## data:  height.response
## z = 262.88, n = 209.00000, Std. Dev. = 9.48000, Std. Dev. of the sample
## mean = 0.65575, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  171.0956 173.6661
## sample estimates:
## mean of height.response 
##                172.3809

Population Mean (Unknown \(\sigma\))

Hal yang sama seperti yang telah kita lakukan pada estimasi interval mean populasi dengan diketahui \(σ\). Di sini, kita membahas kasus di mana standar deviasi populasi \(σ^2\) diasumsikan tidak diketahui.

Mari kita tunjukkan \(100(1−α/2)\) persentil student-t distribusi dengan n−1 derajat kebebasan sebagai \(t_{α/2}\). Untuk sampel acak dengan ukuran yang cukup besar, dan dengan simpangan baku \(s\), titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan diberikan sebagai berikut:

\[\bar{x}\pm t_{\alpha/2} {s \over \sqrt{n}}\]

Kasus 16

Tanpa mengasumsikan simpangan baku populasi \(\sigma\) dari tinggi siswa dalam survei, temukan margin kesalahan dan perkiraan interval pada tingkat kepercayaan 95%.

library(MASS)                                          # load the MASS package data set survey
height.response = na.omit(survey$Height)               # filter out missing values in Height
n = length(height.response)                            # assign the length of response
s = 9.48                                               # sample standard deviation 
SE = s/sqrt(n)                                         # standard error estimate
E = qt(.975, df=n-1)*SE; E                             # margin of error (upper tail 95% of CI)
## [1] 1.292759
xbar = mean(height.response); xbar                     # sample mean 
## [1] 172.3809
xbar + c(-E, E)                                        # confidence interval as told
## [1] 171.0881 173.6736

Tanpa asumsi deviasi standar populasi, margin kesalahan untuk survei tinggi badan siswa pada tingkat kepercayaan 95% adalah 1,3429 sentimeter. Interval kepercayaan adalah antara 171,04 dan 173,72 sentimeter.

Solusi Alternatif ;

library(stats)                                         # load stats package 
t.test(height.response)                                # apply the z.test
## 
##  One Sample t-test
## 
## data:  height.response
## t = 253.07, df = 208, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  171.0380 173.7237
## sample estimates:
## mean of x 
##  172.3809

Sampling Size of Population Mean (Known \(\sigma\))

Dalam beberapa kasus, kami telah meningkatkan kualitas survei sampel dengan meningkatkan ukuran sampel. Kita dapat menggunakan rumus berikut untuk memberikan ukuran sampel yang dibutuhkan di bawah persyaratan estimasi interval rata-rata populasi pada \((1-\alpha)\) tingkat kepercayaan, margin of error E dan varians populasi \(\sigma^2\). \(z_{\alpha / 2}\) adalah \(100(1-\alpha/2)\) persentil dari normal distribusi standar

\[n= {(z_{\alpha/2})^2 \sigma^2 \over E^2}\]

Kasus 17

mengasumsikan standar deviasi populasi σ dari tinggi siswa dalam survei adalah 9,48. Temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.

zstar = qnorm(.975)                                    # quantiles (95% confidence level)
sigma = 9.48                                           # assume population standard deviation 
E = 1.2                                                # expected error
zstar^2*sigma^2/ E^2                                   # sampling size 
## [1] 239.7454

Berdasarkan asumsi standar deviasi populasi adalah 9,48, diperlukan ukuran sampel 240 untuk mencapai margin kesalahan 1,2 sentimeter pada tingkat kepercayaan 95%.

Latihan 6

Tingkatkan kualitas survei sampel dengan meningkatkan ukuran sampel dengan standar deviasi yang tidak diketahui. kita mengasumsikan margin ERROR 5%

zstar = qnorm(.975) 
E = 0.05
zstar^2/ (4*E^2)
## [1] 384.1459

Point Estimate of Population Proportion

Kuesioner pilihan ganda dalam suatu survei sering digunakan untuk mengetahui proporsi suatu populasi dengan karakteristik tertentu. Misalnya, kita dapat memperkirakan proporsi mahasiswi di universitas berdasarkan hasil survei kumpulan data sampel.

library(MASS)                                          # load the MASS package 
gender.response = na.omit(survey$Sex)                  # filter out missing values in `gender`
n = length(gender.response)                            # valid responses count

untuk menemukan jumlah dari mahasiswi, kita membandingkan respone gender faktor Female dan menghitung sum. Membaginya dengan n memberikan proporsi siswa perempuan dalam survei sampel.

library(MASS)                                          # load the MASS package 
k = sum(gender.response == "Female")                   # the sum of female responses
pbar = k/n; pbar                                       # female student proportion in survey
## [1] 0.5

Interval Estimate of Population Proportion

Setelah kami menemukan estimasi sampel titik dari proporsi populasi, kami perlu memperkirakan interval kepercayaan. mari kita tunjukkan \(100(1−α/2)\) persentil dari distribusi normal standar sebagai \(z_{\alpha/2}\). Jika ukuran sampel n dan proporsi populasi p memenuhi syarat bahwa \(np \ge 5\) dan \(n(1 − p) \ge 5\), dari titik akhir estimasi interval di \((1−α)\) tingkat kepercayaan didefinisikan dalam hal proporsi sampel sebagai berikut.

\[\bar{p}\pm z_{\alpha/2} \sqrt{{\bar{p}(1-\bar{p})\over n}}\]

Kasus 18

Hitunglah margin of error dan estimasi interval untuk proporsi siswa perempuan dalam survei pada tingkat kepercayaan 95%.

library(MASS)                                          # load the MASS package 
k = sum(gender.response == "Female")                   # the sum of female responses
pbar = k/n                                             # female student proportion in survey
SE = sqrt(pbar*(1-pbar)/n); SE                         # standard error 
## [1] 0.03254723
E = qnorm(.975)*SE; E                                  # margin of error
## [1] 0.06379139
pbar + c(-E, E)                                        # the CI of sample proportion
## [1] 0.4362086 0.5637914

Pada tingkat kepercayaan 95%, antara 43,6% dan 56,3% mahasiswa adalah perempuan, dan margin kesalahannya adalah 6,4%.

Solusi Alternatif ;

library(stats)                                         # load the MASS package 
prop.test(k, n)                                        # the interval estimate of proportion
## 
##  1-sample proportions test without continuity correction
## 
## data:  k out of n, null probability 0.5
## X-squared = 0, df = 1, p-value = 1
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4367215 0.5632785
## sample estimates:
##   p 
## 0.5

Sampling Size of Population Proportion

Kualitas survei sampel dapat ditingkatkan dengan meningkatkan ukuran sampel. Rumus di bawah ini memberikan ukuran sampel yang dibutuhkan di bawah persyaratan perkiraan interval proporsi populasi pada \((1−α)\) confidence level, margin of error \(E\), dan perkiraan proporsi yang direncanakan \(p\). \(z_{\alpha/2}\) adalah \(100(1−α/2)\) persentil dari distribusi normal standar.

\[n={(z_\alpha/2)^2 p(1-p) \over E^2}\]

Kasus 19

Dengan menggunakan perkiraan proporsi 50% yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa perempuan pada tingkat kepercayaan 95%.

zstar = qnorm(.975)                                    # quantiles (95% confidence level)
p = 0.5                                                # 50% planned proportion estimate
E = 0.05                                               # expected error
zstar^2*p*(1-p)/E^2                                    # sampling size
## [1] 384.1459

Latihan 7

Asumsikan Anda tidak memiliki perkiraan proporsi yang direncanakan, temukan ukuran sampel yang diperlukan untuk mencapai margin kesalahan 5% untuk survei siswa laki-laki pada tingkat kepercayaan 95%!

zstar = qnorm(.975)                                   # quantiles (95% confidence level)
E = 0.05                                              # expected error
zstar^2/E^2                                           # sampling size
## [1] 1536.584

Latihan 8

Lakukan analisis interval kepercayaan pada kumpulan data cps04.csv dari tahun 2004 yang mencakup data pendapatan rata-rata per jam, status perkawinan, jenis kelamin, dan usia ribuan orang.

x= read.csv("cps04.csv")
mean(x$age, na.rm=TRUE)    
## [1] 29.75445
p.est<-t.test(x$age, conf.level = 0.95)        # computes a number of statistical tests 
p.est$conf.int
## [1] 29.69103 29.81786
## attr(,"conf.level")
## [1] 0.95

kita dapat mengatakan dengan keyakinan 95% bahwa perkiraan interval ini mencakup rata-rata populasi umur yang sebenarnya adalah sama dengan 30.

t.test(x$age)
## 
##  One Sample t-test
## 
## data:  x$age
## t = 919.71, df = 7985, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
##  29.69103 29.81786
## sample estimates:
## mean of x 
##  29.75445

Population Proportion

female = x$female
n = length(female)    
k = sum(female == "1")
pbar = k/n; pbar  
## [1] 0.414851

Interval Population Proportion

prop.test(k, n)
## 
##  1-sample proportions test with continuity correction
## 
## data:  k out of n, null probability 0.5
## X-squared = 231.26, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.4040262 0.4257582
## sample estimates:
##        p 
## 0.414851

Pada tingkat kepercayaan 95%, antara 40,4% dan 42,6% data adalah perempuan.