ある家電製品の寿命を区間推定して、取扱説明書に書き込みたい。今までのデータから、母標準偏差σ=150時間であることがわかっている。この製品を100個標本抽出し、検査をしたところ、寿命の標本平均は2520時間であった。母平均μを95%信頼係数の元で区間推定せよ。
(参考文献:鳥居(1994)はじめての統計学, 日本経済新聞出版)
install.packages("dplyr",repos = "http://cran.us.r-project.org") # 一度もインストールしていない場合
##
## The downloaded binary packages are in
## /var/folders/r9/h9w1r6pn0qd3c5pc5bwjr7gc0000gp/T//Rtmp7lAFic/downloaded_packages
install.packages("ggplot2",repos = "http://cran.us.r-project.org") # 一度もインストールしていない場合
##
## The downloaded binary packages are in
## /var/folders/r9/h9w1r6pn0qd3c5pc5bwjr7gc0000gp/T//Rtmp7lAFic/downloaded_packages
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
set.seed(100)
data <- rnorm(100, 2520, 150) %>% round()
#平均2520, 標準偏差150の標準正規分布に従う値100個の乱数を発生させ、 round()で整数値にして、変数「data」に格納する。
library(BSDA)#z.testを行うために必要なパッケージ
## Loading required package: lattice
##
## Attaching package: 'BSDA'
## The following object is masked from 'package:datasets':
##
## Orange
z.test(x=data, y = NULL, alternative = "two.sided", mu = 0, sigma.x = 150, sigma.y = NULL, conf.level = 0.95)#xは信頼区間を求めるデータを指定。yはこの場合、NULL(指定なし)。alternative="two.sided"は両側検定, mu=0は帰無仮説と平均値が違う場合に指定。sigma.xは母集団の標準偏差, sigma.yもデータがある場合は同様。conf.levelは指定したい信頼区間。
##
## One-sample z-Test
##
## data: data
## z = 168.03, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 2491.021 2549.819
## sample estimates:
## mean of x
## 2520.42
区間推定の結果を読み取ると、この家電製品の寿命の母平均は2491.021時間以上2549.819時間以下の範囲に収まる。
10000人にYoutubeの視聴率調査をしました。あるチャンネルを見た人は2100人でした。このチャンネルの視聴率の95%信頼区間を求めてください。
(参考文献:稲垣他(2007)統計学講義, 裳華房)
prop.test(2100,10000)
##
## 1-sample proportions test with continuity correction
##
## data: 2100 out of 10000, null probability 0.5
## X-squared = 3362.8, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.2020797 0.2181444
## sample estimates:
## p
## 0.21
この問題では、信頼区間を求めれば良いので、
95 percent confidence interval: 0.2020797 0.2181444
の部分を参照します。
このため、このチャンネル視聴率の95%信頼区間は、0.2020797以上0.2181444以下となります。
500人を対象に、動物が好きか、植物が好きかのアンケートを取りました。すると、男性で動物が好きな人は180人、植物が好きな人は80人、女性で動物が好きな人は70人、植物が好きな人は170人でした。男子と女子で動物好き植物好きの傾向に差があると言えるでしょうか?有意水準5%で検定してください。
まず、観測されたデータをベクトルまたは行列としてRに入力します。以下は、男子と女子の動物好き植物好きのデータをベクトルとして示した例です。
male <- c(180, 80)
female <- c(70, 170)
次に、これらのデータをクロス集計表に変換します。
data <- rbind(male, female)
colnames(data) <- c("動物", "植物")
rownames(data) <- c("男子", "女子")
data
## 動物 植物
## 男子 180 80
## 女子 70 170
カイ二乗値を計算します。chisq.test関数を使用します。
result <- chisq.test(data,correct=FALSE)
result
##
## Pearson's Chi-squared test
##
## data: data
## X-squared = 80.128, df = 1, p-value < 2.2e-16
p値が有意水準0.05より小さいので、
帰無仮説(男子と女子で動物好き植物好きの傾向に差がない)
を棄却します。 有意水準5%で動物好き、植物好きは男女によって差がある ということが言えます。