제2장. 수집데이터의 요약

2.1 도수분포표의 작성

#exercise2.9
ex29 <- c(6.5, 4.0, 7.1, 8.3, 5.4, 7.6, 9.0, 15.7, 16.7, 6.4, 5.0, 8.5, 5.7, 7.7, 7.2, 12.4, 7.1, 5.5, 9.7, 4.4, 7.0, 6.3, 8.3, 6.9, 5.7, 7.6, 7.9, 7.9, 6.0, 8.2, 10.4, 9.9, 3.9, 9.8, 8.2, 5.6, 7.9, 6.4, 7.4, 7.0, 13.0, 8.7, 6.4, 6.7, 7.4)

#cut(data, 구간설정, 오른쪽 끝값 '미만', 계급값 표시): 데이터 값과 지정하는 구간 사이의 관계 표시하기
#breaks = seq(시작값, 끝값, 공차)
ex29.cut <- cut(ex29, breaks = seq(3.0, 18.0, by = 3), right = FALSE, labels = c("3.0 이상 - 6.0 미만", "6.0 이상 - 9.0 미만", "9.0 이상 - 12.0 미만", "12.0 이상 - 15.0 미만", "15.0 이상 - 18.0 미만"))

#table(data): 도수분포표 만들기
ex29.table <- table(ex29.cut); ex29.table
## ex29.cut
##   3.0 이상 - 6.0 미만   6.0 이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##                     9                    27                     5 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##                     2                     2
#prop.table(data): 상대도수분포표 만들기
prop.table(ex29.table)
## ex29.cut
##   3.0 이상 - 6.0 미만   6.0 이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##            0.20000000            0.60000000            0.11111111 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##            0.04444444            0.04444444
#cbind(table, table): 표 시각화 -> 열 기준
cbind(ex29.table, prop.table(ex29.table))
##                       ex29.table           
## 3.0 이상 - 6.0 미만            9 0.20000000
## 6.0 이상 - 9.0 미만           27 0.60000000
## 9.0 이상 - 12.0 미만           5 0.11111111
## 12.0 이상 - 15.0 미만          2 0.04444444
## 15.0 이상 - 18.0 미만          2 0.04444444

2.2 히스토그램의 작성

#exercise2.10
ex210 <- ex29

#hist(data, 구간설정, 오른쪽 끝값 '미만') / col = "" : 색 지정하기
hist(ex210, breaks = seq(3, 18, by = 3), right = FALSE, col = "blue")

2.3 줄기와 잎 그래프의 작성

#exercise211
ex211 <- c(18, 21, 22, 19, 34, 32, 40, 42, 56, 58, 64, 28, 29, 29, 36, 35)

#stem(data): 줄기와 잎 그래프 그리기
stem(ex211)
## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 89
##   2 | 12899
##   3 | 2456
##   4 | 02
##   5 | 68
##   6 | 4

2.4 오자이프(누적도수 그래프)의 작성

#exercise213
ex213 <- ex29
ex213.cut <- cut(ex213, breaks = seq(3.0, 18.0, by = 3), right = FALSE, labels = c("3.0 이상 - 6.0 미만", "6.0이상 - 9.0 미만", "9.0 이상 - 12.0 미만", "12.0 이상 - 15.0 미만", "15.0 이상 - 18.0 미만"))
ex213.table <- table(ex213.cut)

#cumsum(table): 도수분포표 -> 누적도수분포표로 전환하기
ex213.cumtable <- cumsum(ex213.table); ex213.cumtable
##   3.0 이상 - 6.0 미만    6.0이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##                     9                    36                    41 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##                    43                    45
#lines(누적도수table): 오자이브 곡선 그리기기
plot(ex213.cumtable)
lines(ex213.cumtable)


제3장. 수집 데이터의 기술통계적 측정

3.1 중심 위치의 측정

  • 평균: mean(data)

  • 중앙값: median(data)

    • 데이터의 크기: length(data)
    • 최솟값: min(data)
    • 최댓값: max(data)
    • 한꺼번에 출력: c(mean(data), length(data), min(data), max(data))
    • 데이터 요약: summary(data) –> 최솟값, 1사분위값, 중앙값, 평균, 3사분위값, 최댓값
#exercise3.2
stat <- c(88, 67, 76, 80, 86, 94, 78, 84, 82, 75, 80, 75, 65, 85, 78, 82, 71, 60, 87, 75)
mean <- mean(stat)
n <- length(stat)
min <- min(stat)
max <- max(stat)
c(mean, n, min, max)
## [1] 78.4 20.0 60.0 94.0
summary(stat)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   60.00   75.00   79.00   78.40   84.25   94.00
  • 최빈값: 표 그려서 확인하기 -> tabel(data)
#exercise3.5
dat35 <- c(1, 2, 2, 2, 3, 4, 3, 5, 7, 9)
table(dat35)
## dat35
## 1 2 3 4 5 7 9 
## 1 3 2 1 1 1 1
  • 가중평균: weighted.mean(value, weight)
    • 가중치 개체 만들기: count / sum(count)
    • 직접 입력: weighted.mean(value, count / sum(count))
#exercise3.8
math <- c(90, 80, 70, 60)
count <- c(3, 12, 15, 5)
weight <- count / sum(count)
weighted.mean(math, weight)
## [1] 73.71429
#or
weighted.mean(math, count / sum(count))
## [1] 73.71429
weighted.mean(math, count)
## [1] 73.71429

3.2 분산의 측정

  • 범위
#ex3.9
dat39 <- c(72, 67, 60, 78, 82)
range <- max(dat39) - min(dat39); range
## [1] 22
  • 분산
    • 모분산을 구할때는 편차 제곱의 합을 n으로 나누는 데 반해 표본분산은 (n-1)로 나눈다.
    • 이는 표본분산의 경우 편차 제곱의 합을 n으로 나누게 되면 이 결과가 모분산의 추정량으로 사용하기에는 과소평가 되는 경향이 있기 때문에, 이를 조정하기 위함이다.
    • (n-1)로 나누는 이론적 근거는 자유도라는 개념이다.
    • var(data) 함수 사용!
  • 표준편차
    • 분산에 양의 제곱근을 취한 것을 표준편차(standard deviation)라 한다.
    • sd(data) 함수 사용!
#ex3.10
dat310 <- dat39
var(dat310)
## [1] 76.2
sd(dat310)
## [1] 8.729261

3.3 비대칭성의 측정

  • 변동계수
    • 표준편차를 평군에 대한 백분율로 표시한 것을 변동계수(coefficient of variation)라 한다.
    • CV = (S / Xbar) * 100
    • cv_val(mean, sd): 평균과 표준편차가 주어졌을 때 이 함수 사용!
    • cv_dat(data): 데이터가 직접 주어졌을 때 이 함수 사용!
#ex3.11
#use cv_val()

#3.12
expenditure <- c(30950, 5800, 87600, 45100, 34000)
#use cv_dat()
  • 왜도
    • 자료의 분포가 좌우 대칭 상태에서 얼마나 벗어났는가를 나타내는 것이 왜도(skewness)이다.
    • moments pakage에서 skewness(dat) 함수 사용!
    • 왜도가 양수인 경우 -> right-skewed; M0(최빈값) < Me(중앙값) < Xbar(평균)
    • 왜도가 음수인 경우 -> left-skewed; Xbar(평균) < Me(중앙값) < M0(최빈값)
    • 왜도가 0인 경우 -> 대칭
#ex3.13
dat313 <- c(11, 17, 18, 10, 22, 14, 13, 12)
library(moments)
skewness(dat313)
## [1] 0.6434934
  • 4분위값
    • 데이터 값들을 오름차순으로 나열했을 때 25%, 50%, 75%에 위치한 값
    • 각각 1사분위값(Q1), 2사분위값(평균, Q2), 3사분위값(Q3)이라고 부름
    • 4분위범위(interquartile range): Q3 - Q1 (Q1과 Q3의 범위)
    • quantile(data, percentile)함수 사용!
#ex3.14
dat314 <- c(136, 182, 132, 166, 130, 186, 140, 155)
quantile(dat314, 0.25)
## 25% 
## 135
quantile(dat314, 0.3)
##   30% 
## 136.4
quantile(dat314, c(0.25, 0.3))
##   25%   30% 
## 135.0 136.4
quantile(dat314)
##    0%   25%   50%   75%  100% 
## 130.0 135.0 147.5 170.0 186.0
  • 상자그림
    • 자료의 분포형태를 4분위값과 최솟값, 최댓값의 다섯 가지 정보를 이용하여 그래프로 나타낸 것으로서, 데이터 값들이 어떤 분포의 형태를 띠고 있으며, 이들 데이터 값들 중 이상값(Outlier)이 있는지 여부를 알아내는데 유용하다.
    • 이상값: 평균으로부터 4 * 표준편차 이상 덜어져 위치한 데이터 값을 말한다.
    • boxplot(data, horizontal = TRUE) 함수 사용!
#ex3.18_상자그림 그리기
dat315 <- c(38, 174, 13, 58, 26, 155, 80, 26, 51, 46, 19, 134, 69, 30, 39, 29, 37, 47, 9, 52)
boxplot(dat315, horizontal = TRUE)

quantile(dat315)
##     0%    25%    50%    75%   100% 
##   9.00  28.25  42.50  60.75 174.00

3.4 그룹화된 데이터의 중심위치와 분산의 측정

  • 그룹화된 데이터의 평균
    • 데이터 값이 도수분포표의 형태로 그룹화되어 있는 자료에 대한 평균은 각 계급의 중앙에 위치한 중앙값을 구하고, 여기에 해당 도수를 가중치로 한 가중평균을 구하면 된다.
    • weighted.mean(data, freqency)
    • 참고: seq(from = , to = , by = )
#ex3.19_그룹화된 데이터의 평균 구하기
class_mid <- c(15, 25, 35, 45, 55, 65) #c(seq(15, 65, 10)) 사용해도 됨
freq <- c(4, 66, 47, 36, 12, 4)
weighted.mean(class_mid, freq)
## [1] 34.88166
  • 그룹화된 데이터의 중앙값
    • 데이터 값들을 순서대로 나열한다 -> rep(계급값, 도수) 함수 이용!
    • 나열한 후 중앙값을 찾는다 -> median(data) 함수 이용!
#ex3.20
x <- seq(3.6, 4.9, 0.1)
f <- c(1, 1, 6, 6, 10, 10, 13, 11, 13, 7, 6, 7, 5, 4)
dat <- rep(x, f) #변수에 할당해야 함 or median(rep(x, f)) 처럼 바로 사용
median(dat)
## [1] 4.3
  • 그룹화된 데이터의 최빈값
    • 도수가 가장 높은 계급의 계급값
  • 그룹화된 데이터의 분산과 표준편차
    • 교과서 p.82 참고
    • 새로 정의한 함수 group_var(계급값, 도수) / group_sd(계급값, 도수) 사용!
#ex3.22
x <- seq(14.5, 64.5, 10)
f <- c(4, 66, 47, 36, 12, 4)

3.5 표준편차에 관한 경험법칙

  • 경험법칙
    • 1표편 = 68 / 2표편 = 95 / 3표편 = 99.7
    • 정규분포함수의 누적확률을 구하는 함수: pnorm(x, mean = 0, sd = 1)
#ex3.23
xbar <- 400; s <- 4
pnorm(404, xbar, s) - pnorm(396, xbar, s)
## [1] 0.6826895
pnorm(408, xbar, s) - pnorm(392, xbar, s)
## [1] 0.9544997
pnorm(412, xbar, s) - pnorm(388, xbar, s)
## [1] 0.9973002
pnorm(408, xbar, s)
## [1] 0.9772499
pnorm(408, xbar, s) - pnorm(396, xbar, s)
## [1] 0.8185946
  • 표준편차의 근사값
    • 최댓값 = xbar + (3 * sd) (근삿값)
    • 최솟값 = xbar - (3 * sd) (근삿값)
    • sd = 범위 / 6
  • 체비셰프의 정리
    • xbar +- k*s 사이에 속하는 데이터 값들의 비율은 “최소한” 1 - (1 / k^2)이 된다.
    • checy(표본평균, 표준편차, 범위끝값) 함수 사용!

제5장. 확률분포

5.1 이산형 확률분포

  • 이산형 확률변수(discrete random variable)
    • 변수의 값이 확률에 의해 결정되는 변수를 확률변수라 하며,
    • 이러한 확률변수의 값이 불연속적일 때 이를 이산형 확률변수라 한다.
    • 명목, 서열척도일 때 사용
  • 이산형 확률변수의 평균
    • 가중산술평균으로 구할 수 있음
    • weighted.mean(x, w) 함수 사용
  • 이산형 확률변수의 분산과 표준편차(p.127)
    • d.var(x, p) 함수 사용
#ex5.5 (정의한 함수 사용하지 않고 코딩하는 방법)
x <- c(0, 1, 2, 3)
w <- c(0.10, 0.65, 0.20, 0.05)
wt.mean <- weighted.mean(x, w)
wt.var <- sum((x - wt.mean) ^ 2 * w ); wt.var
## [1] 0.46
#ex5.6
x <- c(1:5)
p <- c(0.1, 0.1, 0.2, 0.25, 0.35)
wt.var <- (sum((x - weighted.mean(x, p))^2 * p)); wt.var
## [1] 1.7275
#ex5.7
x <- seq(0, 20, 5)
p <- c(0.06, 0.12, 0.62, 0.15, 0.05)
weighted.mean(x, p)
## [1] 10.05
wt.var <- sum((x - weighted.mean(x, p))^2 * p); wt.var
## [1] 17.7475
sqrt(wt.var)
## [1] 4.212778

5.2 이항분포(p.131)

  • 이항분포의 특성
    • 실험의 결과 ’두 가지’가 서로 상호배타적임
    • 각 시행은 독립적임
    • 이항분포에서의 확률변수는 n번의 시행을 통해 얻을 수 있는 성공의 횟수임
  • 이항분포의 확률함수
    • dbinom(x, size, prob) 함수 사용!
    • 이항분포 확률함수는 p.134 참고 (너 이미 알고 있는 그거 맞아)
    • 문제 잘 읽기 -> 성공횟수인지 실패횟수인지 잘 읽어!!
    • pbinom(q, size, prob) 함수: q에서 지정한 확률변수 값까지의 누적확률을 구해줌
#ex5.10
dbinom(8, 10, 0.9)
## [1] 0.1937102
#ex5.11
dbinom(4, 10, 0.9)
## [1] 0.000137781
#ex5.12
dbinom(c(0:5), 5, 0.2)
## [1] 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032
 #네 명 이상이 기한 내에 납부하지 않을 확률 구하기
  #1
dbinom(4, 5, 0.2) + dbinom(5, 5, 0.2)
## [1] 0.00672
  #2
sum(dbinom(c(4, 5), 5, 0.2))
## [1] 0.00672
  #3
1 - pbinom(3, 5, 0.2)
## [1] 0.00672
  • 이항분포표
    • r programim을 이용해서 barplot 그리는 방법 알아두기! (p.139)
#ex5.13
x5 <- c(0:5)
p5 <- dbinom(x5, 5, 0.2)
names(p5) <- x5      #p5에 저장되어 있는 확률값에 x5에 저장되어있는 0, 1, .. , 5를 이름붙이라는 뜻
p5
##       0       1       2       3       4       5 
## 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032
barplot(p5)

x10 <- c(0:10)
p10 <- dbinom(x10, 10, 0.2)
names(p10) <- x10
p10
##            0            1            2            3            4            5 
## 0.1073741824 0.2684354560 0.3019898880 0.2013265920 0.0880803840 0.0264241152 
##            6            7            8            9           10 
## 0.0055050240 0.0007864320 0.0000737280 0.0000040960 0.0000001024
barplot(p10)

x20 <- c(0:20)
p20 <- dbinom(x20, 20, 0.2)
names(p20) <- x20
p20
##            0            1            2            3            4            5 
## 1.152922e-02 5.764608e-02 1.369094e-01 2.053641e-01 2.181994e-01 1.745595e-01 
##            6            7            8            9           10           11 
## 1.090997e-01 5.454985e-02 2.216088e-02 7.386959e-03 2.031414e-03 4.616849e-04 
##           12           13           14           15           16           17 
## 8.656592e-05 1.331783e-05 1.664729e-06 1.664729e-07 1.300570e-08 7.650410e-10 
##           18           19           20 
## 3.187671e-11 8.388608e-13 1.048576e-14
barplot(p20)

  • 이항분포의 평균과 표준편차(p.143)
#ex5.15
sqrt(0.75 * 0.25 * 20)
## [1] 1.936492
x <- c(0:20)
p <- dbinom(x, 20, 0.75)
names(p) <- x
round(p, 4)
##      0      1      2      3      4      5      6      7      8      9     10 
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0030 0.0099 
##     11     12     13     14     15     16     17     18     19     20 
## 0.0271 0.0609 0.1124 0.1686 0.2023 0.1897 0.1339 0.0669 0.0211 0.0032
p
##            0            1            2            3            4            5 
## 9.094947e-13 5.456968e-11 1.555236e-09 2.799425e-08 3.569266e-07 3.426496e-06 
##            6            7            8            9           10           11 
## 2.569872e-05 1.541923e-04 7.516875e-04 3.006750e-03 9.922275e-03 2.706075e-02 
##           12           13           14           15           16           17 
## 6.088669e-02 1.124062e-01 1.686093e-01 2.023312e-01 1.896855e-01 1.338956e-01 
##           18           19           20 
## 6.694781e-02 2.114141e-02 3.171212e-03
barplot(p)

#ex.5.16
#(2)
dbinom(0, 10, 0.1)
## [1] 0.3486784
#(3)
x <- c(0:10)
p <- dbinom(x, 10, 0.1)
names(p) <- x
round(p, 3)
##     0     1     2     3     4     5     6     7     8     9    10 
## 0.349 0.387 0.194 0.057 0.011 0.001 0.000 0.000 0.000 0.000 0.000
#(4)
barplot(p)

#(5)
0.1 * 10
## [1] 1
sqrt(0.1 * 0.9 * 10)
## [1] 0.9486833

5.3 포아송 분포

  • 포아송분포
    • 포아송분포는 시간이나 거리, 면적과 같이 어떤 특정 기간이나 구역에서 관심의 대상이 되는 사건에 대한 발생횟수의 확률을 구하는데 이용된다.
    • 포아송분포는 표본을 뽑아 이를 분석하는 것이 아니라, 표본의 수가 정해지지 않은 상태에서 사건이 발생하는 횟수가 관심의 대상이다.
    • 포아송분포와 이항분포의 차이는 p.150에서 확인할 수 있음
    • 핵심은 표본의 여부 / 구간 개념
  • 포아송 확률분포함수
    • 포아송 분포의 식의 변수는 람다(lamda)와 x에 의해 결정된다.
    • 람다: 일정 기간 동안에 일어나는 사건의 평균 발생횟수
    • 사건이 x번 발생할 때의 확률
    • dpois(x, lamda): 포아송분포의 평균값이 lamda, 확률변수가 x일 때의 확률
    • ppois(q, lamda): 포아송분포의 누적확률을 구하는 함수
#ex5.18
dpois(5, 2.75)
## [1] 0.08378618
ppois(2, 2.75)
## [1] 0.4814567
#ex5.19
1 - ppois(4, 6)
## [1] 0.7149435
#ex5.20
dpois(0, 0.4)
## [1] 0.67032
  • 포아송 분포의 평균과 표준편차
    • 평균: lamda
    • 표준편차: sqrt(lamda)

5.4 연속형 확률분포

  • 연속형 확률변수

  • 연속형 확률함수

5.5 정규분포(p.159)

  • 정규분포

  • 정규분포의 확률밀도함수

    • pnorm(x, mu, sigma) 함수 사용 / default: mu = 0, sigma = 1
#ex5.25
#(1)
mu <- c(3, -3, 0, 8)
sigma <- c(1, 5, 1, 8)
pnorm(-8, mu, sigma)
## [1] 1.910660e-28 1.586553e-01 6.220961e-16 2.275013e-02
#(2)
1 - pnorm(16, mu, sigma)
## [1] 0.000000e+00 7.234804e-05 0.000000e+00 1.586553e-01
  • 표준정규분포
    • 표준화하기: 너가 아는 그거
  • 표준정규분포표
    • pnorm(q, mean, sd)
    • default: mean = 0, sd = 1
    • qnorm(p, mean, sd): 평균과 표준편차가 주어진 정규분포에서 누적확률 P에 대응하는 확률변수 X값을 계산해주는 함수
#ex5.31
#(1)
pnorm(1.11) - pnorm(-2.22)
## [1] 0.8532911
#(2)
pnorm(2.46) - pnorm(1.54)
## [1] 0.05483333
#(3)
1 - pnorm(1.82)
## [1] 0.0343795
#ex5.32
  #1 표준화한 값으로 계산하기
q <- 1000; mu <- 1240; sigma <- 160
z <- (q - mu) / sigma
pnorm(z)
## [1] 0.0668072
  #2 주어진 값 그대로 계산하기
pnorm(1000, 1240, 160)
## [1] 0.0668072
#ex5.33
#(1)
q <- 1400
z <- (q - mu) / sigma
pnorm(z)
## [1] 0.8413447
#(2)
q <- 1500
z <- (q - mu) / sigma
1 - pnorm(z)
## [1] 0.05208128
#(3)
q3 <- 1200; q4 <- 1300
z1 <- (q3 - mu) / sigma; z2 <- (q4 - mu) / sigma
pnorm(z2) - pnorm(z1)
## [1] 0.2448761
#ex5.34
mu <- 1240; sigma <- 160
qnorm(0.6, 1240, 160)
## [1] 1280.536
#ex5.35
qnorm(0.025)
## [1] -1.959964

5.6 지수분포(p.184)

  • 지수분포(exponential distribution)
    • 지수분포는 연속형 확률분포이지만 이산형 확률분포인 포아송분포와 밀접한 관계를 가지고 있다.
    • 다만, 포아송 분포가 ’일정한 구간’을 정하고 그 구간 사이에 사건이 발생할 확률을 나타내는 것인 데 반해,
    • 지수분포는 사건이 발생한 후 다음 사건이 발생할 때까지의 시간을 확률변수로 하는 분포이다.
  • 지수분포의 확률밀도함수와 지수분포표
    • 지수분포의 평균: 1 / lamda
    • 지수분포의 표준편차: 1 / lamda
    • lamda: 포아송 분포의 평균
    • pexp(q, rate) 함수 사용!
#ex5.39
pexp(1.5, 0.2)
## [1] 0.2591818
#ex5.40
#(1)
pexp(3, 0.4) - pexp(1.5, 0.4)
## [1] 0.2476174
#(2)
1 - pexp(3, 0.4)
## [1] 0.3011942
#ex5.41
c(pexp(1, 0.7), 1 - pexp(4, 0.7))
## [1] 0.50341470 0.06081006

제6장. 표본분표

6.1 표본평균의 표본분표

  • 표본분표(p.193)

  • 표본평균의 표본분포

  • 표본평균의 표본분포에서의 평균과 표준오차

    • 표본평균의 기댓값 / 분산 / 표준오차(표준편차): 너가 아는 그거 (루트엔분의시그마,,)
    • 수정계수: 모집단의 크기가 알려져있거나, 표본의 크기가 모집단 크기의 5% 이상이 되는 경우 사용
#ex6.5
mu <- 15; sigma <- 4.5
4.5 / sqrt(40) * sqrt(160 / 199)
## [1] 0.6379931
  • 중심극한정리
#ex6.6
#(2)
qnorm(0.025, 850, 40); qnorm(0.975, 850, 40)
## [1] 771.6014
## [1] 928.3986

6.2 표본평균의 표준화

  • pppp(sigma, n): 표본평균의 표준편차
#ex6.7
mu <- 124
sigma <- 40
n <- 35
s <- sigma / sqrt(n)
xbar <- mu
x = 142
z <- (x - xbar) / s
z
## [1] 2.662236
#ex6.9
se <- 32 / sqrt(40)
#(1)
1 - pnorm(130, 120, se)
## [1] 0.02405341
#(2)
pnorm(124, 120, se)
## [1] 0.7854023
#(3)
pnorm(128, 120, se) - pnorm(112, 120, se)
## [1] 0.8861537
#ex6.10

6.3 표본비율의 표본분표(p.209)

  • 표본비율

  • 표본비율의 표본분포

  • 표본비율의 표본분포에서의 평균과 표준오차

    • pbpp(pi, n): 루트 엔분의 피큐 -> 표본비율의 표준편차

6.4 표본비율의 표준화

#ex6.18
pi <- 0.75; n <- 420
se <- sqrt(pi*(1-pi) / n)
#(1)
p1 <- 0.7
z1 <- (p1 - pi) / se
pnorm(z1)
## [1] 0.008980239
#(2)
p2 <- 0.72
z2 <- (p2 - pi) / se
1 - pnorm(z2)
## [1] 0.9221757
#(3)
p3 <- 0.74; p4 <- 0.76
z3 <- (p3 - pi) / se; z4 <- (p4 - pi) / se
pnorm(z4) - pnorm(z3)
## [1] 0.3639911
#ex6.19
p <- 0.6; n <- 1000
se <- sqrt(p*(1-p)/n)
pnorm(0.62, p, se) - pnorm(0.58, p, se)
## [1] 0.8032944

제7장. 단일 모집단의 추정과 가설검정

7.1 추정과 가설검정(p.225)

  • 통계적 추측(p.225)
    • 모집단의 모수(parameter)가 알려지지 않은 상태에서 모수를 알고자 할 때 일반적으로 표본조사를 통해 이를 추측하는데, 이러한 과정을 통계적 추측이라고 한다.
    • 이러한 통계적 추측을 하는 방법은 추정(estimation)과 가설검정(hypothesis testing)의 두 가지로 구분된다.
  • 추정(p.226)
    • 모집단의 특성을 나타내는 모수가 알려져 있지 않을 때, 이를 대신하여 사용할 수 있는 합당한 값 또는 합당한 값의 범위를 표본으로부터 구하는 과정을 추정이라 한다.
    • 이때 모수를 대신하여 사용할 수 있는 합당한 값으로서, 표본으로부터 추정 과정을 통해 얻게 되는 모집단 모수에 대한 추측값을 추정치라고 한다.
    • 점추정치: 추정치가 하나의 특정한 값으로 추측되는 것
    • 구간추정치: 모수가 속해 있을 합당한 값의 범위를 나타내는 형태로 추측되는 것
    • 추정치(estimate)와 추정량(estimator): 추정치란 포본을 통해 얻은 모수에 대한 하나의 추측값이며, 추정량이란 모집단의 특성에 대한 척도를 추정하는 데 사용되는 확률변수를 말한다. –> 어느 추정량이 가장 좋은 추정량인지 결정하는 가장 중요한 기준은 불편성(unbisasedness)이다. –> 즉, 추정량에 대한 기댓값이 모수 값과 일치할 때, 이러한 추정량을 불편추정량(unbiased estimator)이라 한다.
  • 가설검정
    • 모집단의 모수에 대한 어떤 가정이나 증명되지 않은 사실, 즉, 가설에 대해 이를 받아들일 것인지 도는 기각할 것인지를 표본으로부터 얻은 정보를 바탕으로 검정하는 과정을 말한다. 이 검정과정에서의 기본적 논리는 표본분포와 확률이론에 기반을 두고 있다.
  • 귀무가설과 대립가설(p.229)
    • 귀무가설은 검정 대상이 되는 가설이다. 따라서 귀무가설에는 반드시 등호(=)가 포함되어 있다.
    • 모집단의 모수 값을 포함하는 내용의 가설은 귀무가설로 설정된다.
    • 진실일 것으로 가정하는 모수 값에 대한 내용을 귀무가설로 설정한다.
  • 1종오류와 2종오류(p.232)
    • 1종오류: 귀무가설이 진실임에도 불구하고 귀무가설을 기각(대립가설을 채택)하게 되는 오류
    • 2종오류: 귀무가설이 거짓임에도 불구하고 귀무가설을 채택하게 되는 오류

7.2 모평균의 추정(p.235)

  • 신뢰구간
    • conflevel(level, xbar, sigma, n) 함수 사용하기!
#ex7.15
xbar <- 520; n <- 100; sigma <- 120
se <- sigma / sqrt(n)
z <- qnorm(0.95)
upper <- xbar + z*se 
lower <- xbar - z*se
lower; upper
## [1] 500.2618
## [1] 539.7382
#ex7.16
n <- 156; xbar <- 24500; sigma <- 16600
se <- sigma / sqrt(n)
z <- qnorm(0.975); z
## [1] 1.959964
upper <- xbar + z * se
lower <- xbar - z * se
c(lower, upper)
## [1] 21895.08 27104.92
  • 신뢰구간과 표본크기의 결정(p.242)
    • 표본오차의 크기를 최대 E 수준으로 유지라혀고 하는 경우, 표본크기 n을 결정하는 식은 다음과 같다.
    • n = ((Z * sigma) / E)^2
    • cn(calculating n) 함수 사용: cn(sigma, confidence level, E)
#ex7.17
sigma <- 2400; E <- 400
z <- qnorm(0.975)
n <- (z * sigma / E)^2; n
## [1] 138.2925
#ex7.18
sigma <- 120; n <- 100; z <- qnorm(0.95)
n <- (z * sigma / 10)^2

#ex7.19

#ex7.20
n <- 50; xbar <- 86; sigma <- 45
#(1)
se <- sigma / sqrt(n); se
## [1] 6.363961
#(2)
z <- qnorm(0.95)
upper <- xbar + z * se
lower <- xbar - z * se
c(lower, upper)
## [1] 75.53222 96.46778
#(3)
n90 <- (z * sigma / 8)^2; n90
## [1] 85.60509
#(4)
n95 <- (qnorm(0.975) * sigma / 8)^2; n95
## [1] 121.5462

7.3 모평균의 가설검정(p.250)

  • 양측검정

  • 유의수준(p.252)

#ex7.23
#(1)
qnorm(0.95)
## [1] 1.644854
#(2)
qnorm(0.975)
## [1] 1.959964
#(3)
qnorm(0.995)
## [1] 2.575829
#ex7.24
  • 단측검정
#ex7.30
mu0 <- 100000; xbar <- 108000; n <- 200; s <- 42500
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar
## [1] 2.662049
z_crt <- qnorm(0.95); z_crt
## [1] 1.644854
#ex7.31
mu0 <- 64; n <- 50; xbar <- 60.5; s <- 28
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar
## [1] -0.8838835
z_crt <- -qnorm(0.95); z_crt
## [1] -1.644854
  • 확률 p값에 의한 가설검정
#ex7.33
mu0 <- 100000; n <- 200; xbar <- 108000; s <- 42500
z_xbar <- (xbar - mu0) / (s / sqrt(n))
1 - pnorm(z_xbar)
## [1] 0.003883328
1 - pnorm(108000, 100000, 42500 / sqrt(n))
## [1] 0.003883328
pnorm(xbar, mu0, s / sqrt(n), lower.tail = F)
## [1] 0.003883328
#ex7.34
mu0 <- 64; n <- 50; xbar <- 60.5; s <- 28
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar
## [1] -0.8838835
pnorm(xbar, mu0, s / sqrt(n))
## [1] 0.1883796
pnorm(z_xbar)
## [1] 0.1883796
#ex7.35
n <- 81; xbar <- 58.6; s <- 8.2; mu0 <- 56
z_xbar <- (xbar - mu0) / (s / sqrt(n))
2 * pnorm(z_xbar, lower.tail = F)
## [1] 0.004321896