[2020-2] 사회분석방법_중간고사 대비

제2장. 수집데이터의 요약

2.1 도수분포표의 작성

#exercise2.9
ex29 <- c(6.5, 4.0, 7.1, 8.3, 5.4, 7.6, 9.0, 15.7, 16.7, 6.4, 5.0, 8.5, 5.7, 7.7, 7.2, 12.4, 7.1, 5.5, 9.7, 4.4, 7.0, 6.3, 8.3, 6.9, 5.7, 7.6, 7.9, 7.9, 6.0, 8.2, 10.4, 9.9, 3.9, 9.8, 8.2, 5.6, 7.9, 6.4, 7.4, 7.0, 13.0, 8.7, 6.4, 6.7, 7.4)

#cut(data, 구간설정, 오른쪽 끝값 '미만', 계급값 표시): 데이터 값과 지정하는 구간 사이의 관계 표시하기
#breaks = seq(시작값, 끝값, 공차)
ex29.cut <- cut(ex29, breaks = seq(3.0, 18.0, by = 3), right = FALSE, labels = c("3.0 이상 - 6.0 미만", "6.0 이상 - 9.0 미만", "9.0 이상 - 12.0 미만", "12.0 이상 - 15.0 미만", "15.0 이상 - 18.0 미만"))

#table(data): 도수분포표 만들기
ex29.table <- table(ex29.cut); ex29.table

## ex29.cut
##   3.0 이상 - 6.0 미만   6.0 이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##                     9                    27                     5 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##                     2                     2

#prop.table(data): 상대도수분포표 만들기
prop.table(ex29.table)

## ex29.cut
##   3.0 이상 - 6.0 미만   6.0 이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##            0.20000000            0.60000000            0.11111111 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##            0.04444444            0.04444444

#cbind(table, table): 표 시각화 -> 열 기준
cbind(ex29.table, prop.table(ex29.table))

##                       ex29.table           
## 3.0 이상 - 6.0 미만            9 0.20000000
## 6.0 이상 - 9.0 미만           27 0.60000000
## 9.0 이상 - 12.0 미만           5 0.11111111
## 12.0 이상 - 15.0 미만          2 0.04444444
## 15.0 이상 - 18.0 미만          2 0.04444444

2.2 히스토그램의 작성

#exercise2.10
ex210 <- ex29

#hist(data, 구간설정, 오른쪽 끝값 '미만') / col = "" : 색 지정하기
hist(ex210, breaks = seq(3, 18, by = 3), right = FALSE, col = "blue")

2.3 줄기와 잎 그래프의 작성

#exercise211
ex211 <- c(18, 21, 22, 19, 34, 32, 40, 42, 56, 58, 64, 28, 29, 29, 36, 35)

#stem(data): 줄기와 잎 그래프 그리기
stem(ex211)

## 
##   The decimal point is 1 digit(s) to the right of the |
## 
##   1 | 89
##   2 | 12899
##   3 | 2456
##   4 | 02
##   5 | 68
##   6 | 4

2.4 오자이프(누적도수 그래프)의 작성

#exercise213
ex213 <- ex29
ex213.cut <- cut(ex213, breaks = seq(3.0, 18.0, by = 3), right = FALSE, labels = c("3.0 이상 - 6.0 미만", "6.0이상 - 9.0 미만", "9.0 이상 - 12.0 미만", "12.0 이상 - 15.0 미만", "15.0 이상 - 18.0 미만"))
ex213.table <- table(ex213.cut)

#cumsum(table): 도수분포표 -> 누적도수분포표로 전환하기
ex213.cumtable <- cumsum(ex213.table); ex213.cumtable

##   3.0 이상 - 6.0 미만    6.0이상 - 9.0 미만  9.0 이상 - 12.0 미만 
##                     9                    36                    41 
## 12.0 이상 - 15.0 미만 15.0 이상 - 18.0 미만 
##                    43                    45

#lines(누적도수table): 오자이브 곡선 그리기기
plot(ex213.cumtable)
lines(ex213.cumtable)

제3장. 수집 데이터의 기술통계적 측정

3.1 중심 위치의 측정

평균: mean(data)
중앙값: median(data)
- 데이터의 크기: length(data)
- 최솟값: min(data)
- 최댓값: max(data)
- 한꺼번에 출력: c(mean(data), length(data), min(data), max(data))
- 데이터 요약: summary(data) –> 최솟값, 1사분위값, 중앙값, 평균, 3사분위값, 최댓값

#exercise3.2
stat <- c(88, 67, 76, 80, 86, 94, 78, 84, 82, 75, 80, 75, 65, 85, 78, 82, 71, 60, 87, 75)
mean <- mean(stat)
n <- length(stat)
min <- min(stat)
max <- max(stat)
c(mean, n, min, max)

## [1] 78.4 20.0 60.0 94.0

summary(stat)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   60.00   75.00   79.00   78.40   84.25   94.00

최빈값: 표 그려서 확인하기 -> tabel(data)

#exercise3.5
dat35 <- c(1, 2, 2, 2, 3, 4, 3, 5, 7, 9)
table(dat35)

## dat35
## 1 2 3 4 5 7 9 
## 1 3 2 1 1 1 1

가중평균: weighted.mean(value, weight)
- 가중치 개체 만들기: count / sum(count)
- 직접 입력: weighted.mean(value, count / sum(count))

#exercise3.8
math <- c(90, 80, 70, 60)
count <- c(3, 12, 15, 5)
weight <- count / sum(count)
weighted.mean(math, weight)

## [1] 73.71429

#or
weighted.mean(math, count / sum(count))

## [1] 73.71429

weighted.mean(math, count)

## [1] 73.71429

3.2 분산의 측정

범위

#ex3.9
dat39 <- c(72, 67, 60, 78, 82)
range <- max(dat39) - min(dat39); range

## [1] 22

분산
- 모분산을 구할때는 편차 제곱의 합을 n으로 나누는 데 반해 표본분산은 (n-1)로 나눈다.
- 이는 표본분산의 경우 편차 제곱의 합을 n으로 나누게 되면 이 결과가 모분산의 추정량으로 사용하기에는 과소평가 되는 경향이 있기 때문에, 이를 조정하기 위함이다.
- (n-1)로 나누는 이론적 근거는 자유도라는 개념이다.
- var(data) 함수 사용!
표준편차
- 분산에 양의 제곱근을 취한 것을 표준편차(standard deviation)라 한다.
- sd(data) 함수 사용!

#ex3.10
dat310 <- dat39
var(dat310)

## [1] 76.2

sd(dat310)

## [1] 8.729261

3.3 비대칭성의 측정

변동계수
- 표준편차를 평군에 대한 백분율로 표시한 것을 변동계수(coefficient of variation)라 한다.
- CV = (S / Xbar) * 100
- cv_val(mean, sd): 평균과 표준편차가 주어졌을 때 이 함수 사용!
- cv_dat(data): 데이터가 직접 주어졌을 때 이 함수 사용!

#ex3.11
#use cv_val()

#3.12
expenditure <- c(30950, 5800, 87600, 45100, 34000)
#use cv_dat()

왜도
- 자료의 분포가 좌우 대칭 상태에서 얼마나 벗어났는가를 나타내는 것이 왜도(skewness)이다.
- moments pakage에서 skewness(dat) 함수 사용!
- 왜도가 양수인 경우 -> right-skewed; M0(최빈값) < Me(중앙값) < Xbar(평균)
- 왜도가 음수인 경우 -> left-skewed; Xbar(평균) < Me(중앙값) < M0(최빈값)
- 왜도가 0인 경우 -> 대칭

#ex3.13
dat313 <- c(11, 17, 18, 10, 22, 14, 13, 12)
library(moments)
skewness(dat313)

## [1] 0.6434934

4분위값
- 데이터 값들을 오름차순으로 나열했을 때 25%, 50%, 75%에 위치한 값
- 각각 1사분위값(Q1), 2사분위값(평균, Q2), 3사분위값(Q3)이라고 부름
- 4분위범위(interquartile range): Q3 - Q1 (Q1과 Q3의 범위)
- quantile(data, percentile)함수 사용!

#ex3.14
dat314 <- c(136, 182, 132, 166, 130, 186, 140, 155)
quantile(dat314, 0.25)

## 25% 
## 135

quantile(dat314, 0.3)

##   30% 
## 136.4

quantile(dat314, c(0.25, 0.3))

##   25%   30% 
## 135.0 136.4

quantile(dat314)

##    0%   25%   50%   75%  100% 
## 130.0 135.0 147.5 170.0 186.0

상자그림
- 자료의 분포형태를 4분위값과 최솟값, 최댓값의 다섯 가지 정보를 이용하여 그래프로 나타낸 것으로서, 데이터 값들이 어떤 분포의 형태를 띠고 있으며, 이들 데이터 값들 중 이상값(Outlier)이 있는지 여부를 알아내는데 유용하다.
- 이상값: 평균으로부터 4 * 표준편차 이상 덜어져 위치한 데이터 값을 말한다.
- boxplot(data, horizontal = TRUE) 함수 사용!

#ex3.18_상자그림 그리기
dat315 <- c(38, 174, 13, 58, 26, 155, 80, 26, 51, 46, 19, 134, 69, 30, 39, 29, 37, 47, 9, 52)
boxplot(dat315, horizontal = TRUE)

quantile(dat315)

##     0%    25%    50%    75%   100% 
##   9.00  28.25  42.50  60.75 174.00

3.4 그룹화된 데이터의 중심위치와 분산의 측정

그룹화된 데이터의 평균
- 데이터 값이 도수분포표의 형태로 그룹화되어 있는 자료에 대한 평균은 각 계급의 중앙에 위치한 중앙값을 구하고, 여기에 해당 도수를 가중치로 한 가중평균을 구하면 된다.
- weighted.mean(data, freqency)
- 참고: seq(from = , to = , by = )

#ex3.19_그룹화된 데이터의 평균 구하기
class_mid <- c(15, 25, 35, 45, 55, 65) #c(seq(15, 65, 10)) 사용해도 됨
freq <- c(4, 66, 47, 36, 12, 4)
weighted.mean(class_mid, freq)

## [1] 34.88166

그룹화된 데이터의 중앙값
- 데이터 값들을 순서대로 나열한다 -> rep(계급값, 도수) 함수 이용!
- 나열한 후 중앙값을 찾는다 -> median(data) 함수 이용!

#ex3.20
x <- seq(3.6, 4.9, 0.1)
f <- c(1, 1, 6, 6, 10, 10, 13, 11, 13, 7, 6, 7, 5, 4)
dat <- rep(x, f) #변수에 할당해야 함 or median(rep(x, f)) 처럼 바로 사용
median(dat)

## [1] 4.3

그룹화된 데이터의 최빈값
- 도수가 가장 높은 계급의 계급값
그룹화된 데이터의 분산과 표준편차
- 교과서 p.82 참고
- 새로 정의한 함수 group_var(계급값, 도수) / group_sd(계급값, 도수) 사용!

#ex3.22
x <- seq(14.5, 64.5, 10)
f <- c(4, 66, 47, 36, 12, 4)

3.5 표준편차에 관한 경험법칙

경험법칙
- 1표편 = 68 / 2표편 = 95 / 3표편 = 99.7
- 정규분포함수의 누적확률을 구하는 함수: pnorm(x, mean = 0, sd = 1)

#ex3.23
xbar <- 400; s <- 4
pnorm(404, xbar, s) - pnorm(396, xbar, s)

## [1] 0.6826895

pnorm(408, xbar, s) - pnorm(392, xbar, s)

## [1] 0.9544997

pnorm(412, xbar, s) - pnorm(388, xbar, s)

## [1] 0.9973002

pnorm(408, xbar, s)

## [1] 0.9772499

pnorm(408, xbar, s) - pnorm(396, xbar, s)

## [1] 0.8185946

표준편차의 근사값
- 최댓값 = xbar + (3 * sd) (근삿값)
- 최솟값 = xbar - (3 * sd) (근삿값)
- sd = 범위 / 6
체비셰프의 정리
- xbar +- k*s 사이에 속하는 데이터 값들의 비율은 “최소한” 1 - (1 / k^2)이 된다.
- checy(표본평균, 표준편차, 범위끝값) 함수 사용!

제5장. 확률분포

5.1 이산형 확률분포

이산형 확률변수(discrete random variable)
- 변수의 값이 확률에 의해 결정되는 변수를 확률변수라 하며,
- 이러한 확률변수의 값이 불연속적일 때 이를 이산형 확률변수라 한다.
- 명목, 서열척도일 때 사용
이산형 확률변수의 평균
- 가중산술평균으로 구할 수 있음
- weighted.mean(x, w) 함수 사용
이산형 확률변수의 분산과 표준편차(p.127)
- d.var(x, p) 함수 사용

#ex5.5 (정의한 함수 사용하지 않고 코딩하는 방법)
x <- c(0, 1, 2, 3)
w <- c(0.10, 0.65, 0.20, 0.05)
wt.mean <- weighted.mean(x, w)
wt.var <- sum((x - wt.mean) ^ 2 * w ); wt.var

## [1] 0.46

#ex5.6
x <- c(1:5)
p <- c(0.1, 0.1, 0.2, 0.25, 0.35)
wt.var <- (sum((x - weighted.mean(x, p))^2 * p)); wt.var

## [1] 1.7275

#ex5.7
x <- seq(0, 20, 5)
p <- c(0.06, 0.12, 0.62, 0.15, 0.05)
weighted.mean(x, p)

## [1] 10.05

wt.var <- sum((x - weighted.mean(x, p))^2 * p); wt.var

## [1] 17.7475

sqrt(wt.var)

## [1] 4.212778

5.2 이항분포(p.131)

이항분포의 특성
- 실험의 결과 ’두 가지’가 서로 상호배타적임
- 각 시행은 독립적임
- 이항분포에서의 확률변수는 n번의 시행을 통해 얻을 수 있는 성공의 횟수임
이항분포의 확률함수
- dbinom(x, size, prob) 함수 사용!
- 이항분포 확률함수는 p.134 참고 (너 이미 알고 있는 그거 맞아)
- 문제 잘 읽기 -> 성공횟수인지 실패횟수인지 잘 읽어!!
- pbinom(q, size, prob) 함수: q에서 지정한 확률변수 값까지의 누적확률을 구해줌

#ex5.10
dbinom(8, 10, 0.9)

## [1] 0.1937102

#ex5.11
dbinom(4, 10, 0.9)

## [1] 0.000137781

#ex5.12
dbinom(c(0:5), 5, 0.2)

## [1] 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032

 #네 명 이상이 기한 내에 납부하지 않을 확률 구하기
  #1
dbinom(4, 5, 0.2) + dbinom(5, 5, 0.2)

## [1] 0.00672

  #2
sum(dbinom(c(4, 5), 5, 0.2))

## [1] 0.00672

  #3
1 - pbinom(3, 5, 0.2)

## [1] 0.00672

이항분포표
- r programim을 이용해서 barplot 그리는 방법 알아두기! (p.139)

#ex5.13
x5 <- c(0:5)
p5 <- dbinom(x5, 5, 0.2)
names(p5) <- x5      #p5에 저장되어 있는 확률값에 x5에 저장되어있는 0, 1, .. , 5를 이름붙이라는 뜻
p5

##       0       1       2       3       4       5 
## 0.32768 0.40960 0.20480 0.05120 0.00640 0.00032

barplot(p5)

x10 <- c(0:10)
p10 <- dbinom(x10, 10, 0.2)
names(p10) <- x10
p10

##            0            1            2            3            4            5 
## 0.1073741824 0.2684354560 0.3019898880 0.2013265920 0.0880803840 0.0264241152 
##            6            7            8            9           10 
## 0.0055050240 0.0007864320 0.0000737280 0.0000040960 0.0000001024

barplot(p10)

x20 <- c(0:20)
p20 <- dbinom(x20, 20, 0.2)
names(p20) <- x20
p20

##            0            1            2            3            4            5 
## 1.152922e-02 5.764608e-02 1.369094e-01 2.053641e-01 2.181994e-01 1.745595e-01 
##            6            7            8            9           10           11 
## 1.090997e-01 5.454985e-02 2.216088e-02 7.386959e-03 2.031414e-03 4.616849e-04 
##           12           13           14           15           16           17 
## 8.656592e-05 1.331783e-05 1.664729e-06 1.664729e-07 1.300570e-08 7.650410e-10 
##           18           19           20 
## 3.187671e-11 8.388608e-13 1.048576e-14

barplot(p20)

이항분포의 평균과 표준편차(p.143)

#ex5.15
sqrt(0.75 * 0.25 * 20)

## [1] 1.936492

x <- c(0:20)
p <- dbinom(x, 20, 0.75)
names(p) <- x
round(p, 4)

##      0      1      2      3      4      5      6      7      8      9     10 
## 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0002 0.0008 0.0030 0.0099 
##     11     12     13     14     15     16     17     18     19     20 
## 0.0271 0.0609 0.1124 0.1686 0.2023 0.1897 0.1339 0.0669 0.0211 0.0032

##            0            1            2            3            4            5 
## 9.094947e-13 5.456968e-11 1.555236e-09 2.799425e-08 3.569266e-07 3.426496e-06 
##            6            7            8            9           10           11 
## 2.569872e-05 1.541923e-04 7.516875e-04 3.006750e-03 9.922275e-03 2.706075e-02 
##           12           13           14           15           16           17 
## 6.088669e-02 1.124062e-01 1.686093e-01 2.023312e-01 1.896855e-01 1.338956e-01 
##           18           19           20 
## 6.694781e-02 2.114141e-02 3.171212e-03

barplot(p)

#ex.5.16
#(2)
dbinom(0, 10, 0.1)

## [1] 0.3486784

#(3)
x <- c(0:10)
p <- dbinom(x, 10, 0.1)
names(p) <- x
round(p, 3)

##     0     1     2     3     4     5     6     7     8     9    10 
## 0.349 0.387 0.194 0.057 0.011 0.001 0.000 0.000 0.000 0.000 0.000

#(4)
barplot(p)

#(5)
0.1 * 10

## [1] 1

sqrt(0.1 * 0.9 * 10)

## [1] 0.9486833

5.3 포아송 분포

포아송분포
- 포아송분포는 시간이나 거리, 면적과 같이 어떤 특정 기간이나 구역에서 관심의 대상이 되는 사건에 대한 발생횟수의 확률을 구하는데 이용된다.
- 포아송분포는 표본을 뽑아 이를 분석하는 것이 아니라, 표본의 수가 정해지지 않은 상태에서 사건이 발생하는 횟수가 관심의 대상이다.
- 포아송분포와 이항분포의 차이는 p.150에서 확인할 수 있음
- 핵심은 표본의 여부 / 구간 개념
포아송 확률분포함수
- 포아송 분포의 식의 변수는 람다(lamda)와 x에 의해 결정된다.
- 람다: 일정 기간 동안에 일어나는 사건의 평균 발생횟수
- 사건이 x번 발생할 때의 확률
- dpois(x, lamda): 포아송분포의 평균값이 lamda, 확률변수가 x일 때의 확률
- ppois(q, lamda): 포아송분포의 누적확률을 구하는 함수

#ex5.18
dpois(5, 2.75)

## [1] 0.08378618

ppois(2, 2.75)

## [1] 0.4814567

#ex5.19
1 - ppois(4, 6)

## [1] 0.7149435

#ex5.20
dpois(0, 0.4)

## [1] 0.67032

포아송 분포의 평균과 표준편차
- 평균: lamda
- 표준편차: sqrt(lamda)

5.4 연속형 확률분포

연속형 확률변수
연속형 확률함수

5.5 정규분포(p.159)

정규분포
정규분포의 확률밀도함수
- pnorm(x, mu, sigma) 함수 사용 / default: mu = 0, sigma = 1

#ex5.25
#(1)
mu <- c(3, -3, 0, 8)
sigma <- c(1, 5, 1, 8)
pnorm(-8, mu, sigma)

## [1] 1.910660e-28 1.586553e-01 6.220961e-16 2.275013e-02

#(2)
1 - pnorm(16, mu, sigma)

## [1] 0.000000e+00 7.234804e-05 0.000000e+00 1.586553e-01

표준정규분포
- 표준화하기: 너가 아는 그거
표준정규분포표
- pnorm(q, mean, sd)
- default: mean = 0, sd = 1
- qnorm(p, mean, sd): 평균과 표준편차가 주어진 정규분포에서 누적확률 P에 대응하는 확률변수 X값을 계산해주는 함수

#ex5.31
#(1)
pnorm(1.11) - pnorm(-2.22)

## [1] 0.8532911

#(2)
pnorm(2.46) - pnorm(1.54)

## [1] 0.05483333

#(3)
1 - pnorm(1.82)

## [1] 0.0343795

#ex5.32
  #1 표준화한 값으로 계산하기
q <- 1000; mu <- 1240; sigma <- 160
z <- (q - mu) / sigma
pnorm(z)

## [1] 0.0668072

  #2 주어진 값 그대로 계산하기
pnorm(1000, 1240, 160)

## [1] 0.0668072

#ex5.33
#(1)
q <- 1400
z <- (q - mu) / sigma
pnorm(z)

## [1] 0.8413447

#(2)
q <- 1500
z <- (q - mu) / sigma
1 - pnorm(z)

## [1] 0.05208128

#(3)
q3 <- 1200; q4 <- 1300
z1 <- (q3 - mu) / sigma; z2 <- (q4 - mu) / sigma
pnorm(z2) - pnorm(z1)

## [1] 0.2448761

#ex5.34
mu <- 1240; sigma <- 160
qnorm(0.6, 1240, 160)

## [1] 1280.536

#ex5.35
qnorm(0.025)

## [1] -1.959964

5.6 지수분포(p.184)

지수분포(exponential distribution)
- 지수분포는 연속형 확률분포이지만 이산형 확률분포인 포아송분포와 밀접한 관계를 가지고 있다.
- 다만, 포아송 분포가 ’일정한 구간’을 정하고 그 구간 사이에 사건이 발생할 확률을 나타내는 것인 데 반해,
- 지수분포는 사건이 발생한 후 다음 사건이 발생할 때까지의 시간을 확률변수로 하는 분포이다.
지수분포의 확률밀도함수와 지수분포표
- 지수분포의 평균: 1 / lamda
- 지수분포의 표준편차: 1 / lamda
- lamda: 포아송 분포의 평균
- pexp(q, rate) 함수 사용!

#ex5.39
pexp(1.5, 0.2)

## [1] 0.2591818

#ex5.40
#(1)
pexp(3, 0.4) - pexp(1.5, 0.4)

## [1] 0.2476174

#(2)
1 - pexp(3, 0.4)

## [1] 0.3011942

#ex5.41
c(pexp(1, 0.7), 1 - pexp(4, 0.7))

## [1] 0.50341470 0.06081006

제6장. 표본분표

6.1 표본평균의 표본분표

표본분표(p.193)
표본평균의 표본분포
표본평균의 표본분포에서의 평균과 표준오차
- 표본평균의 기댓값 / 분산 / 표준오차(표준편차): 너가 아는 그거 (루트엔분의시그마,,)
- 수정계수: 모집단의 크기가 알려져있거나, 표본의 크기가 모집단 크기의 5% 이상이 되는 경우 사용

#ex6.5
mu <- 15; sigma <- 4.5
4.5 / sqrt(40) * sqrt(160 / 199)

## [1] 0.6379931

중심극한정리

#ex6.6
#(2)
qnorm(0.025, 850, 40); qnorm(0.975, 850, 40)

## [1] 771.6014

## [1] 928.3986

6.2 표본평균의 표준화

pppp(sigma, n): 표본평균의 표준편차

#ex6.7
mu <- 124
sigma <- 40
n <- 35
s <- sigma / sqrt(n)
xbar <- mu
x = 142
z <- (x - xbar) / s
z

## [1] 2.662236

#ex6.9
se <- 32 / sqrt(40)
#(1)
1 - pnorm(130, 120, se)

## [1] 0.02405341

#(2)
pnorm(124, 120, se)

## [1] 0.7854023

#(3)
pnorm(128, 120, se) - pnorm(112, 120, se)

## [1] 0.8861537

#ex6.10

6.3 표본비율의 표본분표(p.209)

표본비율
표본비율의 표본분포
표본비율의 표본분포에서의 평균과 표준오차
- pbpp(pi, n): 루트 엔분의 피큐 -> 표본비율의 표준편차

6.4 표본비율의 표준화

#ex6.18
pi <- 0.75; n <- 420
se <- sqrt(pi*(1-pi) / n)
#(1)
p1 <- 0.7
z1 <- (p1 - pi) / se
pnorm(z1)

## [1] 0.008980239

#(2)
p2 <- 0.72
z2 <- (p2 - pi) / se
1 - pnorm(z2)

## [1] 0.9221757

#(3)
p3 <- 0.74; p4 <- 0.76
z3 <- (p3 - pi) / se; z4 <- (p4 - pi) / se
pnorm(z4) - pnorm(z3)

## [1] 0.3639911

#ex6.19
p <- 0.6; n <- 1000
se <- sqrt(p*(1-p)/n)
pnorm(0.62, p, se) - pnorm(0.58, p, se)

## [1] 0.8032944

제7장. 단일 모집단의 추정과 가설검정

7.1 추정과 가설검정(p.225)

통계적 추측(p.225)
- 모집단의 모수(parameter)가 알려지지 않은 상태에서 모수를 알고자 할 때 일반적으로 표본조사를 통해 이를 추측하는데, 이러한 과정을 통계적 추측이라고 한다.
- 이러한 통계적 추측을 하는 방법은 추정(estimation)과 가설검정(hypothesis testing)의 두 가지로 구분된다.
추정(p.226)
- 모집단의 특성을 나타내는 모수가 알려져 있지 않을 때, 이를 대신하여 사용할 수 있는 합당한 값 또는 합당한 값의 범위를 표본으로부터 구하는 과정을 추정이라 한다.
- 이때 모수를 대신하여 사용할 수 있는 합당한 값으로서, 표본으로부터 추정 과정을 통해 얻게 되는 모집단 모수에 대한 추측값을 추정치라고 한다.
- 점추정치: 추정치가 하나의 특정한 값으로 추측되는 것
- 구간추정치: 모수가 속해 있을 합당한 값의 범위를 나타내는 형태로 추측되는 것
- 추정치(estimate)와 추정량(estimator): 추정치란 포본을 통해 얻은 모수에 대한 하나의 추측값이며, 추정량이란 모집단의 특성에 대한 척도를 추정하는 데 사용되는 확률변수를 말한다. –> 어느 추정량이 가장 좋은 추정량인지 결정하는 가장 중요한 기준은 불편성(unbisasedness)이다. –> 즉, 추정량에 대한 기댓값이 모수 값과 일치할 때, 이러한 추정량을 불편추정량(unbiased estimator)이라 한다.
가설검정
- 모집단의 모수에 대한 어떤 가정이나 증명되지 않은 사실, 즉, 가설에 대해 이를 받아들일 것인지 도는 기각할 것인지를 표본으로부터 얻은 정보를 바탕으로 검정하는 과정을 말한다. 이 검정과정에서의 기본적 논리는 표본분포와 확률이론에 기반을 두고 있다.
귀무가설과 대립가설(p.229)
- 귀무가설은 검정 대상이 되는 가설이다. 따라서 귀무가설에는 반드시 등호(=)가 포함되어 있다.
- 모집단의 모수 값을 포함하는 내용의 가설은 귀무가설로 설정된다.
- 진실일 것으로 가정하는 모수 값에 대한 내용을 귀무가설로 설정한다.
1종오류와 2종오류(p.232)
- 1종오류: 귀무가설이 진실임에도 불구하고 귀무가설을 기각(대립가설을 채택)하게 되는 오류
- 2종오류: 귀무가설이 거짓임에도 불구하고 귀무가설을 채택하게 되는 오류

7.2 모평균의 추정(p.235)

신뢰구간
- conflevel(level, xbar, sigma, n) 함수 사용하기!

#ex7.15
xbar <- 520; n <- 100; sigma <- 120
se <- sigma / sqrt(n)
z <- qnorm(0.95)
upper <- xbar + z*se 
lower <- xbar - z*se
lower; upper

## [1] 500.2618

## [1] 539.7382

#ex7.16
n <- 156; xbar <- 24500; sigma <- 16600
se <- sigma / sqrt(n)
z <- qnorm(0.975); z

## [1] 1.959964

upper <- xbar + z * se
lower <- xbar - z * se
c(lower, upper)

## [1] 21895.08 27104.92

신뢰구간과 표본크기의 결정(p.242)
- 표본오차의 크기를 최대 E 수준으로 유지라혀고 하는 경우, 표본크기 n을 결정하는 식은 다음과 같다.
- n = ((Z * sigma) / E)^2
- cn(calculating n) 함수 사용: cn(sigma, confidence level, E)

#ex7.17
sigma <- 2400; E <- 400
z <- qnorm(0.975)
n <- (z * sigma / E)^2; n

## [1] 138.2925

#ex7.18
sigma <- 120; n <- 100; z <- qnorm(0.95)
n <- (z * sigma / 10)^2

#ex7.19

#ex7.20
n <- 50; xbar <- 86; sigma <- 45
#(1)
se <- sigma / sqrt(n); se

## [1] 6.363961

#(2)
z <- qnorm(0.95)
upper <- xbar + z * se
lower <- xbar - z * se
c(lower, upper)

## [1] 75.53222 96.46778

#(3)
n90 <- (z * sigma / 8)^2; n90

## [1] 85.60509

#(4)
n95 <- (qnorm(0.975) * sigma / 8)^2; n95

## [1] 121.5462

7.3 모평균의 가설검정(p.250)

양측검정
유의수준(p.252)

#ex7.23
#(1)
qnorm(0.95)

## [1] 1.644854

#(2)
qnorm(0.975)

## [1] 1.959964

#(3)
qnorm(0.995)

## [1] 2.575829

#ex7.24

단측검정

#ex7.30
mu0 <- 100000; xbar <- 108000; n <- 200; s <- 42500
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar

## [1] 2.662049

z_crt <- qnorm(0.95); z_crt

## [1] 1.644854

#ex7.31
mu0 <- 64; n <- 50; xbar <- 60.5; s <- 28
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar

## [1] -0.8838835

z_crt <- -qnorm(0.95); z_crt

## [1] -1.644854

확률 p값에 의한 가설검정

#ex7.33
mu0 <- 100000; n <- 200; xbar <- 108000; s <- 42500
z_xbar <- (xbar - mu0) / (s / sqrt(n))
1 - pnorm(z_xbar)

## [1] 0.003883328

1 - pnorm(108000, 100000, 42500 / sqrt(n))

## [1] 0.003883328

pnorm(xbar, mu0, s / sqrt(n), lower.tail = F)

## [1] 0.003883328

#ex7.34
mu0 <- 64; n <- 50; xbar <- 60.5; s <- 28
z_xbar <- (xbar - mu0) / (s / sqrt(n)); z_xbar

## [1] -0.8838835

pnorm(xbar, mu0, s / sqrt(n))

## [1] 0.1883796

pnorm(z_xbar)

## [1] 0.1883796

#ex7.35
n <- 81; xbar <- 58.6; s <- 8.2; mu0 <- 56
z_xbar <- (xbar - mu0) / (s / sqrt(n))
2 * pnorm(z_xbar, lower.tail = F)

## [1] 0.004321896

[2020-2] 사회분석방법_중간고사 대비

홍지은

10/15/2020

제2장. 수집데이터의 요약

2.1 도수분포표의 작성

2.2 히스토그램의 작성

2.3 줄기와 잎 그래프의 작성

2.4 오자이프(누적도수 그래프)의 작성

제3장. 수집 데이터의 기술통계적 측정

3.1 중심 위치의 측정

3.2 분산의 측정

3.3 비대칭성의 측정

3.4 그룹화된 데이터의 중심위치와 분산의 측정

3.5 표준편차에 관한 경험법칙

제5장. 확률분포

5.1 이산형 확률분포

5.2 이항분포(p.131)

5.3 포아송 분포

5.4 연속형 확률분포

5.5 정규분포(p.159)

5.6 지수분포(p.184)

제6장. 표본분표

6.1 표본평균의 표본분표

6.2 표본평균의 표준화

6.3 표본비율의 표본분표(p.209)

6.4 표본비율의 표준화

제7장. 단일 모집단의 추정과 가설검정

7.1 추정과 가설검정(p.225)

7.2 모평균의 추정(p.235)

7.3 모평균의 가설검정(p.250)