포아송 분포를 따르는 서로 독립인 확률변수 X, Y 가 있다.
\(X, Y \sim i.i.d. Pois(\lambda)\)
이때 E(X|X+Y) 는 어떻게 될까?
\(T = X+Y,\) \(E(X | X+Y) + E(Y | X+Y) = E(X + Y|X+Y) = X+Y\)
=> \(E(X|X+Y) = (X+Y)/2 = T/2\)
아래 내용은 simulation 을 통해서 위 내용을 확인한다.
library(dplyr)
## Warning: 패키지 'dplyr'는 R 버전 4.1.2에서 작성되었습니다
set.seed(1234)
# lambda = 8 인 독립 확률변수 X, Y 의 랜덤값을 10000 개 생성한다.
lambda = 5
X <- rpois(10000, lambda = lambda)
Y <- rpois(10000, lambda = lambda)
# X, Y 로 구성된 데이터프레임을 생성하고
# X+Y = T 컬럼을 생성한다.
df_data <- data.frame(X = X, Y=Y)
df_data$T <- df_data$X + df_data$Y
# 데이터프레임 일부분을 확인한다.
head(df_data)
## X Y T
## 1 2 3 5
## 2 6 5 11
## 3 5 6 11
## 4 6 9 15
## 5 7 3 10
## 6 6 4 10
# T 값에 따라서 그룹핑하고
# 해당 그룹에 포함된 X 의 값에 대한 평균(기대값) 을 계산한다.
E_X <- df_data %>% group_by(T) %>% summarize(mean_x = mean(X))
# 데이터를 출력하고, 평균값이 T/2 임을 확인한다.
print(E_X, n=nrow(E_X))
## # A tibble: 25 × 2
## T mean_x
## <int> <dbl>
## 1 0 0
## 2 1 0.5
## 3 2 0.938
## 4 3 1.27
## 5 4 2
## 6 5 2.59
## 7 6 2.99
## 8 7 3.50
## 9 8 3.99
## 10 9 4.44
## 11 10 4.97
## 12 11 5.49
## 13 12 5.92
## 14 13 6.51
## 15 14 7.07
## 16 15 7.59
## 17 16 7.96
## 18 17 8.51
## 19 18 8.69
## 20 19 9.48
## 21 20 9.61
## 22 21 8.86
## 23 22 11.2
## 24 23 10
## 25 25 12
plot(E_X, type='l')