Summary

포아송 분포를 따르는 서로 독립인 확률변수 X, Y 가 있다.

\(X, Y \sim i.i.d. Pois(\lambda)\)

이때 E(X|X+Y) 는 어떻게 될까?

\(T = X+Y,\) \(E(X | X+Y) + E(Y | X+Y) = E(X + Y|X+Y) = X+Y\)

=> \(E(X|X+Y) = (X+Y)/2 = T/2\)

아래 내용은 simulation 을 통해서 위 내용을 확인한다.

library(dplyr)
## Warning: 패키지 'dplyr'는 R 버전 4.1.2에서 작성되었습니다
set.seed(1234)
# lambda = 8 인 독립 확률변수 X, Y 의 랜덤값을 10000 개 생성한다.
lambda = 5
X <- rpois(10000, lambda = lambda)
Y <- rpois(10000, lambda = lambda)

# X, Y 로 구성된 데이터프레임을 생성하고
# X+Y = T 컬럼을 생성한다.
df_data <- data.frame(X = X, Y=Y)
df_data$T <- df_data$X + df_data$Y

# 데이터프레임 일부분을 확인한다.
head(df_data)
##   X Y  T
## 1 2 3  5
## 2 6 5 11
## 3 5 6 11
## 4 6 9 15
## 5 7 3 10
## 6 6 4 10
# T 값에 따라서 그룹핑하고
# 해당 그룹에 포함된 X 의 값에 대한 평균(기대값) 을 계산한다.
E_X <- df_data %>% group_by(T) %>% summarize(mean_x = mean(X))

# 데이터를 출력하고, 평균값이 T/2 임을 확인한다.
print(E_X, n=nrow(E_X))
## # A tibble: 25 × 2
##        T mean_x
##    <int>  <dbl>
##  1     0  0    
##  2     1  0.5  
##  3     2  0.938
##  4     3  1.27 
##  5     4  2    
##  6     5  2.59 
##  7     6  2.99 
##  8     7  3.50 
##  9     8  3.99 
## 10     9  4.44 
## 11    10  4.97 
## 12    11  5.49 
## 13    12  5.92 
## 14    13  6.51 
## 15    14  7.07 
## 16    15  7.59 
## 17    16  7.96 
## 18    17  8.51 
## 19    18  8.69 
## 20    19  9.48 
## 21    20  9.61 
## 22    21  8.86 
## 23    22 11.2  
## 24    23 10    
## 25    25 12
plot(E_X, type='l')