2/20일 코로나 바이러스 실제 감염자수는?

코로나 바이러스

논문이 쓰기 싫은 대학원생

2020/3/18

Today…

Before We Start

현재 전세계 상황은? (3/18)

확인해야할 수치들

국가별 상황

Based on 보고된 수치

그럼 실제 케이스는 도대체 얼마인가?

어떤 \(f\) ?

치사율 (fatality rate)

두가지 방법

  1. \(치사율_1\) = deaths / total cases

    • 과소 평과된 수치(Underestimate!)
    • 왜냐하면 active 한 환자들 중 사망자 다수 발생 가능
  2. \(치사율_2\) = deaths / closed cases

    • 과대 평가된 수치(Overestimate!)
    • 사망시 케이스가 종료되고 보통 사망 시점은 회복 시점 보다 빠름
    • Closed cases = Recovered + Deaths

이론상으로 모든 케이스가 종료가 되면 \(치사율_1\)\(치사율_2\) 가 같아질 것이므로 우리는 현재시점에서 두 수치의 중간쯤 어디라고 예상해볼 수 있음

The true value might locate somewhere between the two!

두가지 치사율의 진행상황을 살펴 보자

\(치사율_1\)

##            ts      China    Italy       Iran       Korea
## 57 2020-03-18 0.03996202 0.083387 0.06537642 0.009984548

\(치사율_2\)

##            ts      China     Italy     Iran      Korea
## 57 2020-03-18 0.04439969 0.4252463 0.173973 0.05172414

한국의 치사율은?

##            ts fatal_rate_1 fata_rate_2 Weighted Mean (0.7,0.3)
## 57 2020-03-18  0.009984548  0.05172414              0.02250642

Daily Growth

일일 증가량 40% 인 경우 2일 간격으로약 2배씩 증가한다고 볼 수 있음

(When daily growth rate is 40%, it doubles cases every 2 days. Number would change depending on how we react.)

\(g_{r} = 0.4\) 일때 \[ (1+g_r)^2 = 1.96 \approx 2\] 이다.

먼저 전체기간 일일 증가율을 살펴보면,

추가적으로 3/5 에서 3/6일 증가율을 보면,

증가율? What is Growth Rate? Exponoential Growth?

증가율은 너무 너무 중요함

우리가 아는 증가율 두개

  1. Linear growth : 매일 일정하게 확진자가 선형적으로 증가하는 경우

\[ x(t) = x(0) + \gamma t \]

  1. Exponential Growth : 매일 일정하게 \(log(확진자)\)가 선형적으로 증가하는 경우

\[ x(t) = x(0)\exp(\gamma t) \]

이를 우리에게 좀더 친숙한 기하급수적으로 증가하는 모형으로 바꾸면

\(\gamma\) 를 다음과 같이 두고 \[\log(1+g)=\gamma\]

정리하면,

\[ x(t) = x(0)(1+g)^t = x(t-1)\cdot (1+g)\]

그림으로 살펴보면 x(0) 을 데이터와 같이 7로 두고 g 를 0.16 에서 0.2 사이로 조정해가면서 가장 비슷한 것을 찾아보자

\(x(0)=7\) 이고 \(g=0.19\) 일때 실제 데이터와 가장 비슷하다!

한국의 경우는?

한국 데이터는 \(x(0)=1\) 이고 \(g=0.19\)\(g=0.23\) 으로 두고 비교해보자.

한국의 경우는 증가 되는 폭이 중간에 꺽인것을 확인 할 수 있다. 다소 빠른 증가폭을 보였지만 Flattening the Curve가 상대적으로 빨리 이루어졌다고 생각됨.

그럼 unknown actual case는 어떻게 추정(estimate)해 볼 수 있나?

먼저 알아야 할것은 알려지지 않은 실제 감염자 수를 완벽하게 알아낼 수 있는 방법은 없습니다. 왜냐하면 무증상자와 테스트를 안한 사람이 많기 때문이다. 게다가 시진핑이 직접 말하지 않고서 얼마나 데이터를 축소시켜 중국 데이터를 중국 정부가 발표한지도 알 수 없다. (By factor of 5, 10, 100?)

하지만 분석할 수 있는 데이터가 단순히 믿지 못하는 (unreliable) 혹은 불균형한 (asymmetry) 데이터라고 해서 데이터가 더 많이 모일때까지 기다릴 수많은 없다. 데이터의 양이 많아지면 더 정확한 추정치를 얻을 수 있겠지만 그때는 이미 코로나 바이러스라는 위험이 끝이 났을 때이므로 현재 우리가 직면한 문제를 해결하는데는 아무런 의미가 없다.

그래서 사람들이 할 수 있었던 가장 쉬운 방법부터 생각해보자. 확진환자들에게 언제 처음으로 증상이 나타났는지 확인해서 숫자를 카운트 하면 된다. 이는 중국질병당국에서 실시하였고 거기에 대한 그래프가 다음과 같다.

위 그래프에서 오렌지 색은 우리가 뉴스를 통해서 알 수 있는 그래프이다. 이는 의사가 환자를 직접 만나서 진료후에 확진 판정을 받았을때야 비로소 숫자가 카운트 된다. 하지만 우리는 이 환자가 처음 증상이 언제 발생했는지가 궁금하다. 무증상자라면 알 수 있는 방법이 없겠지만 증상이 있었다면 실제로 환자가 처음 코로나 바이러스 증상이 나타난 시기를 알 수 있고 잠복기를 고려한다면 실제로 코로나 바이러스를 걸린 시점을 알 수 있다.

하지만 이방법은 증상이 있는 환자한테 적용되고 환자가 첫 증상이 언제 일어났는지 정확하게 알려주는 경우에만 유용하다. 추가적인 다른 방법은 어떤것이 있나?

다른 유용한 정보의 활용

중요한 정보는 다음과 같다

사망률

한국의 사망률은 위에서 살펴본 바와 같이 1% (과소평가)와 5% (과대평과) 사이입니다. 뉴스에서 볼수있는 숫자는 1%이고 또 계산의 편의를 위해 1%로 가정하고 진행해보자.

잠복기 추정치

잠복기 추정치는 5일 라고 하고 다음 추정치를 봅시다. 이는 코로나 바이러스를 걸리고 유증상자라면 보통 5일뒤에 증상이 나타나는 말입니다.

사망에 이르는 시간

아래 표는 증상이 나타나고 사망에 이르기까지의 시간에 대한 추정치 입니다.

계산의 편의를 위해서 15일로 가정하고 진행해보겠습니다.

감여자가 두배 증가하는데 걸리는 일 수

위의 추정치는 보시다 시피 편차가 있어서 우리는 간편하게 위에서 살펴본 한국 데이터에서평균 일일 증가량인 0.22% 를 채택하여 4일로 가정하고 진행하겠습니다.

mean(df_pct$Korea)
## [1] 0.2190069
(1+mean(df_pct$Korea))**4
## [1] 2.20813

이는 대충 4일마다 2배가 되는것을 알 수있다. 정확하진 않지만 4일마다 2배가 된다고 하고 분석을 해보자.

Estimating Actual Cases (한국)

준비물

  1. 사망률: 1%
  2. 잠복기 (Incubation Period): 5 days
  3. 사망하기까지 걸리는 시간 (Time to Death): 15 days
  4. 두배증가하는데 걸리는 일 수 (Days to Double): 4 days

국내 첫 사망자 발생 일 : 2020-2-20 국내 첫 확진자 발생 일 : 2020-1-10

첫 사망자가 발생한 시점이 2월 20일이다. 우리는 감염후 증상이나타나고 사망하기 까지 시간이 20일 (15+5) 이라고 가정했으므로 이 사망자가 처음 코로나에 걸렸을 날짜는 2월 1일이라 추정해볼수있다. 그리고 한국의 사망률을 우리가 1퍼센트라 가정했기 때문에 그날 실제 감염자수는 100명 정도라 추정해볼 수 도 있다.

또한 우리는 4일마다 감염자수가 2배로 는다고 가정했습니다. 이는 100명이 200이 되는 데는 4일이 소요되고 그 200명이 다시 400명이 되는데는 다시 4일 (총 8일후)이 걸린다.그로부터 4일 후는 400명이 더 추가되어 800명 그리고 총 16일 후는 800명이 추가되어 1600명이다.총 20일 후 첫 발생가자 발생한 2월 20일에는 1600명이 더 추가되어 3200명이 실제로 감염된 상태라는 결론에 이른다.

이 수치는 굉장히 보수적으로 계산한 수치이다. 왜나하면 2월 1일에 감염자가 50명 밖에 없다는 가정이기 때문이다. 동시에 한국의 첫 확진자가 1월 10에 발생한 것을 알고있기 때문에, 위의 확산속도를 적용해보면 2월 2일에 64명정도가 감염 되어있다는 것을 알수있다. 우리는 계산을 편하게 하기위해서 50명정도로 가정해보겠습니다.

2월 1일 실제 감염자수 50명

이제 우리가 알고있는 정보와 가정한 것으로만 바탕으로 첫 사망자가 발생한 2월 20일까지 실제 감염자 그래프를 그려보자.

2월 20일

2월 20일에 실제 증가한 감염자 수는 517명이고 이미 실제로 감염되어있는 사람의 숫자는 3200명에 이르렀을것이라 판단됨.

Reference