목적

검색어에서 추출된 팩터스코어와 경제변수가 결합 되었을 때 모델의 예측력이 향상 되었는지 기간등을 변경하여 다시 실험하였음.

1.검색어 추출 웹사이트 및 기간을 변경하여 재시도함.

검색어 웹사이트 자료기간 개월수 트레이닝샘플
1) 네이버 데이터랩 2016/01/01~2018/09/01 33개월 2016/01/01~2017/12/01(24개월)
2)* 구글 코리아 2010/01/01~2018/09/01 105개월 2010/01/01201406/01 (54개월)

2)* 구글 코리아를 이용하여 아래와 같이 정리함

  1. Google Korea, 2010년 1월부터 2018년 9월 까지 자료를 이용한 결과.
plot of chunk box05_08
위그림 왼쪽_구글코리아_PPP_NoDrift
PPP GTFA PPP.GTFA
CW 0.34 0.17 0.30
p-value 0.01 0.11 0.02
위그림 오른쪽_구글코리아__PPP_Drift
PPP GTFA PPP.GTFA
CW 0.61 1.47 0.64
p-value 0.00 0.00 0.00
plot of chunk box05_08
위그림 왼쪽_구글코리아__MM_NoDrift
MM GTFA MM.GTFA
CW 0.45 0.19 0.36
p-value 0.00 0.08 0.01
위그림 오른쪽_구글코리아__MM_Drift
MM GTFA MM.GTFA
CW 0.66 0.51 0.52
p-value 0.00 0.00 0.00
  1. 네이버데이터랩이용시 단점
    • 관측치가 33개로 적다
    • 검색어만으로 구성된 수치가 가장높다. p값은 “0.02”
    • 경제변수와 검색어의 결합(economic fundamental with query factor scores)은 p값 0.06으로 통계적으로 유의하지 않았다.
    • MM 에서 경제변수로만 구성된 CW가 가장 높음
  2. 구글코리아의 경우 조사기간이 길고 경제변수와 검색어의 결합으로 모델의 예측력이 향상되었다.
    • PPP모델중 no drift에서는 경제변수와 검색어 결합모델의 수치가 유사한 값임
    • PPP모델중 drift 에서 검색어와 결합된 모델의 예측력이 좋아졌음. good
    • MM모델에서는 세 모델 모두 비슷한 예측력을 가짐
  3. 결론

구글코리아를 통한 장기간의 자료(105개월)를 토대로 CW테스트를 한 결과,PPP의 범주에서 no drift인 경우 팩터스코어를 대입한 검색어와의 결합이 예측력을 향상 시켰으며, drift 에서는 PPP와 MM 모두 통계적 유의성을 가짐.