Overview
저번 분석에 이어서 이번에는 TV, 잡지 등과 같은 매체를 이용하여 광고했을 때 어떤 조합이 신규유저의 수를 늘리는 데 가장 효과적인가에 대해 분석을 해보고자 한다. 현재 문제점은 ‘매스미디어 매체는 광고효과 CPI(Cost per Install)가 일정치 않다’ 라는 데 있다. 3개월에 한 번은 광고를 발주해야하는데 여기서 ‘TV광고와 잡지 광고의 비율을 적절히 배분하여 최대한의 광고효과를 내는 것이 이상적인 모습’ 이라고 할 수 있다. 과제는 다음과 같다.
- 과거의 데이터를 가지고 TV와 잡지 각각의 광고비와 획득 유저수 관계 파악하기
- 그 관계성을 이용해서 TV와 잡지에 투입할 광고 배분 결정하기
Visulization
회귀분석 실행
lm() 함수로 회귀분석을 실행할 수 있다. 문법은 다음과 같다. lm( A ~. , data = ZZ[, c(“A”, “B”, “C”)]) 먼저 ‘ZZ 데이터의 A, B, C 항목을 사용해서 회귀분석을 실시한다’고 했을 때 분석에 이용할 데이터를 data = 로 지정한다. 그리고 그 앞부분에 어떤 회귀모델을 적용할지 지정한다. 여기서는 ’A ~.’ 라고 지정했다. 이것은 A = B + C 라는 모델로 회귀분석을 실시하라는 뜻이다. fit이라고 입력하면 중회귀식의 계수를 확인할 수 있다. 그리고 중회귀 모델이 구축된 것을 알 수 있다. 이 내용으로부터 이 모델은
신규 유저수 = 0.136 x 광고비 + 0.725 x 잡지 광고비 + 188.174 이라는 관계가 있으며, 신규 유저는 광고를 실시하지 않을 때 월 188명 정도임을 알 수 있다. 그리고 광고에 1(여기서는 데이터가 만원단위이므로 1만원)을 투입하면 약 0.1명의 신규 유저를, 잡지 광고에 1을 투입하면 약 0.7명의 신규 유저를 획득할 수 있음을 알 수 있다. 즉, 해당앱의 경우 잡지 광고가 TV 광고보다 훨씬 효율적으로 유저를 획득할 수 있다.
##
## Call:
## lm(formula = install ~ ., data = ad_result[, c("install", "tvcm",
## "magazine")])
##
## Coefficients:
## (Intercept) tvcm magazine
## 188.1743 0.1361 0.7250
회귀분석의 결과 해석
Residuals는 잔차(예측값과 측정값의 차이) 분포를 사분위수로 표현한 것으로, 데이터의 치우침이 있는지 확인할 수 있다. Conefficients는 추정된 절편과 기울기에 관한 개요이다. 각 행은 추정값, 표준오차, t값, p값 순으로 나열되어 있으며 기울기가 얼마나 변동하는지, 통계적 유의성이 있는지 알 수 있다. Multiple R-squared, Adjusted R-squared는 결정계수와 자유도 조정 결정계수이다. 결정계수는 1에 가까워질수록 모델이 주어진 데이터에 적합함을 뜻한다. 잔차분포를 보면, 1Q (제1사분위수)의 절댓값이 3Q(제3분위수)의 절댓값보다 커서 분포에 약간의 치우침이 있어 보이지만, 자유도 조정 결정계수가 0.92로 여전히 높기 때문에, 광고 전략을 위한 의사결정에는 문제가 없을 것이라는 해석을 할 수 있다.
##
## Call:
## lm(formula = install ~ ., data = ad_result[, c("install", "tvcm",
## "magazine")])
##
## Residuals:
## Min 1Q Median 3Q Max
## -1406.87 -984.49 -12.11 432.82 1985.84
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1.882e+02 7.719e+03 0.024 0.98123
## tvcm 1.361e-01 5.174e-02 2.630 0.03390 *
## magazine 7.250e-01 1.693e-01 4.283 0.00364 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1387 on 7 degrees of freedom
## Multiple R-squared: 0.9379, Adjusted R-squared: 0.9202
## F-statistic: 52.86 on 2 and 7 DF, p-value: 5.967e-05