выполнил: Григорий Михолап
дата: 09/12/2015
Задание:
Существует четыре рекламных канала регистраций пользователей A, B, C и D. В сентябре канал D был удален, и по май включительно существовало только три рекламных канала. В июне предполагается снова ввести рекламный канал D. Необходимо определить будущее значение регистраций на нем в июне. Количество регистраций по периодам на каждом канале представлено в файле “Данные для статобработки.xls” на вкладке “Рекламные каналы”..
Выводы кратко: Прогноз для остановленного канала выполнен на основании данных о результативности данного канала в первые 3 месяца его работы с учетом тренда (рассчитанного на основании данных по 3-м работающим каналам). Спрогнозированное на июнь количество регистраций равно 135. Подробности см. в отчете ниже.
Замечание по поводу программного кода: Программный код, который используется в отчете, в т.ч. и некоторые операции (такие как загрузка и подготовка данных для анализа) не были включены в отчет, при необходимости все эти данные вы можете найти по ссылке
Посмотрим на средние показатели предоставленных данных
| Показатель | Канал A | Канал B | Канал С | Канал D | Все каналы |
|---|---|---|---|---|---|
| Среднее число регистраций в месяц | 240 | 344 | 399 | 100 | 328 |
| Среднее отклонение | 29 | 25 | 14 | 10 | 18 |
Мы видим, что Канал С наиболее результативный, на втором месте канал В, на третьем канал А. Канал D, значение по которому предстоит спрогнозировать показал за 3 месяца совсем невысокие показатели, и привел в июне-августе не более 10% от всех регистраций. Однако, важно отметить, что кроме числа регистраций, необходимо еще учитывать и стоимость привлечения одной регистрации, возможно по этому показателю канал D может быть интересен. Впрочем, анализ эффективности каналов выходит за рамки данного отчета.
Далее, посмотрим на показатели регистрации по каналам во временной динамике (см. диаграмму)
Мы видим, что каналы А и В показывают положительную динамику, а лидирующий канал С оставался примерно на одном уровне в течение 12 месяцев. Можно сказать, что в целом наблюдается положительный тренд по показателям регистрации.
Далее, посмотрим есть ли зависимость между данными по разным каналам. Для этого рассчитаем коэффициенты детерминации и посмотрим на данные на матрице попарных корреляций. Внимание! в клетках верхней диагонали рассчитаны коэффициенты детерминации между соответствующими парами.
Как видим, нет сильных связей между данными по различным каналам. Будем считать, что каналы работают незавимо: никто не перетягивает регистрации на себя и наборот.
Теперь посмотрим на среднее число регистраций по каналам А, В и С (см. график ниже)
На данном графике мы видим некоторые (вполне объяснимые) сезонные колебания, например, предновогоднее падение в декабре, а также резкое падение в марте, возможно связанное с также с праздниками. Но все-таки у нас недостаточно данных, чтобы говорить о сезонности. В целом же данный временной ряд похож на непериодический временной ряд, (состоящий из составляющей тренда и нерегулярной компоненты), и в рамках данной задачи, следует обратить внимание не на (возможные) сезонные колебания, а на положительный тренд. При нахождения тренда я не использовал методы сглаживания, а для упрощения воспользовался методом наименьших квадратов для нахождения линейного тренда, который обозначен синей линией на графике. В таблице представлены показатели данной линейной модели - как видим, все коэффициенты статистически значимы (p-value<0.05) и поэтому можно утверждать, что данный тренд не случайный
## Residual standard error: 14.2 on 10 degrees of freedom
## Multiple R-squared: 0.4611 Adjusted R-squared: 0.4073
## F-statistic: 8.56 on 1 and 10 DF, p-value: 0.01516
| Estimate | Std. Error | t value | Pr(>|t|) | |
|---|---|---|---|---|
| (Intercept) | 305.2020 | 8.7380 | 34.93 | 0.0000 |
| as.numeric(period) | 3.4732 | 1.1873 | 2.93 | 0.0152 |
(напомню, что все технические детали доступны по ссылке)
Данный тренд показывает, что за 12 месяцев (с июня по май) число регистраций выросло на 11%, это свидетельствует о росте популярности нашего сервиса. (при условии, что бюджеты на каналах не увеличивались от месяца к месяцу)
Теперь, когда мы рассчитали тренд, перейдем непосредственно к ответу на исходный вопрос “будущее значение регистраций на канале D в июне”. Для оценки искомого значения предлагаю применить к базовому значению наш тренд, за базу предлагаю взять среднее арифметическое по каналу D в июле (оно, кстати, равно среднему за лето по каналу D и равно 100 регистраций), т.к. тренд выражен линейной функцией, то легко найти прогноз значения на июнь - 138
Иллюстрация на графике наложения тренда по каналам А, В, C для прогнозирования по каналу D
Рассчитаем доверительный интервал для данной оценки. Для этого воспользуемся доверительным интервалом для коэффициента угла наклона K линии тренда. В нашем случае 95% доверительный интервал для K равен (2.72, 4.23) и легко рассчитать, что доверительный интервал для найденного прогноза на июнь равен (130, 147)
Результат: спрогнозированное на июнь количество регистраций по каналу D равно 138 и доверительный интервал для данной оценки равен (130, 147)