Прогнозирование эффективности каналов регистрации пользователей.

выполнил: Григорий Михолап
дата: 09/12/2015

Задание:

Существует четыре рекламных канала регистраций пользователей A, B, C и D. В сентябре канал D был удален, и по май включительно существовало только три рекламных канала. В июне предполагается снова ввести рекламный канал D. Необходимо определить будущее значение регистраций на нем в июне. Количество регистраций по периодам на каждом канале представлено в файле “Данные для статобработки.xls” на вкладке “Рекламные каналы”..

Выводы кратко: Прогноз для остановленного канала выполнен на основании данных о результативности данного канала в первые 3 месяца его работы с учетом тренда (рассчитанного на основании данных по 3-м работающим каналам). Спрогнозированное на июнь количество регистраций равно 135. Подробности см. в отчете ниже.

Замечание по поводу программного кода: Программный код, который используется в отчете, в т.ч. и некоторые операции (такие как загрузка и подготовка данных для анализа) не были включены в отчет, при необходимости все эти данные вы можете найти по ссылке

Анализ данных

Посмотрим на средние показатели предоставленных данных

Показатель Канал A Канал B Канал С Канал D Все каналы
Среднее число регистраций в месяц 240 344 399 100 328
Среднее отклонение 29 25 14 10 18

Мы видим, что Канал С наиболее результативный, на втором месте канал В, на третьем канал А. Канал D, значение по которому предстоит спрогнозировать показал за 3 месяца совсем невысокие показатели, и привел в июне-августе не более 10% от всех регистраций. Однако, важно отметить, что кроме числа регистраций, необходимо еще учитывать и стоимость привлечения одной регистрации, возможно по этому показателю канал D может быть интересен. Впрочем, анализ эффективности каналов выходит за рамки данного отчета.

Далее, посмотрим на показатели регистрации по каналам во временной динамике (см. диаграмму)

Мы видим, что каналы А и В показывают положительную динамику, а лидирующий канал С оставался примерно на одном уровне в течение 12 месяцев. Можно сказать, что в целом наблюдается положительный тренд по показателям регистрации.

Далее, посмотрим есть ли зависимость между данными по разным каналам. Для этого рассчитаем коэффициенты детерминации и посмотрим на данные на матрице попарных корреляций. Внимание! в клетках верхней диагонали рассчитаны коэффициенты детерминации между соответствующими парами.

Как видим, нет сильных связей между данными по различным каналам. Будем считать, что каналы работают незавимо: никто не перетягивает регистрации на себя и наборот.

Теперь посмотрим на среднее число регистраций по каналам А, В и С (см. график ниже)

На данном графике мы видим некоторые (вполне объяснимые) сезонные колебания, например, предновогоднее падение в декабре, а также резкое падение в марте, возможно связанное с также с праздниками. Но все-таки у нас недостаточно данных, чтобы говорить о сезонности. В целом же данный временной ряд похож на непериодический временной ряд, (состоящий из составляющей тренда и нерегулярной компоненты), и в рамках данной задачи, следует обратить внимание не на (возможные) сезонные колебания, а на положительный тренд. При нахождения тренда я не использовал методы сглаживания, а для упрощения воспользовался методом наименьших квадратов для нахождения линейного тренда, который обозначен синей линией на графике. В таблице представлены показатели данной линейной модели - как видим, все коэффициенты статистически значимы (p-value<0.05) и поэтому можно утверждать, что данный тренд не случайный

## Residual standard error: 14.2 on 10 degrees of freedom
## Multiple R-squared:   0.4611 Adjusted R-squared:   0.4073
## F-statistic:  8.56 on 1 and 10 DF,  p-value: 0.01516
Estimate Std. Error t value Pr(>|t|)
(Intercept) 305.2020 8.7380 34.93 0.0000
as.numeric(period) 3.4732 1.1873 2.93 0.0152

(напомню, что все технические детали доступны по ссылке)

Данный тренд показывает, что за 12 месяцев (с июня по май) число регистраций выросло на 11%, это свидетельствует о росте популярности нашего сервиса. (при условии, что бюджеты на каналах не увеличивались от месяца к месяцу)
Теперь, когда мы рассчитали тренд, перейдем непосредственно к ответу на исходный вопрос “будущее значение регистраций на канале D в июне”. Для оценки искомого значения предлагаю применить к базовому значению наш тренд, за базу предлагаю взять среднее арифметическое по каналу D в июле (оно, кстати, равно среднему за лето по каналу D и равно 100 регистраций), т.к. тренд выражен линейной функцией, то легко найти прогноз значения на июнь - 138

Иллюстрация на графике наложения тренда по каналам А, В, C для прогнозирования по каналу D

Рассчитаем доверительный интервал для данной оценки. Для этого воспользуемся доверительным интервалом для коэффициента угла наклона K линии тренда. В нашем случае 95% доверительный интервал для K равен (2.72, 4.23) и легко рассчитать, что доверительный интервал для найденного прогноза на июнь равен (130, 147)

Результат: спрогнозированное на июнь количество регистраций по каналу D равно 138 и доверительный интервал для данной оценки равен (130, 147)