Анализ пользовательского поведения в KION

Исследование данных о поведении пользователей онлайн-кинотеатра KION на основе статистических методов

Авторы
принадлежность

Е.С. Молчан

Университет ИТМО

М.С. Николаев

Университет ИТМО

Дата публикации

3 июня 2025 г.

1 Введение

Коротко о данных

Датасет включает в себя информацию о взаимодействии пользователей с контентом в KION 1, демографическую информация о пользователях и мета-информацию о фильмах. Данные собраны на основе анализа пользователей сервиса в период с 13 марта 2021 года по 22 августа 2022 года.

Задача

Познакомить читателя с данными и сделать выводы о пользователях онлайн-кинотеатра КИОН

Загрузим библиотеки

Код
library(readxl)
library(ggplot2)
library(nortest)
library(corrplot)
library(ggpubr)
library(magrittr)
library(knitr)

2 Знакомство с данными

Название Описание
user_id ID пользователя
item_id ID контента
last_watch_dt Дата последнего просмотра
total_dur Общая продолжительность всех просмотров данного контента в секундах
user_id item_id last_watch_dt total_dur
Length:15768 Length:15768 Min. :2021-03-13 Min. : 1.0
Class :character Class :character 1st Qu.:2021-05-25 1st Qu.: 379.8
Mode :character Mode :character Median :2021-06-30 Median : 2882.0
NA NA Mean :2021-06-23 Mean : 8558.3
NA NA 3rd Qu.:2021-07-30 3rd Qu.: 7134.2
NA NA Max. :2021-08-22 Max. :3502510.0
Название Описание
watched_pct Процент просмотра
content_type Тип контента (фильм, сериал)
title Название на русском
title_orig Название оригинальное
watched_pct content_type title title_orig
Min. : 0.00 Length:15768 Length:15768 Length:15768
1st Qu.: 4.00 Class :character Class :character Class :character
Median : 33.00 Mode :character Mode :character Mode :character
Mean : 46.52 NA NA NA
3rd Qu.:100.00 NA NA NA
Max. :100.00 NA NA NA
Название Описание
release_year Год выхода в прокат
genres Жанры из источника (онлайн-кинотеатры)
countries страны
for_kids флаг «контент для детей»
release_year genres countries for_kids
Min. :1920 Length:15768 Length:15768 Mode :logical
1st Qu.:2013 Class :character Class :character FALSE:349
Median :2018 Mode :character Mode :character TRUE :17
Mean :2015 NA NA NA’s :15402
3rd Qu.:2021 NA NA NA
Max. :2021 NA NA NA
NA’s :1 NA NA NA
Название Описание
age_rating Возрастной рейтинг
studios Студии
directors Директора
actors Актеры
age_rating studios directors actors
0 : 696 Length:15768 Length:15768 Length:15768
6 :1395 Class :character Class :character Class :character
12:2547 Mode :character Mode :character Mode :character
16:6199 NA NA NA
18:4821 NA NA NA
21: 110 NA NA NA
Название Описание
description Описание
keywords Ключевые слова
valid_from_dttm Дата, с которой контент доступен на KION
rating_kp Рейтинг на Кинопоиске
description keywords valid_from_dttm rating_kp
Length:15768 Length:15768 Min. :2019-10-08 Min. :0.000
Class :character Class :character 1st Qu.:2019-10-13 1st Qu.:6.100
Mode :character Mode :character Median :2020-07-08 Median :6.800
NA NA Mean :2020-07-14 Mean :6.624
NA NA 3rd Qu.:2021-04-13 3rd Qu.:7.500
NA NA Max. :2021-08-25 Max. :9.200
NA NA NA’s :2 NA’s :3131
Название Описание
age Возрастная группа пользователя
income Доход пользователя:
sex Пол пользователя
kids_flg Флаг «наличие ребенка»
age income sex kids_flg
18-24 года:1651 0-20 тыс.руб. : 288 Ж :6051 Mode :logical
25-34 года:3645 20-40 тыс.руб. :6870 М :6446 FALSE:8514
35-44 года:3530 40-60 тыс.руб. :4006 NA’s:3271 TRUE :4170
45-54 года:2140 60-90 тыс.руб. :1090 NA NA’s :3084
55-64 года: 933 90-150 тыс.руб. : 247 NA NA
65-inf лет: 601 150-inf тыс.руб.: 14 NA NA
NA’s :3268 NA’s :3253 NA NA

2.1 В датасете от Kion содержатся данные:

  • по 15 238 уникальным пользователям
  • по 3 204 уникальным единицам контента (фильмы/сериалы)
  • по 15 768 уникальным взаимодействиям пользователей с контентом
Заметим,

У одного пользователя может быть несколько взаимодействий с контентом

3 Работа с ключевыми переменными

Summary по ключевым переменным
sex age income total_dur rating_kp
Ж :6051 18-24 года:1651 0-20 тыс.руб. : 288 Min. : 1.0 Min. :0.000
М :6446 25-34 года:3645 20-40 тыс.руб. :6870 1st Qu.: 379.8 1st Qu.:6.100
NA’s:3271 35-44 года:3530 40-60 тыс.руб. :4006 Median : 2882.0 Median :6.800
NA 45-54 года:2140 60-90 тыс.руб. :1090 Mean : 8558.3 Mean :6.624
NA 55-64 года: 933 90-150 тыс.руб. : 247 3rd Qu.: 7134.2 3rd Qu.:7.500
NA 65-inf лет: 601 150-inf тыс.руб.: 14 Max. :3502510.0 Max. :9.200
NA NA’s :3268 NA’s :3253 NA NA’s :3131
Код
data_unique_user <- data[!duplicated(data[1:4]),][1:4]
user_id sex age income
176549 М 35-44 года 40-60 тыс.руб.
699317 М 35-44 года 40-60 тыс.руб.
656683 М 25-34 года 60-90 тыс.руб.
864613 Ж 65-inf лет 20-40 тыс.руб.
964868 Ж 25-34 года 20-40 тыс.руб.
1032142 NA NA NA
1016458 М 18-24 года 20-40 тыс.руб.

4 Изучение ключевых переменных

Распределение возрастов пользователей отлично от нормального

Распределение доходов пользователей отлично от нормального

Присутствуют выбросы в данных
Код
max_total_dur <- 1.5*IQR(data$total_dur, na.rm = TRUE) + quantile(data$total_dur, probs = 0.75)
  • 1.5 * IQR + Q3 = 17 266 секунд

Распределение общего времени просмотров контента отлично от нормального


    Anderson-Darling normality test

data:  data$rating_kp
A = 209.4, p-value < 2.2e-16

Распределение оценок рейтинга на Кинопоиске отлично от нормального (p-value < alpha = 0.05)

5 Меры центральной тенденции

  • Мода (номинальная шкала) гендера: М
  • Медианный (ранговая шкала, скошенное распределение) возраст: 35-44 года
  • Медианный (ранговая шкала, скошенное распределение) доход: 20-40 тыс.руб./месяц
  • Медианное (есть выбросы в данных) количество минут просмотра контента: 48 мин.
  • Медианная (есть выбросы в данных) оценка контента: 6.8 / 10 балла
Типичный пользователь KION

Мужчина в возрасте 35-44 лет с ежемесячным доходом в 20-40 тысяч рублей, медианное время потребления контента которого чуть меньше часа (48 мин.), а сам контентен он оценивает на 6.8/10 баллов

6 Есть ли разница в продолжительности просмотра фильма в зависимости от дохода?

Н0: Нет разницы в продолжительности просмотра фильма в зависимости от уровня дохода

Н1: Есть разница в продолжительности просмотра фильма в зависимости от уровня дохода

Проверим допущения:


    Shapiro-Wilk normality test

data:  df_2$total_dur[df_2$income == "0-20 тыс.руб."]
W = 0.86361, p-value = 5.245e-12

Допущения неудовлетворены: распределение выборки отлично от нормального (p-value < alpha = 0.05)

Поэтому будем использовать непараметрический аналог ANOVA (несколько групп анализируем):


    Kruskal-Wallis rank sum test

data:  total_dur by income
Kruskal-Wallis chi-squared = 1.0627, df = 5, p-value = 0.9574

Принимаем Н0 (p-value > alpha = 0.05), провизуализируем результаты:

7 Связан ли пол пользователя и тип контента, который он просматривает?

Т.к. данные категориальные, будем использовать Хи квадрат Пирсона для проверки гипотез:

  • Н0: Пол пользователя и тип контента, который он просматривает, не связаны

  • Н1: Пол пользователя и тип контента, который он просматривает, связаны

Код
df_5 <- df[!is.na(df$sex),][c(24,7)]

chisq.test(table(df_5))

    Pearson's Chi-squared test with Yates' continuity correction

data:  table(df_5)
X-squared = 75.091, df = 1, p-value < 2.2e-16

Принимаем Н1 (p-value < alpha = 0.05)

Для понимания связи проанализируем стандартизированные остатки:

Вывод: Женщины больше предпочитают сериалы, а мужчины - фильмы

8 Отличаются ли предпочтения пользователей в типе просматриваемого контента в зависимости от уровня дохода?

Т.к. данные категориальные, будем использовать Хи квадрат Пирсона для проверки гипотез:

  • Н0: предпочтения пользователей в типе просматриваемого контента и уровень дохода не связаны

  • Н1: предпочтения пользователей в типе просматриваемого контента и уровень дохода не связаны

Код
df_6 <- df[!is.na(df$income),][c(23,7)]
chisq.test(table(df_6))

    Pearson's Chi-squared test

data:  table(df_6)
X-squared = 28.082, df = 5, p-value = 3.508e-05

Принимаем Н1 (p-value < alpha = 0.05)

Для понимания связи проанализируем стандартизированные остатки:

Вывод: Пользователи с доходами до 20 тысяч рублей предпочитают сериалы, а не фильмы

9 Выводы

Мужчина в возрасте 35-44 лет с ежемесячным доходом в 20-40 тысяч рублей, медианное время потребления контента которого чуть меньше часа (48 мин.), а сам контентен он оценивает на 6.8/10 баллов

  • Женщины чаще выбирают сериалы, а мужчины — фильмы.

  • Пользователи с доходом до 20 тыс. рублей также предпочитают сериалы, тогда как остальные группы не демонстрируют значимых предпочтений.

  • Уровень дохода не влияет на продолжительность просмотра фильмов.

  • Учитывать гендерные предпочтения при формировании рекомендаций: предлагать женщинам больше сериалов, а мужчинам — фильмов.

  • Для аудитории с низким доходом (<20 тыс. рублей) акцентировать внимание на сериальный контент

Итог

Анализ выявил ключевые закономерности в поведении пользователей KION, которые могут быть использованы для персонализации контента и улучшения пользовательского опыта.

Сноски

  1. KION (КИОН) — российская мультимедийная онлайн-платформа, созданная компанией МТС. Начала работу 20 апреля 2021 года. Kion позволяет смотреть ТВ, сериалы и фильмы на различных устройствах: смартфоне, планшете, компьютере, на Smart TV и ТВ-приставках.↩︎