Код
library(readxl)
library(ggplot2)
library(nortest)
library(corrplot)
library(ggpubr)
library(magrittr)
library(knitr)Исследование данных о поведении пользователей онлайн-кинотеатра KION на основе статистических методов
Датасет включает в себя информацию о взаимодействии пользователей с контентом в KION 1, демографическую информация о пользователях и мета-информацию о фильмах. Данные собраны на основе анализа пользователей сервиса в период с 13 марта 2021 года по 22 августа 2022 года.
Познакомить читателя с данными и сделать выводы о пользователях онлайн-кинотеатра КИОН
library(readxl)
library(ggplot2)
library(nortest)
library(corrplot)
library(ggpubr)
library(magrittr)
library(knitr)| Название | Описание |
|---|---|
user_id |
ID пользователя |
item_id |
ID контента |
last_watch_dt |
Дата последнего просмотра |
total_dur |
Общая продолжительность всех просмотров данного контента в секундах |
| user_id | item_id | last_watch_dt | total_dur | |
|---|---|---|---|---|
| Length:15768 | Length:15768 | Min. :2021-03-13 | Min. : 1.0 | |
| Class :character | Class :character | 1st Qu.:2021-05-25 | 1st Qu.: 379.8 | |
| Mode :character | Mode :character | Median :2021-06-30 | Median : 2882.0 | |
| NA | NA | Mean :2021-06-23 | Mean : 8558.3 | |
| NA | NA | 3rd Qu.:2021-07-30 | 3rd Qu.: 7134.2 | |
| NA | NA | Max. :2021-08-22 | Max. :3502510.0 |
| Название | Описание |
|---|---|
watched_pct |
Процент просмотра |
content_type |
Тип контента (фильм, сериал) |
title |
Название на русском |
title_orig |
Название оригинальное |
| watched_pct | content_type | title | title_orig | |
|---|---|---|---|---|
| Min. : 0.00 | Length:15768 | Length:15768 | Length:15768 | |
| 1st Qu.: 4.00 | Class :character | Class :character | Class :character | |
| Median : 33.00 | Mode :character | Mode :character | Mode :character | |
| Mean : 46.52 | NA | NA | NA | |
| 3rd Qu.:100.00 | NA | NA | NA | |
| Max. :100.00 | NA | NA | NA |
| Название | Описание |
|---|---|
release_year |
Год выхода в прокат |
genres |
Жанры из источника (онлайн-кинотеатры) |
countries |
страны |
for_kids |
флаг «контент для детей» |
| release_year | genres | countries | for_kids | |
|---|---|---|---|---|
| Min. :1920 | Length:15768 | Length:15768 | Mode :logical | |
| 1st Qu.:2013 | Class :character | Class :character | FALSE:349 | |
| Median :2018 | Mode :character | Mode :character | TRUE :17 | |
| Mean :2015 | NA | NA | NA’s :15402 | |
| 3rd Qu.:2021 | NA | NA | NA | |
| Max. :2021 | NA | NA | NA | |
| NA’s :1 | NA | NA | NA |
| Название | Описание |
|---|---|
age_rating |
Возрастной рейтинг |
studios |
Студии |
directors |
Директора |
actors |
Актеры |
| age_rating | studios | directors | actors | |
|---|---|---|---|---|
| 0 : 696 | Length:15768 | Length:15768 | Length:15768 | |
| 6 :1395 | Class :character | Class :character | Class :character | |
| 12:2547 | Mode :character | Mode :character | Mode :character | |
| 16:6199 | NA | NA | NA | |
| 18:4821 | NA | NA | NA | |
| 21: 110 | NA | NA | NA |
| Название | Описание |
|---|---|
description |
Описание |
keywords |
Ключевые слова |
valid_from_dttm |
Дата, с которой контент доступен на KION |
rating_kp |
Рейтинг на Кинопоиске |
| description | keywords | valid_from_dttm | rating_kp | |
|---|---|---|---|---|
| Length:15768 | Length:15768 | Min. :2019-10-08 | Min. :0.000 | |
| Class :character | Class :character | 1st Qu.:2019-10-13 | 1st Qu.:6.100 | |
| Mode :character | Mode :character | Median :2020-07-08 | Median :6.800 | |
| NA | NA | Mean :2020-07-14 | Mean :6.624 | |
| NA | NA | 3rd Qu.:2021-04-13 | 3rd Qu.:7.500 | |
| NA | NA | Max. :2021-08-25 | Max. :9.200 | |
| NA | NA | NA’s :2 | NA’s :3131 |
| Название | Описание |
|---|---|
age |
Возрастная группа пользователя |
income |
Доход пользователя: |
sex |
Пол пользователя |
kids_flg |
Флаг «наличие ребенка» |
| age | income | sex | kids_flg | |
|---|---|---|---|---|
| 18-24 года:1651 | 0-20 тыс.руб. : 288 | Ж :6051 | Mode :logical | |
| 25-34 года:3645 | 20-40 тыс.руб. :6870 | М :6446 | FALSE:8514 | |
| 35-44 года:3530 | 40-60 тыс.руб. :4006 | NA’s:3271 | TRUE :4170 | |
| 45-54 года:2140 | 60-90 тыс.руб. :1090 | NA | NA’s :3084 | |
| 55-64 года: 933 | 90-150 тыс.руб. : 247 | NA | NA | |
| 65-inf лет: 601 | 150-inf тыс.руб.: 14 | NA | NA | |
| NA’s :3268 | NA’s :3253 | NA | NA |
Kion содержатся данные:У одного пользователя может быть несколько взаимодействий с контентом
| sex | age | income | total_dur | rating_kp | |
|---|---|---|---|---|---|
| Ж :6051 | 18-24 года:1651 | 0-20 тыс.руб. : 288 | Min. : 1.0 | Min. :0.000 | |
| М :6446 | 25-34 года:3645 | 20-40 тыс.руб. :6870 | 1st Qu.: 379.8 | 1st Qu.:6.100 | |
| NA’s:3271 | 35-44 года:3530 | 40-60 тыс.руб. :4006 | Median : 2882.0 | Median :6.800 | |
| NA | 45-54 года:2140 | 60-90 тыс.руб. :1090 | Mean : 8558.3 | Mean :6.624 | |
| NA | 55-64 года: 933 | 90-150 тыс.руб. : 247 | 3rd Qu.: 7134.2 | 3rd Qu.:7.500 | |
| NA | 65-inf лет: 601 | 150-inf тыс.руб.: 14 | Max. :3502510.0 | Max. :9.200 | |
| NA | NA’s :3268 | NA’s :3253 | NA | NA’s :3131 |
Мужчина в возрасте 35-44 лет с ежемесячным доходом в 20-40 тысяч рублей, медианное время потребления контента которого чуть меньше часа (48 мин.), а сам контентен он оценивает на 6.8/10 баллов
Н0: Нет разницы в продолжительности просмотра фильма в зависимости от уровня дохода
Н1: Есть разница в продолжительности просмотра фильма в зависимости от уровня дохода
Проверим допущения:
Shapiro-Wilk normality test
data: df_2$total_dur[df_2$income == "0-20 тыс.руб."]
W = 0.86361, p-value = 5.245e-12
Допущения неудовлетворены: распределение выборки отлично от нормального (p-value < alpha = 0.05)
Поэтому будем использовать непараметрический аналог ANOVA (несколько групп анализируем):
Kruskal-Wallis rank sum test
data: total_dur by income
Kruskal-Wallis chi-squared = 1.0627, df = 5, p-value = 0.9574
Принимаем Н0 (p-value > alpha = 0.05), провизуализируем результаты:
Т.к. данные категориальные, будем использовать Хи квадрат Пирсона для проверки гипотез:
Н0: Пол пользователя и тип контента, который он просматривает, не связаны
Н1: Пол пользователя и тип контента, который он просматривает, связаны
df_5 <- df[!is.na(df$sex),][c(24,7)]
chisq.test(table(df_5))
Pearson's Chi-squared test with Yates' continuity correction
data: table(df_5)
X-squared = 75.091, df = 1, p-value < 2.2e-16
Принимаем Н1 (p-value < alpha = 0.05)
Для понимания связи проанализируем стандартизированные остатки:
Вывод: Женщины больше предпочитают сериалы, а мужчины - фильмы
Т.к. данные категориальные, будем использовать Хи квадрат Пирсона для проверки гипотез:
Н0: предпочтения пользователей в типе просматриваемого контента и уровень дохода не связаны
Н1: предпочтения пользователей в типе просматриваемого контента и уровень дохода не связаны
df_6 <- df[!is.na(df$income),][c(23,7)]
chisq.test(table(df_6))
Pearson's Chi-squared test
data: table(df_6)
X-squared = 28.082, df = 5, p-value = 3.508e-05
Принимаем Н1 (p-value < alpha = 0.05)
Для понимания связи проанализируем стандартизированные остатки:
Вывод: Пользователи с доходами до 20 тысяч рублей предпочитают сериалы, а не фильмы
Мужчина в возрасте 35-44 лет с ежемесячным доходом в 20-40 тысяч рублей, медианное время потребления контента которого чуть меньше часа (48 мин.), а сам контентен он оценивает на 6.8/10 баллов
Женщины чаще выбирают сериалы, а мужчины — фильмы.
Пользователи с доходом до 20 тыс. рублей также предпочитают сериалы, тогда как остальные группы не демонстрируют значимых предпочтений.
Уровень дохода не влияет на продолжительность просмотра фильмов.
Учитывать гендерные предпочтения при формировании рекомендаций: предлагать женщинам больше сериалов, а мужчинам — фильмов.
Для аудитории с низким доходом (<20 тыс. рублей) акцентировать внимание на сериальный контент
Анализ выявил ключевые закономерности в поведении пользователей KION, которые могут быть использованы для персонализации контента и улучшения пользовательского опыта.
KION (КИОН) — российская мультимедийная онлайн-платформа, созданная компанией МТС. Начала работу 20 апреля 2021 года. Kion позволяет смотреть ТВ, сериалы и фильмы на различных устройствах: смартфоне, планшете, компьютере, на Smart TV и ТВ-приставках.↩︎