Ваша задача – исследовать структуру взаимосвязей между комиксами. Для этого вам дана сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей (если книги похожи по пользовательским оценкам, то между ними в графе есть связь). Что вы можете узнать про комиксы из этой сети? Вы можете выделить для анализа какую-то подгруппу из этой сети, но необходимо обосновать свой выбор
Требования: * (если есть выделение подгруппы) обоснование выбора подгруппы * постановка не менее двух исследовательских вопросов * определение центральности вершин (не менее двух методов) * применение методов выявления сообществ (как минимум одного) * визуализация полученных результатов
Переменные:
Сеть в формате GraphML
#Так как связь между комиксами определена через похожесть оценок пользователей, то проилюстрируем данныю нам сеть. Мы можем провести анализ для этой сети – посчитать центральности и найти важные вершины, выделить сообщества. Начнем:
#Загрузим данные и посмортрим на стпуктуру графа
#Сперва посмотим, что там внутри и попробуем нарисовать первый эскиз
## + 777/777 vertices, named, from bd28c03:
## [1] 137894 6375845 15704307 6954438 21326 18867493 21532236 16164271
## [9] 13490570 9674335 7202841 6120349 3217221 133765 22416 59980
## [17] 102953 95406 95431 472331 96358 3134981 22374 2239435
## [25] 7972098 6867952 23754 6690979 25243735 168406 43612 168403
## [33] 488388 106069 296901 156534 5805 167010 21329 21325
## [41] 21330 21328 21322 21324 21327 158988 21341 234352
## [49] 138398 30069 138397 30065 138395 1085771 16002165 2021815
## [57] 445046 23529 156532 1270615 58652 107009 13623 445044
## [65] 13622 79422 8477057 18465566 207585 6238080 29528 15719
## [73] 66483 26085 194479 105973 8172 106151 106076 485381
## + ... omitted several vertices
## + 8387/8387 edges from bd28c03 (vertex names):
## [1] 137894 --106069 137894 --106076 137894 --6359290 137894 --107032
## [5] 137894 --57890 137894 --440960 137894 --3390159 137894 --107025
## [9] 137894 --4788225 137894 --51078 6375845 --59980 6375845 --96358
## [13] 6375845 --3134981 6375845 --22374 6375845 --106069 6375845 --26085
## [17] 6375845 --106151 6375845 --106076 6375845 --16992 6375845 --59960
## [21] 6375845 --6359290 6375845 --3430164 6375845 --10889279 6375845 --154798
## [25] 6375845 --107032 6375845 --15752115 6375845 --13223349 6375845 --13227852
## [29] 6375845 --17671913 6375845 --7052524 6375845 --440960 6375845 --2182780
## [33] 6375845 --6672183 6375845 --12791521 6375845 --25135501 6375845 --21524934
## [37] 6375845 --18339834 6375845 --4788225 6375845 --51078 15704307--6954438
## + ... omitted several edges
Выполним следующие исследовательские задачи
Сначала посмотрим на центральности вершин
Что это может значить и как это можно использовать? Будет ли на такой сети центральность?
Посчитаем степень узла: - подсчитаем количество ребер выходящих из каждой вершины и нарисуем граф-(коэффициенты не несут особого смысла, просто подобраны так, чтобы график был читаемым)
## 156534
## 109
## 535578 86142 13571757
## 0 0 0
Какой комикс в наших данных в сети самый популярный? - 156534
Какой комикс в наших данных в сети самый не популярный? - 535578 86142 13571757
Теперь посмотрим на центральность по посредничеству - (битвинность) - она показывает узлы, которые являются посредниками между группами в наикратчайших путях друг к другу , то есть характеризует долю кратчайших путей проходящих через данную вершину.
## 156534
## 24992.55
Данная вершина-156534- является наиболее встречающейся при выборе наикратчайшего пути между двумя случайно выбранными комиксами.Это знание дает нам вывод о том, что через этот комикс люди , возможно, скорее узнют о других комиксах
Посмотрим на центральность по близости (нормализованную) - это характеристика вершины , которая показывает вершины с наиболее коротким путем до остальных.
## Warning in closeness(comics_net, normalized = T): At centrality.c:
## 2784 :closeness centrality is not well-defined for disconnected graphs
## 156534
## 0.005751599
## 535578 86142 13571757
## 0.001287001 0.001287001 0.001287001
Как мы видим предупреждение , что для ненаправленных графов данный метод не совсем приемлем,но все же проинтепретируем данные.Получается, что самая “большая” по значению вершина-156534, то есть эта та вершина через которую среднее время попасть в любую другую вершину наименьшая.
А теперь представим, что центальность вершины, это среднее арифметическое центральностей ее соседей.Определяет некоторые распределения важности- количество “важных”соседей.
## 21326
## 1
21326 - вершина , являющаяся “идеальной” по наличию “важных” соседей.
Вывод: Как мы выяснили - вершина 156534 - является главной по посредничеству (самый главный мост) и имеет самую высокую степень.
Выявления сообществ
Fast-Greedy: иерархический подход. Первоначально каждая вершина представляет собой отдельное сообщество. Сообщества объединяются таким образом, чтобы это привело к наибольшему возрастанию модулярности. Останавливаемся, когда нет следующего шага, увеличивающего модулярность. Получилось 28 сообществ, коэффициэнт модулярности- разбиения - 65% - хорошее разбиение.
## [1] 28
## [1] 0.6571612
## [1] 41
## [1] 0.698289
## [1] 0.7086007
## [1] 36
Нарисуем графики
Как мы видим, данных очень много и будет весьма сложно провести качественный анализ, поэтому обратимся к датасету по этим данным, чтобы выделить подходящие схожести и различия .
Перейдем к исследовательским вопросам
1 вопрос
Для начала предполодим , что схожесть или различие в средних рейтингах схожа по тематикам, выходу в свет комиксов в печатном или электронном виде , а также году издания и издателю- посмотрим какие комбинации тематик получают самые высокие и низкие рейтинги, выясним зависит ли как-то рейтинг от типа выпуска комикса, года издания или издателя.Выясним кого или что предпочитают читать в данной выборке, а затем сформируем новую сеть.
Как мы видим, большинство оценок сосредоточены в пределах от 4 до 4.4 в 0-нулевом определении тематики, от 4 до 4.25 для первой, 4.1-4.3 для второй и в промежутке от 4-4.25 - для третьей- это основне группы, которые и образовывают взаимосвязи в графе. Также мы видим , что издание комикса не играет значительной роли в его оценивании- хотя бы по причине малого количества электронных комиксов в выборке.И все же мы еще не распределили какие комиксы мы будем анализировать, хотя уже понятно примерные их разбиения на жанры и соответствие этих жанров определенным средним оценкам . Проверим c помощью статистического теста а вообще есть ли зависимость между жанром и оценкой ,что ему ставят, ведь полученные нами данные могут быть совершенно случайными показателями.
H0: оценки average_rating не связаны с тем, к какой еще “полке”, категории часто относят данную книгу H1: есть связь между оценкой и тем, к какой еще “полке”, категории часто относят данную книгу
##
## Shapiro-Wilk normality test
##
## data: rate_full$meanrate
## W = 0.97497, p-value = 0.0007166
##
## Kruskal-Wallis rank sum test
##
## data: meanrate by popular_shelves.0.name
## Kruskal-Wallis chi-squared = 32.21, df = 15, p-value = 0.006027
Итак, мы выяснили, что средний рейтинг распределен ненормально, провели тест Краскела-Уоллиса, который позволяет сделать заключение только следующего вида: либо “сравниваемые группы статистически значимо различаются” (например, при Р < 0.05), либо “статистически значимых различий между группами нет” (например, при Р > 0.05). По основной категории такой разницы нет- “статистически значимых различий между группами нет”.Проверим для последующих разбиений по тематикам.
##
## Kruskal-Wallis rank sum test
##
## data: meanrate by popular_shelves.1.name
## Kruskal-Wallis chi-squared = 65.176, df = 18, p-value = 2.906e-07
##
## Kruskal-Wallis rank sum test
##
## data: meanrate by popular_shelves.2.name
## Kruskal-Wallis chi-squared = 58.3, df = 32, p-value = 0.003033
##
## Kruskal-Wallis rank sum test
##
## data: meanrate by popular_shelves.3.name
## Kruskal-Wallis chi-squared = 61.436, df = 40, p-value = 0.01624
Тогда как для первого, второго и третьего жанров существует статистическая разница между средними оценками.Будем в дальнейшем работать именно с ними. Посмотрим,какие комбинации тематик дают самые высокие , самые низкие и самые частые оценки от (4-4.5)
Даные достаточно разнообразны и неоднородны, но наибольшую группу составляют комиксы с оценками от 4 до 4.5 , будем использовать именно эту группу для дальнейшего исследовния.Посмотрим на год выпуска, выпускающую фирму , а также количество отзывов и количество страниц- все эти параметры смогут в дальнейшем составить часть нашего графа.
Во всех трех видах тематики graphic novels-самая популярная тема- и это значит, что у нас будет точно очерченны сообщества комиксов по типу. Страна- издатель везде одна -US, ее включать в граф не будем.
## [1] "Среднее количество отзывов "
## [1] 13508.73
Итак, давайте отфильтруем наш граф по первой тематике, а именно по самым пропулярным (graphic novels& comics) из них в диапазоне оценок- от 4 до 4.5 Цель- посмотреть насколько хорошо сгруппировались наши тематики и насколько точно разбиение для нашей подгруппы.
Посмотрим на разбиение по сообществам с помощью walktrap.community and fastgreedy.community Получили довольно таки хороший результат modularity =73%, однако количество групп оставляет желать лучшего (36)
Посмотрим на разбиение по сообществам с помощью walktrap.community Получили довольно таки хороший результат modularity =71%, однако количество групп оставляет желать лучшего (39)
## [1] 0.7174446
## [1] 39
Посмотрим на разбиение по сообществам с помощью fastgreedy.community Получили довольно таки хороший результат modularity =72%, однако количество групп оставляет желать лучшего (36)
## [1] 0.7226316
## [1] 36
Построим график
Благодаря фильтрации данных график стало легче визуализировать- вершина 17131869 обладает как хорошей битвинностью в нашей группе так и степени- degree(), а это начит , что данный комикс, обладая высокими оценками может пользоваться популярностью среди любителей комиксов с тематикой “comics” или “graphical novels” и понравится большинству.Кстати, посмотрим, что это за комиксы:
## title average_rating
## 1 Y: The Last Man, Vol. 9: Motherland (Y: The Last Man, #9) 4.27
## 2 Brief Lives (The Sandman #7) 4.54
## 3 Hawkeye, Volume 1: My Life as a Weapon 4.16
## 4 Saga, Vol. 2 (Saga, #2) 4.56
## book_id num_pages popular_shelves.1.name popular_shelves.2.name
## 1 156532 144 graphic-novels comics
## 2 25105 NA graphic-novels comics
## 3 16002136 136 comics graphic-novels
## 4 17131869 144 graphic-novels comics
## popular_shelves.3.name ratings_count
## 1 graphic-novel 20811
## 2 fantasy 37239
## 3 graphic-novel 33359
## 4 graphic-novel 58474
Мы видим, что эти три вершины, полученные нами с помощью фильтрации по первой тематике по другим тематикам так же соответствуют тем же тематическим характеристикам, что и были заданы нами.
**Попробуем проделать то же самое для двух остальных тематик, только сейчас соединим все три полки под общими темами и рейтингома затем посмотрим , насколько хорошее разбиение на сообщесва может получиться, какие комиксы станут наиболее популярными и каков рейтинг у самых высоких по битвинности и степени комиксы
## n
## 1 26
## [1] 39
## [1] 777
## 21326 95406 6690979 5805 15719 194479 28204534 23012877
## 3 3 4 3 3 1 2 2
## 20898018 3239487 13536522 25761329 13618 158682 21555970 94510
## 2 6 3 2 7 3 8 3
## 2795053 106859 616318 18339834 17899546 59962 22419 306608
## 3 1 1 5 2 1 9 1
## 3321998 19535999 31979 23012543 437093 17791477 11251704 2454986
## 3 10 1 5 11 12 13 4
## 25229189 4008489 17450822 9630403 8544958 13227276 6065429
## 14 15 16 17 18 19 20
## [1] 0.6376
## Warning: Removed 38 rows containing missing values (geom_text).
## title book_id num_pages average_rating
## 1 Fables, Vol. 1: Legends in Exile 21326 128 3.99
## ratings_count
## 1 104216
Получилось , что единственным комиксом с самой высокой битвинностью слал комкс Fables, Vol. 1: Legends in Exile со средней оценкой примерно в 4 балла (3.99)
2 вопрос
Ассортативность Для исследования структурных свойств сетей также можно оценить показатель ассортативности или гомофилии, т.е. того, насколько узлы склонны иметь связи с узлами, обладающими сходными свойствами.
Склонны ли комиксы быть свзаны по рейтингу?
## [1] -0.002301212
Итак, мы получили коэффициент ассортативности. Он измеряется от -1 до 1, где -1 – связи в сети склонны формироваться между узлами с отличающимися характеристиками, а 1 – узлы предпочитают формировать связь с похожими узлами (в нашем случае, схожие по полу), 0 – связи формируются без привязки к этой характеристике Наше значение близко к 0 , что говорит о том что связи формируются без привязки к этой характеристике.Однако следует провести еще и тест перестановок
Реальная ассортативность
## [1] -0.002301212
p-value
## [1] 0.823
Нет перекоса ни в одну сторону
## 5% 95%
## -0.01591461 0.01604575
И можно график нарисовать
Выводы p-value= 0.83 что говорит о том что значение ассортатичности получено неслучайно,то есть мы опровергаем с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.
Вопрос 2.2
Склонность связывать комикс по одинаковым темам?
## [1] 0.0003909
Реальная ассортативность
## [1] 0.0003909
p-value
## [1] 0.9525
## 5% 95%
## -0.009965350 0.006177625
И можно график нарисовать
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Выводы
Так как Реальная ассортативность=0.0003, при значении p-value=0.93 мы делаем вывод о том , с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.
## [1] -0.004910724
Реальная ассортативность
## [1] -0.004910724
p-value
## [1] 0.637
## 5% 95%
## -0.01799012 0.01541782
И можно график нарисовать
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
Выводы
Так как Реальная ассортативность-0.004, при значении p-value=0.6445 мы делаем вывод о том , с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.