Задание

Ваша задача – исследовать структуру взаимосвязей между комиксами. Для этого вам дана сеть из 777 популярных комиксов, где связь между книгами – это похожесть по оценкам пользователей (если книги похожи по пользовательским оценкам, то между ними в графе есть связь). Что вы можете узнать про комиксы из этой сети? Вы можете выделить для анализа какую-то подгруппу из этой сети, но необходимо обосновать свой выбор

Требования: * (если есть выделение подгруппы) обоснование выбора подгруппы * постановка не менее двух исследовательских вопросов * определение центральности вершин (не менее двух методов) * применение методов выявления сообществ (как минимум одного) * визуализация полученных результатов

Переменные:

Сеть в формате GraphML

#Так как связь между комиксами определена через похожесть оценок пользователей, то проилюстрируем данныю нам сеть. Мы можем провести анализ для этой сети – посчитать центральности и найти важные вершины, выделить сообщества. Начнем:

#Загрузим данные и посмортрим на стпуктуру графа

#Сперва посмотим, что там внутри и попробуем нарисовать первый эскиз

## + 777/777 vertices, named, from bd28c03:
##   [1] 137894   6375845  15704307 6954438  21326    18867493 21532236 16164271
##   [9] 13490570 9674335  7202841  6120349  3217221  133765   22416    59980   
##  [17] 102953   95406    95431    472331   96358    3134981  22374    2239435 
##  [25] 7972098  6867952  23754    6690979  25243735 168406   43612    168403  
##  [33] 488388   106069   296901   156534   5805     167010   21329    21325   
##  [41] 21330    21328    21322    21324    21327    158988   21341    234352  
##  [49] 138398   30069    138397   30065    138395   1085771  16002165 2021815 
##  [57] 445046   23529    156532   1270615  58652    107009   13623    445044  
##  [65] 13622    79422    8477057  18465566 207585   6238080  29528    15719   
##  [73] 66483    26085    194479   105973   8172     106151   106076   485381  
## + ... omitted several vertices
## + 8387/8387 edges from bd28c03 (vertex names):
##  [1] 137894  --106069   137894  --106076   137894  --6359290  137894  --107032  
##  [5] 137894  --57890    137894  --440960   137894  --3390159  137894  --107025  
##  [9] 137894  --4788225  137894  --51078    6375845 --59980    6375845 --96358   
## [13] 6375845 --3134981  6375845 --22374    6375845 --106069   6375845 --26085   
## [17] 6375845 --106151   6375845 --106076   6375845 --16992    6375845 --59960   
## [21] 6375845 --6359290  6375845 --3430164  6375845 --10889279 6375845 --154798  
## [25] 6375845 --107032   6375845 --15752115 6375845 --13223349 6375845 --13227852
## [29] 6375845 --17671913 6375845 --7052524  6375845 --440960   6375845 --2182780 
## [33] 6375845 --6672183  6375845 --12791521 6375845 --25135501 6375845 --21524934
## [37] 6375845 --18339834 6375845 --4788225  6375845 --51078    15704307--6954438 
## + ... omitted several edges

Выполним следующие исследовательские задачи

Сначала посмотрим на центральности вершин

Что это может значить и как это можно использовать? Будет ли на такой сети центральность?

Посчитаем степень узла: - подсчитаем количество ребер выходящих из каждой вершины и нарисуем граф-(коэффициенты не несут особого смысла, просто подобраны так, чтобы график был читаемым)

## 156534 
##    109
##   535578    86142 13571757 
##        0        0        0

Какой комикс в наших данных в сети самый популярный? - 156534

Какой комикс в наших данных в сети самый не популярный? - 535578 86142 13571757

Теперь посмотрим на центральность по посредничеству - (битвинность) - она показывает узлы, которые являются посредниками между группами в наикратчайших путях друг к другу , то есть характеризует долю кратчайших путей проходящих через данную вершину.

##   156534 
## 24992.55

Данная вершина-156534- является наиболее встречающейся при выборе наикратчайшего пути между двумя случайно выбранными комиксами.Это знание дает нам вывод о том, что через этот комикс люди , возможно, скорее узнют о других комиксах

Посмотрим на центральность по близости (нормализованную) - это характеристика вершины , которая показывает вершины с наиболее коротким путем до остальных.

## Warning in closeness(comics_net, normalized = T): At centrality.c:
## 2784 :closeness centrality is not well-defined for disconnected graphs
##      156534 
## 0.005751599
##      535578       86142    13571757 
## 0.001287001 0.001287001 0.001287001

Как мы видим предупреждение , что для ненаправленных графов данный метод не совсем приемлем,но все же проинтепретируем данные.Получается, что самая “большая” по значению вершина-156534, то есть эта та вершина через которую среднее время попасть в любую другую вершину наименьшая.

А теперь представим, что центальность вершины, это среднее арифметическое центральностей ее соседей.Определяет некоторые распределения важности- количество “важных”соседей.

## 21326 
##     1

21326 - вершина , являющаяся “идеальной” по наличию “важных” соседей.

Вывод: Как мы выяснили - вершина 156534 - является главной по посредничеству (самый главный мост) и имеет самую высокую степень.

## [1] 28
## [1] 0.6571612

## [1] 41
## [1] 0.698289

## [1] 0.7086007
## [1] 36

Нарисуем графики

Как мы видим, данных очень много и будет весьма сложно провести качественный анализ, поэтому обратимся к датасету по этим данным, чтобы выделить подходящие схожести и различия .

Перейдем к исследовательским вопросам

1 вопрос

Для начала предполодим , что схожесть или различие в средних рейтингах схожа по тематикам, выходу в свет комиксов в печатном или электронном виде , а также году издания и издателю- посмотрим какие комбинации тематик получают самые высокие и низкие рейтинги, выясним зависит ли как-то рейтинг от типа выпуска комикса, года издания или издателя.Выясним кого или что предпочитают читать в данной выборке, а затем сформируем новую сеть.

Как мы видим, большинство оценок сосредоточены в пределах от 4 до 4.4 в 0-нулевом определении тематики, от 4 до 4.25 для первой, 4.1-4.3 для второй и в промежутке от 4-4.25 - для третьей- это основне группы, которые и образовывают взаимосвязи в графе. Также мы видим , что издание комикса не играет значительной роли в его оценивании- хотя бы по причине малого количества электронных комиксов в выборке.И все же мы еще не распределили какие комиксы мы будем анализировать, хотя уже понятно примерные их разбиения на жанры и соответствие этих жанров определенным средним оценкам . Проверим c помощью статистического теста а вообще есть ли зависимость между жанром и оценкой ,что ему ставят, ведь полученные нами данные могут быть совершенно случайными показателями.

Hypothesis

H0: оценки average_rating не связаны с тем, к какой еще “полке”, категории часто относят данную книгу H1: есть связь между оценкой и тем, к какой еще “полке”, категории часто относят данную книгу

## 
##  Shapiro-Wilk normality test
## 
## data:  rate_full$meanrate
## W = 0.97497, p-value = 0.0007166
## 
##  Kruskal-Wallis rank sum test
## 
## data:  meanrate by popular_shelves.0.name
## Kruskal-Wallis chi-squared = 32.21, df = 15, p-value = 0.006027

Итак, мы выяснили, что средний рейтинг распределен ненормально, провели тест Краскела-Уоллиса, который позволяет сделать заключение только следующего вида: либо “сравниваемые группы статистически значимо различаются” (например, при Р < 0.05), либо “статистически значимых различий между группами нет” (например, при Р > 0.05). По основной категории такой разницы нет- “статистически значимых различий между группами нет”.Проверим для последующих разбиений по тематикам.

## 
##  Kruskal-Wallis rank sum test
## 
## data:  meanrate by popular_shelves.1.name
## Kruskal-Wallis chi-squared = 65.176, df = 18, p-value = 2.906e-07
## 
##  Kruskal-Wallis rank sum test
## 
## data:  meanrate by popular_shelves.2.name
## Kruskal-Wallis chi-squared = 58.3, df = 32, p-value = 0.003033
## 
##  Kruskal-Wallis rank sum test
## 
## data:  meanrate by popular_shelves.3.name
## Kruskal-Wallis chi-squared = 61.436, df = 40, p-value = 0.01624

Тогда как для первого, второго и третьего жанров существует статистическая разница между средними оценками.Будем в дальнейшем работать именно с ними. Посмотрим,какие комбинации тематик дают самые высокие , самые низкие и самые частые оценки от (4-4.5)

Даные достаточно разнообразны и неоднородны, но наибольшую группу составляют комиксы с оценками от 4 до 4.5 , будем использовать именно эту группу для дальнейшего исследовния.Посмотрим на год выпуска, выпускающую фирму , а также количество отзывов и количество страниц- все эти параметры смогут в дальнейшем составить часть нашего графа.

Во всех трех видах тематики graphic novels-самая популярная тема- и это значит, что у нас будет точно очерченны сообщества комиксов по типу. Страна- издатель везде одна -US, ее включать в граф не будем.

## [1] "Среднее количество отзывов "
## [1] 13508.73

Итак, давайте отфильтруем наш граф по первой тематике, а именно по самым пропулярным (graphic novels& comics) из них в диапазоне оценок- от 4 до 4.5 Цель- посмотреть насколько хорошо сгруппировались наши тематики и насколько точно разбиение для нашей подгруппы.

Посмотрим на разбиение по сообществам с помощью walktrap.community and fastgreedy.community Получили довольно таки хороший результат modularity =73%, однако количество групп оставляет желать лучшего (36)

Посмотрим на разбиение по сообществам с помощью walktrap.community Получили довольно таки хороший результат modularity =71%, однако количество групп оставляет желать лучшего (39)

## [1] 0.7174446
## [1] 39

Посмотрим на разбиение по сообществам с помощью fastgreedy.community Получили довольно таки хороший результат modularity =72%, однако количество групп оставляет желать лучшего (36)

## [1] 0.7226316
## [1] 36

Построим график

Благодаря фильтрации данных график стало легче визуализировать- вершина 17131869 обладает как хорошей битвинностью в нашей группе так и степени- degree(), а это начит , что данный комикс, обладая высокими оценками может пользоваться популярностью среди любителей комиксов с тематикой “comics” или “graphical novels” и понравится большинству.Кстати, посмотрим, что это за комиксы:

##                                                       title average_rating
## 1 Y: The Last Man, Vol. 9: Motherland (Y: The Last Man, #9)           4.27
## 2                              Brief Lives (The Sandman #7)           4.54
## 3                    Hawkeye, Volume 1: My Life as a Weapon           4.16
## 4                                   Saga, Vol. 2 (Saga, #2)           4.56
##    book_id num_pages popular_shelves.1.name popular_shelves.2.name
## 1   156532       144         graphic-novels                 comics
## 2    25105        NA         graphic-novels                 comics
## 3 16002136       136                 comics         graphic-novels
## 4 17131869       144         graphic-novels                 comics
##   popular_shelves.3.name ratings_count
## 1          graphic-novel         20811
## 2                fantasy         37239
## 3          graphic-novel         33359
## 4          graphic-novel         58474

Мы видим, что эти три вершины, полученные нами с помощью фильтрации по первой тематике по другим тематикам так же соответствуют тем же тематическим характеристикам, что и были заданы нами.

**Попробуем проделать то же самое для двух остальных тематик, только сейчас соединим все три полки под общими темами и рейтингома затем посмотрим , насколько хорошее разбиение на сообщесва может получиться, какие комиксы станут наиболее популярными и каков рейтинг у самых высоких по битвинности и степени комиксы

##    n
## 1 26

## [1] 39
## [1] 777
##    21326    95406  6690979     5805    15719   194479 28204534 23012877 
##        3        3        4        3        3        1        2        2 
## 20898018  3239487 13536522 25761329    13618   158682 21555970    94510 
##        2        6        3        2        7        3        8        3 
##  2795053   106859   616318 18339834 17899546    59962    22419   306608 
##        3        1        1        5        2        1        9        1 
##  3321998 19535999    31979 23012543   437093 17791477 11251704  2454986 
##        3       10        1        5       11       12       13        4 
## 25229189  4008489 17450822  9630403  8544958 13227276  6065429 
##       14       15       16       17       18       19       20
## [1] 0.6376

## Warning: Removed 38 rows containing missing values (geom_text).

##                              title book_id num_pages average_rating
## 1 Fables, Vol. 1: Legends in Exile   21326       128           3.99
##   ratings_count
## 1        104216

Получилось , что единственным комиксом с самой высокой битвинностью слал комкс Fables, Vol. 1: Legends in Exile со средней оценкой примерно в 4 балла (3.99)

2 вопрос

Ассортативность Для исследования структурных свойств сетей также можно оценить показатель ассортативности или гомофилии, т.е. того, насколько узлы склонны иметь связи с узлами, обладающими сходными свойствами.

Склонны ли комиксы быть свзаны по рейтингу?

## [1] -0.002301212

Итак, мы получили коэффициент ассортативности. Он измеряется от -1 до 1, где -1 – связи в сети склонны формироваться между узлами с отличающимися характеристиками, а 1 – узлы предпочитают формировать связь с похожими узлами (в нашем случае, схожие по полу), 0 – связи формируются без привязки к этой характеристике Наше значение близко к 0 , что говорит о том что связи формируются без привязки к этой характеристике.Однако следует провести еще и тест перестановок

Реальная ассортативность

## [1] -0.002301212

p-value

## [1] 0.823

Нет перекоса ни в одну сторону

##          5%         95% 
## -0.01591461  0.01604575

И можно график нарисовать

Выводы p-value= 0.83 что говорит о том что значение ассортатичности получено неслучайно,то есть мы опровергаем с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.

Вопрос 2.2

Склонность связывать комикс по одинаковым темам?

## [1] 0.0003909

Реальная ассортативность

## [1] 0.0003909

p-value

## [1] 0.9525
##           5%          95% 
## -0.009965350  0.006177625

И можно график нарисовать

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Выводы

Так как Реальная ассортативность=0.0003, при значении p-value=0.93 мы делаем вывод о том , с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.

## [1] -0.004910724

Реальная ассортативность

## [1] -0.004910724

p-value

## [1] 0.637
##          5%         95% 
## -0.01799012  0.01541782

И можно график нарисовать

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Выводы

Так как Реальная ассортативность-0.004, при значении p-value=0.6445 мы делаем вывод о том , с большой степенью вероятности наличие связи между исследуемыми переменными отсутствует , то есть мы говорим что скорее всего такой связи нет.