12 января мы с Волосатым зарубились на тему того, что два паблика в ВК - лентач и Мурзилка принципиально по-разному подают новости:
Александръ Авиловъ 20:31
Чем мурзилка хуже лентача?
Или даже не так...
Чем лентач лучше мурзилки
Георгiй Фандеевъ 20:34
Лентач более менее нейтрален в подаче новостей. Да, их может и подбирают так что мол смотрите как все хуево, но откровенно вышиватная или демшизовская подача там скорее редкость. А еще там годный пикчер. В общем, перефразировав былинную фразу Миши "тебе, мурзилка, не хватает только.." А не, всего ей не хватает.
Казалось бы, довольно правдоподобное утверждение. Чтобы убедиться в этом, достаточно сравнить стили написания постов в одном и во втором сообществе. Но затуманенный стекломоем разум Криса отреагировал на него иначе:
Александръ Авиловъ 20:34
АХАХАХАХАХАХАХААААААААААААА
Александръ Авиловъ 20:34
Переадресованныя письма
Михаилъ Солодовниковъ
12.01.17
Ну, тут мне даже сказать нечего. Ты сам себя так зашкварил, что я только испорчу все
Это тот случай когда если надо объяснять - то не надо объяснять.
Что сподвигло меня проанализировать контент этих пабликов абсолютно беспристрастным способом, полностью автоматически. Что помогло бы установить, кто из нас прав, а кто нет.
Суть эксперимента заключается в том, чтобы с помощью методов тематического моделирования определить, есть ли различия в стилях написания постов двух пабликов. Для этого необходимо:
Итак, за нулевую гипотезу принимаем:
За альтернативную:
Для анализа возьмем по 300 постов из каждого сообщества. Поскольку Лентач я читаю не так давно, а мнение о Мурзилке я составил на основе 10-20 последних постов, то брать посты будем самые последние. Возьмем по 300 постов “с конца” каждого паблика.
На момент написания документа в пабликах следующее число постов: Лентач 18308, Мурзилка - 13253.
Подвергнем тексты постов стеммингу (для этого используем стемминг от Яндекса), уберем из них все цифры, удалим стослова для русского языка (доступны в файле sw.txt). Уберем не относящиеся к новостям, обществу, политике: музыкальные посты, розыгрыши билетов. А также посты, в которых явно указывается название паблика.
В результате останется постов: для Лентача - 279 , для Мурзилки - 300.
Построим тематическую модель, в результате которой получим 2 топика.
Посмотрим на 50 самых популярных слов для каждого из топиков (вся суть во второй половине):
| Topic 1 | Topic 2 |
|---|---|
| время | летний |
| россия | девать |
| получать | город |
| страна | ибо |
| рубль | свое |
| начинать | область |
| новость | решать |
| поздний | дом |
| российский | ребята |
| час | сразу |
| хороший | страж |
| помощь | женщина |
| товарищ | улица |
| москва | местный |
| находиться | день |
| новое | парень |
| отмечать | галактика |
| именно | момент |
| оказываться | чувак |
| пример | поэтому |
| житель | мужик |
| изза | несколько |
| новый | рука |
| предлагать | вид |
| хотеть | становиться |
| жить | место |
| мир | задерживать |
| млн | происходить |
| следовать | район |
| погибать | состояние |
| чепырка | итог |
| квартира | пока |
| твой | ребенок |
| отношение | больница |
| сделать | друг |
| сша | лишь |
| вопрос | начало |
| дорога | самый |
| стоимость | дикий |
| заявлять | ночь |
| принимать | убийство |
| проводить | синебот |
| снег | новогодний |
| общий | пиздец |
| уровень | результат |
| устраивать | спокойно |
| депутат | уголовный |
| прекрасный | машин |
| сталь | жестокий |
| оставаться | лицо |
А теперь посмотрим на то, как распределились между топиками посты Лентача и Мурзилки.
| Топик 1 | Топик 2 | |
|---|---|---|
| Лентач | 226 | 53 |
| Мурзилка | 107 | 193 |
Для наглядности приведем график:
Очевидно, что различия велики. Но для верности проверим их с помощью хи-квадрат критерия:
Хи-квадрат критерий:
Pearson's Chi-squared test with Yates' continuity correction
data: posts_topics_m X-squared = 119.75, df = 1, p-value < 2.2e-16
Как мы видим, различия значимы с очень хорошим уровнем p-value. Что позволяет нам отвергнуть нулевую гипотезу о том, что различий в стилистике пабликов нет и принять альтернативную - о наличии таких различий.