Постановка вопроса

12 января мы с Волосатым зарубились на тему того, что два паблика в ВК - лентач и Мурзилка принципиально по-разному подают новости:

Александръ Авиловъ 20:31
Чем мурзилка хуже лентача?
Или даже не так...
Чем лентач лучше мурзилки

Георгiй Фандеевъ 20:34
Лентач более менее нейтрален в подаче новостей. Да, их может и подбирают так что мол        смотрите как все хуево, но откровенно вышиватная или демшизовская подача там скорее         редкость. А еще там годный пикчер. В общем, перефразировав былинную фразу Миши "тебе,       мурзилка, не хватает только.." А не, всего ей не хватает.

Казалось бы, довольно правдоподобное утверждение. Чтобы убедиться в этом, достаточно сравнить стили написания постов в одном и во втором сообществе. Но затуманенный стекломоем разум Криса отреагировал на него иначе:

Александръ Авиловъ 20:34
АХАХАХАХАХАХАХААААААААААААА
Александръ Авиловъ 20:34
Переадресованныя письма
Михаилъ Солодовниковъ
12.01.17
Ну, тут мне даже сказать нечего. Ты сам себя так зашкварил, что я только испорчу все
Это тот случай когда если надо объяснять - то не надо объяснять.

Что сподвигло меня проанализировать контент этих пабликов абсолютно беспристрастным способом, полностью автоматически. Что помогло бы установить, кто из нас прав, а кто нет.

Анализ

Суть эксперимента

Суть эксперимента заключается в том, чтобы с помощью методов тематического моделирования определить, есть ли различия в стилях написания постов двух пабликов. Для этого необходимо:

  1. Взять некоторую выборку постов пабликов
  2. Исключить из выборки те посты, которые явно не относятся к политике, обществу и т.д. (рекламные, музыкальные)
  3. Подвергнуть тексты постов процедуре стемминга
  4. Построить тематическую модель, состоящую из двух тем (топиков).
  5. Посмотреть на распределение постов Лентача и Мурзилки между этими двумя топиками.

Итак, за нулевую гипотезу принимаем:

  • Распределение между двумя топиками у постов Мурзилки и Лентача примерно одинаковое (нет статистически значимых различий). Паблики НЕ различаются по стилю подачи информации.

За альтернативную:

  • Распределение между двумя топиками у постов Мурзилки и Лентача различается статистически значимо. Паблики различаются по стилю подачи информации.

Сбор данных

Для анализа возьмем по 300 постов из каждого сообщества. Поскольку Лентач я читаю не так давно, а мнение о Мурзилке я составил на основе 10-20 последних постов, то брать посты будем самые последние. Возьмем по 300 постов “с конца” каждого паблика.

На момент написания документа в пабликах следующее число постов: Лентач 18308, Мурзилка - 13253.

Подвергнем тексты постов стеммингу (для этого используем стемминг от Яндекса), уберем из них все цифры, удалим стослова для русского языка (доступны в файле sw.txt). Уберем не относящиеся к новостям, обществу, политике: музыкальные посты, розыгрыши билетов. А также посты, в которых явно указывается название паблика.

В результате останется постов: для Лентача - 279 , для Мурзилки - 300.

Непосредственно анализ

Построим тематическую модель, в результате которой получим 2 топика.

Посмотрим на 50 самых популярных слов для каждого из топиков (вся суть во второй половине):

Topic 1 Topic 2
время летний
россия девать
получать город
страна ибо
рубль свое
начинать область
новость решать
поздний дом
российский ребята
час сразу
хороший страж
помощь женщина
товарищ улица
москва местный
находиться день
новое парень
отмечать галактика
именно момент
оказываться чувак
пример поэтому
житель мужик
изза несколько
новый рука
предлагать вид
хотеть становиться
жить место
мир задерживать
млн происходить
следовать район
погибать состояние
чепырка итог
квартира пока
твой ребенок
отношение больница
сделать друг
сша лишь
вопрос начало
дорога самый
стоимость дикий
заявлять ночь
принимать убийство
проводить синебот
снег новогодний
общий пиздец
уровень результат
устраивать спокойно
депутат уголовный
прекрасный машин
сталь жестокий
оставаться лицо

Результаты

А теперь посмотрим на то, как распределились между топиками посты Лентача и Мурзилки.

Топик 1 Топик 2
Лентач 226 53
Мурзилка 107 193

Для наглядности приведем график:

Очевидно, что различия велики. Но для верности проверим их с помощью хи-квадрат критерия:

Хи-квадрат критерий:

Pearson's Chi-squared test with Yates' continuity correction

data: posts_topics_m X-squared = 119.75, df = 1, p-value < 2.2e-16

Как мы видим, различия значимы с очень хорошим уровнем p-value. Что позволяет нам отвергнуть нулевую гипотезу о том, что различий в стилистике пабликов нет и принять альтернативную - о наличии таких различий.