Семантичний аналіз Corestone

Роман Кириченко
Data scientist

Основні візуалізації та метрики

Матеріал: послання Петра Порошенка до Верховної Ради 2014-2017

Візуалізації та метрики:

Wordcloud
Comparison cloud
Correspondence analysis
Correlation analysis
Кількість слів
Вода
Нудота
Найвживаніші слова за частинами мови

Wordcloud

plot of chunk unnamed-chunk-1

Найпоширеніший варіант семантичної візуалізації. В її основі - частота вживання слів у тексті передана через розмір слів у графіку. Від них відмінусовано так звані стоп-слова.

Comparison Cloud

plot of chunk unnamed-chunk-2

Ідея цієї візуалізації схожа до кореспонденс аналізу - порівняння відмінності семантик за певними групами. Ця візуалізація акуратніше розміщує слова на візуалізації, однак мало повідомляє про ступінь різності чи схожості семантик.

Correspondence analysis

plot of chunk unnamed-chunk-3

Порівняно з попередньою візуалізацією тут можна виміряти семантичну дистанцію між групами.

Correlation analysis

plot of chunk unnamed-chunk-4

Кореляційний аналіз і побудова на його основі графів. Можна будувати графи між найбільш згадуваними словами, як тут. Так і між конкретно обраними словами. Наприклад, можна поглянути, які слова найчастіше стоять зі словом Росія, і які в свою чергу стоять близько із цими словами і т.д.

Correlation analysis 2

plot of chunk unnamed-chunk-5

Приклад найбільших кореляцій з обраним словом.

Вода

Рік	Загалом слів	Унікальних слів	Вода
2014	3838	1928	62.01%
2015	7652	3533	63.11%
2016	5951	2793	63.05%
2017	9410	4043	64.1%

Вода - співвідношення значущих слів (всі слова, крім другорядних членів мови) до всіх слів. Норма води 65%.

З цих показників можна судити, наскільки лексично різноманітним був виступ.

Нудота документу

Класична

Рік	Нудота
2014	5.20
2015	5.92
2016	5.20
2017	6.71

Академічна

Рік	Нудота
2014	2.82%
2015	2.05%
2016	1.89%
2017	2.09%

З цих показників можна судити, наскільки лексично різноманітним був виступ.

Класична тошнота - корінь квадратний найбільш згадуваного в тексті слова: \[\sqrt{word_{max(n)}}\]

Академічна тошнота - відсоток частоти згадування топ-5 найбільш згадуваних слів в тексті.

\[\frac{word_{max(n)}}{\sum word}\]

Топи за частинами мови

Рік	дієслово	іменник	прикметник
2014	маємо	україни	нашої
2015	будемо	україни	минулого
2016	наголошую	україни	народні
2017	наголошую	україни	інших

Ідея - показати найбільш вживані слова за частинами мови.