Семантичний аналіз Corestone

Роман Кириченко
Data scientist

Основні візуалізації та метрики

Матеріал: послання Петра Порошенка до Верховної Ради 2014-2017

Візуалізації та метрики:

  • Wordcloud
  • Comparison cloud
  • Correspondence analysis
  • Correlation analysis
  • Кількість слів
  • Вода
  • Нудота
  • Найвживаніші слова за частинами мови

Wordcloud

plot of chunk unnamed-chunk-1

Найпоширеніший варіант семантичної візуалізації. В її основі - частота вживання слів у тексті передана через розмір слів у графіку. Від них відмінусовано так звані стоп-слова.

Comparison Cloud

plot of chunk unnamed-chunk-2

Ідея цієї візуалізації схожа до кореспонденс аналізу - порівняння відмінності семантик за певними групами. Ця візуалізація акуратніше розміщує слова на візуалізації, однак мало повідомляє про ступінь різності чи схожості семантик.

Correspondence analysis

plot of chunk unnamed-chunk-3

Порівняно з попередньою візуалізацією тут можна виміряти семантичну дистанцію між групами.

Correlation analysis

plot of chunk unnamed-chunk-4

Кореляційний аналіз і побудова на його основі графів. Можна будувати графи між найбільш згадуваними словами, як тут. Так і між конкретно обраними словами. Наприклад, можна поглянути, які слова найчастіше стоять зі словом Росія, і які в свою чергу стоять близько із цими словами і т.д.

Correlation analysis 2

plot of chunk unnamed-chunk-5

Приклад найбільших кореляцій з обраним словом.

Вода

Рік Загалом слів Унікальних слів Вода
2014 3838 1928 62.01%
2015 7652 3533 63.11%
2016 5951 2793 63.05%
2017 9410 4043 64.1%

Вода - співвідношення значущих слів (всі слова, крім другорядних членів мови) до всіх слів. Норма води 65%.

З цих показників можна судити, наскільки лексично різноманітним був виступ.

Нудота документу

Класична

Рік Нудота
2014 5.20
2015 5.92
2016 5.20
2017 6.71

Академічна

Рік Нудота
2014 2.82%
2015 2.05%
2016 1.89%
2017 2.09%

З цих показників можна судити, наскільки лексично різноманітним був виступ.

Класична тошнота - корінь квадратний найбільш згадуваного в тексті слова: \[\sqrt{word_{max(n)}}\]

Академічна тошнота - відсоток частоти згадування топ-5 найбільш згадуваних слів в тексті.

\[\frac{word_{max(n)}}{\sum word}\]

Топи за частинами мови

Рік дієслово іменник прикметник
2014 маємо україни нашої
2015 будемо україни минулого
2016 наголошую україни народні
2017 наголошую україни інших

Ідея - показати найбільш вживані слова за частинами мови.