Матеріал: послання Петра Порошенка до Верховної Ради 2014-2017
Візуалізації та метрики:
- Wordcloud
- Comparison cloud
- Correspondence analysis
- Correlation analysis
- Кількість слів
- Вода
- Нудота
- Найвживаніші слова за частинами мови
Роман Кириченко
Data scientist
Матеріал: послання Петра Порошенка до Верховної Ради 2014-2017
Візуалізації та метрики:

Найпоширеніший варіант семантичної візуалізації. В її основі - частота вживання слів у тексті передана через розмір слів у графіку. Від них відмінусовано так звані стоп-слова.

Ідея цієї візуалізації схожа до кореспонденс аналізу - порівняння відмінності семантик за певними групами. Ця візуалізація акуратніше розміщує слова на візуалізації, однак мало повідомляє про ступінь різності чи схожості семантик.

Порівняно з попередньою візуалізацією тут можна виміряти семантичну дистанцію між групами.

Кореляційний аналіз і побудова на його основі графів. Можна будувати графи між найбільш згадуваними словами, як тут. Так і між конкретно обраними словами. Наприклад, можна поглянути, які слова найчастіше стоять зі словом Росія, і які в свою чергу стоять близько із цими словами і т.д.

Приклад найбільших кореляцій з обраним словом.
| Рік | Загалом слів | Унікальних слів | Вода |
|---|---|---|---|
| 2014 | 3838 | 1928 | 62.01% |
| 2015 | 7652 | 3533 | 63.11% |
| 2016 | 5951 | 2793 | 63.05% |
| 2017 | 9410 | 4043 | 64.1% |
Вода - співвідношення значущих слів (всі слова, крім другорядних членів мови) до всіх слів. Норма води 65%.
З цих показників можна судити, наскільки лексично різноманітним був виступ.
Класична
| Рік | Нудота |
|---|---|
| 2014 | 5.20 |
| 2015 | 5.92 |
| 2016 | 5.20 |
| 2017 | 6.71 |
Академічна
| Рік | Нудота |
|---|---|
| 2014 | 2.82% |
| 2015 | 2.05% |
| 2016 | 1.89% |
| 2017 | 2.09% |
З цих показників можна судити, наскільки лексично різноманітним був виступ.
Класична тошнота - корінь квадратний найбільш згадуваного в тексті слова: \[\sqrt{word_{max(n)}}\]
Академічна тошнота - відсоток частоти згадування топ-5 найбільш згадуваних слів в тексті.
\[\frac{word_{max(n)}}{\sum word}\]
| Рік | дієслово | іменник | прикметник |
|---|---|---|---|
| 2014 | маємо | україни | нашої |
| 2015 | будемо | україни | минулого |
| 2016 | наголошую | україни | народні |
| 2017 | наголошую | україни | інших |
Ідея - показати найбільш вживані слова за частинами мови.