library(rvest)
library(tidyverse)
library(tidytext)
library(tokenizers)
library(stopwords)
library(udpipe)
library(ggplot2)
library(dplyr)
library(wordcloud)Homework №9
Дуглас Адамс “Автостопом по галактике” Книга 1
Библиография (Адамс 1997, 1)
Начало работы
Для начала подгружаю библиотеки, которые мне понадобятся
Затем сайт с текстом книги, которую я буду изучать. Достаю сам текст и преобразовываю его в tibble
text <- read_html ("https://www.booksite.ru/fulltext/0/001/005/082/004.htm") |>
html_elements("pre") |>
html_text2()
my_text <- text |>
as_tibble()
my_text <- my_text |>
rename(text = value)Я выбрала модель SynTagRus, так как произведение переведено на современный русский язык, но при этом в нем довольно много слов, которые не требуются в обычной жизни, а следовательно модель может их не знать. Однако, это наиболее полный пакет из представеных.
udpipe_download_model(language = "russian-syntagrus")
syntagrus <- udpipe_load_model(file = "russian-syntagrus-ud-2.5-191206.udpipe")Анализ
Аннотирую текст и преобразовываю его в таблицу
best_text <- udpipe_annotate(syntagrus, my_text$text)
text_lemma <- as_tibble(best_text) |>
select(-paragraph_id) |>
select(-doc_id)