作業ディレクトリの設定

setwd("/cloud/project")
install.packages(c("cleanNLP","udpipe","igraph","ggraph","ggplot2"))

コメント記入時の注意

スクリプト実行セルに全角スペースを入れるとエラーがでるので気をつけてください。

  • 半角スペース
x<-10 
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
[1] "Sum =  30"
  • 全角スペース
x<-10
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) # 足し算の結果をプリントアウト出力
Error: unexpected invalid token in "paste("Sum = ", res_sum0) "

関数の作成

関数:複数処理を一括で呼び出す時に便利

教科書的な説明

戻り値なし関数(関数から戻る値はない)

  • 引数: x, y
  • 戻り値:なし
# Define a function
test_plus0 <- function(x = 0, y = 0) {
  res_sum0 <- x + y
  paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
}

test_plus0の実行

test_plus0(10, 20)
[1] "Sum =  30"
#res0 <- test_plus0(10, 20)
#res0 + 10

戻り値あり関数:test_plus1関数を作成

  • 引数: x, y
  • 戻り値: res_sum1
# Define a function
test_plus1 <- function(x = 0, y = 0) {
  res_sum1 <- x + y
  return(res_sum1)
}

test_plus1の実行

# Run test_plus1
test_plus1(10, 20)
[1] 30
#res1 <- test_plus1(10, 20)
#res1 + 10

補足

return()関数をつけなくても戻り値ありの関数になる

  • test_plus2関数
# Define a function
test_plus2 <- function(x = 0, y = 0) {
  res_sum2 <- x + y
  print(res_sum2)
}

# Run test_plus2
test_plus2(10, 20)
[1] 30
#res2 <- test_plus2(10, 20)
#res2 + 10
  • test_plus3関数
# Define a function
test_plus3 <- function(x = 0, y = 0) {
  x + y
}

# Run test_plus3
test_plus3(10, 20)
[1] 30
#res3 <- test_plus3(10, 20)
#res3 + 10

テキスト処理

ライブラリの読み込み

library(httr)
library(rvest)

使用テキスト

# URL of the Mainichi Shinbun's article
url_ja <- "https://mainichi.jp/articles/20240924/k00/00m/040/226000c"

# Send a GET request with a user agent
response <- GET(url_ja, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)

本文を抽出

  • 抽出箇所: articledetail-body内のpタグ
# <section class='articledetail-body' id='articledetail-body'>
article_content_ja <- html_text(html_nodes(page, "section.articledetail-body p"), trim = TRUE) 
#article_content_ja[1]

テキスト処理: cleanNLP, UDPipe

cleanNLP

ライブラリの読み込み

library(cleanNLP)

日本語処理

cnlp_init_udpipe(model_name = "japanese")

アノテーション(形態素解析)

  • cnlp_annotate関数
anno_data <- cnlp_annotate(input = article_content_ja[3])

結果一部抽出

head(anno_data$token)
anno_data$token$token[1:10]

View関数

View(anno_data$token)

列名を抽出

  • upos: universal POS tags
  • xpos: treebank-specific POS tag
  • feats: additional morphological features
  • relation: Dependency Relation
colnames(anno_data$token)
 [1] "doc_id"        "sid"           "tid"           "token"        
 [5] "token_with_ws" "lemma"         "upos"          "xpos"         
 [9] "feats"         "tid_source"    "relation"     

結果の部分抽出(列名指定)

head(anno_data$token$token)
[1] "学費"     "は"       "法科大学" "院"       "を"       "除く"    
head(anno_data$token$lemma)
[1] "学費"     "は"       "法科大学" "院"       "を"       "除く"    

条件抽出

anno_data$token[anno_data$token$upos == "NOUN",]

複数条件抽出(その1)

anno_data$token[(anno_data$token$upos == "NUM"|anno_data$token$upos == "PUNCT"),]

全文

fulltext <- paste(article_content_ja, collapse = "")

fulltext_anno_data <- cnlp_annotate(input = fulltext)
tail(fulltext_anno_data$token)

複数条件抽出(その2)

%in% operator

search_terms = c("大学", "学費", "値上げ")
fulltext_anno_data$token[fulltext_anno_data$token$token%in%search_terms,]

頻度集計

freqBycnlp<-table(fulltext_anno_data$token$token)
head(sort(freqBycnlp, decreasing=TRUE))

の 。 は に を た 
24 16 13 12 12 11 
#sort(freqBycnlp, decreasing=TRUE)[1:20]

UDPipe Natural Language Processing

ライブラリの読み込み

library(udpipe)

Annotation with UDPipe

sample_en <- udpipe("Tuition for doctoral programs will remain unchanged.", "english")

View関数

View(sample_en)

列名を抽出

colnames(sample_en)
 [1] "doc_id"        "paragraph_id"  "sentence_id"   "sentence"      "start"        
 [6] "end"           "term_id"       "token_id"      "token"         "lemma"        
[11] "upos"          "xpos"          "feats"         "head_token_id" "dep_rel"      
[16] "deps"          "misc"         

View

View(sample[c("token_id", "token", "head_token_id")])
Error in View : object of type 'closure' is not subsettable

係受け解析の視覚化

関数ファイルの読み込み

source("func_plot_annotation.R")

視覚化

plot_annotation(sample_en, size = 4)

日本語処理

sample_ja <- udpipe("博士課程の学費は据え置いた。", "japanese")
plot_annotation(sample_ja, size = 4)

Tree structure

