作業ディレクトリの設定

setwd("/cloud/project")
install.packages(c("cleanNLP","udpipe","igraph","ggraph","ggplot2"))

コメント記入時の注意

スクリプト実行セルに全角スペースを入れるとエラーがでるので気をつけてください。

  • 半角スペース
x<-10 
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
[1] "Sum =  30"
  • 全角スペース
x<-10
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) # 足し算の結果をプリントアウト出力
Error: unexpected invalid token in "paste("Sum = ", res_sum0) "

関数の作成

関数:複数処理を一括で呼び出す時に便利

教科書的な説明

戻り値なし関数(関数から戻る値はない)

  • 引数: x, y
  • 戻り値:なし
# Define a function
test_plus0 <- function(x = 0, y = 0) {
  res_sum0 <- x + y
  paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
}

test_plus0の実行

test_plus0(10, 20)
[1] "Sum =  30"
#res0 <- test_plus0(10, 20)
#res0 + 10

戻り値あり関数:test_plus1関数を作成

  • 引数: x, y
  • 戻り値: res_sum1
# Define a function
test_plus1 <- function(x = 0, y = 0) {
  res_sum1 <- x + y
  return(res_sum1)
}

test_plus1の実行

# Run test_plus1
test_plus1(10, 20)
[1] 30
#res1 <- test_plus1(10, 20)
#res1 + 10

補足

return()関数をつけなくても戻り値ありの関数になる

  • test_plus2関数
# Define a function
test_plus2 <- function(x = 0, y = 0) {
  res_sum2 <- x + y
  print(res_sum2)
}

# Run test_plus2
test_plus2(10, 20)
[1] 30
#res2 <- test_plus2(10, 20)
#res2 + 10
  • test_plus3関数
# Define a function
test_plus3 <- function(x = 0, y = 0) {
  x + y
}

# Run test_plus3
test_plus3(10, 20)
[1] 30
#res3 <- test_plus3(10, 20)
#res3 + 10

テキスト処理

ライブラリの読み込み

library(httr)
library(rvest)

使用テキスト

# URL of the Mainichi Shinbun's article
url_ja <- "https://mainichi.jp/articles/20240924/k00/00m/040/226000c"

# Send a GET request with a user agent
response <- GET(url_ja, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)

本文を抽出

  • 抽出箇所: articledetail-body内のpタグ
# <section class='articledetail-body' id='articledetail-body'>
article_content_ja <- html_text(html_nodes(page, "section.articledetail-body p"), trim = TRUE) 
#article_content_ja[1]

テキスト処理: cleanNLP, UDPipe

cleanNLP

ライブラリの読み込み

library(cleanNLP)

日本語処理

cnlp_init_udpipe(model_name = "japanese")

アノテーション(形態素解析)

  • cnlp_annotate関数
anno_data <- cnlp_annotate(input = article_content_ja[3])

結果一部抽出

head(anno_data$token)
anno_data$token$token[1:10]

View関数

View(anno_data$token)

列名を抽出

  • upos: universal POS tags
  • xpos: treebank-specific POS tag
  • feats: additional morphological features
  • relation: Dependency Relation
colnames(anno_data$token)
 [1] "doc_id"        "sid"           "tid"           "token"        
 [5] "token_with_ws" "lemma"         "upos"          "xpos"         
 [9] "feats"         "tid_source"    "relation"     

結果の部分抽出(列名指定)

head(anno_data$token$token)
[1] "学費"     "は"       "法科大学" "院"       "を"       "除く"    
head(anno_data$token$lemma)
[1] "学費"     "は"       "法科大学" "院"       "を"       "除く"    

条件抽出

anno_data$token[anno_data$token$upos == "NOUN",]

複数条件抽出(その1)

anno_data$token[(anno_data$token$upos == "NUM"|anno_data$token$upos == "PUNCT"),]

全文

fulltext <- paste(article_content_ja, collapse = "")

fulltext_anno_data <- cnlp_annotate(input = fulltext)
tail(fulltext_anno_data$token)

複数条件抽出(その2)

%in% operator

search_terms = c("大学", "学費", "値上げ")
fulltext_anno_data$token[fulltext_anno_data$token$token%in%search_terms,]

頻度集計

freqBycnlp<-table(fulltext_anno_data$token$token)
head(sort(freqBycnlp, decreasing=TRUE))

の 。 は に を た 
24 16 13 12 12 11 
#sort(freqBycnlp, decreasing=TRUE)[1:20]

UDPipe Natural Language Processing

ライブラリの読み込み

library(udpipe)

Annotation with UDPipe

sample_en <- udpipe("Tuition for doctoral programs will remain unchanged.", "english")

View関数

View(sample_en)

列名を抽出

colnames(sample_en)
 [1] "doc_id"        "paragraph_id"  "sentence_id"   "sentence"      "start"        
 [6] "end"           "term_id"       "token_id"      "token"         "lemma"        
[11] "upos"          "xpos"          "feats"         "head_token_id" "dep_rel"      
[16] "deps"          "misc"         

View

View(sample[c("token_id", "token", "head_token_id")])
Error in View : object of type 'closure' is not subsettable

係受け解析の視覚化

関数ファイルの読み込み

source("func_plot_annotation.R")

視覚化

plot_annotation(sample_en, size = 4)

日本語処理

sample_ja <- udpipe("博士課程の学費は据え置いた。", "japanese")
plot_annotation(sample_ja, size = 4)

Tree structure

---
title: "Lec03: 関数の作成, テキスト処理"
output: html_notebook
editor_options: 
  chunk_output_type: inline
---
## 作業ディレクトリの設定
```{r}
setwd("/cloud/project")
```

```{r, eval =FALSE}
install.packages(c("cleanNLP","udpipe","igraph","ggraph","ggplot2"))
```

## コメント記入時の注意
### スクリプト実行セルに全角スペースを入れるとエラーがでるので気をつけてください。
- 半角スペース
```{r}
x<-10 
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
```

- 全角スペース
```{r}
x<-10
y<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0)　#　足し算の結果をプリントアウト出力
```


# 関数の作成
## 関数：複数処理を一括で呼び出す時に便利
- <a href="https://stats.biopapyrus.jp/r/basic/function.html" target="_blank">参考資料: biostatistics 関数の作り方</a>

## 教科書的な説明
### 戻り値なし関数（関数から戻る値はない）
- 引数: x, y
- 戻り値:なし
```{r}
# Define a function
test_plus0 <- function(x = 0, y = 0) {
  res_sum0 <- x + y
  paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
}
```

### test_plus0の実行
```{r}
test_plus0(10, 20)

#res0 <- test_plus0(10, 20)
#res0 + 10
```

### 戻り値あり関数：test_plus1関数を作成
- 引数: x, y
- 戻り値: res_sum1
```{r}
# Define a function
test_plus1 <- function(x = 0, y = 0) {
  res_sum1 <- x + y
  return(res_sum1)
}
```

### test_plus1の実行
```{r}
# Run test_plus1
test_plus1(10, 20)

#res1 <- test_plus1(10, 20)
#res1 + 10
```

## 補足
### return()関数をつけなくても戻り値ありの関数になる
- test_plus2関数
```{r}
# Define a function
test_plus2 <- function(x = 0, y = 0) {
  res_sum2 <- x + y
  print(res_sum2)
}

# Run test_plus2
test_plus2(10, 20)

#res2 <- test_plus2(10, 20)
#res2 + 10
```

- test_plus3関数
```{r}
# Define a function
test_plus3 <- function(x = 0, y = 0) {
  x + y
}

# Run test_plus3
test_plus3(10, 20)

#res3 <- test_plus3(10, 20)
#res3 + 10
```

## テキスト処理
### ライブラリの読み込み
```{r}
library(httr)
library(rvest)
```

### 使用テキスト
- <a href="https://mainichi.jp/articles/20240924/k00/00m/040/226000c" target="_blank"> "「東京大、来春入学から授業料2割値上げを正式決定　他大学に影響も」（毎日新聞 2024/9/24）"</a>
```{r}
# URL of the Mainichi Shinbun's article
url_ja <- "https://mainichi.jp/articles/20240924/k00/00m/040/226000c"

# Send a GET request with a user agent
response <- GET(url_ja, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)
```

### 本文を抽出
- 抽出箇所: articledetail-body内のpタグ
```{r}
# <section class='articledetail-body' id='articledetail-body'>
article_content_ja <- html_text(html_nodes(page, "section.articledetail-body p"), trim = TRUE) 
#article_content_ja[1]
```

# テキスト処理: cleanNLP, UDPipe
### 参考資料
- <a href="https://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-annotation.html" target="_blank">UDPipe Natural Language Processing</a>
- <a href="https://cran.r-project.org/web/packages/udpipe/vignettes/udpipe-annotation.html" target="_blank">UDPipe Natural Language Processing</a>
- <a href="https://universaldependencies.org/" target="_blank">Universal Dependencies</a>
- <a href="http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/publications/2021-06-22.pdf" target="_blank">安岡孝一(2021)「世界のUniversal Dependenciesと係り受け解析ツール群」『第3回Universal Dependencies公開研究会』</a>

# cleanNLP
### ライブラリの読み込み
```{r}
library(cleanNLP)
```

## 日本語処理
```{r}
cnlp_init_udpipe(model_name = "japanese")
```

## アノテーション（形態素解析）
- cnlp_annotate関数
```{r}
anno_data <- cnlp_annotate(input = article_content_ja[3])
```

### 結果一部抽出
```{r, eval=FALSE}
head(anno_data$token)
anno_data$token$token[1:10]
```
### View関数
```{r, eval = FALSE}
View(anno_data$token)
```

## 列名を抽出
- upos: universal POS tags
- xpos: treebank-specific POS tag
- feats: additional morphological features 
- relation: Dependency Relation
```{r}
colnames(anno_data$token)
```

## 結果の部分抽出（列名指定）
```{r}
head(anno_data$token$token)
head(anno_data$token$lemma)
```

## 条件抽出
```{r}
anno_data$token[anno_data$token$upos == "NOUN",]
```
## 複数条件抽出(その１)
```{r}
anno_data$token[(anno_data$token$upos == "NUM"|anno_data$token$upos == "PUNCT"),]
```

### 全文
```{r}
fulltext <- paste(article_content_ja, collapse = "")

fulltext_anno_data <- cnlp_annotate(input = fulltext)
tail(fulltext_anno_data$token)
```

## 複数条件抽出(その２)
### %in% operator
```{r}
search_terms = c("大学", "学費", "値上げ")
fulltext_anno_data$token[fulltext_anno_data$token$token%in%search_terms,]
```

## 頻度集計 
```{r}
freqBycnlp<-table(fulltext_anno_data$token$token)
head(sort(freqBycnlp, decreasing=TRUE))
#sort(freqBycnlp, decreasing=TRUE)[1:20]
```

# <a href="https://bnosac.github.io/udpipe/en/index.html" target="_blank">UDPipe Natural Language Processing</a>

### ライブラリの読み込み
```{r}
library(udpipe)
```

### Annotation with UDPipe
```{r}
sample_en <- udpipe("Tuition for doctoral programs will remain unchanged.", "english")
```
### View関数
```{r, eval = FALSE}
View(sample_en)
```

### 列名を抽出
```{r}
colnames(sample_en)
```
### View
```{r}
View(sample_en[c("token_id", "token", "head_token_id")])
```

# 係受け解析の視覚化
- ref. <a href="https://www.r-bloggers.com/2019/07/dependency-parsing-with-udpipe/" target="_blank">dependency parsing with udpipe</a>

- <a href="https://github.com/bnosac/textplot" target="_blank">textplot</a>

### 関数ファイルの読み込み
```{r}
source("func_plot_annotation.R")
```

## 視覚化
```{r}
plot_annotation(sample_en, size = 4)
```

### 日本語処理
```{r}
sample_ja <- udpipe("博士課程の学費は据え置いた。", "japanese")
plot_annotation(sample_ja, size = 4)
```
```{r}
View(sample_ja[c("token_id", "token", "head_token_id")])
```

#### Tree structure
<img src="lec03_tree.png" width="500">

