Lecture4: 関数の作成
作業ディレクトリの設定
setwd("/cloud/project")
notebookのコメント記入時の注意
スクリプト実行セルに全角スペースを入れるとエラーがでるので気をつけてください。
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
[1] "Sum = 22"
paste("Sum = ", res_sum0) # 足し算の結果をプリントアウト出力
Error: unexpected input in "paste("Sum = ", res_sum0) "
関数の作成
古典的な説明
戻り値なし関数(関数から戻ってくる値はない)
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
Error: object 'res_sum0' not found
test_plus0の実行
test_plus0(10, 20)
[1] "Sum = 30"
戻り値あり関数:test_plus1関数を作成
test_plus1 <- function(x = 0, y = 0) {
res_sum1 <- x + y
return(res_sum1)
}
test_plus1の実行
test_plus1(10, 20)
[1] 30
補足
return()関数をつけなくても戻り値ありの関数になる
test_plus2 <- function(x = 0, y = 0) {
res_sum2 <- x + y
print(res_sum2)
}
test_plus2(10, 20)
[1] 30
test_plus3(10, 20)
[1] 30
復習:単語リストの作成
Step1. 一行ずつ読み込んで、リストに格納 Step2.
スペース・記号による区切り Step3. 各行のデータを一括化 Step4.
小文字に変換 Step5. 空白”“の削除
txt<-readLines("sample_texts/sample_en.txt")
Warning: cannot open file 'sample_texts/sample_en.txt': No such file or directoryError in file(con, "r") : cannot open the connection
結果部分出力
head(wordLst)
[1] "greetings" "everyone" "today" "i" "was" "appointed"
TTRの計算
paste("TTR =", round(res_TTR,3))
[1] "TTR = 42.654"
戻り値なし関数:printTTR0関数を作成
printTTR0<- function(wLst) {
num_tokens <- length(wLst)
num_types <- length(unique(wLst))
res_TTR <- num_types/num_tokens * 100
paste("TTR =", round(res_TTR,3))
}
printTTR0関数の実行
printTTR0(wordLst)
[1] "TTR = 42.654"
戻り値あり関数:calcTTR1関数を作成
引数: 単語リスト
戻り値: TTR値
calcTTR1<- function(wLst) {
num_tokens <- length(wLst)
num_types <- length(unique(wLst))
res_TTR <- num_types/num_tokens * 100
return(round(res_TTR,3))
}
calcTTR1関数の実行
calcTTR1(wordLst)
[1] 42.654
戻り値の利用
result <- calcTTR1(wordLst)
戻り値あり関数:calcTTR2関数を作成
引数: Tokens, Types
戻り値: TTR計算値
calcTTR2<- function(arg_tokens,arg_types) {
res_TTR <- arg_types/arg_tokens * 100
return(round(res_TTR,3))
}
calcTTR2関数の実行
calcTTR2(tokens,types)
[1] 42.654
課題1
課題内容:テキストファイルのパス情報(文字列)を読み込んで、Guiraudの値を返す関数calcRTTRの作成してください。
- 作業場所: Posit Cloudの”Handson_2023_Lec04.Rmd”のセルに作成
- 実行確認:
“ou_msg/ou_msg_en.txt”と”sample-es.txt”のファイルを読み込んで、結果を出力
- 締切日:2023年11月7日(8日にファイルを確認します)
calcRTTR関数の作成場所(課題1の関数はこのセルに書いてください)
引数: 英文テキストのファイルパス(文字列)
戻り値: Guiraud計算値(小数点3桁表示)
calcRTTR関数の実行例1
引数: “ou_msg/ou_msg_en.txt”
戻り値: Guiraud計算値(小数点3桁表示)
calcRTTR("ou_msg/ou_msg_en.txt")
[1] 12.392
calcRTTR関数の実行例2
引数: “sample-es.txt”
戻り値: Guiraud計算値(小数点3桁表示)
calcRTTR("sample-es.txt")
[1] 6.641
おまけ
パス演算子%>%
magrittrパッケージのインストール
install.packages("magrittr")
purrrパッケージのインストール
install.packages("purrr")
ライブラリの読み込み
library(purrr)
Attaching package: ‘purrr’
The following object is masked from ‘package:magrittr’:
set_names
変数格納形式
txt<-readLines("ou_msg/ou_msg_en.txt")
wordLst <- strsplit(txt,"\\s|\\W")
wordLst<-unlist(wordLst)
wordLst<-tolower(wordLst)
wordLst<- wordLst[wordLst != ""]
パス演算子%>%表記
tmp<- readLines("ou_msg/ou_msg_en.txt") %>%
strsplit("\\s|\\W") %>%
unlist %>%
tolower %>%
keep(~ . != "") #function(x) x != ""
補足
strLst %>% "!="("")
[1] TRUE FALSE TRUE
purrr::keep関数
#wordLst[wordLst != ""]
keep(wordLst, ~ . != "") #function(x) x != ""
ラムダ(lambda)関数
~ . != ""
#function(x) x != ""
- チルダ(tilde)記号”~” says, “I’m going to give you a quick
function.”
- ドット記号”.” represents the current item being looked at.
- != “” is the actual instruction: “should not be an empty
string.”
---
title: "Lec04 (Fall 2023)"
output: html_notebook
---

# Lecture4: 関数の作成

## 作業ディレクトリの設定
```{r}
setwd("/cloud/project")
```

## notebookのコメント記入時の注意
### スクリプト実行セルに全角スペースを入れるとエラーがでるので気をつけてください。
- 半角スペース
```{r}
x<-10 
x<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
```

- 全角スペース
```{r}
x<-10
x<-20
res_sum0 <- x + y
paste("Sum = ", res_sum0)　#　足し算の結果をプリントアウト出力
```


# 関数の作成
## 関数：複数処理を一括で呼び出す時に便利
- <a href="https://stats.biopapyrus.jp/r/basic/function.html" target="_blank">参考資料: biostatistics 関数の作り方</a>

## 古典的な説明
## 戻り値なし関数（関数から戻ってくる値はない）
- 引数: x, y
- 戻り値:なし
```{r}
test_plus0 <- function(x = 0, y = 0) {
  res_sum0 <- x + y
  paste("Sum = ", res_sum0) #足し算の結果をプリントアウト出力
}
```

## test_plus0の実行
```{r}
test_plus0(10, 20)
```

## 戻り値あり関数：test_plus1関数を作成
- 引数: x, y
- 戻り値: res_sum1
```{r}
test_plus1 <- function(x = 0, y = 0) {
  res_sum1 <- x + y
  return(res_sum1)
}
```

## test_plus1の実行
```{r}
test_plus1(10, 20)
```

## 補足
### return()関数をつけなくても戻り値ありの関数になる
- test_plus2関数
```{r}
test_plus2 <- function(x = 0, y = 0) {
  res_sum2 <- x + y
  print(res_sum2)
}

test_plus2(10, 20)
```

- test_plus3関数
```{r}
test_plus3 <- function(x = 0, y = 0) {
  x + y
}

test_plus3(10, 20)
```


## 復習：単語リストの作成
Step1. 一行ずつ読み込んで、リストに格納
Step2. スペース・記号による区切り
Step3. 各行のデータを一括化
Step4. 小文字に変換
Step5. 空白""の削除
```{r}
txt<-readLines("ou_msg/ou_msg_en.txt")
wordLst <- strsplit(txt,"\\s|\\W")
wordLst<-unlist(wordLst)
wordLst<-tolower(wordLst)
wordLst<- wordLst[wordLst != ""]
```

### 結果部分出力
- head関数
```{r}
head(wordLst)
```

### TTRの計算
```{r}
tokens <- length(wordLst)
types <- length(unique(wordLst))
TTR <- types/tokens*100
paste("TTR =", round(TTR,3))
```

## 戻り値なし関数：printTTR0関数を作成
- 引数: 単語リスト
- 戻り値:なし
```{r}
printTTR0<- function(wLst) {
    num_tokens <- length(wLst)
    num_types <- length(unique(wLst))
    res_TTR <- num_types/num_tokens * 100
    paste("TTR =", round(res_TTR,3))
}
```

## printTTR0関数の実行
```{r}
printTTR0(wordLst)
```

## 戻り値あり関数：calcTTR1関数を作成
### 引数: 単語リスト
### 戻り値: TTR値
```{r}
calcTTR1<- function(wLst) {
    num_tokens <- length(wLst)
    num_types <- length(unique(wLst))
    res_TTR <- num_types/num_tokens * 100
    return(round(res_TTR,3))
}
```

## calcTTR1関数の実行
```{r}
calcTTR1(wordLst)
```

##  戻り値の利用
```{r}
result <- calcTTR1(wordLst)
```

## 戻り値あり関数：calcTTR2関数を作成
### 引数: Tokens, Types
### 戻り値: TTR計算値
```{r}
calcTTR2<- function(arg_tokens,arg_types) {
    res_TTR <- arg_types/arg_tokens * 100
    return(round(res_TTR,3))
}
```

## calcTTR2関数の実行
```{r}
calcTTR2(tokens,types)
```

# <span style="color: blue;">課題１</span> 
## 課題内容：テキストファイルのパス情報（文字列）を読み込んで、Guiraudの値を返す関数calcRTTRの作成してください。
- 作業場所: Posit Cloudの"Handson_2023_Lec04.Rmd"のセルに作成
- 実行確認: "ou_msg/ou_msg_en.txt"と"sample-es.txt"のファイルを読み込んで、結果を出力
- 締切日:2023年11月7日（8日にファイルを確認します）

## calcRTTR関数の作成場所（課題１の関数はこのセルに書いてください）
### 引数:  英文テキストのファイルパス（文字列）
### 戻り値: Guiraud計算値(小数点３桁表示)
```{r, echo=FALSE}
calcRTTR<- function(fname) {
    txt<-readLines(fname)
    wordLst<-strsplit(txt,"\\s|\\W")
    wordLst<-unlist(wordLst)
    wordLst<-tolower(wordLst)
    wordLst<- wordLst[wordLst != ""]
    num_tokens <- length(wordLst)
    num_types <- length(unique(wordLst))
    res_G <- round(num_types/sqrt(num_tokens),3)
    return(res_G)
}
```

### calcRTTR関数の実行例１
### 引数:  "ou_msg/ou_msg_en.txt"
### 戻り値: Guiraud計算値(小数点３桁表示)
```{r}
calcRTTR("ou_msg/ou_msg_en.txt")
```

### calcRTTR関数の実行例２
### 引数:  "sample-es.txt"
### 戻り値: Guiraud計算値(小数点３桁表示)
```{r}
calcRTTR("sample-es.txt")
```

# おまけ
## パス演算子%>%
- 複数処理における値の引き渡し
- <a href="https://shohei-doi.github.io/quant_polisci/pipe.html" target="_blank">参考資料: 北大・土井翔平先生のサイトより</a>

### magrittrパッケージのインストール
```{r, eval=FALSE}
install.packages("magrittr")
```

### purrrパッケージのインストール
```{r, eval=FALSE}
install.packages("purrr")
```

### ライブラリの読み込み
```{r}
library(magrittr)
library(purrr)
```

## 変数格納形式
```{r}
txt<-readLines("ou_msg/ou_msg_en.txt")
wordLst <- strsplit(txt,"\\s|\\W")
wordLst<-unlist(wordLst)
wordLst<-tolower(wordLst)
wordLst<- wordLst[wordLst != ""]
```

## パス演算子%>%表記
```{r, eval=FALSE}
tmp<- readLines("ou_msg/ou_msg_en.txt") %>% 
  strsplit("\\s|\\W") %>% 
  unlist %>% 
  tolower %>% 
  keep(~ . != "") #function(x) x != ""
```

### 補足
```{r}
strLst<-c("a","","c")
strLst != ""
strLst %>% "!="("")
```

### purrr::keep関数
```{r, eval=FALSE}
#wordLst[wordLst != ""]
keep(wordLst, ~ . != "") #function(x) x != ""
```

### ラムダ(lambda)関数
```
~ . != ""
#function(x) x != ""
```
- チルダ(tilde)記号"~" says, "I'm going to give you a quick function."
- ドット記号"." represents the current item being looked at.
- != "" is the actual instruction: "should not be an empty string."



