Warmup Practice
操作:2倍する
c(1, 2, 3, 4, 5)*2
要素の抽出
Y[4]
length関数: リストの長さ(要素数)
str <- c ("a", "ab", "abc")
length(str)
nchar関数: 文字の長さ
nchar(str)
sqrt関数: 平方根(squre root)を計算する
\[{\sqrt{16}}, {\sqrt{25}}, {\sqrt{256}}
\]
numLst <- c (16,25,256)
sqrt(numLst)
テキストの頻度表作成
テキストファイルの読み込み
txt<-readLines("News_JT_20240527.txt")
練習変数txtの要素数(ファイルから読み込んだ行数)を出力
練習変数txtの4要素目の情報を抽出
スペース&記号による分割
Punctuation characters:
! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~.
正規表現その1: POSIX クラス
wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")
正規表現その2
tmp <- strsplit(txt," |[^a-zA-Z0-9]")
正規表現その3:メタ文字
- :アルファベット、アラビア数字またはアンダーバー
- : アルファベット、数字やアンダーバー以外の文字
- : 空白文字
- エスケープ
シーケンス
tmp <- strsplit(txt,"\\s|\\W")
各行のデータを一括化
wordLst<-unlist(wordLst)
小文字に変換
wordLst<-tolower(wordLst)
空白”“の削除
#wordLst<-wordLst[nchar(wordLst)>0]
wordLst<- wordLst[wordLst != ""]
単語のToken数
tokens <- length(wordLst)
単語のTypes数
- unique()関数は,リストの重複しない要素を返す
types <- length(unique(wordLst))
結果出力
print(paste("Tokens =", tokens))
print(paste("Types =", types))
TTR: Type-Token Ratioの計算
\[TTR=\frac{types}{tokens} \times 100
\]
types/tokens*100
小数点2桁で結果を出力
round(types/tokens*100,2)
練習: Guiraud値(RTTR: Root
Type-Token Ratio)を求める
\[RTTR=\frac{types}{\sqrt{tokens}}
\]
小数点2桁で結果を出力
Word Frequencies
freq <- table(wordLst)
head(freq)
Sort
freq_data<-sort(freq, decreasing=TRUE)
head(freq_data)
ファイルに出力
write.csv(freq_data, "freq_en.csv")
単語頻度数分布(単色)
barplot(freq_data, las=3,col="orange")
単語頻度数分布(複数色)
colors = c("orange", "lightblue", "green")
barplot(freq_data, las=3,col=colors)
オンライン記事から情報を取得
httr, rvestパッケージをインストール
install.packages("httr")
install.packages("rvest")
ライブラリの読み込み
library(httr)
library(rvest)
# URL of the Mainichi Shinbun's article
url <- "https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c"
# Send a GET request with a user agent
response <- GET(url, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)
Text Cleaning
cleaned_content <- gsub("\\r|\\n", "", article_content)
cleaned_content <- trimws(cleaned_content)
cleaned_content <- paste(cleaned_content, collapse = "")
substring(cleaned_content, 1, 100)
練習 :
上の記事の出現単語頻度を、頻度の高い順に出力してみましょう
freq_data[1:20]
wordLst
the of and university a to
29 17 14 13 12 12
students tuition tokyo that as at
9 9 8 6 5 5
by fees national universities association is
5 5 5 5 4 4
on set
4 4
---
title: "Lec02: 基本操作"
output: html_notebook
editor_options: 
  chunk_output_type: inline
---
# Warmup Practice
## 作業ディレクトリの確認 
```{r}
getwd()
```

## リストの作成
```{r}
c(1, 2, 3, 4, 5)
```
## 操作：2倍する
```{r}
c(1, 2, 3, 4, 5)*2
```
## 変数に代入
### <a href="https://stat.ethz.ch/R-manual/R-devel/library/base/html/assignOps.html" target="_blank">代入演算子</a>
```{r}
Y <- c(1, 2, 3, 4, 5)
```
## 基本操作：2倍する
```{r}
Y*2
```
## 基本操作：2乗する
```{r}
Y^2
```
## 要素の抽出
```{r}
Y[4]
```
### length関数: リストの長さ（要素数）
```{r}
str <- c ("a", "ab", "abc")
length(str)
```
### nchar関数: 文字の長さ
```{r}
nchar(str)
```
### sqrt関数： 平方根(squre root)を計算する
$${\sqrt{16}}, {\sqrt{25}}, {\sqrt{256}} $$
```{r}
numLst <- c (16,25,256)
sqrt(numLst)
```
# テキストの頻度表作成
## サンプルテキスト
- <a href="https://www.japantimes.co.jp/news/2024/05/27/japan/society/tokyo-university-tuition/" target="_blank">University of Tokyo considers tuition hike</a>

## テキストファイルの読み込み
- 一行ずつ読み込んで、リストに格納
```{r}
txt<-readLines("News_JT_20240527.txt")
```
### 結果出力
```{r, eval=FALSE}
head(txt)
```
### <span style="color:blue;">練習</span>変数txtの要素数（ファイルから読み込んだ行数）を出力
```{r, echo=FALSE}
length(txt)
```

### <span style="color:blue;">練習</span>変数txtの4要素目の情報を抽出
```{r, echo=FALSE}
txt[4]
```

## スペース&記号による分割
```
Punctuation characters:
! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~.
```
- <a href="https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE" target="_blank">正規表現</a>

### 正規表現その１: POSIX クラス
```{r}
wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")
```

### 正規表現その２
```{r, eval=FALSE}
tmp <- strsplit(txt," |[^a-zA-Z0-9]")
```

### 正規表現その３：メタ文字
- \w:アルファベット、アラビア数字またはアンダーバー
- \W: アルファベット、数字やアンダーバー以外の文字
- \s: 空白文字
- <a href="https://so-zou.jp/robot/tech/numerical-analysis/r/grammar/strings.htm" target="_blank">エスケープ シーケンス</a>
```{r, eval=FALSE}
tmp <- strsplit(txt,"\\s|\\W")
```

## 各行のデータを一括化
```{r}
wordLst<-unlist(wordLst)
```

## 小文字に変換
```{r}
wordLst<-tolower(wordLst)
```

### 結果一部出力
```{r, eval=FALSE}
wordLst[1:15]
```

## 空白""の削除
```{r}
#wordLst<-wordLst[nchar(wordLst)>0]
wordLst<- wordLst[wordLst != ""]
```

### 結果一部出力
```{r, eval=FALSE}
wordLst[1:15]
```

## 単語のToken数
```{r}
tokens <- length(wordLst)
```

## 単語のTypes数
* unique()関数は，リストの重複しない要素を返す
```{r}
types <- length(unique(wordLst))
```

### 結果出力
```{r}
print(paste("Tokens =", tokens))
print(paste("Types =", types))
```

## TTR: Type-Token Ratioの計算
$$TTR=\frac{types}{tokens} \times 100 $$

```{r}
types/tokens*100
```

### 小数点2桁で結果を出力
```{r}
round(types/tokens*100,2)
```

## <span style="color: blue; ">練習</span>: Guiraud値(RTTR: Root Type-Token Ratio)を求める
$$RTTR=\frac{types}{\sqrt{tokens}} $$

### 小数点2桁で結果を出力
```{r, echo=FALSE}
round(types/sqrt(tokens),2)
```

## Word Frequencies
```{r}
freq <- table(wordLst)
head(freq)
```

## Sort
```{r}
freq_data<-sort(freq, decreasing=TRUE)
head(freq_data)
```

## ファイルに出力
```{r, eval=FALSE}
write.csv(freq_data, "freq_en.csv")
```


## 単語頻度数分布(単色)
### <a href="https://htsuda.net/stats/plot.html" target="_blank">las: label style</a>
```{r}
barplot(freq_data, las=3,col="orange")
```

### 単語頻度数分布(複数色)
```{r}
colors = c("orange", "lightblue", "green") 
barplot(freq_data, las=3,col=colors)
```


## オンライン記事から情報を取得
### httr, rvestパッケージをインストール
- <a href="https://cran.r-project.org/web/packages/httr/index.html" target="_blank">httr: Tools for Working with URLs and HTTP</a>
- <a href="https://cran.r-project.org/web/packages/rvest/index.html" target="_blank">rvest: Easily Harvest (Scrape) Web Pages</a>
```{r, eval =FALSE}
install.packages("httr")
install.packages("rvest")
```
### ライブラリの読み込み
```{r}
library(httr)
library(rvest)
```

### <a href="https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c" target="_blank">Mainichi Japan's Article titled "Elite University of Tokyo to hike tuition fees by 20%; first rise in 20yrs</a>
```{r}
# URL of the Mainichi Shinbun's article
url <- "https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c"

# Send a GET request with a user agent
response <- GET(url, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)
```

### Extract the content
```{r}
article_content <- html_text(html_nodes(page, "p.txt"), trim = TRUE)
```

### Text Cleaning
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/trimws" target="_blank">trimws: Remove leading and/or trailing whitespace from character strings</a>
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/grep" target="_blank">gsub: Pattern Matching and Replacement</a>
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/paste" target="_blank">paste: Concatenate Strings</a>

```{r}
cleaned_content <- gsub("\\r|\\n", "", article_content)
cleaned_content <- trimws(cleaned_content)
cleaned_content <- paste(cleaned_content, collapse = "")
substring(cleaned_content, 1, 100)
```
### <span style="color:blue;">練習</span> : 上の記事の出現単語頻度を、頻度の高い順に出力してみましょう
- 下の出力結果は、高頻度の一部を抜粋したもの
```{r, echo=FALSE}
wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")
wordLst<-unlist(wordLst)
wordLst<-tolower(wordLst)
wordLst<- wordLst[wordLst != ""]
freq <- table(wordLst)
freq_data<-sort(freq, decreasing=TRUE)
```

```{r}
freq_data[1:20]
```


