Warmup Practice

作業ディレクトリの確認

getwd()

リストの作成

c(1, 2, 3, 4, 5)

操作:2倍する

c(1, 2, 3, 4, 5)*2

変数に代入

代入演算子

Y <- c(1, 2, 3, 4, 5)

基本操作:2倍する

Y*2

基本操作:2乗する

Y^2

要素の抽出

Y[4]

length関数: リストの長さ(要素数)

str <- c ("a", "ab", "abc")
length(str)

nchar関数: 文字の長さ

nchar(str)

sqrt関数: 平方根(squre root)を計算する

\[{\sqrt{16}}, {\sqrt{25}}, {\sqrt{256}} \]

numLst <- c (16,25,256)
sqrt(numLst)

テキストの頻度表作成

テキストファイルの読み込み

  • 一行ずつ読み込んで、リストに格納
txt<-readLines("News_JT_20240527.txt")

結果出力

head(txt)

練習変数txtの要素数(ファイルから読み込んだ行数)を出力

練習変数txtの4要素目の情報を抽出

スペース&記号による分割

Punctuation characters:
! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~.

正規表現その1: POSIX クラス

wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")

正規表現その2

tmp <- strsplit(txt," |[^a-zA-Z0-9]")

正規表現その3:メタ文字

  • :アルファベット、アラビア数字またはアンダーバー
  • : アルファベット、数字やアンダーバー以外の文字
  • : 空白文字
  • エスケープ シーケンス
tmp <- strsplit(txt,"\\s|\\W")

各行のデータを一括化

wordLst<-unlist(wordLst)

小文字に変換

wordLst<-tolower(wordLst)

結果一部出力

wordLst[1:15]

空白”“の削除

#wordLst<-wordLst[nchar(wordLst)>0]
wordLst<- wordLst[wordLst != ""]

結果一部出力

wordLst[1:15]

単語のToken数

tokens <- length(wordLst)

単語のTypes数

  • unique()関数は,リストの重複しない要素を返す
types <- length(unique(wordLst))

結果出力

print(paste("Tokens =", tokens))
print(paste("Types =", types))

TTR: Type-Token Ratioの計算

\[TTR=\frac{types}{tokens} \times 100 \]

types/tokens*100

小数点2桁で結果を出力

round(types/tokens*100,2)

練習: Guiraud値(RTTR: Root Type-Token Ratio)を求める

\[RTTR=\frac{types}{\sqrt{tokens}} \]

小数点2桁で結果を出力

Word Frequencies

freq <- table(wordLst)
head(freq)

Sort

freq_data<-sort(freq, decreasing=TRUE)
head(freq_data)

ファイルに出力

write.csv(freq_data, "freq_en.csv")

単語頻度数分布(単色)

las: label style

barplot(freq_data, las=3,col="orange")

単語頻度数分布(複数色)

colors = c("orange", "lightblue", "green") 
barplot(freq_data, las=3,col=colors)

オンライン記事から情報を取得

httr, rvestパッケージをインストール

install.packages("httr")
install.packages("rvest")

ライブラリの読み込み

library(httr)
library(rvest)

Mainichi Japan’s Article titled “Elite University of Tokyo to hike tuition fees by 20%; first rise in 20yrs

# URL of the Mainichi Shinbun's article
url <- "https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c"

# Send a GET request with a user agent
response <- GET(url, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)

Extract the content

article_content <- html_text(html_nodes(page, "p.txt"), trim = TRUE)

Text Cleaning

cleaned_content <- gsub("\\r|\\n", "", article_content)
cleaned_content <- trimws(cleaned_content)
cleaned_content <- paste(cleaned_content, collapse = "")
substring(cleaned_content, 1, 100)

練習 : 上の記事の出現単語頻度を、頻度の高い順に出力してみましょう

  • 下の出力結果は、高頻度の一部を抜粋したもの
freq_data[1:20]
wordLst
         the           of          and   university            a           to 
          29           17           14           13           12           12 
    students      tuition        tokyo         that           as           at 
           9            9            8            6            5            5 
          by         fees     national universities  association           is 
           5            5            5            5            4            4 
          on          set 
           4            4 
---
title: "Lec02: 基本操作"
output: html_notebook
editor_options: 
  chunk_output_type: inline
---
# Warmup Practice
## 作業ディレクトリの確認 
```{r}
getwd()
```

## リストの作成
```{r}
c(1, 2, 3, 4, 5)
```
## 操作：2倍する
```{r}
c(1, 2, 3, 4, 5)*2
```
## 変数に代入
### <a href="https://stat.ethz.ch/R-manual/R-devel/library/base/html/assignOps.html" target="_blank">代入演算子</a>
```{r}
Y <- c(1, 2, 3, 4, 5)
```
## 基本操作：2倍する
```{r}
Y*2
```
## 基本操作：2乗する
```{r}
Y^2
```
## 要素の抽出
```{r}
Y[4]
```
### length関数: リストの長さ（要素数）
```{r}
str <- c ("a", "ab", "abc")
length(str)
```
### nchar関数: 文字の長さ
```{r}
nchar(str)
```
### sqrt関数： 平方根(squre root)を計算する
$${\sqrt{16}}, {\sqrt{25}}, {\sqrt{256}} $$
```{r}
numLst <- c (16,25,256)
sqrt(numLst)
```
# テキストの頻度表作成
## サンプルテキスト
- <a href="https://www.japantimes.co.jp/news/2024/05/27/japan/society/tokyo-university-tuition/" target="_blank">University of Tokyo considers tuition hike</a>

## テキストファイルの読み込み
- 一行ずつ読み込んで、リストに格納
```{r}
txt<-readLines("News_JT_20240527.txt")
```
### 結果出力
```{r, eval=FALSE}
head(txt)
```
### <span style="color:blue;">練習</span>変数txtの要素数（ファイルから読み込んだ行数）を出力
```{r, echo=FALSE}
length(txt)
```

### <span style="color:blue;">練習</span>変数txtの4要素目の情報を抽出
```{r, echo=FALSE}
txt[4]
```

## スペース&記号による分割
```
Punctuation characters:
! " # $ % & ' ( ) * + , - . / : ; < = > ? @ [ \ ] ^ _ ` { | } ~.
```
- <a href="https://ja.wikipedia.org/wiki/%E6%AD%A3%E8%A6%8F%E8%A1%A8%E7%8F%BE" target="_blank">正規表現</a>

### 正規表現その１: POSIX クラス
```{r}
wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")
```

### 正規表現その２
```{r, eval=FALSE}
tmp <- strsplit(txt," |[^a-zA-Z0-9]")
```

### 正規表現その３：メタ文字
- \w:アルファベット、アラビア数字またはアンダーバー
- \W: アルファベット、数字やアンダーバー以外の文字
- \s: 空白文字
- <a href="https://so-zou.jp/robot/tech/numerical-analysis/r/grammar/strings.htm" target="_blank">エスケープ シーケンス</a>
```{r, eval=FALSE}
tmp <- strsplit(txt,"\\s|\\W")
```

## 各行のデータを一括化
```{r}
wordLst<-unlist(wordLst)
```

## 小文字に変換
```{r}
wordLst<-tolower(wordLst)
```

### 結果一部出力
```{r, eval=FALSE}
wordLst[1:15]
```

## 空白""の削除
```{r}
#wordLst<-wordLst[nchar(wordLst)>0]
wordLst<- wordLst[wordLst != ""]
```

### 結果一部出力
```{r, eval=FALSE}
wordLst[1:15]
```

## 単語のToken数
```{r}
tokens <- length(wordLst)
```

## 単語のTypes数
* unique()関数は，リストの重複しない要素を返す
```{r}
types <- length(unique(wordLst))
```

### 結果出力
```{r}
print(paste("Tokens =", tokens))
print(paste("Types =", types))
```

## TTR: Type-Token Ratioの計算
$$TTR=\frac{types}{tokens} \times 100 $$

```{r}
types/tokens*100
```

### 小数点2桁で結果を出力
```{r}
round(types/tokens*100,2)
```

## <span style="color: blue; ">練習</span>: Guiraud値(RTTR: Root Type-Token Ratio)を求める
$$RTTR=\frac{types}{\sqrt{tokens}} $$

### 小数点2桁で結果を出力
```{r, echo=FALSE}
round(types/sqrt(tokens),2)
```

## Word Frequencies
```{r}
freq <- table(wordLst)
head(freq)
```

## Sort
```{r}
freq_data<-sort(freq, decreasing=TRUE)
head(freq_data)
```

## ファイルに出力
```{r, eval=FALSE}
write.csv(freq_data, "freq_en.csv")
```


## 単語頻度数分布(単色)
### <a href="https://htsuda.net/stats/plot.html" target="_blank">las: label style</a>
```{r}
barplot(freq_data, las=3,col="orange")
```

### 単語頻度数分布(複数色)
```{r}
colors = c("orange", "lightblue", "green") 
barplot(freq_data, las=3,col=colors)
```


## オンライン記事から情報を取得
### httr, rvestパッケージをインストール
- <a href="https://cran.r-project.org/web/packages/httr/index.html" target="_blank">httr: Tools for Working with URLs and HTTP</a>
- <a href="https://cran.r-project.org/web/packages/rvest/index.html" target="_blank">rvest: Easily Harvest (Scrape) Web Pages</a>
```{r, eval =FALSE}
install.packages("httr")
install.packages("rvest")
```
### ライブラリの読み込み
```{r}
library(httr)
library(rvest)
```

### <a href="https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c" target="_blank">Mainichi Japan's Article titled "Elite University of Tokyo to hike tuition fees by 20%; first rise in 20yrs</a>
```{r}
# URL of the Mainichi Shinbun's article
url <- "https://mainichi.jp/english/articles/20240925/p2a/00m/0na/014000c"

# Send a GET request with a user agent
response <- GET(url, user_agent("Mozilla/5.0 (Macintosh; Intel Mac OS X 14_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.0 Safari/605.1.15"))
page <- read_html(response)
```

### Extract the content
```{r}
article_content <- html_text(html_nodes(page, "p.txt"), trim = TRUE)
```

### Text Cleaning
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/trimws" target="_blank">trimws: Remove leading and/or trailing whitespace from character strings</a>
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/grep" target="_blank">gsub: Pattern Matching and Replacement</a>
- <a href="https://www.rdocumentation.org/packages/base/versions/3.6.2/topics/paste" target="_blank">paste: Concatenate Strings</a>

```{r}
cleaned_content <- gsub("\\r|\\n", "", article_content)
cleaned_content <- trimws(cleaned_content)
cleaned_content <- paste(cleaned_content, collapse = "")
substring(cleaned_content, 1, 100)
```
### <span style="color:blue;">練習</span> : 上の記事の出現単語頻度を、頻度の高い順に出力してみましょう
- 下の出力結果は、高頻度の一部を抜粋したもの
```{r, echo=FALSE}
wordLst<-strsplit(txt,"[[:space:]]|[[:punct:]]")
wordLst<-unlist(wordLst)
wordLst<-tolower(wordLst)
wordLst<- wordLst[wordLst != ""]
freq <- table(wordLst)
freq_data<-sort(freq, decreasing=TRUE)
```

```{r}
freq_data[1:20]
```


