Lecture6: Manipulate関数, Sentiment Analysis

manipulate (インタラクティブなプロット)

manipulate関数の書き方

  • 単一実行スクリプトの場合
manipulate(
  実行スクリプト,
  picker, sliderの情報(複数の場合はカンマで結合)
)
  • 複数実行スクリプトの場合
manipulate(
  {
  複数の実行スクリプト
  },
  picker, sliderの情報(複数の場合はカンマで結合)
)

注意:manipulate関数は、配布Notebookファイルではなく、拡張子”.R”のファイル上で確認すること

ライブラリの読み込み

library(manipulate)

色の選択

title="PCH Symbols"
xlabel="x"
ylabel="y"
plot(0,0,pch=8,cex=5,col="blue", main=title, xlab=xlabel, ylab=ylabel)

  • picker()関数
manipulate(plot(0,0,pch=8,cex=5,col=myColors), myColors=picker("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan") )
  • picker()関数 & List
colors = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
manipulate(plot(0,0,pch=8,cex=5,col=myColors), myColors=picker(colors) )

プロットマーカーの選択

manipulate(
  plot(0,0,pch=myMarkers,cex=5,col=myColors), myColors=picker("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan",initial="violet"),
  myMarkers=picker(1,2,3,4,5,6,7,8,initial="5")
)

picker + List

colPalets = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
manipulate(
  plot(0,0,pch=myMarkers,cex=5,col=myColors, main=title, xlab=xlabel, ylab=ylabel),
  myColors=picker(as.list(colPalets),initial=colPalets[2]),
  myMarkers=picker(as.list(seq(1,8)),initial="5")
)

プロットサイズの選択

  • slider()関数
manipulate(
  plot(0,0,pch=8,cex=mySize,col="blue"),
  mySize=slider(1,10,initial=5,step=2)
)

getWordFreq関数

  • getWordLst

単語頻度表

wdLst.BBC <- getWordFreq("G7/BBC.txt")
head(wdLst.BBC)
wordLst
    the      in      of      to       a ukraine 
     24      15      13      10       9       7 

色付き棒グラフ

color8 = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
barplot(wdLst.BBC, las=3,col=color8,ylab="Frequency")

length(wdLst.BBC)
[1] 239
barplot(wdLst.BBC[1:length(wdLst.BBC)], las=3,col=color8,ylab="Frequency")

las: label style

las = 0 : XYの両軸とも目盛り文字は軸方向(デフォルト)
las = 1 : XYの両軸とも目盛り文字は水平方向
las = 2 : XYの両軸とも目盛り文字は軸方向と直角
las = 3 : XYの両軸とも目盛り文字は垂直方向
max.Index<-10
barplot(wdLst.BBC[1:max.Index], las=3,col=color8,ylab="Frequency")

練習1:manipulate関数で、wdLst.BBC単語頻度棒グラフの以下の2点をインタラクティブに変更できるようにしてください。

-軸ラベルの向き -wdLst.BBCの単語最大表示数(最小値=5,最大値=全出現数(Types),Step=20)

  • 実行結果例は、配布資料の動画を参照

RColorBrewer Package

ライブラリの読み込み

library(wordcloud)

パレット情報

binfo<-brewer.pal.info[]
head(binfo)

パレットの抽出

palets <-rownames(binfo[binfo$maxcolors>10,])
palets
 [1] "BrBG"     "PiYG"     "PRGn"     "PuOr"     "RdBu"     "RdGy"     "RdYlBu"  
 [8] "RdYlGn"   "Spectral" "Paired"   "Set3"    

using a brewer.palet

palets[10]#"Paired"
[1] "Paired"
max.Index<-20
barplot(wdLst.BBC[1:max.Index], las=3,col=brewer.pal(10,palets[1]),ylab="Frequency")

Sentiment Analysis

syuzhetパッケージのインストール

install.packages("syuzhet")

ライブラリの読み込み

library(syuzhet)

Sentiment analysis of an Aljazeera article

テキストファイルの読み込み

text1_string <- get_text_as_string("G7/Aljazeera.txt")

トークン化

text1_words <- get_tokens(text1_string)
head(text1_words)
[1] "top"       "diplomats" "from"      "the"       "group"     "of"       

Tokens

length(text1_words)
[1] 402

感情得点の取得

text1_sentiment_scores <- get_nrc_sentiment(text1_words)

視覚化

barplot(
  colSums(prop.table(text1_sentiment_scores[, 1:8])),
  space = 0.1,
  horiz = TRUE,
  las = 1,
  cex.names = 0.7,
  col = brewer.pal(n = 8, name = "Set3"),
  main = "Aljazeera, 8 Nov 2023",
  sub = "AL JAZEERA AND NEWS AGENCIES",
  xlab="emotions", ylab = NULL)

Sentiment analysis of an BBC article

テキストファイルの読み込み&トークン化

text2_string <- get_text_as_string("G7/BBC.txt")
text2_words <- get_tokens(text2_string)
head(text2_words)
[1] "at"      "a"       "g7"      "meeting" "in"      "japan"  

感情得点の取得

text2_sentiment_scores <- get_nrc_sentiment(text2_words)

視覚化

barplot(
  colSums(prop.table(text2_sentiment_scores[, 1:8])),
  space = 0.1,
  horiz = TRUE,
  las = 1,
  cex.names = 0.8,
  col = brewer.pal(n = 8, name = "Set3"),
  main = "BBC, 8 Nov 2023",
  sub = "By Ido Vock BBC News",
  xlab="emotions", ylab = NULL)

2つのデータを列結合

sentiData<-cbind(colSums(prop.table(text1_sentiment_scores[, 1:8])),colSums(prop.table(text2_sentiment_scores[, 1:8])))
sentiData
                   [,1]       [,2]
anger        0.08571429 0.20588235
anticipation 0.15714286 0.10294118
disgust      0.01428571 0.05882353
fear         0.20000000 0.27941176
joy          0.10000000 0.04411765
sadness      0.10000000 0.08823529
surprise     0.05714286 0.02941176
trust        0.28571429 0.19117647
colnames(sentiData) <- c("ALJAZEERA","BBC")

2つのデータを並べて表示

barplot(sentiData,
        space = 0.1,
        horiz = TRUE,
        las = 1,
        cex.names = 0.8,
        col = brewer.pal(n = 8, name = "Set3"),
        legend.text = rownames(sentiData),
        xlab = "Sentiment Score Ratio", 
        ylab = "Article",
        main = "")

---
title: "Lec06: Manipulate"
output: html_notebook
---

# Lecture6: Manipulate関数, Sentiment Analysis

## manipulate (インタラクティブなプロット)
### manipulate関数の書き方
* 単一実行スクリプトの場合
```
manipulate(
  実行スクリプト,
  picker, sliderの情報（複数の場合はカンマで結合）
)
```

* 複数実行スクリプトの場合
```
manipulate(
  {
  複数の実行スクリプト
  },
  picker, sliderの情報（複数の場合はカンマで結合）
)
```

### 注意：manipulate関数は、配布Notebookファイルではなく、拡張子”.R”のファイル上で確認すること

### ライブラリの読み込み
```{r}
library(manipulate)
```

### <a href="https://htsuda.net/stats/plot.html" target="_blank">pch: plot character</a>

### 色の選択
```{r}
title="PCH Symbols"
xlabel="x"
ylabel="y"
plot(0,0,pch=8,cex=5,col="blue", main=title, xlab=xlabel, ylab=ylabel)
```

* picker()関数
```{r,error=FALSE,eval=FALSE}
manipulate(plot(0,0,pch=8,cex=5,col=myColors), myColors=picker("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan") )
```
* picker()関数 & List
```{r,error=FALSE,eval=FALSE}
colors = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
manipulate(plot(0,0,pch=8,cex=5,col=myColors), myColors=picker(colors) )
```

### プロットマーカーの選択
* <a href="http://cse.naro.affrc.go.jp/takezawa/r-tips/r/53.html" target="_blank">マーカー</a>
* picker()関数
```{r,error=FALSE,eval=FALSE}
manipulate(
  plot(0,0,pch=myMarkers,cex=5,col=myColors), myColors=picker("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan",initial="violet"),
  myMarkers=picker(1,2,3,4,5,6,7,8,initial="5")
)
```

### picker + List
```{r,error=FALSE,eval=FALSE}
colPalets = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
manipulate(
  plot(0,0,pch=myMarkers,cex=5,col=myColors, main=title, xlab=xlabel, ylab=ylabel),
  myColors=picker(as.list(colPalets),initial=colPalets[2]),
  myMarkers=picker(as.list(seq(1,8)),initial="5")
)
```

### プロットサイズの選択
* slider()関数
```{r,error=FALSE,eval=FALSE}
manipulate(
  plot(0,0,pch=8,cex=mySize,col="blue"),
  mySize=slider(1,10,initial=5,step=2)
)
```

## getWordFreq関数
- getWordLst
```{r, echo=FALSE}
getWordFreq<- function(fname) {
    txt<-readLines(fname)
    wordLst<-strsplit(txt,"\\s|\\W")
    wordLst<-unlist(wordLst)
    wordLst<-tolower(wordLst)
    wordLst<- wordLst[wordLst != ""]
    wordFreq<-sort(table(wordLst),decreasing=TRUE)
    return(wordFreq)
}
```

## 単語頻度表
```{r}
wdLst.BBC <- getWordFreq("G7/BBC.txt")
head(wdLst.BBC)
```


## 色付き棒グラフ
```{r}
color8 = c("red", "violet", "pink", "orange", "yellow", "green", "blue", "cyan")
barplot(wdLst.BBC, las=3,col=color8,ylab="Frequency")
```

```{r}
length(wdLst.BBC)
barplot(wdLst.BBC[1:length(wdLst.BBC)], las=3,col=color8,ylab="Frequency")
```

### <a href="https://htsuda.net/stats/plot.html" target="_blank">las: label style</a>
```
las = 0 : XYの両軸とも目盛り文字は軸方向（デフォルト）
las = 1 : XYの両軸とも目盛り文字は水平方向
las = 2 : XYの両軸とも目盛り文字は軸方向と直角
las = 3 : XYの両軸とも目盛り文字は垂直方向
```
```{r}
max.Index<-10
barplot(wdLst.BBC[1:max.Index], las=3,col=color8,ylab="Frequency")
```

## <span style="color: blue; ">練習1</span>:manipulate関数で、wdLst.BBC単語頻度棒グラフの以下の2点をインタラクティブに変更できるようにしてください。

-軸ラベルの向き
-wdLst.BBCの単語最大表示数（最小値=5,最大値=全出現数（Types）,Step=20）

* 実行結果例は、配布資料の動画を参照

## <a href="https://cran.r-project.org/web/packages/RColorBrewer/RColorBrewer.pdf" target="_blank">RColorBrewer Package</a>
### ライブラリの読み込み
```{r}
library(wordcloud)
```

### パレット情報
```{r}
binfo<-brewer.pal.info[]
head(binfo)
```

### パレットの抽出
```{r}
palets <-rownames(binfo[binfo$maxcolors>10,])
palets
```

### using a brewer.palet
```{r}
palets[10]#"Paired"
max.Index<-20
barplot(wdLst.BBC[1:max.Index], las=3,col=brewer.pal(10,palets[1]),ylab="Frequency")
```
## <a href="https://www.cambridge.org/core/books/abs/sentiment-analysis/introduction/2FF4D2E53FF2DAB544211AD7A73FCDBE" target="_blank">Sentiment Analysis</a>
###  参考サイト
- <a href="https://programminghistorian.org/en/lessons/sentiment-analysis-syuzhet" target="_blank">Sentiment Analysis with 'syuzhet' using R</a>
- <a href="https://www.tidytextmining.com/sentiment" target="_blank">Sentiment analysis with tidy data</a>

### syuzhetパッケージのインストール
```{r, eval=FALSE}
install.packages("syuzhet")
```

### ライブラリの読み込み
```{r}
library(syuzhet)
```

### <a href="https://www.aljazeera.com/news/2023/11/8/g7-nations-unanimously-call-for-humanitarian-pauses-in-israel-gaza-war" target="_blank">Sentiment analysis of an Aljazeera article</a>

### テキストファイルの読み込み
```{r}
text1_string <- get_text_as_string("G7/Aljazeera.txt")
```
### トークン化
```{r}
text1_words <- get_tokens(text1_string)
head(text1_words)
```
### Tokens
```{r}
length(text1_words)
```
### 感情得点の取得
```{r}
text1_sentiment_scores <- get_nrc_sentiment(text1_words)
```
### 視覚化
```{r}
barplot(
  colSums(prop.table(text1_sentiment_scores[, 1:8])),
  space = 0.1,
  horiz = TRUE,
  las = 1,
  cex.names = 0.7,
  col = brewer.pal(n = 8, name = "Set3"),
  main = "Aljazeera, 8 Nov 2023",
  sub = "AL JAZEERA AND NEWS AGENCIES",
  xlab="emotions", ylab = NULL)
```

### <a href="https://www.bbc.com/news/world-europe-67355423" target="_blank">Sentiment analysis of an BBC article</a>
### テキストファイルの読み込み＆トークン化
```{r}
text2_string <- get_text_as_string("G7/BBC.txt")
text2_words <- get_tokens(text2_string)
head(text2_words)
```
### 感情得点の取得
```{r}
text2_sentiment_scores <- get_nrc_sentiment(text2_words)
```
### 視覚化
```{r}
barplot(
  colSums(prop.table(text2_sentiment_scores[, 1:8])),
  space = 0.1,
  horiz = TRUE,
  las = 1,
  cex.names = 0.8,
  col = brewer.pal(n = 8, name = "Set3"),
  main = "BBC, 8 Nov 2023",
  sub = "By Ido Vock BBC News",
  xlab="emotions", ylab = NULL)
```
### 2つのデータを列結合
```{r}
sentiData<-cbind(colSums(prop.table(text1_sentiment_scores[, 1:8])),colSums(prop.table(text2_sentiment_scores[, 1:8])))
sentiData
colnames(sentiData) <- c("ALJAZEERA","BBC")
```
### 2つのデータを並べて表示
```{r}
barplot(sentiData,
        space = 0.1,
        horiz = TRUE,
        las = 1,
        cex.names = 0.8,
        col = brewer.pal(n = 8, name = "Set3"),
        legend.text = rownames(sentiData),
        xlab = "Sentiment Score Ratio", 
        ylab = "Article",
        main = "")
```
