https://rpubs.com/koyobib/bm07 の続き

library(readr)
library(openxlsx)
library(stringr)
library(stringdist)
library(dplyr)
library(RMeCab)
library(igraph)

1 「教育学研究」書誌情報の取り込み

いくつか問題がある。

副題を取り込まないと論文の内容を反映できないし,和文要約を分析対象にするしかなさそうだし,2006年までを対象とするしかない気がする。

キーワードを分析対象にするのも一案であるが。

1.1 J-STAGEのテキストデータのURL形式

1.1.1 2022年(89巻)まで

# DOI
https://doi.org/10.11555/kyoiku.89.4_514
# テキストURL
https://www.jstage.jst.go.jp/article/kyoiku/89/4/89_514/_article/download/-char/ja

1.1.2 2013年(80巻)まで

# DOI
https://doi.org/10.11555/kyoiku.80.4_402
# テキストURL
https://www.jstage.jst.go.jp/article/kyoiku/80/4/80_KJ00009158842/_article/download/-char/ja

どういうことだ?

KJから始まる番号の付け方がよく分からない

1.2 メタデータを抽出してみようか

1.2.1 いい点もある

J-STAGEで提供されるテキスト形式のメタデータには,キーワードが含まれない。しかし,DOIからのリンクのページにはキーワードが含まれている。

2 練習

2.1 必要なパッケージ

# install.packages('rvest')
# install.packages('gtExtras')

library(rvest)
library(gt)
library(gtExtras)

2.2 問題の2013年

ex.html <- read_html("https://doi.org/10.11555/kyoiku.80.4_402")
ex.html
## {html_document}
## <html lang="ja" xmlns:mml="http://www.w3.org/1998/Math/MathML">
## [1] <head>\n<meta http-equiv="Content-Type" content="text/html; charset=UTF-8 ...
## [2] <body class="body-offcanvas addition-pages">\r\n\r\n\t\t\r\n\r\n\r\n<!--  ...

読めてるね

ほしいのはこの部分

<meta name="keywords" content="2009年型教職観" />
<meta name="keywords" content="開放主義理論" />
<meta name="keywords" content="「教える必要によって学ぶ」教員養成思想" />
<meta name="keywords" content="教科専門教育" />
<meta name="keywords" content="小学校教員と教育学的教養" />

メタデータを取り出してみる

name <- ex.html %>% 
  html_elements("meta") %>%
  html_attr("name")
name <- (data.frame(name))
# head(name)
text <- ex.html %>% 
  html_elements("meta") %>%
  html_attr("content")
text <- (data.frame(text))
# head(text)
name.text <- cbind(name, text)

キーワードを取り出してみる

keywords <- name.text %>% dplyr::filter(name == "keywords")
keywords
##       name                                   text
## 1 keywords                         2009年型教職観
## 2 keywords                           開放主義理論
## 3 keywords 「教える必要によって学ぶ」教員養成思想
## 4 keywords                           教科専門教育
## 5 keywords               小学校教員と教育学的教養

取り出せたけど…これらは本当にキーワードと言えるのか疑問

アブストを取り出してみる

abstract <- name.text %>% dplyr::filter(name == "abstract")
abstract[1,2]
## [1] "戦前の教育制度における大学(学問研究)と師範学校(教員養成)の分立は、戦後教育改革を経て「大学における教員養成」原則として理念的に統一された。しかしその実践にあたっては、大学と教員養成の相克が継続した。本稿では、戦前・戦後の連続と断絶の視点から、教員養成の基本的課題である教科専門教育のあり方および小学校教員の専門的教養のあり方に焦点をあて、大学教育の本質を踏まえた教員養成教育が必要であることを論じた。"

この方がシンプルでいいかもしれない。n-gramでキーワードを作ったほうが,著者の設定したキーワードよりは無難かと思われる。