大規模言語モデルを利用した日本語母語識別/JNLI

12-06-2024

LLMを利用した英語母語識別

Wei Zhang & Alexandre Salle (2023)

正解の例を提供しない
既存の知識と理解だけで推測

GPT-3.5 & 4
TOEFL11
- ETS Corpus of Non-native Written English
- 11国の英語学習者（Arabic, Chinese, French, German, Hindi, Italian, Japanese, Korean, Spanish, Telugu, Turkish）が試験で書いた作文サンプル1100篇（総計12100篇*平均348単語）
- 実際に使用したサンプルは母語ごとに100篇、総計1100篇のテストデータ
Data Leakage
- 非公開なデータのため、テストセットのみopen-setタスクを実施
Experiment A: 従来のNLI分類をLLMsにより再実施
Experiment B: 文長による影響を調査
Experiment C: Open-Set分類タスクにおける表現

Wei Zhang & Alexandre Salle (2023)

Experiment A: 従来のNLI分類をLLMsにより再実施 :

closed-setタスク
- モデルの予測は事前に定義された11種類に限られている
- docをインプットとし、System promptとUser prompt例は以下:

You are a forensic linguistics expert that reads English texts written by non-native authors in order to classify the native language of the author as one of:

“ARA”: Arabic
“CHI”: Chinese
“FRE”: French
“GER”: German
“HIN”: Hindi
“ITA”: Italian
“JPN”: Japanese
“KOR”: Korean
“SPA”: Spanish
“TEL”: Telugu
“TUR”: Turkish

Use clues such as spelling errors, word choice, syntactic patterns, and grammatical errors to decide.

DO NOT USE ANY OTHER CLASS.
IMPORTANT: Do not classify any input as “ENG” (English). English is an invalid choice.

Valid output formats:
Class: “ARA”
Class: “CHI”
Class: “FRE”
Class: “GER”

<TOEFL11 ESSAY TEXT>

Classify the text as one of ARA, CHI, FRE, GER, HIN, ITA, JPN, KOR, SPA, TEL, or TUR. Do not output any other class - do NOT choose “ENG” (English). What is the closest native language of the author of this English text from the given list?

Experiment A

A 従来のNLI分類をLLMsにより再実施 :

Model	TOEFL11 Test Set
Random Guess Baseline	9.1%
SVM + Meta-Classifier [@malmasi-dras-2018-native]	86.8%
BERT + Meta-Classifier [@steinbakken-gamback-2020-native]	85.3%
GPT-2 [@lotfi-etal-2020-deep]	89.0%
Ours - GPT-3.5 (Zero-shot)	74.0%
Ours - GPT-4 (Zero-shot)	91.7%
Ours - GPT-3.5 (Open-set, Zero-shot)	73.4%
Ours - GPT-4 (Open-set, Zero-shot)	86.7%

Evaluation Metrics

正解率/Accuracy :

データに偏りがない
GPT-4_closed-setの評価
- HindiとTelugu母語話者による英文章の区別が難しい
- Chinese, JapaneseとKorean母語話者による英文章もクラスターになっている

Feature Explainability

第二言語学習において

LLMsは母語識別の予測結果について解釈できるかどうか :

従来の研究は特徴量エンジニアリングと特徴量表現の作成に依存している
LLMsはzero-shotで即時にpromptに即した解釈が出力される

You must provide a guess. Output two named sections: (1) “Native Language” with the name of the language, and (2) “Reasoning” with a detailed explanation of your judgement with examples from the text.

The text is quite well-written, with only minor indicators pointing towards the author’s native language being German. The major clue is the author’s use of reflexive verbs in instances where they are not commonly used by native English speakers. For example, “the consumer’s responsibility to train itself” - a native English speaker would typically phrase this as “it’s the consumer’s responsibility to train themselves”.
This is a reflection of the regular use of reflexive verbs in German. In addition, the phrase, “they are fake, so why do we believe them anyway?” is syntax reminiscent of German structure. The use of colons before explanations, though not incorrect in English, also suggest German as it is more prevalent in German writing, such as in “realized: the advertisement”

自分の解読を正当化できるが、その分析に基づいた仮説は謹慎

Feature Explainability

第二言語学習において

LLMsは母語識別の予測結果について解釈できるかどうか :

手がかりになっている言語特徴：
- つづりエラー
- 頻出文法エラーパターン
- 翻訳と音訳による表現
人力による幻覚の検出は必要となる

Native Language Identification with Large Language Models

初めてGPT-3.5とGPT-4を使った母語識別タスク
- GPT-4がTOEFL11ベンツマックで精度91.7%という新しい記録を達成
- zero-shot母語識別タスクは母語が未知でもいける
- GPT-4が自分の回答に言語的推論を提供できる能力を検証
GPT-4はESL作者が書いた英文章の母語推測に高い正解率を持っている

Limitations and Future Work

promptをより細かく改善する
GPTsではなくopen-sourceなLLMs（Llama-2）においての実施（正確率は及ばないがその差異の分析はできる）
多言語の実施（すでにEnglish、ArabicとChineseの枠は埋めているがJapaneseはまだ）
各作文の予測結果に対する推論にHallucinationの存在をチャックする

日本語母語識別は？

自然言語処理における日本語母語識別

Mitsuhiro Nishijima, and Ying Liu (2021) & 西島光洋, 劉穎, 中田和秀 (2021)

機械学習を用いた日本語NLI研究は👆一件だけ
feature engineeringのアルゴリズムに依存する
精度改善にポテンシャルがある
TOEFL11のような言語能力試験に参加する、大規模な多言語背景の学習者からなる作文コーパスがない
- I-JAS
- なたね
- JCK
- …
他の課題(Readability)に関しては特徴抽出による伝統的な分類、Bertに基づいた特徴なし分類に加えてLLMによる語彙難易度比較まで発展されている
JNLIはまた特徴による分類のところで止まっている

西島光洋, 劉穎, 中田和秀 (2021)

I-JASのストーリーライティング(SW1, SW2)を利用

西島光洋, 劉穎, 中田和秀 (2021)

文体特徴を抽出、特徴ベクトルを作成
- 形態素の基本形 (Lemma) 1-Ngram
- 文字 (CHAR) 1-Ngram
- 助詞と助動詞の基本形 (FW) 1-Ngram
- 品詞 (POS) 1-Ngram
- 依存関係のラベル (DEP)
- 依存関係のラベルと 2 つの Lemma の 3 つ組 (DEPL)
- 依存関係のラベルと 2 つの POS の 3 つ組 (DEPP)
- 文字種 (CType)

SVM/LR/RFを用いて分類、精度を比較
- SVM > LR > RF
- 特徴を組み合うことで最大72%の精度に至る

英語NLIに有効な特徴（機能語，スペルミスなどの誤用，文字 Ngram と品詞 (POS) Ngram）を日本語に適用するほかに新たな特徴が必要
各特徴の有効性については，CHAR1-Ngram(最大71.5%) > Lemma 1-Ngram > DEPL > POS 1-Ngram > DEPP > FW 1-Ngram > DEP > CType
日本語の独自性を考慮した文字種はそこまで強力な特徴ではない

大規模言語モデルによる日本語語彙難易度比較

梁震, 彭悦, 笹尾洋介 (2024)

GPT-4に語同士の難易度関係を出してもらい，その結果をベースに機械学習で語彙難易度を算出する
松下（2021）のデータセットを利用している
- データセットの使用頻度順に上位50000語を400語ごとに1語を選択し、テストを行う
- 中国語母語話者201名のVSTRJ-50K（「日本語を読むための語彙サイズテスト」）の結果による125語の平均項目難度を語彙難易度比較タスクに応用する
25:100のsplitでpromptの文脈に含まれている25語の難易度関係を学習した上、100語の中２つずつ組み合わせて比較を生成させる
比較結果として、単語Aと単語Bの関係を1または-1で正規化する
GPT-4の正答率の割合は75.39%である

梁震, 彭悦, 笹尾洋介 (2024)

promte及びその出力の例

あなたは「日本語教育の専門家」です。次の「1. 目的の定義」と「2. プロンプト」を元に、「3. 生成するもの」を「#結果」の形式に合わせて生成してください。その際、「4. 参照物」を参考にしてください。 1. 目的の定義：「二つの単語のうちどちらの単語が中国語母語話者にとって難しいのか知りたい。」 2. プロンプト：「二つの単語のうちどちらの単語が中国語母語話者にとって難しいか考えてください。」 3. 生成するもの： - 「4. 参照物」の【難しさリスト】の要因を箇条書きで詳しく分析してください。ただし，【難しさリスト】の単語は易しい単語から難しい単語へと並んでいます。 - 「4. 参照物」の【条件】にある【単語A】と【単語B】の難しさを分析してください。 - 「4. 参照物」の【条件】にある【単語A】と【単語B】の難しさを分析した結果を箇条書きで出してください。 - 最後に【単語A】と【単語B】のうちで【難しい方の単語】を表示してください。ただし、【単語A】と【単語B】のいずれかを必ず選択すること。 4. 参照物：【難しさリスト】サテライトなど松下（2021）のデータセット中無作為に25語選出した【条件】【単語A】：【単語B】： #結果： (1)要因： (2)難しさ分析： (3)難しさ箇条書き： (4)難しい方の単語:

#結果： (1)要因： - 発音の違い：中国語の音韻体系と日本語の発音の間の違いによる難しさ。 - 漢字の使用：漢字が含まれる単語は中国語母語話者にとって理解しやすい可能性があるが、読み方や複合語としての意味で難しさが生じる場合もある。 - 語彙の類似性：中国語と日本語に共通の語彙や類似した語彙が難易度に影響する。 - 文化的な背景：単語が持つ文化的な意味合いや使われ方が難しさに影響を及ぼす。 - 単語形成の規則性：複合語や派生語など、単語がどのように形成されているかによる難しさ。 (2)難しさ分析：【単語A】：童心 - 発音：「童心」の「童（どう）」「心（しん）」は比較的発音しやすく、中国語の音韻とも類似している。 - 漢字の使用：「童」と「心」は共に中国語にも存在する基本的な漢字であり、認識しやすい。 - 語彙の類似性：「童心」は「童年的心态」という意味の共通性が認められる。 - 文化的な背景：この概念は両言語間で理解されやすいと考えられる。 - 単語形成の規則性：複合語として直感的に理解しやすい構造をしている。【単語B】：アナゴ - 発音：「アナゴ」はカタカナで書かれており、発音が日本語特有のものであるため、中国語母語話者にとっては発音が難しい。 - 漢字の使用：「アナゴ」は漢字で「穴子」と書かれるが、専門的な単語であり、中国語との共通性が少なく理解が難しい。 - 語彙の類似性：「穴子」という単語に中国語の類似語彙が見つかりづらいため、新規の単語として覚える必要がある。 - 文化的な背景：日本独特の食品に関連する単語であるため、中国語話者にはなじみが薄い。 - 単語形成の規則性：動物の名前ということで類推は可能だが、「穴」+「子」という組み合わせは直感に反するため難しさがある。 (3)難しさ箇条書き： - 「童心」は発音が容易で漢字も基本的、文化的背景も共通して理解しやすい。 - 「アナゴ」は発音も日本特有、漢字も専門的、文化的背景の共通性も少なく、全体的な難易度が高い。 (4)難しい方の単語: アナゴ

Working on

I-JASのエッセイ(e)を利用して:

Bertによる特徴なし母語識別タスク
- パラメータ調整中
Bertと特徴を併用する試み
gpt-4oでprompt engineeringの母語識別タスク
- structure generationの調整
- promptの改善
- 出力データの後処理

Data and Preprocess

I-JAS非対面タスクの作文調査データ:

Prompt

“You are an expert in Japanese education. Using your knowledge, please identify the native language” “of each essay’s writer from the list provided below. For each essay, provide the confidence level of” “your answer, list the textual features you used to make this identification, and explain the reasoning behind” “your assessment. Please do not use predefined labels or categories for the native language, and ensure your” “explanation is clear and detailed.”

f”Here is the list of native languages for the writers:” f”You must choose from these exact {len(NL_list)} native language” f”Here are the essay documents:” “Please conclude your response with the index of the essay in dictionary format, matching each essay to its” “likely native language. Each essay should have its own response with detailed reasoning.”

{ “native_language”: “日本語母語話者”,
“confidence”: [
{
“native_language”: “日本語母語話者”,
“confidence”: 0.95
},
{
“native_language”: “中国語”,
“confidence”: 0.03
},
{
“native_language”: “韓国語”,
“confidence”: 0.02
}
],
“explanation”: [
{
“language_features”: “Kanji usage”,
“explanation”: “The text utilizes a significant amount of Kanji, which is a hallmark of the Japanese writing system.”
},
{
“language_features”: “Grammar structures”,
“explanation”: “The grammatical constructions, such as particles and sentence endings, are distinctly Japanese.”
},
{
“language_features”: “Vocabulary choice”,
“explanation”: “Words like ‘家庭料理’, ‘手作り’, and ‘栄養価値’ are commonly used in Japanese contexts.”
},
{
“language_features”: “Writing style”,
“explanation”: “The text follows a structured, logical flow typical in Japanese essays, weighing pros and cons.”
}
]
}

Sample

Limitations and Future Work

promptを改善する必要がある
- 母語を推測させる以外自分の推測に対する自信及び解釈も添付しているので情報の抽出が複雑になる
出力フォーマットの定義をより洗練にする必要がある
- 生成された日本語ラベル文字列に濁点の逸脱が存在するので文字列の整備に手間がかかる
各作文の予測結果に対する推論にHallucinationの存在をチャックする必要がある

closed-setとopen-setの比較
語派・語族・漢字圏非漢字圏に分けて分類タスクの精度をチャック
学習者作文コーパスのほか、日本語論文コーパスを利用する可能性を検討
readability判定タスクの可能性を検討

Japanese Native Language Identification with Machine Learning & LLM

タスクによるがどっちも精度をあがる余地がある
先行研究が少ないため、研究設計に自由度が高い（実行が難しい場合も多い）
データの形によって伝統的な機械学習タスクのほか様々な課題を試す機会になる
promptと特徴抽出の組み合うによってより正確な推測ができるかもしれない

目次

LLMを利用した英語母語識別

Wei Zhang & Alexandre Salle (2023)

Wei Zhang & Alexandre Salle (2023)

Experiment A

Evaluation Metrics

Feature Explainability

第二言語学習において

Feature Explainability

第二言語学習において

Native Language Identification with Large Language Models

Limitations and Future Work

日本語母語識別は？

自然言語処理における日本語母語識別

西島光洋, 劉穎, 中田和秀 (2021)

西島光洋, 劉穎, 中田和秀 (2021)

大規模言語モデルによる日本語語彙難易度比較

梁震, 彭悦, 笹尾洋介 (2024)

Working on

Data and Preprocess

Prompt

Sample

Limitations and Future Work

Japanese Native Language Identification with Machine Learning & LLM