- 研究背景
- 先行研究
- データ
- 実行
- 結果
- 課題
- まとめ
Wei Zhang & Alexandre Salle (2023)
Experiment A: 従来のNLI分類をLLMsにより再実施 :
You are a forensic linguistics expert that reads English texts written by non-native authors in order to classify the native language of the author as one of:
“ARA”: Arabic
“CHI”: Chinese
“FRE”: French
“GER”: German
“HIN”: Hindi
“ITA”: Italian
“JPN”: Japanese
“KOR”: Korean
“SPA”: Spanish
“TEL”: Telugu
“TUR”: Turkish
Use clues such as spelling errors, word choice, syntactic patterns, and grammatical errors to decide.
DO NOT USE ANY OTHER CLASS.
IMPORTANT: Do not classify any input as “ENG” (English). English is an invalid choice.
Valid output formats:
Class: “ARA”
Class: “CHI”
Class: “FRE”
Class: “GER”
<TOEFL11 ESSAY TEXT>
Classify the text as one of ARA, CHI, FRE, GER, HIN, ITA, JPN, KOR, SPA, TEL, or TUR. Do not output any other class - do NOT choose “ENG” (English). What is the closest native language of the author of this English text from the given list?
A 従来のNLI分類をLLMsにより再実施 :
| Model | TOEFL11 Test Set |
|---|---|
| Random Guess Baseline | 9.1% |
| SVM + Meta-Classifier [@malmasi-dras-2018-native] | 86.8% |
| BERT + Meta-Classifier [@steinbakken-gamback-2020-native] | 85.3% |
| GPT-2 [@lotfi-etal-2020-deep] | 89.0% |
| Ours - GPT-3.5 (Zero-shot) | 74.0% |
| Ours - GPT-4 (Zero-shot) | 91.7% |
| Ours - GPT-3.5 (Open-set, Zero-shot) | 73.4% |
| Ours - GPT-4 (Open-set, Zero-shot) | 86.7% |
正解率/Accuracy :
LLMsは母語識別の予測結果について解釈できるかどうか :
You must provide a guess. Output two named sections: (1) “Native Language” with the name of the language, and (2) “Reasoning” with a detailed explanation of your judgement with examples from the text.
The text is quite well-written, with only minor indicators pointing towards the author’s native language being German. The major clue is the author’s use of reflexive verbs in instances where they are not commonly used by native English speakers. For example, “the consumer’s responsibility to train itself” - a native English speaker would typically phrase this as “it’s the consumer’s responsibility to train themselves”.
This is a reflection of the regular use of reflexive verbs in German. In addition, the phrase, “they are fake, so why do we believe them anyway?” is syntax reminiscent of German structure. The use of colons before explanations, though not incorrect in English, also suggest German as it is more prevalent in German writing, such as in “realized: the advertisement”
LLMsは母語識別の予測結果について解釈できるかどうか :
Mitsuhiro Nishijima, and Ying Liu (2021) & 西島光洋, 劉穎, 中田和秀 (2021)
promte及びその出力の例
あなたは「日本語教育の専門家」です。 次の「1. 目的の定義」と「2. プロンプト」を 元に、「3. 生成するもの」を「#結果」の形式 に合わせて生成してください。その際、「4. 参照物」を参考にしてください。 1. 目的の定義:「二つの単語のうちどちらの 単語が中国語母語話者にとって難しいのか知 りたい。」 2. プロンプト:「二つの単語のうちどちらの 単語が中国語母語話者にとって難しいか考え てください。」 3. 生成するもの: - 「4. 参照物」の【難しさリスト】の要因を箇 条書きで詳しく分析してください。ただし, 【難しさリスト】の単語は易しい単語から難 しい単語へと並んでいます。 - 「4. 参照物」の【条件】にある【単語A】と 【単語B】の難しさを分析してください。 - 「4. 参照物」の【条件】にある【単語A】と 【単語B】の難しさを分析した結果を箇条書 きで出してください。 - 最後に【単語A】と【単語B】のうちで【難 しい方の単語】を表示してください。ただし、 【単語A】と【単語B】のいずれかを必ず選択 すること。 4. 参照物: 【難しさリスト】 サテライトなど松下(2021)のデータセット 中無作為に25語選出した 【条件】 【単語A】: 【単語B】: #結果: (1)要因: (2)難しさ分析: (3)難しさ箇条書き: (4)難しい方の単語:
#結果: (1)要因: - 発音の違い:中国語の音韻体系と日本語の発音の間の違いによ る難しさ。 - 漢字の使用:漢字が含まれる単語は中国語母語話者にとって理 解しやすい可能性があるが、読み方や複合語としての意味で難 しさが生じる場合もある。 - 語彙の類似性:中国語と日本語に共通の語彙や類似した語彙が 難易度に影響する。 - 文化的な背景:単語が持つ文化的な意味合いや使われ方が難し さに影響を及ぼす。 - 単語形成の規則性:複合語や派生語など、単語がどのように形 成されているかによる難しさ。 (2)難しさ分析: 【単語A】:童心 - 発音:「童心」の「童(どう)」「心(しん)」は比較的発音 しやすく、中国語の音韻とも類似している。 - 漢字の使用:「童」と「心」は共に中国語にも存在する基本的 な漢字であり、認識しやすい。 - 語彙の類似性:「童心」は「童年的心态」という意味の共通性 が認められる。 - 文化的な背景:この概念は両言語間で理解されやすいと考えら れる。 - 単語形成の規則性:複合語として直感的に理解しやすい構造を している。 【単語B】:アナゴ - 発音:「アナゴ」はカタカナで書かれており、発音が日本語特 有のものであるため、中国語母語話者にとっては発音が難しい。 - 漢字の使用:「アナゴ」は漢字で「穴子」と書かれるが、専門 的な単語であり、中国語との共通性が少なく理解が難しい。 - 語彙の類似性:「穴子」という単語に中国語の類似語彙が見つ かりづらいため、新規の単語として覚える必要がある。 - 文化的な背景:日本独特の食品に関連する単語であるため、中 国語話者にはなじみが薄い。 - 単語形成の規則性:動物の名前ということで類推は可能だが、 「穴」+「子」という組み合わせは直感に反するため難しさがあ る。 (3)難しさ箇条書き: - 「童心」は発音が容易で漢字も基本的、文化的背景も共通して 理解しやすい。 - 「アナゴ」は発音も日本特有、漢字も専門的、文化的背景の共 通性も少なく、全体的な難易度が高い。 (4)難しい方の単語: アナゴ
I-JASのエッセイ(e)を利用して:
“You are an expert in Japanese education. Using your knowledge, please identify the native language” “of each essay’s writer from the list provided below. For each essay, provide the confidence level of” “your answer, list the textual features you used to make this identification, and explain the reasoning behind” “your assessment. Please do not use predefined labels or categories for the native language, and ensure your” “explanation is clear and detailed.”
f”Here is the list of native languages for the writers:” f”You must choose from these exact {len(NL_list)} native language” f”Here are the essay documents:” “Please conclude your response with the index of the essay in dictionary format, matching each essay to its” “likely native language. Each essay should have its own response with detailed reasoning.”
{ “native_language”: “日本語母語話者”,
“confidence”: [
{
“native_language”: “日本語母語話者”,
“confidence”: 0.95
},
{
“native_language”: “中国語”,
“confidence”: 0.03
},
{
“native_language”: “韓国語”,
“confidence”: 0.02
}
],
“explanation”: [
{
“language_features”: “Kanji usage”,
“explanation”: “The text utilizes a significant amount of Kanji, which is a hallmark of the Japanese writing system.”
},
{
“language_features”: “Grammar structures”,
“explanation”: “The grammatical constructions, such as particles and sentence endings, are distinctly Japanese.”
},
{
“language_features”: “Vocabulary choice”,
“explanation”: “Words like ‘家庭料理’, ‘手作り’, and ‘栄養価値’ are commonly used in Japanese contexts.”
},
{
“language_features”: “Writing style”,
“explanation”: “The text follows a structured, logical flow typical in Japanese essays, weighing pros and cons.”
}
]
}