はじめに
こんにちは、データサイエンス部データサイエンス2ブロックのNishiyamaです。我々のチームでは、AIやデータサイエンスを活用したプロダクト開発のため、研究開発に取り組んでいます。今回、私は言語処理学会第31回年次大会に参加したため、参加レポートとして気になった発表をいくつか紹介します。
目次
- はじめに
- 目次
- 言語処理学会第31回年次大会 (NLP2025)
- 気になった研究発表
- [C1-1] Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築
- [C3-4] 複数タスク・複数項目に跨ったマルチモーダル自動評価手法
- [C10-6] 大規模言語モデルにおけるSupervised Fine-tuningの包括的検証
- まとめ
- さいごに
言語処理学会第31回年次大会 (NLP2025)
言語処理学会年次大会は、研究者や技術者が集まり広義の言語処理に関する研究成果を発表・交流する国内最大規模の学術会議です。今回で31回目の開催であり、3月10日から14日の期間、長崎県の出島メッセ長崎で開催されました。
気になった研究発表
以降は、私が興味を持った発表をいくつかご紹介します。
[C1-1] Swallowコーパスv2: 教育的な日本語ウェブコーパスの構築
服部 翔 (科学大/産総研/NII), 岡崎 直観, 水木 栄, 藤井 一喜, 中村 泰士, 大井 聖也 (科学大/産総研), 塩谷 泰平, 齋藤 幸史郎, Youmi Ma, 前田 航希, 岡本 拓己, 石田 茂樹 (科学大), 横田 理央 (科学大/産総研), 高村 大也 (産総研)
この研究では、教育的な日本語Webテキストを用いることで、日本語に強いLLMを構築することを目的としています。ここで「教育的」とは、次の2点で定義されています。
1つ目は、文章の内容が学術的・教養的である点です。2つ目は、物事をわかりやすく説明している点です。提案手法では事前学習時に使用するコーパスの品質を上げるために、Wiki分類器とLLM分類器を用いて、教育的価値の高い文章を厳選します。Wiki分類器は、正例を学術的なWikipediaの文章、負例をランダム抽出したWeb文章として分類します。LLM分類器は、LLMによって教育的価値の採点を3段階の加点方式で評価します。
実験は、分類器無し(ベースライン)とWiki分類器やLLM分類器によってフィルタリングしたコーパスをLlama3 8Bで継続事前学習し比較しました。結果として、Wiki分類器とLLM分類器のスコア上位10%を用いた場合に、質問応答・教養科目・翻訳でベースラインと比較して性能が改善され、提案手法の有効性を示しました。
一方で教育的価値の上位10%-30%を使用した場合に、Wiki分類器では、ベースラインを下回るか同程度のスコアになりました。これは、Wiki分類器は、Wikipediaと類似した文章の検出に特化しているため、教育的とみなす文章の範囲の狭さが原因として考えられるそうです。LLM分類器は、幅広い文章に適切なスコアを付与できることから教育的価値の上位10%-30%を用いた場合にも、教育的価値の上位10%と同様にベースラインより良いスコアになっていました。これは、LLM分類器は汎用的な教育的価値に基づいて訓練されているためのようです。
詳細が気になる方は、表題の論文を参照してください。
[C3-4] 複数タスク・複数項目に跨ったマルチモーダル自動評価手法
大井 聖也 (科学大), 金子 正弘 (MBZUAI/科学大), 岡崎 直観 (科学大/産総研/NII), 井上 中順 (科学大)
この研究では、複数のタスクにおけるVLM (Vision-Language Model) の生成文をより良く評価することを目的としています。そこで、HarmonicEvalとMMHE (Multi-task, Multi-criteria, Human Evaluation) を提案します。HarmonicEvalは複数の評価項目を考慮する評価手法で、次の3ステップで評価します。
ステップ1は、項目別評価です。項目別評価では、VLMを評価器として5つの項目(正確性・完全性・明瞭性・流暢性・完結性)を評価します。ステップ2は、スコア平滑化です。スコア平滑化では、トークンの生成確率に基づいてスコアの期待値を計算します。ステップ3は、スコア集計です。スコア集計では、ステップ2の平滑化スコアに重みをつけて総合評価を出力します。ここで重みは、分散が大きい場合に小さい重みを与え、分散が小さい場合に大きい重みを与えます。
次にMMHEを構築します。MMHEは、複数タスク・複数評価項目を人手で評価したデータセットです。具体的には、REG (Referring Expression Generation) ・VQA (Visual Question Answering) ・VDU (Visual Document Understanding) ・IC (Image Captioning) の4つのタスクを先述した5つの評価項目に関して人手で評価して構築されています。
実験では、MMHEにおいて、HarmonicEvalは全てのタスクにおいて既存手法を上回る性能を示しました。また、HarmonicEvalの各ステップを省いて実験し結果から、各ステップが有効に働いていることを示しました。詳細が気になる方は、表題の論文を参照してください。
[C10-6] 大規模言語モデルにおけるSupervised Fine-tuningの包括的検証
原田 宥都, 山内 悠輔 (NII/東大), 小田 悠介 (NII), 大関 洋平 (東大), 宮尾 祐介 (NII/東大), 高木 優 (NII)
この研究では、事後学習としてのSupervised Fine-tuning (SFT) における以下の3つの点について、広範な検証を行なっています。
- 学習データと下流タスクの性能の関係
- 学習データのサンプルサイズが下流タスクの性能に与える影響
- 学習方法による違い
関連研究として、前述した3点について様々な議論があり、限定されたモデルや学習データ・評価での報告はありますが網羅的な比較にはなっていません。例えば、学習データのサンプルサイズが性能に与える影響の評価では、SFTはデータの質が高い少数のサンプルで十分であるという報告や大規模なデータを用意するべきであるという報告があります。そこで本研究では、245種類のSFTモデルを訓練し、モデルファミリーやデータセットの種類・量・学習手法について検証をしています。
実験は事前学習された大規模言語モデルである、OLMo-7B-hfやllm-jp-3-7B, Qwn2.5-7Bを用いています。データセットは10種類用意し、学習手法は、LoRAとフルパラメータ(全パラメータ)で比較しています。評価はopencompassを使用して、Math・Coding・Knowledge・Subjectiveのカテゴリをベンチマークとして使用しています。
結果として、学習データのカテゴリ以外にも問題やフォーマットの性質が重要であると示唆されています。原因は、学習データセットとカテゴリの影響の検証によって、特定のデータセットはIn Distribution, Out of Distribution問わずスコアに影響を与えていると考えられるようです。
次にデータセットサイズの影響の検証では、1kと20kのデータセットサイズを比較して実験しています。結果として、全体的な傾向やスコアは変わらず、データの質が重要であることを示唆しています。モデルファミリーの影響の検証では、モデルの事前学習言語やアーキテクチャによらずスコアの変動に一貫性が見られました。
今回の参加レポートで述べた内容以外にも様々な分析をしているため、詳細が気になる方は、表題の論文を参照してください。
まとめ
本記事では、言語処理学会第31回年次大会の参加レポートをお届けしました。今回は、参加登録者数、発表件数、スポンサー数が歴代1位となりました。本年次大会では、研究発表に関する議論や学びがあり、我々も大会で得た知識を研究開発に取り入れていこうと思います。
さいごに
ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。