はじめに
NLP2025にリモートで参加していました。
記憶の新しいうちに個人的に面白かった発表をメモします。
全体からピックアップしたというよりは、育児の合間に自分が聞けた発表のなかから選んでいる感じです。ご了承ください。
正確な情報は元の予稿をご参照ください。ただ雑メモとはいえ、明らかな間違いや不適切な解釈があれば直したいと思いますので、コメントいただけますと幸いです。
A5-4: プロンプトに基づくテキスト埋め込みのタスクによる冗長性の違い
どんなタスクのときに埋め込みの次元削減ができるか、またそのような埋め込みには等方性の観点でどのような特徴があるかを調べた。分類やクラスタリングでは次元削減が可能で、そのようなタスクの埋め込みは冗長性が高い、つまり、複数の次元で同じような役割になっていることがわかった。
次元削減できるので実用的だし、次元削減できるかどうかがタスクによるという着眼点も面白く、冗長性と絡めた議論もワクワクした。クラスタリングや分類では情報をあまり使わないから冗長性が高く次元削減できるが、検索ではベクトルの次元を目一杯使っており次元削減できない、みたいなイメージを持った。納得感あるし面白い。
B6-5 法令文の可読性向上のための定義規定・略称規定における文型定義及びパターンベースの正式名称・略称抽出手法
法令文に含まれる定義と略称の対応を解析できるルールベースのパーサーを開発した。
例:新型インフルエンザ等対策の推進を図るため、内閣に、新型インフルエンザ等対策推進会議(以下「会議」という。)を置く。
「トイウ形」「トハ形」「ヲイウ形」などいくつかのパターンにわけ、パターンごとにルールを見つけていく感じ。法令文みたいに、プログラム言語ほど厳密ではないが、ある程度決まった形式で書かれている文章に対するコスパの良い解決策はやっぱりルールだと思う。大変な作業だけどちゃんとやっている感じが好き。総務省の方が質問されていて、困ったことあったら協力します的なやりとりがあったのも熱くてよかった。
C7-2 音声・音響・音楽を扱うオープン基盤モデルの構築に向けたデータセット策定
音声系の基盤モデル構築に使えそうなデータセット情報を収集し、チャネル数やサンプリング周波数、ライセンスなど基本的な情報を整理した。また、収集されたデータの統計値を算出し報告した。
正月返上で作業されたとおっしゃっていて、大変ありがたい。音声系の基盤モデルを作るときに便利そう。
P7-9 人間と LLM の "面白さ" の感性は一致するのか?
大喜利サイトから収集した回答とLLMが生成した回答をLLMと人間にそれぞれ評価させ、相関を分析。LLMが人間のユーモアを評価する能力は高くない。GPTはClaudeより多少マシ。
ユーモアの研究に興味があるので。面白さの研究は丁寧な主観評価が分野全体で蓄積されていくことが大事だと思っているので、ありがたい研究。
D8-6 日本語Full-duplex音声対話システムの試作
デモ公開時にSNSでも話題になっていたJ-Moshiの開発の報告。Moshiのアーキテクチャに基づいて日本語音声で学習。モノラル音声を話者分離でステレオにしたデータで事前学習。自然なターン庭訓を含むステレオ音声でファインチューニング、テキスト対話をTTSで音声対話化したデータで更に学習。主観評価とパープレキシティなどで評価。
Moshiのアーキテクチャも詳しく知らなかったので勉強になった。モノラルを話者分離でステレオにする、TTSでデータ拡張するなど、細かいところのやり方が勉強になった。
C9-4 VDocRAG: 視覚的文書に対する検索拡張生成
画像を直接理解するタイプのRAG用LVLMの開発。検索用(VDocRetriever)と生成用(VDocGenerator)の2つのモデルからなる。両方とも事前学習はOCRテキストと画像で対象学習。VDocRetrieverは質問と画像のペアでファインチューニング。VDocGeneratorは学習済みVDocRetrieverで検索した結果と質問文を入力して、回答を次単語予測。
視覚系のRAGシステムの作り方が勉強になる。
ws3 招待講演 日本語の作文および対話性能向上のための合成データ生成と大規模言語モデル「Tanuki」の構築
Tanukiの開発の試行錯誤に関する報告。論文を信じての実装から始まり、それだと全然うまくいかなくて、とにかくたくさん試行錯誤した内容を共有してくれて、ありがたかった。勉強になった。
ws3 C-1 日本語ModernBERTの構築
ModernBERTの日本語版の開発の報告。ModernBERTのポイントの説明から始まり、どのように学習したか、評価など、面白かった。BERTでもパラメータ数のスケーリングがきくとか分類タスクに関しては両側から情報を使う分、次単語予測よりも効率がいいとかいろいろおもしろかった。
おわりに
他にもメモを残しておきたい発表や、発表は聞けていないけれど読んで内容理解したい予稿がたくさんあるのですが、今終わらせないと振り返りの時間が数日取れなくて記憶とやる気が薄れそうなので、ここで区切りにします。