はじめに
ACLとは自然言語処理分野におけるトップカンファレンスの一つです。
ACL 2025 (The 63rd Annual Meeting of the Association for Computational Linguistics)はオーストリアの首都ウィーンで7/27から8/1まで開催されました。
今年は聴講参加させていただいたので参加報告をします。
学会情報
ACL 2025の採択率は20.3%で、Main Conferenceの論文数は1,699本、Findingsは1,392本でした。
著者の国籍分布は中国の方が半分以上(51%)を占め、続いてアメリカが18.6%、韓国が3.4%になります。日本は1.8%を占めていたようです。
論文タイトルをワードクラウドにして傾向を確認する
昨年のACLと比較しながら今回のACLの傾向を分析するために、それぞれのワードクラウドを作成しました。LLMなどのNLPでの頻出語句や助詞などはストップワードとして削除してあります。
- 前回(ACL 2024)のワードクラウド
- 今回(ACL 2025)のワードクラウド
昨年と比べてagentやcontext、longが大きくなっているのが分かります。
なんとなくの傾向はつかめますが、もう少し詳しくみるためにbi-gramでも比較してみます。
- 前回(ACL 2024)のbi-gram
- 今回(ACL 2025)のbi-gram
2024年と比べて明らかに増加しているのは、long context、multi agent、cross lingualです。逆に減少しているのはrelation extractionやlow resourceあたりです。machine traslationに関する論文は増減がないようです。
long contextに関する論文数は思った以上に多いですね。学会参加時も多いとは思っていましたが、このように比較してみると想定以上でした。逆にmulti agentの増加は予想通りでした。
なお、今回は論文タイトルのみで比較としているので、abstractまで考慮するともっと異なる比較ができるかもしれません。
気になった論文
気になった論文をいくつか紹介します。
ChatBench: From Static Benchmarks to Human-AI Evaluation
この論文は、従来のベンチマークはLLM単独の性能を比較するのみでLLMと人間の対話的な利用形態とのギャップがあるため、MMLUベンチマークを対話タスクに変換・実際にユーザがGPT-4oやLlama-3.1-8bとチャットして問題を解く実験を実施し、その正解率や対話内容を分析した、というものです。
最終的な結論として、人間がLLMを使って問題を解くケースではLlama3.1-8bとGPT-4oはほぼ同等の性能だったとのこと。原因として、GPT-4oでは人間の曖昧な質問により性能劣化するなどが挙げられています。
Biased LLMs can Influence Political Decision-Making
この論文では、政治的に偏ったLLMを用意してユーザと対話させ、対話を経てユーザの政治的トピックに対する意見の変化を測定したという研究です。LLMにはGPT-3 Turboを使っており、プロンプトでLLMの政治的偏見をリベラル・ニュートラル・保守的に変化させたようです。
FloorPlan-LLaMa: Aligning Architects’ Feedback and Domain Knowledge in Architectural Floor Plan Generation
本論文は、Floor-Planが、建築家視点で有益な間取りか否かを評価するデータセットを構築し、既存手法より合理的な間取りを生成できる手法を提案したものです。
既存のFloor-Plan生成はFIDなどの評価指標に依存し、実用性を正しく評価できませんでした。この研究では、機能性・動線・全体評価の3つの観点から評価できるデータセットを構築し、それを自動評価するためのCLIPベースの評価モデル、図面生成モデルを学習しました。専門家13人の評価により、既存手法と比べて本提案手法が一貫して最も高精度であることが示されました。
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users
本論文は、視覚障がい者向けの視覚支援モデルとしてMLLMを応用する際の実用的な性能と限界を評価したものです。
今までは視覚障がい者が実世界で直面する安全性などの特有の課題を十分に測定できていないことが課題として挙げられていました。著者らは、視覚障がい者106人向けに求めているユースケースを聞き込みそれを整理、ユースケースに合致するように評価データセットを設計しました(多文化な画像キャプショニング、多言語VQA、点字認識、支援機器の物体認識など)
まとめ
昨年はEMNLPに参加したのですが、その時と比べて実世界適用に関する論文が急増しているように感じました。紹介したFloorPlan生成や視覚支援に関する論文が分かりやすいと思います。これらの論文はACL 2025でAward(SAC Highlights)を受賞しており、分野として注目されていると言えると思います。





