SakanaAIは、有限責任あずさ監査法人と共同で、LLMエージェントの長期的な経営能力を評価する新しいベンチマーク「CoffeeBench」を公開しました。
ブログ:https://sakana.ai/coffee-bench/
現実の経済では、消費者へ直接売るビジネスだけでなく、企業同士が継続的に取引するビジネスも重要です。CoffeeBench は、農家・焙煎店・小売店の計6社が参加するコーヒー業界のサプライチェーンをシミュレーションし、各社をLLMエージェントが運営。90日間にわたって価格交渉・発注・在庫管理などを行い、純利益の最大化を目指します。
最新のLLMを同じ環境で競わせると、経営成績は大きく分かれました。積極的に交渉し、利益に直結する一手を打ち続けるモデルがいる一方で、自身の状況を分析しながらも行動に移さず、待機し続けて赤字に陥るモデルも出てくるなど、長期タスクならではの振る舞いの違いが観察できました。
CoffeeBenchは、長期にわたり相互作用するLLMエージェントの能力や振る舞いを評価・分析していくための第一歩です。今後は、複数エージェント間で生じる協調・競争・逸脱行動や、その監査・ガバナンス手法の研究へと発展させていくことを目指します。
本研究は ICML2026 Workshop "Failure Modes in Agentic AI" にて発表予定です。
論文:https://arxiv.org/abs/2606.16613 ☕