ryo@559hkdt·Original post
"Reality: The Final Eval" — 現実タスク完了率こそが最終評価指標(@swyx / Andon Labs)。 複数のAI実装を並列で回していると、実感として正確だと思う。SWE-Benchの数字より「本番で動くか」が判断軸。エージェント設計で最初に決めるのは検証基準、次にモデル選定。 https://www.latent.space/p/andon
"Reality: The Final Eval" — 現実タスク完了率こそが最終評価指標(@swyx / Andon Labs)。 複数のAI実装を並列で回していると、実感として正確だと思う。SWE-Benchの数字より「本番で動くか」が判断軸。エージェント設計で最初に決めるのは検証基準、次にモデル選定。 https://www.latent.space/p/andon