1h ago

Dimitris Papailiopoulos from Microsoft Research shares ECHO method for training CLI agents with environment prediction loss

142142116531.5K

——0——

Dimitris Papailiopoulos from Microsoft Research AI Frontiers posted results on ECHO, which adds an environment prediction loss to standard GRPO training for command-line agents. The method trains on both agent actions and terminal responses in one rollout and forward pass instead of masking outputs. It delivers improved benchmark scores across Qwen3 models. Researcher John Langford noted that forecasting terminal command outputs accelerates reinforcement learning for agents operating in command-line environments.

Original post

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

http://x.com/i/article/2056344151235387392

6:38 AM · May 18, 2026

Reposted by

#197@DIMITRISPAPAIL

ORIGINAL POST

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

x.com

/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

@NovaSkyAI here's a simple skyRL patch to train better CLI agents, for free

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

1:47 PM · May 18, 2026 · 323 Views

QUOTE POST

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

Turns out training your agent to be a world simulator improves its accuracy of solving problems

Yifu Qiu@ICLR 2026@yifuqiu98

Internalizing world modeling as a native ability for agents.

2:45 PM · May 18, 2026 · 1.6K Views

2:48 PM · May 18, 2026 · 942 Views

QUOTE POST

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

Lol you can continual learn by training on terminal outputs WITHOUT REWARDS

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

1:50 PM · May 18, 2026 · 2.4K Views

QUOTE POST

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

Prediction: by end of 2026 Echo will be part of standard agent RL trainers.

FREE LUNCH FOR EVERYONE

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

1:43 PM · May 18, 2026 · 1.6K Views

QUOTE POST

#197Dimitris Papailiopoulos@DIMITRISPAPAIL

World modeling. Faster RL. Self-improvement without verifiers.

All from one extra loss term on your favorite open-weights CLI agent.

Happy Monday!

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

1:41 PM · May 18, 2026 · 6.7K Views

QUOTE POST

#332John Langford@JOHNCLANGFORD

A fun result: training to predict terminal output significantly accelerates RL for terminal agents.

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

2:12 PM · May 18, 2026 · 811 Views

QUOTE POST

#420Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 – ∞)@TEORTAXESTEX

incredible Are we missing any other free, perfect, dense verifiers?

Dimitris Papailiopoulos@DimitrisPapail

http://x.com/i/article/2056344151235387392

1:38 PM · May 18, 2026 · 16.2K Views

3:02 PM · May 18, 2026 · 855 Views

Dimitris Papailiopoulos from Microsoft Research shares ECHO method for training CLI agents with environment prediction loss

Sentiment

Cluster engagement