2d ago

New Paper Shows Reward Models Learn 9x Faster Than Dynamics Simulators in RLHF

41662918512.1K

——0——

Original post

1/ RLHF practitioners are wasting budget. If you treat dynamics and rewards as a monolithic world model, your data allocation is wrong. Reward models learn ~9x faster than dynamics simulators. 🧵

12:55 PM · May 17, 2026