5h ago

Sasha Rush and Yoav Goldberg argue prompt conditioning decouples machine learning models from policies

Goldberg suggests reframing methods like GRPO in ML terms

Sasha Rush and Yoav Goldberg argue prompt conditioning decouples machine learning models from policies · Digg