6h ago

GPRL Uses Reward Subspaces And Closed-Loop Feedback For Balanced Preference Optimization

21446722

——0——

Original post

[1/3] Happy to share our latest work, "General Preference Reinforcement Learning" Link: https://arxiv.org/pdf/2605.18721

Reposted by