1d ago

Alignment Tampering Vulnerability Exploits RLHF To Amplify Biases

Sentiment

Pos100%

Neg0%

Users thank collaborators for advice on identifying the alignment tampering vulnerability in RLHF.

1 comment with sentiment.

Alignment Tampering Vulnerability Exploits RLHF To Amplify Biases · Digg