14h ago

FAR.AI launches TamperBench, finding open-weight LLM safety can be stripped in a few hundred fine-tuning steps

The framework evaluates defenses using nine distinct tampering methods.

FAR.AI launches TamperBench, finding open-weight LLM safety can be stripped in a few hundred fine-tuning steps · Digg