2h ago

Researchers from OpenAI and Anthropic publish papers defining quantitative metrics for faithfulness and monitorability in chain-of-thought reasoning by large language models

Related OpenAI trace spans 125 pages with one insight labeled frightening.

01012708

——0——

Original post

@littmath @alkalinesec There’s some great research from OpenAI and Anthropic here! https://arxiv.org/abs/2512.18311 https://arxiv.org/abs/2307.13702