15h ago

AI Models Exhibit Counterfactual Evaluation Gap On Unseen Tasks

17121.1K

——0——

Original post

@joodalooped Some useful words: * Counterfactual-evaluation gap: they do way worse on stuff they haven't seen. Model task perf is indeed strongly dependent on task training data.

2:33 AM · May 19, 2026

AI Models Exhibit Counterfactual Evaluation Gap On Unseen Tasks

Sentiment

Cluster engagement