7h ago

Dimitris Papailiopoulos argues preventing LLM dataset contamination on GSM8k is practically impossible without manual evaluation

Models are routinely and accidentally trained on test datasets.

Dimitris Papailiopoulos argues preventing LLM dataset contamination on GSM8k is practically impossible without manual evaluation · Digg