8h ago

Stanford NLP's Aryaman Arora argues that backlash against SWE-bench Verified validates the coding benchmark's quality

The benchmark evaluates AI agents on real GitHub issues.

Stanford NLP's Aryaman Arora argues that backlash against SWE-bench Verified validates the coding benchmark's quality · Digg