OpenAI｜推出SWE-bench Verified

—

由

于 AI

OpenAI发布了SWE-bench Verified，这是经过人工验证的SWE-bench子集，旨在更准确地评估AI模型解决实际软件问题的能力。SWE-bench Verified解决了原始基准测试中的问题，如过于具体的测试和模糊的问题描述，从而提高了AI在软件工程任务中的评估可靠性。

来源: OpenAI (2024年8月13日)

评论