OpenAI|推出SWE-bench Verified

OpenAI发布了SWE-bench Verified,这是经过人工验证的SWE-bench子集,旨在更准确地评估AI模型解决实际软件问题的能力。SWE-bench Verified解决了原始基准测试中的问题,如过于具体的测试和模糊的问题描述,从而提高了AI在软件工程任务中的评估可靠性。

来源: OpenAI (2024年8月13日)


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注