OpenAI|SWE-bench Verifiedの導入

OpenAIは、SWE-benchの人間によって検証されたサブセットであるSWE-bench Verifiedをリリースしました。これにより、AIモデルが実世界のソフトウェア問題を解決する能力をより正確に評価できるようになりました。SWE-bench Verifiedは、元のSWE-benchの課題を改善し、過剰に特定されたテストや曖昧な問題記述などの問題を解決しています。この新しいデータセットを使用することで、AIのソフトウェアエンジニアリング能力の評価がより信頼性の高いものになります。

引用元: OpenAI (2024年8月13日)


コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です