OpenAI|MLE-bench: 機械学習エージェントの機械学習エンジニアリング評価

OpenAIは「MLE-bench」を発表しました。これは、AIエージェントの機械学習エンジニアリング能力を評価するベンチマークで、Kaggleの75のコンペティションを元に実施されます。このベンチマークにより、AIエージェントの実際のMLエンジニアリングスキルが評価され、人間のベースラインと比較することが可能です。評価されたモデルの中で、OpenAIの「o1-preview with AIDE scaffolding」が16.9%のコンペティションでKaggleのブロンズメダルレベルに達しました。

引用元:こちら


コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です