OpenAIは「MLE-bench」を発表しました。これは、AIエージェントの機械学習エンジニアリング能力を評価するベンチマークで、Kaggleの75のコンペティションを元に実施されます。このベンチマークにより、AIエージェントの実際のMLエンジニアリングスキルが評価され、人間のベースラインと比較することが可能です。評価されたモデルの中で、OpenAIの「o1-preview with AIDE scaffolding」が16.9%のコンペティションでKaggleのブロンズメダルレベルに達しました。
引用元:こちら
コメントを残す