OpenAI｜MLE-bench: 機械学習エージェントの機械学習エンジニアリング評価

10月 11, 2024

—

in AI

OpenAIは「MLE-bench」を発表しました。これは、AIエージェントの機械学習エンジニアリング能力を評価するベンチマークで、Kaggleの75のコンペティションを元に実施されます。このベンチマークにより、AIエージェントの実際のMLエンジニアリングスキルが評価され、人間のベースラインと比較することが可能です。評価されたモデルの中で、OpenAIの「o1-preview with AIDE scaffolding」が16.9%のコンペティションでKaggleのブロンズメダルレベルに達しました。

引用元：こちら

AI Kaggle MLE-bench OpenAI 機械学習エージェント

OpenAI｜MLE-bench: 機械学習エージェントの機械学習エンジニアリング評価

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル