OpenAI | MLE-bench:评估机器学习代理的机器学习工程能力

OpenAI发布了MLE-bench,这是一项用于评估机器学习代理在机器学习工程任务中的表现的基准。它基于75个Kaggle竞赛,测试了实际的ML工程技能。测试结果显示,OpenAI的“o1-preview with AIDE scaffolding”在16.9%的竞赛中达到了Kaggle铜牌水平。

来源:这里


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注