用规则奖励提高模型安全行为 | OpenAI

OpenAI开发了一种利用规则奖励(RBRs)的新方法,在无需大量人类数据收集的情况下,使模型行为更加安全。RBRs使用清晰简单的规则来评估模型的输出是否符合安全标准,并将其整合到从人类反馈中进行的标准强化学习(RLHF)中。实验表明,使用RBR训练的模型在安全性能上与使用人类反馈训练的模型相当,减少了对大量人类数据的需求,使训练过程更快、更具成本效益。

来源: OpenAI (2024年7月24日) OpenAI


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注