用规则奖励提高模型安全行为 | OpenAI

7 月 25, 2024

—

由

于 AI

OpenAI开发了一种利用规则奖励（RBRs）的新方法，在无需大量人类数据收集的情况下，使模型行为更加安全。RBRs使用清晰简单的规则来评估模型的输出是否符合安全标准，并将其整合到从人类反馈中进行的标准强化学习（RLHF）中。实验表明，使用RBR训练的模型在安全性能上与使用人类反馈训练的模型相当，减少了对大量人类数据的需求，使训练过程更快、更具成本效益。

来源: OpenAI (2024年7月24日) OpenAI

AI training AI训练 AI训练OpenAI model safety OpenAI rule-based 模型安全规则奖励

用规则奖励提高模型安全行为 | OpenAI

评论

发表回复 取消回复

发表回复取消回复