RLAIF-如何用模型来做RLHF

date

Jun 27, 2024

slug

rlaif

status

Published

tags

LLM

Paper

summary

使用模型做RLHF

type

Post

LLM 论文分享04：初探-如何用模型来做RLHF？

InstructGPT证明了，RLHF可以有效地使LLM与人类偏好一致，但是，收集人类偏好标签是一项耗时且昂贵的工作。

这篇发布于2023年9月1日的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback》

arxiv.org

，探讨了一种新型的强化学习方法——通过人工智能反馈进行强化学习（RLAIF），这种方法利用现成的大型语言模型（LLMs）来生成偏好标签，以替代人类标注者。

文章指出，尽管传统的基于人类反馈的强化学习（RLHF）在使大型语言模型与人类偏好对齐方面已经显示出有效性，但收集高质量的人类偏好标签既耗时又成本高昂。RLAIF提供了一种有希望的替代方案，它在文本摘要、有帮助的对话生成和无害对话生成等任务上，与RLHF相比，展现出了可比或更优越的性能，并且得到了人类评估者的认可。

文章还提到，即使在LLM偏好标签生成器与策略模型大小相同的情况下，RLAIF也能够超越监督式微调基线。此外，直接提示LLM给出奖励分数的方法，在性能上优于传统的RLAIF设置，后者首先将LLM偏好标签蒸馏到奖励模型中。最后，文章对生成对齐的AI偏好的技术进行了广泛研究，结果表明RLAIF可以实现人类水平的性能，为解决RLHF的可扩展性限制提供了潜在的解决方案。