RLAIF-如何用模型来做RLHF

date
Jun 27, 2024
slug
rlaif
status
Published
tags
AI
LLM
Paper
summary
使用模型做RLHF
type
Post
LLM 论文分享04:初探-如何用模型来做RLHF?
 
InstructGPT证明了,RLHF可以有效地使LLM与人类偏好一致,但是,收集人类偏好标签是一项耗时且昂贵的工作。
这篇发布于2023年9月1日的论文《RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
,探讨了一种新型的强化学习方法——通过人工智能反馈进行强化学习(RLAIF),这种方法利用现成的大型语言模型(LLMs)来生成偏好标签,以替代人类标注者。
文章指出,尽管传统的基于人类反馈的强化学习(RLHF)在使大型语言模型与人类偏好对齐方面已经显示出有效性,但收集高质量的人类偏好标签既耗时又成本高昂。RLAIF提供了一种有希望的替代方案,它在文本摘要、有帮助的对话生成和无害对话生成等任务上,与RLHF相比,展现出了可比或更优越的性能,并且得到了人类评估者的认可。
文章还提到,即使在LLM偏好标签生成器与策略模型大小相同的情况下,RLAIF也能够超越监督式微调基线。此外,直接提示LLM给出奖励分数的方法,在性能上优于传统的RLAIF设置,后者首先将LLM偏好标签蒸馏到奖励模型中。最后,文章对生成对齐的AI偏好的技术进行了广泛研究,结果表明RLAIF可以实现人类水平的性能,为解决RLHF的可扩展性限制提供了潜在的解决方案。
     

    © 溪河 2021 - 2024