Instruct-GPT
date
Jun 19, 2024
slug
instruct-gpt
status
Published
tags
AI
Paper
LLM
summary
GenAI奠基文章⭐
type
Post
这篇论文可以是奠定了现在LLM训练的基础框架。
就是下面这个图,
SFT -> RM -> PPO
那为什么要这么训练呢?
因为OpenAI研究发现,用人类反馈进行微调后的模型,会更受欢迎。
为什么会更受欢迎呢?
首先单纯的让语言模型变大(即更大的尺寸更大的规模更大的参数量),并不会让语言模型遵循用户的意图,即模型的输出,对用户没有任何帮助,不真实甚至有毒。就是说,模型与用户期望不一致。
那么OpenAI构建了一个数据集,用于监督学习微调GPT-3,随后,他们又收集了个模型输出排名的数据集(即对模型的输出进行打分),使用人类反馈的强化学习进一步微调了这个监督模型。即让模型的输出,更符合人类的期望,这个过程就是大名鼎鼎的RLHF(Reinforcement Learning from Human Feedback)。
而这个模型,就叫做Instruct-GPT。
怎么个受欢迎法的?
Instruct-GPT的参数量是1.3B,GPT-3是175B,在对提示分布的人工评估中,少了100倍参数的Instruct-GPT遥遥领先~
Instruct-GPT的真实性提高,有毒输出减少,同时在公共NLP数据集上的性能退步最小,表现优秀!
这个结论是怎么来的呢?
通过API提示分发提示,比较每个模型的输出,优质与175B SFT模型的频率,进行评估。
PPO-Ptx即是Instruct-GPT模型,PPO是没有预训练混合的模型,可以看出,是明显高于GPT-3的基础的,且能看出,1.3B PPO-ptx模型的输出是由于175B GPT-3的输出。(置信区间是95%)
这个是完美的吗?
当然不是,Instruct-GPT仍然会犯简单的错误,仍然可能无法遵循指令、编造事实、对简单的问题给出冗长的答案的单,或者无法检测到带有错误前提的指令。
Anyway,使用人类偏好对LLM进行微调可以显著提高性能,当然还需要做很多工作来提高安全性和可靠性。
论文还说了啥?
第二节介绍了相关工作,第三节深入探讨方法和实验细节,包括高级方法、任务和数据集细节、人类数据收集、如何训练模型和他们的评估程序。第四节展示了结果,包括API提示分发的结果,公共NLP数据集的结果和定性结果。第五章则探讨了对齐、正在对齐的内容、局限性、开放性问题和这个工作的影响~