Instruct-GPT

date
Jun 19, 2024
slug
instruct-gpt
status
Published
tags
AI
Paper
LLM
summary
GenAI奠基文章⭐
type
Post
这篇论文可以是奠定了现在LLM训练的基础框架。 就是下面这个图,
notion image
SFT -> RM -> PPO

那为什么要这么训练呢?

因为OpenAI研究发现,用人类反馈进行微调后的模型,会更受欢迎。

为什么会更受欢迎呢?

首先单纯的让语言模型变大(即更大的尺寸更大的规模更大的参数量),并不会让语言模型遵循用户的意图,即模型的输出,对用户没有任何帮助,不真实甚至有毒。就是说,模型与用户期望不一致。 那么OpenAI构建了一个数据集,用于监督学习微调GPT-3,随后,他们又收集了个模型输出排名的数据集(即对模型的输出进行打分),使用人类反馈的强化学习进一步微调了这个监督模型。即让模型的输出,更符合人类的期望,这个过程就是大名鼎鼎的RLHF(Reinforcement Learning from Human Feedback)。 而这个模型,就叫做Instruct-GPT。

怎么个受欢迎法的?

Instruct-GPT的参数量是1.3B,GPT-3是175B,在对提示分布的人工评估中,少了100倍参数的Instruct-GPT遥遥领先~ Instruct-GPT的真实性提高,有毒输出减少,同时在公共NLP数据集上的性能退步最小,表现优秀!
notion image
这个结论是怎么来的呢? 通过API提示分发提示,比较每个模型的输出,优质与175B SFT模型的频率,进行评估。 PPO-Ptx即是Instruct-GPT模型,PPO是没有预训练混合的模型,可以看出,是明显高于GPT-3的基础的,且能看出,1.3B PPO-ptx模型的输出是由于175B GPT-3的输出。(置信区间是95%)

这个是完美的吗?

当然不是,Instruct-GPT仍然会犯简单的错误,仍然可能无法遵循指令、编造事实、对简单的问题给出冗长的答案的单,或者无法检测到带有错误前提的指令。
Anyway,使用人类偏好对LLM进行微调可以显著提高性能,当然还需要做很多工作来提高安全性和可靠性。

论文还说了啥?

第二节介绍了相关工作,第三节深入探讨方法和实验细节,包括高级方法、任务和数据集细节、人类数据收集、如何训练模型和他们的评估程序。第四节展示了结果,包括API提示分发的结果,公共NLP数据集的结果和定性结果。第五章则探讨了对齐、正在对齐的内容、局限性、开放性问题和这个工作的影响~
 

© 溪河 2021 - 2024