Instruct-GPT

date

Jun 19, 2024

slug

instruct-gpt

status

Published

那为什么要这么训练呢？

因为OpenAI研究发现，用人类反馈进行微调后的模型，会更受欢迎。

为什么会更受欢迎呢？

首先单纯的让语言模型变大（即更大的尺寸更大的规模更大的参数量），并不会让语言模型遵循用户的意图，即模型的输出，对用户没有任何帮助，不真实甚至有毒。就是说，模型与用户期望不一致。那么OpenAI构建了一个数据集，用于监督学习微调GPT-3，随后，他们又收集了个模型输出排名的数据集（即对模型的输出进行打分），使用人类反馈的强化学习进一步微调了这个监督模型。即让模型的输出，更符合人类的期望，这个过程就是大名鼎鼎的RLHF（Reinforcement Learning from Human Feedback）。而这个模型，就叫做Instruct-GPT。

怎么个受欢迎法的？

Instruct-GPT的参数量是1.3B，GPT-3是175B，在对提示分布的人工评估中，少了100倍参数的Instruct-GPT遥遥领先~ Instruct-GPT的真实性提高，有毒输出减少，同时在公共NLP数据集上的性能退步最小，表现优秀!

这个结论是怎么来的呢？通过API提示分发提示，比较每个模型的输出，优质与175B SFT模型的频率，进行评估。 PPO-Ptx即是Instruct-GPT模型，PPO是没有预训练混合的模型，可以看出，是明显高于GPT-3的基础的，且能看出，1.3B PPO-ptx模型的输出是由于175B GPT-3的输出。（置信区间是95%）

这个是完美的吗？

当然不是，Instruct-GPT仍然会犯简单的错误，仍然可能无法遵循指令、编造事实、对简单的问题给出冗长的答案的单，或者无法检测到带有错误前提的指令。

Anyway,使用人类偏好对LLM进行微调可以显著提高性能，当然还需要做很多工作来提高安全性和可靠性。

论文还说了啥？

第二节介绍了相关工作，第三节深入探讨方法和实验细节，包括高级方法、任务和数据集细节、人类数据收集、如何训练模型和他们的评估程序。第四节展示了结果，包括API提示分发的结果，公共NLP数据集的结果和定性结果。第五章则探讨了对齐、正在对齐的内容、局限性、开放性问题和这个工作的影响~