LLM的诞生
LLM的诞生
主要记录一下LLM从一个 Transformer 架构到 GPT 这种语言模型的训练过程。
标准流程
- Pretraining(预训练)
- Supervised Fine-tuning(监督微调)
- Reward Modeling(奖励建模)
- Reinforcement Learning with Human Feedback(RLHF 人类反馈的强化学习)
pretraining阶段,模型会被训练在一个大规模的文本数据集上,学习语言的基本结构和语义,“学会说话”。
SFT阶段,模型会被微调在一些特定的任务上,比如问答、翻译等,让模型能够更好地完成这些任务,“按指令说话”。
RM打分,RLHF让模型对齐人类的价值观和偏好,让模型能够更好地满足用户的需求,“说人话”。
强化学习阶段
PPO
Proximal Policy Optimization是工业界最早,最稳定,但是最重的RL算法。
流程:
- Actor生成回答
- RM打分
- Critic评估,算优势函数
- PPO用Clip限制更新幅度,保证稳定性。
- 迭代更新,直到收敛。
优:稳定,效果好,理论成熟
缺:四套模型,训练资源消耗大,训练时间长。Critic难以训练。
DPO
Direct Preference Optimization 不使用RM,不用RL,直接用偏好进行微调。
也就是使用了一个特殊的交叉熵,让模型调高y_better的概率,调低y_worse的概率。
优:只有一个Policy模型,训练资源消耗小,训练时间短。
缺:只能用成对数据。复杂效果差
GRPO
Group Relative Policy Optimization 由DeepSeek提出,是开源模型的主流选择。它就是PPO的轻量版:去掉了Critic,保留RM,用”组内相对优势“来替代PPO中的优势函数。
流程:
- 组 Rollout:一个 prompt → 生成 G 个回答
- RM 或规则打分(如数学对 = 1,错 = 0)
- 组内归一化算优势:Z-score
- PPO-style 策略更新:Clip + KL 惩罚,但没有 Critic
优:比PPO轻一半,比DPO推理强
缺:单步计算量大(多个回答),仍需要RM
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 哈基窝!
