LLM的诞生

主要记录一下LLM从一个 Transformer 架构到 GPT 这种语言模型的训练过程。

标准流程

  • Pretraining(预训练)
  • Supervised Fine-tuning(监督微调)
  • Reward Modeling(奖励建模)
  • Reinforcement Learning with Human Feedback(RLHF 人类反馈的强化学习)

pretraining阶段,模型会被训练在一个大规模的文本数据集上,学习语言的基本结构和语义,“学会说话”。
SFT阶段,模型会被微调在一些特定的任务上,比如问答、翻译等,让模型能够更好地完成这些任务,“按指令说话”。
RM打分,RLHF让模型对齐人类的价值观和偏好,让模型能够更好地满足用户的需求,“说人话”。

强化学习阶段

PPO

Proximal Policy Optimization是工业界最早,最稳定,但是最重的RL算法。
流程:

  1. Actor生成回答
  2. RM打分
  3. Critic评估,算优势函数
  4. PPO用Clip限制更新幅度,保证稳定性。
  5. 迭代更新,直到收敛。

优:稳定,效果好,理论成熟
缺:四套模型,训练资源消耗大,训练时间长。Critic难以训练。

DPO

Direct Preference Optimization 不使用RM,不用RL,直接用偏好进行微调。
也就是使用了一个特殊的交叉熵,让模型调高y_better的概率,调低y_worse的概率。

优:只有一个Policy模型,训练资源消耗小,训练时间短。
缺:只能用成对数据。复杂效果差

GRPO

Group Relative Policy Optimization 由DeepSeek提出,是开源模型的主流选择。它就是PPO的轻量版:去掉了Critic,保留RM,用”组内相对优势“来替代PPO中的优势函数。
流程:

  1. 组 Rollout:一个 prompt → 生成 G 个回答
  2. RM 或规则打分(如数学对 = 1,错 = 0)
  3. 组内归一化算优势:Z-score
  4. PPO-style 策略更新:Clip + KL 惩罚,但没有 Critic

优:比PPO轻一半,比DPO推理强
缺:单步计算量大(多个回答),仍需要RM