LLM的诞生

主要记录一下LLM从一个 Transformer 架构到 GPT 这种语言模型的训练过程。

标准流程

Pretraining（预训练）
Supervised Fine-tuning（监督微调）
Reward Modeling（奖励建模）
Reinforcement Learning with Human Feedback（RLHF 人类反馈的强化学习）

pretraining阶段，模型会被训练在一个大规模的文本数据集上，学习语言的基本结构和语义,“学会说话”。
SFT阶段，模型会被微调在一些特定的任务上，比如问答、翻译等，让模型能够更好地完成这些任务，“按指令说话”。
RM打分，RLHF让模型对齐人类的价值观和偏好，让模型能够更好地满足用户的需求，“说人话”。

强化学习阶段

PPO

Proximal Policy Optimization是工业界最早，最稳定，但是最重的RL算法。
流程：

Actor生成回答
RM打分
Critic评估，算优势函数
PPO用Clip限制更新幅度，保证稳定性。
迭代更新，直到收敛。

优：稳定，效果好，理论成熟
缺：四套模型，训练资源消耗大，训练时间长。Critic难以训练。

DPO

Direct Preference Optimization 不使用RM，不用RL，直接用偏好进行微调。
也就是使用了一个特殊的交叉熵，让模型调高y_better的概率，调低y_worse的概率。

优：只有一个Policy模型，训练资源消耗小，训练时间短。
缺：只能用成对数据。复杂效果差

GRPO

Group Relative Policy Optimization 由DeepSeek提出，是开源模型的主流选择。它就是PPO的轻量版：去掉了Critic，保留RM，用”组内相对优势“来替代PPO中的优势函数。
流程：

组 Rollout：一个 prompt → 生成 G 个回答
RM 或规则打分（如数学对 = 1，错 = 0）
组内归一化算优势：Z-score
PPO-style 策略更新：Clip + KL 惩罚，但没有 Critic

优：比PPO轻一半，比DPO推理强
缺：单步计算量大（多个回答），仍需要RM