DeepSeekV3技术报告（免费下载）

我们推出了 DeepSeek-V3，这是⼀个强⼤的混合专家（MoE）语⾔模型，总参数为 671B，每个 token激活 37B。为了实现⾼效推理和具有成本效益的训练，DeepSeek-V3 采⽤了多头潜在注意⼒（MLA）和DeepSeekMoE 架构，这些架构在 DeepSeek-V2 中得到了充分验证。

此外，DeepSeek-V3 开创了⼀种⽆辅助损失的负载平衡策略，并设定了多 token 预测训练⽬标，以实现更强的性能。我们在 148 万亿个多样化和⾼质量的 token 上对 DeepSeek-V3 进⾏了预训练，随后进⾏了监督微调和强化学习阶段，以充分发挥其能⼒。

全⾯评估表明，DeepSeek-V3 的表现优于其他开源模型，并且其性能可与领先的闭源模型相媲美。尽管表现出⾊，DeepSeek-V3 的完整训练仅需 2.788M H800 GPU ⼩时。此外，其训练过程⾮常稳定。在整个训练过程中，我们没有经历任何不可恢复的损失峰值，也没有进⾏任何回滚。模型检查点可在