DeepSeek V3.2 Day1
【省流版】一句话总结
DeepSeek-V3.2-EXP 的核心就一句话:
用了一套叫“混合专家稀疏注意力(MLA)”的新技术,让模型在处理长文本时,不用再“死算”所有词之间的关系,而是像开小组会一样,只关注最重要的几个“专家组”的意见,从而在保证效果的同时,速度飞快,且能处理整本书级别的超长内容。
主要升级点:
- MLA: 全局稀疏,智能选择关键信息计算,极大省算力和显存。
- DWA: 局部全量,确保相邻词关系不丢失,保证理解精度。
- 效果: 更长、更快、更省、更强。
主要关注点:
- 相关股票价格:国产算力会及时跟进的
- 自有算力卡升级: MLA源码看仅支持SM90(Hopper)之后的架构,国产算力支持情况目前未知,不过应该比较乐观。目前H100/5090之类比较新的卡才支持
- 训练/推理引擎升级: 关注vllm相关升级情况,参考上面的2,支持程度不佳可能要升级算力。
【DeepSeek总结版】技术汇总说明
1. 摘要
DeepSeek-V3.2-EXP 是 DeepSeek V2 系列的重要演进版本。核心目标是在保持性能的前提下,显著降低大模型训练和推理的计算复杂度、显存占用与成本。其技术突破集中于注意力机制的革新,通过引入混合专家稀疏注意力 与动态窗口注意力,实现了在超长上下文场景下的高效建模能力。
2. 核心升级技术点详解
2.1 稀疏注意力机制的重大革新
2.1.1 MLA - 混合专家稀疏注意力
- 技术原理:
- 将 MoE 中的“专家”概念从前馈网络(FFN)拓展到注意力层。
- 将 Key 和 Value 投影到多个不同的“注意力专家”子空间中。通过路由机制,每个Token只激活并计算少数几个最相关的“注意力专家”,而非全量Key-Value对。
- 技术优势:
- 计算复杂度显著降低: 从全注意力的 O(n²) 降至约 O(n * k * d)(k为激活专家数,k<<n)。
- 显存占用减少: 无需存储巨大的 n x n 注意力矩阵。
- 容量与效率的平衡: 总参数量大(增加模型容量),但激活参数量小(保证计算效率)。
2.1.2 DWA - 动态窗口注意力
- 技术原理:
- 作为 MLA 的补充,采用“全局稀疏 + 局部稠密”策略。
- 对于每个Token,在通过MLA进行全局稀疏关注的同时,在一个动态大小的局部窗口内执行标准的稠密注意力。
- 技术优势:
- 保留局部依赖: 确保不丢失邻近Token间的关键上下文信息。
- 增强建模能力: 结合全局宏观结构与局部微观细节。
3. 升级带来的性能收益
- 极致的效率提升: 训练和推理过程对长序列的处理效率(速度、显存)得到质的飞跃。
- 强大的长上下文能力: 模型真正具备处理数十万至上百万Token超长文档的能力。
- 模型容量与质量的平衡: 在控制计算成本的同时,通过增加总参数提升了模型性能上限。
4. 总结与展望
DeepSeek-V3.2-EXP 的升级标志着模型缩放的重点从参数数量增长转向了计算路径的智能化与稀疏化。这为未来万亿参数级别模型的发展提供了明确的技术路径。