为你推荐

内容简介
前言
第1章 技惊四座的DeepSeek
1.1 石破天惊的产品发布
1.2 DeepSeek-V3和DeepSeek-R1可以做什么
1.3 DeepSeek-V3的技术突破与创新
1.3.1 架构创新
1.3.2 训练优化
1.3.3 推理与部署优化
1.3.4 效果的全面提升
1.4 DeepSeek-R系列的技术突破与创新
1.4.1 DeepSeek-R1-Zero的技术突破与创新
1.4.2 DeepSeek-R1的技术突破与创新
1.4.3 推理能力的提升
1.5 DeepSeek发布的模型家族
1.5.1 通用语言大模型
1.5.2 多模态大模型
1.5.3 代码大模型
1.5.4 数学推理大模型
1.5.5 混合专家模型
1.5.6 MoE专用微调模型
1.5.7 基于LLaMA架构的模型
第2章 提示词的原理与应用
2.1 推理模型与通用模型
2.2 提示工程
2.2.1 提示词的类型
2.2.2 提示词的基本元素
2.2.3 有效的提示词
2.2.4 正确地表达需求
2.3 提示词高级技巧:提示词链
2.3.1 提示词链的设计过程
2.3.2 提示词链的应用案例
第3章 DeepSeek-V3技术剖析
3.1 DeepSeek的模型架构
3.1.1 MoE的起源与发展
3.1.2 DeepSeek-V3的MoE优化
3.1.3 DeepSeek-V3的MoE架构的优势
3.1.4 DeepSeek-V3的MLA
3.1.5 DeepSeek-V3的MTP
3.2 DeepSeek的训练框架
3.2.1 常见的并行策略
3.2.2 DeepSeek的并行策略
3.2.3 DeepSeek的FP8混合精度训练
3.3 DeepSeek的推理阶段优化
3.3.1 PD分离架构
3.3.2 DeepSeek的预填充阶段优化
3.3.3 DeepSeek的解码阶段优化
3.4 DeepSeek的后训练优化
3.5 小结
第4章 DeepSeek-R1技术剖析
4.1 预备知识
4.1.1 思维链
4.1.2 有监督微调
4.1.3 强化学习
4.2 DeepSeek对训练推理模型的探索
4.3 DeepSeek-R1-Zero的训练
4.3.1 GRPO算法
4.3.2 奖励模型
4.4 DeepSeek-R1的训练
4.4.1 阶段一训练
4.4.2 阶段二训练
4.4.3 推理能力的蒸馏
4.5 小结
第5章 DeepSeek的影响与成功启示
5.1 DeepSeek对AI格局的影响
5.1.1 打破硬件依赖的迷思
5.1.2 对英伟达CUDA护城河的冲击
5.1.3 对大模型技术路线的重新思考
5.1.4 投资风向的改变
5.1.5 对商业模式的冲击
5.1.6 对创新文化的冲击
5.1.7 对地缘政治的冲击
5.2 DeepSeek的成功启示
5.2.1 领导者的技术直觉
5.2.2 长期主义
5.2.3 极致的工程优化
5.2.4 对资源的高效利用
5.2.5 团队的创新文化
第6章 DeepSeek开源技术剖析
6.1 DeepSeek的“开源周”
6.2 FlashMLA:减少显存消耗
6.2.1 项目特点
6.2.2 应用场景
6.2.3 技术剖析
6.2.4 影响与展望
6.3 DeepEP:通信系统的优化
6.3.1 项目特点
6.3.2 应用场景
6.3.3 技术剖析
6.3.4 影响与展望
6.4 DeepGEMM:让矩阵乘法起飞
6.4.1 项目特点
6.4.2 应用场景
6.4.3 技术剖析
6.4.4 影响与展望
6.5 DualPipe与EPLB:集群并行计算优化
6.5.1 项目特点
6.5.2 技术剖析
6.5.3 影响与展望
6.6 3FS:为AI加速
6.6.1 项目特点
6.6.2 应用场景
6.6.3 技术剖析
6.6.4 影响与展望
第7章 大模型未来发展展望
7.1 MoE的未来
7.1.1 专家数量与规模的优化
7.1.2 MoE分布式训练工具进一步完善
7.1.3 门控算法的改进
7.1.4 跨领域应用与融合
7.2 MLA的未来
7.3 大模型训练方法的发展趋势
7.3.1 三阶段训练法的普及
7.3.2 混合精度训练的推广
7.3.3 并行策略的优化
7.4 推理部署的发展趋势
7.4.1 PD分离模式的普及
7.4.2 集群化推理的优化与推理加速技术研究
7.5 GPU硬件的未来发展
7.5.1 软硬件协同升级
7.5.2 存储与通信能力的优化
7.5.3 低精度计算的支持
7.5.4 异构计算的支持
7.6 从LLaMA 4看推理模型的发展
7.6.1 LLaMA 4简介
7.6.2 LLaMA 4的核心技术细节
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜