(1)作者经验丰富:一位作者是中国知名AI企业面壁智能的前源技术社区负责人,一位作者是Meta前高级工程师和OPPO北美AI研究院的资深大模型专家。 (2)深解读DS全系列模型底层技术创新:本书解读了DeepSeek的全系列模型,包括V2、V3、R1、Coder、和Math,深挖掘DS核心技术背后的硬核创新。 (3)覆盖5大关键领域:针对DS全系列模型,深剖析模型的架构设计、数据处理、基础设施、训练策略和模型量化,构建全面的知识体系。
售 价:¥
纸质售价:¥54.40购买纸书
6.8
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

前言
第一部分 DeepSeek学习前置知识
第1章 认识DeepSeek
1.1 DeepSeek的模型介绍
1.2 DeepSeek的重要突破
1.3 DeepSeek系列模型与其他大模型的介绍
第2章 经典Transformer架构
2.1 Transformer架构的特点
2.2 Transformer的基本原理
2.3 Transformer架构下的计算复杂度
2.4 Decoder模式下的推理与训练
2.5 绝对位置编码与相对位置编码
第3章 强化学习基础
3.1 基础概念
3.2 大语言模型中的RLHF
3.3 GRPO
3.4 大语言模型中的强化学习训练数据格式
第4章 大语言模型量化
4.1 大语言模型精度基础知识
4.2 量化基础知识
4.3 分组量化
4.4 影响量化后模型精度与速度的因素
4.5 常见的量化算法
第5章 大语言模型分布式训练基础知识
5.1 通信原语
5.2 数据并行
5.3 张量并行
5.4 流水线并行
5.5 序列并行
5.6 “专家”并行
第二部分 DeepSeek核心技术
第6章 DeepSeek的模型架构
6.1 MoE架构
6.2 MLA架构
6.3 分词器设计
6.4 DeepSeek VL2模型的原理
第7章 MoE架构负载均衡技术详解
7.1 负载均衡的意义与挑战
7.2 DeepSeek V3的负载均衡
7.3 DeepSeek V2的负载均衡
第8章 DeepSeek V3在基础设施层的优化
8.1 混合精度训练
8.2 Dualpipe
8.3 分块量化计算
第9章 数据处理与质量提升
9.1 预训练数据工程
9.2 SFT数据的构建与处理
9.3 RLHF数据进化
9.4 DeepSeek Math的数据处理
第10章 DeepSeek的训练逻辑
10.1 DeepSeek V3的训练逻辑
10.2 DeepSeek开源推理模型的训练逻辑
10.3 DeepSeek VL2的训练逻辑
第11章 DeepSeek的推理及优化
11.1 DeepSeek推理阶段的报告原文
11.2 推理阶段的综合解读
11.3 Prefill阶段的推理设计及优化
11.4 Decode阶段的推理设计及优化
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜