万本电子书0元读

万本电子书0元读

顶部广告

DeepSeek硬核技术解读电子书

(1)作者经验丰富:一位作者是中国知名AI企业面壁智能的前源技术社区负责人,一位作者是Meta前高级工程师和OPPO北美AI研究院的资深大模型专家。 (2)深解读DS全系列模型底层技术创新:本书解读了DeepSeek的全系列模型,包括V2、V3、R1、Coder、和Math,深挖掘DS核心技术背后的硬核创新。 (3)覆盖5大关键领域:针对DS全系列模型,深剖析模型的架构设计、数据处理、基础设施、训练策略和模型量化,构建全面的知识体系。

售       价:¥

纸质售价:¥54.40购买纸书

1人正在读 | 0人评论 6.8

作       者:刘丹,尹俊希,杨院伶

出  版  社:机械工业出版社

出版时间:2025-10-17

字       数:17.4万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
这是一本系统剖析DeepSeek系列大模型技术体系与实践路径的专著。本书立足于作者在大模型研发一线的深厚积累,结合深度学习、强化学习、分布式系统与模型优化等多领域知识,全面阐述 DeepSeek在模型架构、训练推理、基础设施及数据工程等方面的核心突破与工程实践。全书兼具理论严谨性与实践指导性,旨在帮助AI研究者、工程师和技术决策者深理解当代大模型的关键技术,掌握高效、低成本构建和部署先AI系统的方法。 本书分为两部分。 第一部分 DeepSeek学习前置知识(第1~5章)?? 从DeepSeek的模型概述和重要突破切,系统介绍经典Transformer架构、强化学习基础、大语言模型中的RLHF和量化技术,以及分布式训练的基础知识,为读者奠定坚实的理论和技术基础。 第二部分 DeepSeek核心技术(第6~11章)?? 首先,深解析DeepSeek的模型架构创新,包括 MoE、MLA与分词器设计,探讨跨模态对齐、负载均衡、基础设施优化及数据处理等关键议题,揭示其在高性能、低资源消耗背后的系统级工程实现。 然后,聚焦DeepSeek V3、VL2及源推理模型的训练逻辑、推理及优化,涵盖训练策略、超参数设计、数据构建以及Prefill、Decode等推理阶段的深度优化,为构建高效、可扩展的AI系统提供完整方法论和实战参考。 本书不仅透彻解读技术报告,更重视将前沿理论与工业实践相结合,帮助读者理解AI系统构建的本质规律与发展趋势,为学术界和工业界提供了一条清晰、可复现的高效能人工智能研发路径。<br/>【推荐语】<br/>(1)作者经验丰富:一位作者是中国知名AI企业面壁智能的前源技术社区负责人,一位作者是Meta前高级工程师和OPPO北美AI研究院的资深大模型专家。 (2)深解读DS全系列模型底层技术创新:本书解读了DeepSeek的全系列模型,包括V2、V3、R1、Coder、和Math,深挖掘DS核心技术背后的硬核创新。 (3)覆盖5大关键领域:针对DS全系列模型,深剖析模型的架构设计、数据处理、基础设施、训练策略和模型量化,构建全面的知识体系。 (4)案例丰富,注重实战:从DS的代码实现到大模型的应用实践,本书提供丰富的案例分析和内容资源,帮助读者更好地理解和应用所学内容。 (5)逻辑严谨,条理清晰:内容结构精心设计,引导读者逐步从基础概念深到高级主题,零基础的读者也能跟随书中思路,建立完整知识体系。<br/>【作者】<br/>刘丹 大模型算法专家,面壁智能源社区前技术负责人。先后在科大讯飞、面壁智能、国防科技大学等企业和高校担任算法专家和技术负责人。精通模型架构、模型训练、效率优化、前沿AI技术落地。热衷于技术布道,源的技术报告浏览量超过30万人次,在GitHub上源的项目获得了超过30k的星标(Star)。拥有丰富的军工级、重大企业级项目经验,多个重大项目央视直播。 尹俊希 大模型领域资深专家,在AI领域有多年的从业经验,在学术界和工业界均有广泛的影响力。曾任Facebook高级工程师及OPPO北美人工智能研究院研究员。精通算法设计、模型架构、模型训练及强化学习等前沿技术,尤其专注于大模型的技术探索与产业应用,近年来在该方向取得多项重要成果。<br/>
目录展开

前言

第一部分 DeepSeek学习前置知识

第1章 认识DeepSeek

1.1 DeepSeek的模型介绍

1.2 DeepSeek的重要突破

1.3 DeepSeek系列模型与其他大模型的介绍

第2章 经典Transformer架构

2.1 Transformer架构的特点

2.2 Transformer的基本原理

2.3 Transformer架构下的计算复杂度

2.4 Decoder模式下的推理与训练

2.5 绝对位置编码与相对位置编码

第3章 强化学习基础

3.1 基础概念

3.2 大语言模型中的RLHF

3.3 GRPO

3.4 大语言模型中的强化学习训练数据格式

第4章 大语言模型量化

4.1 大语言模型精度基础知识

4.2 量化基础知识

4.3 分组量化

4.4 影响量化后模型精度与速度的因素

4.5 常见的量化算法

第5章 大语言模型分布式训练基础知识

5.1 通信原语

5.2 数据并行

5.3 张量并行

5.4 流水线并行

5.5 序列并行

5.6 “专家”并行

第二部分 DeepSeek核心技术

第6章 DeepSeek的模型架构

6.1 MoE架构

6.2 MLA架构

6.3 分词器设计

6.4 DeepSeek VL2模型的原理

第7章 MoE架构负载均衡技术详解

7.1 负载均衡的意义与挑战

7.2 DeepSeek V3的负载均衡

7.3 DeepSeek V2的负载均衡

第8章 DeepSeek V3在基础设施层的优化

8.1 混合精度训练

8.2 Dualpipe

8.3 分块量化计算

第9章 数据处理与质量提升

9.1 预训练数据工程

9.2 SFT数据的构建与处理

9.3 RLHF数据进化

9.4 DeepSeek Math的数据处理

第10章 DeepSeek的训练逻辑

10.1 DeepSeek V3的训练逻辑

10.2 DeepSeek开源推理模型的训练逻辑

10.3 DeepSeek VL2的训练逻辑

第11章 DeepSeek的推理及优化

11.1 DeepSeek推理阶段的报告原文

11.2 推理阶段的综合解读

11.3 Prefill阶段的推理设计及优化

11.4 Decode阶段的推理设计及优化

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部