万本电子书0元读

万本电子书0元读

顶部广告

DeepSeek核心技术揭秘电子书

由一线资深技术人员编写,知识讲解清晰。内容完全围绕DeepSeek核心技术展,提炼精华。深讨论DeepSeek的源贡献,并通过LLaMA 4的技术优化对大模型的未来行了展望。

售       价:¥

纸质售价:¥61.60购买纸书

2人正在读 | 0人评论 6.3

作       者:卢菁,戴志仕

出  版  社:电子工业出版社

出版时间:2025-05-01

字       数:9.3万

所属分类: 科技 > 计算机/网络 > 多媒体/数据通信

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书深剖析DeepSeek的核心技术,介绍了提示词的原理与高级应用,对DeepSeek的模型架构、训练框架,以及MoE优化、MLA、思维、GRPO算法、奖励模型等技术细节行了探讨。此外,本书对DeepSeek给人工智能行业格局带来的影响及DeepSeek的源贡献行了分析,对大模型的未来趋势行了展望,并介绍了DeepSeek在源方面做出的贡献。 本书适合人工智能研究人员、发人员及大模型相关技术爱好者阅读,也为关注人工智能领域技术发展的从业人员提供了参考与借鉴。<br/>【推荐语】<br/>由一线资深技术人员编写,知识讲解清晰。内容完全围绕DeepSeek核心技术展,提炼精华。深讨论DeepSeek的源贡献,并通过LLaMA 4的技术优化对大模型的未来行了展望。<br/>【作者】<br/>卢菁  北京科技大学博士,北京大学博士后,B站、视频号优秀科技博主。曾任职于腾讯、爱奇艺等知名互联网公司,前腾讯AI内训讲师,主要从事人工智能技术的应用和研发工作,主要研究方向为大模型、多模态、自然语言处理、知识图谱、推荐系统等。著有《速通机器学习》《速通深度学习数学基础》。 戴志仕  资深AI架构师,“寒武纪人工智能”公众号的创立者。2024年CCF国际AIOps挑战赛优秀奖获得者。拥有十余年人工智能算法研究和产业落地经验,成功实施过多个人工智能项目。<br/>
目录展开

内容简介

前言

第1章 技惊四座的DeepSeek

1.1 石破天惊的产品发布

1.2 DeepSeek-V3和DeepSeek-R1可以做什么

1.3 DeepSeek-V3的技术突破与创新

1.3.1 架构创新

1.3.2 训练优化

1.3.3 推理与部署优化

1.3.4 效果的全面提升

1.4 DeepSeek-R系列的技术突破与创新

1.4.1 DeepSeek-R1-Zero的技术突破与创新

1.4.2 DeepSeek-R1的技术突破与创新

1.4.3 推理能力的提升

1.5 DeepSeek发布的模型家族

1.5.1 通用语言大模型

1.5.2 多模态大模型

1.5.3 代码大模型

1.5.4 数学推理大模型

1.5.5 混合专家模型

1.5.6 MoE专用微调模型

1.5.7 基于LLaMA架构的模型

第2章 提示词的原理与应用

2.1 推理模型与通用模型

2.2 提示工程

2.2.1 提示词的类型

2.2.2 提示词的基本元素

2.2.3 有效的提示词

2.2.4 正确地表达需求

2.3 提示词高级技巧:提示词链

2.3.1 提示词链的设计过程

2.3.2 提示词链的应用案例

第3章 DeepSeek-V3技术剖析

3.1 DeepSeek的模型架构

3.1.1 MoE的起源与发展

3.1.2 DeepSeek-V3的MoE优化

3.1.3 DeepSeek-V3的MoE架构的优势

3.1.4 DeepSeek-V3的MLA

3.1.5 DeepSeek-V3的MTP

3.2 DeepSeek的训练框架

3.2.1 常见的并行策略

3.2.2 DeepSeek的并行策略

3.2.3 DeepSeek的FP8混合精度训练

3.3 DeepSeek的推理阶段优化

3.3.1 PD分离架构

3.3.2 DeepSeek的预填充阶段优化

3.3.3 DeepSeek的解码阶段优化

3.4 DeepSeek的后训练优化

3.5 小结

第4章 DeepSeek-R1技术剖析

4.1 预备知识

4.1.1 思维链

4.1.2 有监督微调

4.1.3 强化学习

4.2 DeepSeek对训练推理模型的探索

4.3 DeepSeek-R1-Zero的训练

4.3.1 GRPO算法

4.3.2 奖励模型

4.4 DeepSeek-R1的训练

4.4.1 阶段一训练

4.4.2 阶段二训练

4.4.3 推理能力的蒸馏

4.5 小结

第5章 DeepSeek的影响与成功启示

5.1 DeepSeek对AI格局的影响

5.1.1 打破硬件依赖的迷思

5.1.2 对英伟达CUDA护城河的冲击

5.1.3 对大模型技术路线的重新思考

5.1.4 投资风向的改变

5.1.5 对商业模式的冲击

5.1.6 对创新文化的冲击

5.1.7 对地缘政治的冲击

5.2 DeepSeek的成功启示

5.2.1 领导者的技术直觉

5.2.2 长期主义

5.2.3 极致的工程优化

5.2.4 对资源的高效利用

5.2.5 团队的创新文化

第6章 DeepSeek开源技术剖析

6.1 DeepSeek的“开源周”

6.2 FlashMLA:减少显存消耗

6.2.1 项目特点

6.2.2 应用场景

6.2.3 技术剖析

6.2.4 影响与展望

6.3 DeepEP:通信系统的优化

6.3.1 项目特点

6.3.2 应用场景

6.3.3 技术剖析

6.3.4 影响与展望

6.4 DeepGEMM:让矩阵乘法起飞

6.4.1 项目特点

6.4.2 应用场景

6.4.3 技术剖析

6.4.4 影响与展望

6.5 DualPipe与EPLB:集群并行计算优化

6.5.1 项目特点

6.5.2 技术剖析

6.5.3 影响与展望

6.6 3FS:为AI加速

6.6.1 项目特点

6.6.2 应用场景

6.6.3 技术剖析

6.6.4 影响与展望

第7章 大模型未来发展展望

7.1 MoE的未来

7.1.1 专家数量与规模的优化

7.1.2 MoE分布式训练工具进一步完善

7.1.3 门控算法的改进

7.1.4 跨领域应用与融合

7.2 MLA的未来

7.3 大模型训练方法的发展趋势

7.3.1 三阶段训练法的普及

7.3.2 混合精度训练的推广

7.3.3 并行策略的优化

7.4 推理部署的发展趋势

7.4.1 PD分离模式的普及

7.4.2 集群化推理的优化与推理加速技术研究

7.5 GPU硬件的未来发展

7.5.1 软硬件协同升级

7.5.2 存储与通信能力的优化

7.5.3 低精度计算的支持

7.5.4 异构计算的支持

7.6 从LLaMA 4看推理模型的发展

7.6.1 LLaMA 4简介

7.6.2 LLaMA 4的核心技术细节

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部