1.【短小精悍】2小时搞懂DeepSeek底层技术 2.【通俗图解】近120幅全彩插图通俗解读,不枯燥 3.【内容系统】从推理模型原理到DeepSeek-R1训练 4.【作者资深】大模型领域知名专家Jay & Maarten作品 5.【图解系列】袋鼠书《图解大模型》同系列,广受欢迎
售 价:¥
纸质售价:¥46.60购买纸书
6.4
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

译者序
关于推理大模型
关于 DeepSeek-R1
前言
第 1 章 测试时计算
1.1 什么是推理大模型
1.2 什么是训练时计算
缩放定律
1.3 什么是测试时计算
1.3.1 缩放定律
1.3.2 测试时计算的分类
1.4 基于验证器的搜索
1.4.1 多数投票法
1.4.2 Best-of-N 采样
1.4.3 基于过程奖励模型的束搜索
1.4.4 蒙特卡洛树搜索
1.5 调整提议分布
1.5.1 提示工程
1.5.2 STaR 方法
1.6 小结
1.7 延伸阅读
第 2 章 架构设计
2.1 稠密层
2.2 MoE 层
2.2.1 专家机制
2.2.2 路由机制
2.2.3 DeepSeekMoE
2.3 小结
第 3 章 DeepSeek-R1 训练方案
3.1 回顾:大模型的训练原理
3.2 DeepSeek-R1-Zero 的推理能力
3.2.1 示例:推理问题的自动验证
3.2.2 DeepSeek-R1-Zero 的完整训练过程
3.3 DeepSeek-V3 的效率优化策略
3.3.1 多头潜在注意力机制
3.3.2 混合精度训练
3.3.3 多词元预测
3.4 构建 DeepSeek-R1
3.5 通过 DeepSeek-R1 蒸馏推理能力
3.6 未成功的尝试
3.7 基于 GRPO 的强化学习
3.7.1 奖励值与优势值
3.7.2 KL 散度惩罚项
3.7.3 GRPO 目标函数
3.7.4 GRPO 算法
3.7.5 GRPO 参考实现
3.8 小结
附录 DeepSeek 开源周
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜