《GPGPU深度学习与大语言模型实战》以壁仞GPGPU为核心,系统贯通深度学习、大语言模型与科学计算的全栈技术,兼具严谨理论推导与芯片级优化实践。本书独特聚焦国产GPU 技术和算力生态,理论与实践并重,产业学术融合,为AI开发者提供从算法设计到硬件加速的端到端解决方案,赋能国产AI生态与人才培养,是拥抱智能计算时代的实战指南。
售 价:¥
6.6
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

内容简介
前言
第1章 数学与机器学习基础
1.1 线性代数
1.1.1 标量、向量、矩阵与张量
1.1.2 向量与矩阵的基本性质和运算
1.1.3 链式法则
1.2 概率论与数理统计
1.2.1 概率与常用分布
1.2.2 抽样方法
1.2.3 参数估计
1.3 数值最优化方法
1.3.1 最优化问题
1.3.2 梯度下降法与牛顿型方法
1.4 统计学习方法
1.4.1 多层感知机
1.4.2 决策树
1.4.3 贝叶斯分类器
1.4.4 支持向量机
1.4.5 集成算法
1.4.6 隐马尔可夫模型
1.5 深度学习方法
1.5.1 人工神经网络
1.5.2 卷积神经网络
1.5.3 神经架构搜索
参考文献
第2章 BIRENSUPA编程模型
2.1 从CPU到GPU
2.1.1 CPU
2.1.2 GPU
2.1.3 GPGPU
2.1.4 GPU与CPU工作原理的区别
2.2BIRENSUPA概述
2.2.1 BRCC
2.2.2 BRCC编译示例
2.3 硬件平台抽象
2.4 核函数
2.5 超大核函数
2.5.1 共享内存差异
2.5.2 线程同步方式差异
2.6 线程层次结构
2.6.1 线程块与线程网格
2.6.2 线程层次映射函数
2.7 内存层次结构
2.8 异构编程
2.9 基本存储系统
2.9.1 统一虚拟寻址
2.9.2 分配设备内存
2.9.3 分配主机内存
2.9.4 内存拷贝
2.10 UMA和NUMA存储类型
2.10.1 内存布局
2.10.2 不同UMA架构类型
2.10.3 UMA多设备存储
2.10.4 NUMA内存API
2.11 张量模式
2.11.1 张量类型
2.11.2 张量主机端函数
2.11.3 张量设备端函数
2.12 流和事件编程
2.12.1 创建和销毁流
2.12.2 默认流
2.12.3 事件
2.12.4 流中的显式同步
2.12.5 流中的隐式同步
2.12.6 流中的主机函数回调
2.12.7 流的优先级
2.12.8 流和事件的约束
2.12.9 改变流的SPC掩码
2.13 BIRENSUPA任务图
2.13.1 任务图节点类型
2.13.2 使用节点API创建任务图
2.14 协作组
2.14.1 基本线程组同步和线程束级数据交换
2.14.2 用户自定义线程组
2.14.3 线程块组
2.14.4 分块(线程束和子线程束)组
2.14.5 合并组
2.14.6 线程网格组
2.15 多GPU编程
2.15.1 壁仞多设备拓扑结构
2.15.2 多设备编程基础
第3章 深度学习框架
3.1 训练框架BR_PyTorch
3.1.1 PyTorch训练流程简介
3.1.2 壁仞PyTorch插件
3.1.3 快速使用BR_PyTorch
3.1.4 BR_PyTorch性能分析工具
3.1.5 BR_PyTorch分布式训练
3.2 分布式训练框架Megatron-LM
3.2.1 Megatron-LM简介
3.2.2 分布式训练策略
3.2.3 壁仞Megatron-LM插件
3.3 推理框架suInfer-LLM
3.3.1 大语言模型推理介绍
3.3.2 suInfer-LLM简介
3.3.3 suInfer-LLM架构及使用方法
3.4 推理框架
3.4.1 vLLM介绍
3.4.2 核心技术和原理
3.4.3 性能表现
3.4.4 适配原理
3.4.5 使用方法
参考文献
第4章 传统计算机视觉与自然语言处理
4.1 图像分类
4.1.1 背景介绍
4.1.2 基于传统方法的图像分类
4.1.3 基于深度学习的图像分类
4.1.4 图像分类子任务
4.1.5 EfficientNetV2模型训练
4.2 目标检测
4.2.1 背景介绍
4.2.2 基于手工特征的目标检测
4.2.3 基于深度学习的目标检测
4.2.4 目标检测中的难点及最新进展
4.2.5 目标检测的挑战
4.2.6 YOLOv8模型训练
4.3 自然语言处理
4.3.1 背景介绍
4.3.2 研究内容
4.3.3 自然语言处理的基本范式
4.3.4 分词和词嵌入
4.3.5 循环神经网络和其他序列模型
4.3.6 BERT模型训练
参考文献
第5章 大语言模型
5.1 LLM发展历程
5.2 扩展定律简介
5.3 LLM构建
5.3.1 LLM结构
5.3.2 LLM组件
5.4 LLM训练
5.4.1 训练数据集
5.4.2 模型概述及组网
5.4.3 模型训练
5.4.4 精度数据分析
5.5 LLM推理
5.5.1 环境配置
5.5.2 模型准备
5.5.3 模型导出
5.5.4 模型推理
参考文献
第6章 视觉语言模型
6.1 ViT技术介绍
6.1.1 图像嵌入
6.1.2 Transformer模型
6.2 对比学习与跨模态理解
6.2.1 CLIP训练和推理
6.2.2 CLIP优缺点
6.3 LLaVA
6.3.1 训练数据集
6.3.2 模型结构
6.3.3 训练方法
6.3.4 LLaVA-1.5
6.4 VLM训练
6.4.1 微调数据集
6.4.2 模型结构及组网
6.4.3 训练集群及分布式策略
6.4.4 启动命令及输出日志
参考文献
第7章 混合专家模型
7.1 MoE发展简介
7.2 MoE训练优化
7.2.1 词元负载均衡
7.2.2 专家并行化
7.3 DeepSeek-V3
7.3.1 模型结构
7.3.2 基础设施及框架
7.4 MoE模型训练
7.4.1 训练数据集
7.4.2 模型概述及组网
7.4.3 训练
参考文献
第8章 科学计算与AI
8.1 物理导引神经网络模型
8.1.1 背景介绍
8.1.2 伯格斯方程
8.1.3 PyTorch自动微分求解伯格斯方程
8.1.4 BIRENSUPA反向求解伯格斯方程
8.1.5 流体自由面模拟
8.2 量子计算电路模拟器
8.2.1 量子计算背景
8.2.2 经典量子混合算法
8.2.3 适配量子AI计算软件框架
8.3 有限差分法求解微分方程
8.3.1 热传导问题:二维笛卡儿坐标系扩散方程
8.3.2 热传导问题的有限差分法求解
8.3.3 使用壁仞GPGPU的热传导方程有限差分法求解
参考文献
附录 缩略语表
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜