(1)权威专家执笔:三位博士20余年GPU研发经验倾囊相授。(2)系统知识体系:从基础概念到高级主题,层层递进全覆盖。(3)实战导向教学:丰富代码示例,沐曦GPU平台全流程实战。(4)国产技术聚焦 : 详解MXMACA编程语言,掌握自主可控算力工具。(5)多场景适用:高校教材、自学参考、工程师案头手册三合一。(6)前沿领域覆盖: 赋能AI、大数据、科学计算等热门方向。(7)性能优化秘籍 :内存管理到加速技巧,解锁算力*性能。
售 价:¥
纸质售价:¥96.00购买纸书
6.7
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

内容简介
前言
序一
序二
序三
序四
序五
序六
序七
序八
自序
第1章 GPU并行计算导论
1.1 基本概念
1.1.1 CPU、GPU与众核
1.1.2 串行计算和并行计算
1.1.3 CPU进程、线程
1.1.4 GPU线程、线程束、线程块和核函数
1.1.5 GPU全局存储和共享存储
1.1.6 全局动态内存的对齐访问和合并访问
1.1.7 同构系统和异构系统
1.1.8 共享内存架构和分布式内存架构
1.1.9 共享存储架构和分布式存储架构
1.1.10 MPI和OpenMP
1.1.11 CUDA、MXMACA和OpenCL
1.1.12 科学计算与智能计算
1.2 并行计算体系架构
1.3 GPU简介
1.4 GPU第一波浪潮:可视化计算
1.5 GPU第二波浪潮:科学计算
1.6 GPU第三波浪潮:虚拟货币
1.7 GPU第四波浪潮:人工智能
1.8 MXMACA并行编程模型
1.9 后摩尔时代的挑战及机遇
1.10 本章小结
第2章 并行归约算法实现及优化
2.1 背景介绍
2.1.1 归约及应用场景
2.1.2 相关研究
2.1.3 并行归约设计思路
2.1.4 并行归约朴素实现:相邻配对
2.2 并行归约优化
2.2.1 优化一:消除线程束分化
2.2.2 优化二:消除Bank冲突
2.2.3 优化三:加载时计算
2.2.4 优化四:循环展开
2.2.5 优化五:完全循环展开
2.2.6 优化六:单线程多次加法
2.3 本章小结
第3章 基础算法优化
3.1 CPU、GPU计时函数
3.2 BLAS axpy优化
3.2.1 axpy实现方案一
3.2.2 axpy实现方案二
3.2.3 axpy实现方案三
3.2.4 测试结果
3.3 随机数生成器优化
3.3.1 随机数生成器
3.3.2 随机数生成器测试结果
3.3.3 典型应用:计算Pi
3.4 前缀求和优化
3.4.1 背景
3.4.2 基本实现
3.4.3 ScanPostKernel优化
3.4.4 ScanSegSumKernel优化
3.4.5 BlellochScan优化
3.5 本章小结
第4章 GEMM优化
4.1 矩阵乘法的性能建模与优化
4.2 矩阵乘法的问题描述
4.2.1 问题的数学描述
4.2.2 BLAS:基础线性代数子程序库与SGEMM详解
4.2.3 内存布局
4.2.4 BLAS接口的设计
4.2.5 为什么需要深入理解GEMM
4.3 简单矩阵乘法:三重循环
4.3.1 从CPU到GPU的思维转变
4.3.2 GPU并行化思路
4.3.3 MACA实现解析
4.3.4 内核启动配置与线程组织
4.3.5 性能分析
4.4 内存聚合(Memory Coalescing)
4.4.1 内存聚合—GPU内存访问的“团购”模式
4.4.2 优化实战—重新设计线程映射
4.4.3 一种巧妙的方案
4.5 分块矩阵乘法与屋檐模型
4.5.1 屋檐模型:性能的“天花板”
4.5.2 屋檐模型与性能诊断
4.5.3 分块矩阵乘法提高计算访存比
4.6 层次化分块矩阵乘法与层次化屋檐模型
4.6.1 新的瓶颈:共享内存带宽
4.6.2 层次化屋檐模型
4.6.3 矩阵乘法优化的“最后一公里”:线程级分块
4.7 内积还是外积?交给编译器优化
4.7.1 内积与外积的较量
4.7.2 理想与现实的差距
4.7.3 启示与思考
4.8 深入理解GPU共享内存冲突与优化方案
4.8.1 理解GPU共享内存的组织方式
4.8.2 哪里会产生Bank冲突
4.8.3 如何解决这个问题
4.8.4 如何选择优化方案
4.9 本章小结
第5章 FFT算法优化
5.1 背景介绍
5.2 国内外相关研究
5.3 基本实现方式
5.3.1 基于Cooley-Tukey算法的CPU实现
5.3.2 基于Cooley-Tukey算法的GPU实现
5.4 性能优化
5.4.1 蝶形变换优化
5.4.2 访存优化
5.5 本章小结
第6章 Laplace方程求解优化
6.1 Laplace方程推导及求解
6.1.1 Laplace方程的推导
6.1.2 三类边界条件
6.1.3 Laplace方程的数值求解
6.2 热传导Laplace方程求解CPU版本实现
6.3 热传导Laplace方程求解GPU版本实现
6.3.1 算法并行化—红黑排序
6.3.2 GPU版本实现
6.4 GPU版本优化—合并访存优化
6.5 GPU版本优化—残差共享内存优化
6.6 GPU版本优化—原子操作指令优化
6.7 本章小结
第7章 加/解密算法优化
7.1 背景介绍
7.2 国内外研究现状
7.3 AES加密算法优化
7.3.1 AES加密算法简介
7.3.2 AES加密算法的CPU版本实现
7.3.3 AES加密算法的GPU版本实现及优化
7.3.4 实验结果与测试
7.4 MD5加/解密算法的实现与优化
7.4.1 MD5加密算法简介
7.4.2 MD5加密算法的CPU版本实现
7.4.3 MD5解密算法的CPU版本实现
7.4.4 MD5解密算法的GPU版本实现及优化
7.4.5 测试结果
7.5 SHA-256加密算法的实现与优化
7.5.1 SHA-256加密算法简介
7.5.2 SHA-256加密算法的CPU版本实现
7.5.3 SHA-256加密算法的GPU版本实现及优化
7.5.4 测试结果
7.6 本章小结
第8章 MXMACA程序优化
8.1 人工智能、机器学习和深度学习
8.2 人工智能历史
8.2.1 前智能时代(1955年及以前)
8.2.2 人工智能第一波浪潮(1956—1973年)
8.2.3 人工智能第二波浪潮(1980—1987年)
8.2.4 人工智能第三波浪潮(1993—2011年)
8.2.5 人工智能第四波浪潮(2012年至今)
8.3 Darknet及典型深度学习模型YOLO
8.4 图像矩阵列转换
8.5 BLAS:基础线性代数子程序库
8.6 池化
8.7 批量归一化
8.8 激活
8.9 卷积
8.10 测试结果
8.11 本章小结
第9章 粒子输运模拟优化
9.1 背景介绍
9.2 理论基础
9.3 三维确定性结构化网格粒子输运模拟优化
9.3.1 异构协同并行算法
9.3.2 基本的线程级并行扫描
9.3.3 源项计算
9.3.4 Sn递归方程求解
9.3.5 其他过程
9.3.6 并行度分析及并行模型映射
9.3.7 测试结果
9.4 二维确定性非结构化网格粒子输运模拟优化
9.4.1 预扫描算法
9.4.2 非结构化网格通量扫描并行度分析
9.4.3 并行通量扫描及模型映射
9.4.4 性能优化
9.4.5 测试结果
9.5 本章小结
第10章 稀疏线性系统求解优化
10.1 背景介绍
10.2 国内外研究现状
10.3 SPMV算法优化
10.3.1 SPMV简介
10.3.2 稀疏矩阵存储格式
10.3.3 CPU版本SPMV算法实现
10.3.4 GPU版本SPMV算法实现
10.3.5 测试结果
10.4 CG算法优化
10.4.1 CG算法基本过程
10.4.2 CG算法CPU版本
10.4.3 CG算法GPU版本
10.4.4 测试结果
10.5 本章小结
第11章 高性能图计算优化
11.1 背景介绍
11.1.1 大数据时代图计算
11.1.2 图计算框架
11.2 国内外研究现状
11.2.1 基于CPU的图计算框架
11.2.2 基于GPU的图计算框架
11.2.3 总结
11.3 基于稀疏矩阵乘法的图计算框架设计及优化
11.3.1 图的定义及存储结构
11.3.2 框架设计
11.3.3 性能优化策略
11.4 算法应用与测试
11.4.1 算法应用
11.4.2 测试结果
11.5 本章小结
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜