《大模型核心技术与发实践:基于Transformer、PyTorch与Hugging Face》一书以Transformer模型为核心,系统讲解其架构设计与实现原理,并结合PyTorch和Hugging Face库深剖析大模型发全流程。全书内容由浅深,讲解通俗易懂,涵盖理论知识与应用实践,共12章,具体介绍如下: 第1-3章 从Transformer编码器-解码器结构、自注意力机制等核心原理手,配合PyTorch代码示例,帮助读者夯实模型搭建基础;
售 价:¥
纸质售价:¥99.00购买纸书
6.5
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

封面页
书名页
版权页
作者简介
内容简介
前言
本书源码下载
目录
第1章 Transformer与PyTorch的集成应用概述
1.1 大模型与Transformer的技术背景
1.1.1 自注意力机制的原理与实现细节
1.1.2 多层堆叠与残差连接:Transformer的高效信息流
1.2 PyTorch的应用场景与技术特点
1.2.1 动态图计算与自动微分机制
1.2.2 GPU加速与多设备支持
1.3 快速上手:使用PyTorch实现一个简单的Transformer模型
1.3.1 Transformer编码器的基础实现与训练流程
1.3.2 解码器与完整Transformer模型的拼接与测试
1.4 本章小结
1.5 思考题
第2章 Transformer编码器与解码器的原理与实现
2.1 Transformer编码器与解码器结构分析
2.1.1 位置编码的设计与实现
2.1.2 多头注意力与前馈层的层次关系
2.2 基于PyTorch实现编码器-解码器架构
2.2.1 多头注意力模块的独立实现与测试
2.2.2 残差连接与层归一化的模块化实现
2.3 Transformer的编码解码过程
2.3.1 编码器多层堆叠与信息流动的实现
2.3.2 解码器自回归生成过程的实现与可视化
2.3.3 基于文本的Transformer实例:逐步打印编码解码过程
2.4 编码器和解码器的双向训练流程
2.4.1 编码器与解码器的联合训练策略
2.4.2 掩码机制在双向训练中的应用
2.5 本章小结
2.6 思考题
第3章 注意力机制与多头注意力的实现
3.1 注意力机制的基础与实现原理
3.1.1 点积注意力与缩放机制
3.1.2 注意力权重的归一化与Softmax函数应用
3.2 多头注意力的设计与实现细节
3.2.1 多头分组与并行计算策略
3.2.2 多头注意力的拼接与线性变换
3.3 使用PyTorch实现多头注意力并进行可视化
3.3.1 注意力矩阵的生成与可视化
3.3.2 不同头注意力分布的可视化分析
3.4 多头注意力权重的提取与应用
3.4.1 多头注意力权重提取与解读:理解模型的关注点
3.4.2 多头注意力权重的优化与调控
3.5 本章小结
3.6 思考题
第4章 Hugging Face Transformers库的应用
4.1 Transformer模型的加载与配置
4.1.1 预训练模型的加载与管理
4.1.2 模型配置自定义与参数调整
4.2 使用Hugging Face库进行模型训练与推理
4.2.1 模型训练数据的预处理与标注
4.2.2 训练过程中的参数优化与监控
4.3 Hugging Face生态系统的其他工具介绍
4.3.1 Tokenizer的自定义与高效分词方法
4.3.2 Dataset和Pipeline工具的集成应用
4.4 自定义Hugging Face的模型训练流程
4.4.1 自定义训练循环与评估指标
4.4.2 迁移学习与微调:从预训练到特定任务
4.5 本章小结
4.6 思考题
第5章 数据预处理与文本分词技术
5.1 文本数据的清洗与标准化
5.1.1 特殊字符和标点的处理
5.1.2 停用词去除与大小写规范化
5.2 分词方法及其在不同模型中的应用
5.2.1 词级分词与子词分词
5.2.2 BPE与WordPiece分词算法的实现原理
5.3 使用PyTorch和Hugging Face进行分词与词嵌入
5.3.1 基于Hugging Face Tokenizer的高效分词
5.3.2 Embedding层的定义与词嵌入矩阵的初始化
5.4 动态分词与序列截断技术
5.4.1 处理变长文本输入
5.4.2 长序列的截断与填充
5.4.3 综合案例:文本清洗、分词、词嵌入与动态填充
5.5 本章小结
5.6 思考题
第6章 模型微调与迁移学习
6.1 微调与迁移学习的基本概念与方法
6.1.1 迁移学习的体系结构:模型的选择与适配
6.1.2 全参数微调与部分参数微调的优缺点
6.2 使用预训练模型进行领域微调
6.2.1 领域特定数据的预处理与加载
6.2.2 调节学习率与损失函数
6.3 微调策略与优化技巧:冻结层、增量训练等
6.3.1 冻结模型层的选择与解冻
6.3.2 增量训练中的数据选择与样本权重分配
6.4 增量学习:如何在新数据上继续微调
6.4.1 基于新数据的微调策略:避免灾难性遗忘
6.4.2 使用正则化与约束技术保持原模型性能
6.4.3 综合案例:增量学习中的微调策略与优化
6.5 本章小结
6.6 思考题
第7章 文本生成与推理技术
7.1 文本生成方法概述:Beam Search、Top-K与Top-P采样
7.1.1 Beam Search的多路径生成与评估
7.1.2 Top-K采样的限制与稀疏性控制
7.1.3 Top-P采样的自适应概率截断机制
7.2 文本生成模型的应用实例
7.2.1 使用预训练语言模型生成长篇文本
7.2.2 生成多轮对话的上下文保持与管理
7.2.3 引导生成特定情绪的文本
7.3 生成模型的实现与优化
7.3.1 使用PyTorch和Transformers库实现生成模型
7.3.2 生成模型的批量处理与并行加速
7.3.3 生成结果的后处理与数据清洗
7.4 控制生成式模型输出的技术手段
7.4.1 温度调控参数的设置与生成调节
7.4.2 限制生成输出的内容
7.4.3 生成限制:控制模型输出的重复与一致性
7.5 句子长度与风格调控
7.5.1 强制生成短句或长句
7.5.2 生成特定语法与风格的文本
7.5.3 语言风格迁移与自定义风格调控
7.6 本章小结
7.7 思考题
第8章 模型优化与量化技术
8.1 模型优化策略概述:剪枝与蒸馏
8.1.1 剪枝策略的类型与应用场景
8.1.2 蒸馏模型的设计与小模型训练技巧
8.2 模型量化方法在推理中的加速效果
8.2.1 静态量化与动态量化
8.2.2 量化感知训练
8.3 基于PyTorch的模型优化与性能测试
8.3.1 TorchScript在优化模型中的应用
8.3.2 使用PyTorch Profiler进行性能分析
8.4 混合精度训练与内存优化
8.4.1 使用AMP进行混合精度训练
8.4.2 Gradient Checkpointing的内存管理
8.5 本章小结
8.6 思考题
第9章 分布式训练与多GPU并行处理
9.1 分布式训练的基本原理与架构
9.1.1 数据并行与模型并行的架构
9.1.2 分布式训练:参数服务器与All-Reduce
9.2 多GPU并行处理的实现与代码示例
9.2.1 单机多卡的实现与管理
9.2.2 跨机器多GPU的分布式训练配置
9.3 梯度累积与分布式同步优化
9.3.1 梯度累积应用场景与实现
9.3.2 分布式训练中的梯度同步与参数更新
9.4 本章小结
9.5 思考题
第10章 NLP任务实例:分类、问答与命名实体识别
10.1 文本分类任务实现与优化技巧
10.1.1 数据预处理与标签平衡技术
10.1.2 超参数调优与模型性能提升
10.2 问答系统的实现流程与代码演示
10.2.1 预训练语言模型在问答任务中的应用
10.2.2 答案抽取与评分机制
10.2.3 多轮问答中的上下文跟踪与信息保持
10.2.4 知识图谱增强
10.3 基于Transformer的序列标注任务实现
10.3.1 命名实体识别的标注
10.3.2 序列标注模型
10.3.3 综合案例:基于BERT的命名实体识别与上下文追踪的多轮对话系统
10.4 本章小结
10.5 思考题
第11章 深度学习模型的可解释性
11.1 使用SHAP和LIME进行特征重要性分析
11.1.1 SHAP在深度模型中的应用与特征影响力排序
11.1.2 LIME在不同输入类型下的局部解释
11.2 注意力权重提取与层次分析
11.2.1 逐层提取多头注意力权重
11.2.2 跨层注意力权重变化
11.2.3 综合案例:基于Transformer的文本分类模型的多层次可解释性分析
11.3 本章小结
11.4 思考题
第12章 构建智能文本分析平台
12.1 项目概述与模块划分
12.1.1 项目概述
12.1.2 模块划分
12.2 模块化开发与测试
12.2.1 数据收集与预处理
12.2.2 文本生成与内容生成
12.2.3 高级文本分析
12.2.4 模型优化与推理性能提升
12.2.5 多GPU与分布式训练
12.2.6 可解释性分析与模型可控性
12.2.7 单元测试
12.2.8 集成测试
12.3 平台容器化部署与云端部署
12.3.1 使用Docker进行容器化部署
12.3.2 使用Kubernetes实现云端可扩展性和高可用性
12.4 本章小结
12.5 思考题
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜