万本电子书0元读

万本电子书0元读

顶部广告

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程电子书

(1)作者背景权威:作者是湘潭大学的博导,是科技部国家重子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。 (2)作者经验丰富:对ChatGPT、Llama2等大模型有深研究,带领团队成功训练并部署司法领域的大模型。 (3)全套技术原理:围绕ChatGPT,系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。

售       价:¥

纸质售价:¥74.20购买纸书

52人正在读 | 0人评论 6.6

作       者:程戈

出  版  社:机械工业出版社

出版时间:2023-12-01

字       数:12.3万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
内容简介 这是一本深阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识; 第2~5章深讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演; 6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来一步提升模型的表现; 第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程; 第11章对GPT的未来发展趋势行预测,探讨数据资源、自回归模型的局限性,以及大语言模型时代具身智能的可行路线。<br/>【推荐语】<br/>(1)作者背景权威:作者是湘潭大学的博导,是科技部国家重子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。 (2)作者经验丰富:对ChatGPT、Llama2等大模型有深研究,带领团队成功训练并部署司法领域的大模型。 (3)全套技术原理:围绕ChatGPT,系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。 (4)关键应用主题:从大模型的数据处理、预训练到向垂直领域迁移、微调,再到中间件编程,涵盖当下大模型应用的各项关键技术主题。 (5)多位专家推荐:阿里、Google、ChatLaw等企业的多位大模型技术专家高度评价并推荐。<br/>【作者】<br/>程 戈 博士生导师,湘潭大学计算机学院·网络空间安全学院教授,湘潭大学技术转移中心副主任,湘潭市京东智能城市与大数据研究院副院长,智慧司法与数字治理湖南省重实验室副主任,CCF计算法学会执委。大模型领域技术专家和布道者,作为两项科技部国家重研发子课题的负责人,与成都数之联等多家企业合作推动人工智能在司法领域的落地,带领团队发了JusticeGPT司法大模型,不同于其他的以提升司法领域知识问答能力为核心的司法大模型,该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力,并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台,实现司法业务编排以及工作流自动化。连续创业者,先后创立湘潭安道致胜信息科技有限公司等多家企业,曾经作为共同创始人加盟美国WiFi Free llc. ,发了WiFi Free、WiFi Analyzer 等项目,其中WiFi Free在2014到2015年是Google Play市场相关WiFi分享类应用下载的前三名。作为技术顾问,先后服务于北京捷通华声等多家企业,提供知识表示学习的技术解决方案,为某知名私募发了基于深度学习的股票趋势预测系统,成为该私募公司的主要量化工具。<br/>
目录展开

前言

本书主要内容

本书读者对象

联系作者

致谢

第1章 人工智能的新里程碑——ChatGPT

1.1 ChatGPT的发展历程

1.2 ChatGPT的能力

1.3 大语言模型的技术演化

1.4 大语言模型的技术栈

1.5 大语言模型带来的影响

1.6 大语言模型复现的壁垒

1.7 大语言模型的局限性

1.8 小结

第2章 深入理解Transformer模型

2.1 Transformer模型简介

2.2 自注意力机制

2.3 多头注意力机制

2.4 前馈神经网络

2.5 残差连接

2.6 层归一化

2.7 位置编码

2.8 训练与优化

2.9 小结

第3章 生成式预训练

3.1 生成式预训练简介

3.2 GPT的模型架构

3.3 生成式预训练过程

3.4 有监督微调

3.5 小结

第4章 无监督多任务与零样本学习

4.1 编码器与解码器

4.2 GPT-2的模型架构

4.3 无监督多任务

4.4 多任务学习与零样本学习的关系

4.5 GPT-2的自回归生成过程

4.6 小结

第5章 稀疏注意力与基于内容的学习

5.1 GPT-3的模型架构

5.2 稀疏注意力模式

5.3 元学习和基于内容的学习

5.4 概念分布的贝叶斯推断

5.5 思维链的推理能力

5.6 小结

第6章 大语言模型的预训练策略

6.1 预训练数据集

6.2 预训练数据的处理

6.3 分布式训练模式

6.4 分布式训练的技术路线

6.5 训练策略案例

6.6 小结

第7章 近端策略优化算法

7.1 传统的策略梯度方法

7.2 Actor-Critic算法

7.3 信任域策略优化算法

7.4 PPO算法的原理

7.5 小结

第8章 人类反馈强化学习

8.1 强化学习在ChatGPT迭代中的作用

8.2 InstructGPT训练数据集

8.3 人类反馈强化学习的训练阶段

8.4 奖励建模算法

8.5 PPO算法在InstructGPT中的应用

8.6 多轮对话能力

8.7 人类反馈强化学习的必要性

8.8 小结

第9章 大语言模型的低算力领域迁移

9.1 指令自举标注

9.2 人工智能反馈

9.3 低秩自适应

9.4 量化:降低部署的算力要求

9.5 SparseGPT剪枝算法

9.6 开源大语言模型的低算力迁移案例

9.7 小结

第10章 中间件编程

10.1 补齐短板——LangChain恰逢其时

10.2 多模态融合中间件

10.3 AutoGPT自主代理与任务规划

10.4 中间件框架的竞品

10.5 小结

第11章 大语言模型的未来之路

11.1 强人工智能之路

11.2 数据资源枯竭

11.3 自回归模型的局限性

11.4 具身智能

11.5 小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部