万本电子书0元读

万本电子书0元读

顶部广告

ChatGPT的基本原理与核心算法电子书

u 各种大型语言模型及其相关基础方法、实现工具等,从文本单模态、视听觉多模态、具身智能到交互式智能体,几乎都可以完全使用深度神经网络行系统阐述。这充分表明,自2012年AlexNet问世以来,各种基于端到端数据驱动的深度神经网络学习方法,已走了多远,不仅将自然语言处理、计算机视觉、语音处理等领域,行了彻底改变,而且还正在让这些学科之间的边界消融,并迈向统一。

售       价:¥

纸质售价:¥54.50购买纸书

2人正在读 | 0人评论 6.3

作       者:邓志东

出  版  社:清华大学出版社

出版时间:2025-03-01

字       数:19.8万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
能够模仿人类语言智能与思维,具有世界一般性知识的ChatGPT,启了通用人工智能的新时代,正成为引爆第四次工业革命的火种。本书是第一本体系化介绍ChatGPT基本原理与核心算法的教材及专业图书。全书共分5章: 第1章为人工神经网络基础;第2章详细剖析了Transformer及其缘起,分析了视觉领域的Transformer算法;第3章综述了各种大型语言模型框架,分享了创建GPT系列模型的思想之旅;第4章重介绍了ChatGPT的预训练方法与微调算法,系统地阐述了强化学习基础与基于人类反馈的强化学习;第5章为ChatGPT的应用,包括上下文学习提示与思维提示,并讨论了智能涌现。本书体系严谨、系统性强、逻辑严密、内容丰富,不仅深浅出、图文并茂、特色鲜明,而且具有引领性、前瞻性和思想启迪性。 本书可作为高等院校人工智能、智能科学与技术、计算机科学与技术、大数据、自动驾驶、新一代机器人及相关专业高年级本科生与研究生教材,也可供上述专业的研究人员、算法工程师及从事AI产品研发、产业发展与决策咨询等的工程技术人员、投资者、战略研究者和广大科技工作者参考。<br/>【推荐语】<br/>u 各种大型语言模型及其相关基础方法、实现工具等,从文本单模态、视听觉多模态、具身智能到交互式智能体,几乎都可以完全使用深度神经网络行系统阐述。这充分表明,自2012年AlexNet问世以来,各种基于端到端数据驱动的深度神经网络学习方法,已走了多远,不仅将自然语言处理、计算机视觉、语音处理等领域,行了彻底改变,而且还正在让这些学科之间的边界消融,并迈向统一。 u 本书从深度神经网络的角度切,体系化地介绍了ChatGPT的基本原理与核心算法,既包括了深度神经网络的基础知识与大演化脉络,Transformer兴起的缘由,也涉及ChatGPT等大型语言模型的预训练、微调、安全及价值对齐以及思维提示应用等重内容的介绍。 u 作者对深度卷积神经网络、LSTM、Transformer和强化学习方法行了深细致的剖析,其中对视觉Transformer相关基础大模型和GPT思想之旅的介绍,特色鲜明。 u 通用人工智能将给人类带来辉煌的未来。推动、掌握并有能力充分利用更多大型语言模型与通用人工智能相关基础知识的人,必将在这个快速发展与化的世界中,获得更加强大的竞争力。<br/>
目录展开

作者简介

内容简介

前言

第1章 人工神经网络基础

1.1 引言

1.2 人工神经元模型

1.2.1 基准神经元模型:MP模型

1.2.2 第一代神经元模型:WSN模型

1.2.3 第二代神经元模型:RBF模型

1.2.4 第三代神经元模型:发放模型

1.3 人工神经网络模型

1.3.1 神经网络的基本概念与方法

1.3.2 前馈神经网络模型

1.3.3 深度卷积神经网络模型

1.3.4 反馈神经网络模型

1.3.5 递归神经网络模型

1.4 本章小结

第2章 从LSTM到Transformer

2.1 引言

2.2 递归神经网络:编码器-解码器框架

2.2.1 从前馈神经网络到递归神经网络

2.2.2 Elman网络:经典递归神经网络

2.2.3 长短期记忆网络

2.2.4 递归神经网络的编码器-解码器框架

2.3 递归神经网络的注意力与点积相似性

2.3.1 长短期记忆网络的注意力

2.3.2 点积相似性

2.4 Transformer模型

2.4.1 传统编码器-解码器框架下的Transformer网络结构

2.4.2 嵌入向量与位置编码

2.4.3 残差直连结构及前置归一化层

2.4.4 Transformer的核心结构单元:多头注意力机制与逐位置前馈神经网络

2.4.5 学习机制:层堆叠自监督学习与基于误差反向传播的监督微调

2.4.6 Transformer的主要特性

2.4.7 与递归神经网络的联系与区别

2.5 应用领域:从NLP扩展到CV

2.5.1 CV领域的Transformer

2.5.2 视觉目标检测与分割任务:DETR

2.5.3 图像分类任务:ViT

2.5.4 三维点云处理任务:Point Transformer

2.5.5 对比式语言-图像预训练模型:CLIP

2.5.6 其他视觉任务及展望

2.6 本章小结

第3章 GPT系列预训练大型语言模型

3.1 引言

3.2 大型语言模型的Transformer框架

3.2.1 前缀(编码器)-解码器架构的Transformer框架

3.2.2 编码器架构的Transformer框架

3.2.3 解码器架构的Transformer框架

3.3 混合式预训练大型语言模型

3.3.1 T5模型

3.3.2 GLM模型

3.4 判别式预训练大型语言模型

3.4.1 BERT模型

3.4.2 RoBERTa模型

3.5 GPT系列生成式预训练大型语言模型

3.5.1 GPT-1:利用生成式预训练改善语言理解

3.5.2 GPT-2:无监督多任务学习的语言模型

3.5.3 GPT-3:少样本学习的大型语言模型

3.5.4 GPT-4:图文多模态大型语言模型

3.6 本章小结

第4章 ChatGPT的大规模预训练与微调

4.1 引言

4.2 大型语言模型的大规模预训练

4.2.1 预训练任务与模型选择

4.2.2 大规模预训练方法

4.2.3 生成式Transformer大型语言模型的对比式自监督学习

4.3 ChatGPT预训练模型的微调

4.3.1 强化学习基础

4.3.2 预训练大型语言模型的指令调优与RLHF调优

4.3.3 初始动作器:SFT模型的监督训练

4.3.4 初始评判器:RM模型的监督训练

4.3.5 A2C框架下的PPO-ptx强化学习:策略更新与价值对齐

4.4 性能评估

4.4.1 与人类意图及价值观对齐的性能评估

4.4.2 定量评测

4.5 ChatGPT规模化与工程化中的关键技术

4.5.1 大规模高质量数据资源的准备

4.5.2 大规模分布式预训练与微调所需的AI算力支撑

4.6 本章小结

第5章 ChatGPT的应用

5.1 引言

5.2 提示工程

5.2.1 预训练-提示微调范式

5.2.2 零样本提示与少样本提示

5.3 上下文学习提示

5.3.1 语言模型的元学习

5.3.2 上下文学习提示

5.4 思维链提示

5.4.1 思维链提示的两种方式

5.4.2 少样本思维链提示

5.4.3 零样本思维链提示

5.4.4 自动少样本思维链提示

5.5 思维树提示

5.5.1 思维树提示的基本思想

5.5.2 思维树:大型语言模型深思熟虑的问题求解方法

5.5.3 分析与讨论

5.6 智能涌现能力

5.6.1 智能涌现能力的定义

5.6.2 涌现能力发生的几种情形

5.6.3 涌现能力的分析与展望

5.7 本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部