万本电子书0元读

万本电子书0元读

顶部广告

大语言模型极速入门:技术与应用电子书

ChatGPT 引发 AI 热潮,本书从传统自然语言处理讲起,梳理大语言模型发展脉络,解析神经网络、Transformer 等核心技术,涵盖预训练、能力涌现等关键内容,兼顾原理与应用,助初学者门、从业者阶,是理解大语言模型的实用指南。

售       价:¥

纸质售价:¥59.20购买纸书

8人正在读 | 0人评论 6.8

作       者:董政

出  版  社:机械工业出版社

出版时间:2025-07-10

字       数:23.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书将带读者走大语言模型的神奇世界,即使读者没有深厚的技术背景,也能轻松理解。本书首先从基础概念讲起,详细介绍大语言模型及其技术发展脉络。着探讨大语言模型在日常生活中的广泛应用,比如智能客服、文本自动生成、语言翻译等。此外,本书还会客观地分析大语言模型的局限性和可能面临的挑战,例如准确性问题、伦理考虑等,帮助读者形成全面而理性的认识。最后,本书还会展望大语言模型的未来发展趋势,探讨它们将如何为读者所在的行业赋能。本书适合对新技术充满好奇的普通读者,以及希望跟上时代步伐的知识追求者阅读。<br/>【推荐语】<br/>ChatGPT 引发 AI 热潮,本书从传统自然语言处理讲起,梳理大语言模型发展脉络,解析神经网络、Transformer 等核心技术,涵盖预训练、能力涌现等关键内容,兼顾原理与应用,助初学者门、从业者阶,是理解大语言模型的实用指南。<br/>【作者】<br/>董政,计算机软件与理论专业博士,2016年毕业于复旦大学。研究生期间,师从人工智能学者危辉教授,在上海市智能信息处理重实验室的认知模型与算法课题组从事研究工作,研究方向包括视觉的脑神经机制和计算机建模,以及图像中的物体形状识别和定位等,研究成果发表于认知计算和神经网络等领域的期刊。毕业后,微软亚太科技有限公司云计算与人工智能事业部,担任资深软件工程师,将专家系统、机器学习算法、大语言模型智能体等人工智能技术应用于云服务运维优化,深耕人工智能理论研究和工程实践。<br/>
目录展开

前言

CHAPTER 1 第1章 早期的神经语言模型

1.1 神经网络模型之前的时代

1.1.1 基于规则的方法面临的困难

1.1.2 借助统计方法的力量

1.1.3 朴素统计模型的极限

1.2 神经网络如何理解语言

1.2.1 化解统计方法的维度灾难

1.2.2 神经网络模型如何学习

1.2.3 困惑度——量化评估语言模型的预测能力

1.2.4 词嵌入——从词汇到可计算的数值向量

CHAPTER 2 第2章 深度学习时代的自然语言处理

2.1 擅长处理文本序列的循环神经网络

2.1.1 保持记忆的循环连接

2.1.2 控制记忆的门控单元

2.1.3 自然语言的编码器和解码器

2.2 Transformer“只需要注意力”

2.2.1 注意力机制的起源

2.2.2 “只需要注意力”

2.2.3 像检索数据库一样查看记忆

2.2.4 使用Transformer对语言进行编码和解码

CHAPTER 3 第3章 预训练语言模型的兴起

3.1 通过预训练提升语言模型能力

3.1.1 预训练——视觉深度学习模型的成熟经验

3.1.2 第一代GPT模型

3.1.3 GPT和BERT——选择不同道路

3.2 语言模型如何胜任多种任务

3.2.1 多任务模型先驱的启示

3.2.2 GPT-2模型

3.2.3 适用于多种语言的字节对编码

3.2.4 高质量的WebText数据集

CHAPTER 4 第4章 大语言模型能力涌现

4.1 学会如何学习——元学习和语境学习能力

4.1.1 GPT-3模型

4.1.2 稀疏注意力——大模型的高效注意力机制

4.1.3 语境学习能力显现

4.2 模型规模和能力的缩放定律

4.2.1 龙猫法则

4.2.2 能力涌现现象

4.3 大语言模型学会写代码

4.3.1 Codex模型——程序员的智能助手

4.3.2 检验语言模型的编程能力

CHAPTER 5 第5章 服从指令的大语言模型

5.1 InstructGPT——更听话的语言模型

5.1.1 从人类反馈中学习

5.1.2 近端策略优化算法

5.2 指令微调方法

5.3 拒绝采样——蒸馏提纯符合人类偏好的模型

5.4 从AI反馈中学习

CHAPTER 6 第6章 开源大语言模型

6.1 GPT-J和GPT-Neo——开源社区的率先探索

6.2 Pile开源大语言模型训练数据集

6.3 开源“羊驼”LLaMA模型

6.3.1 SwiGLU——改进神经网络激活函数

6.3.2 适合更长文本的RoPE

6.3.3 分组查询注意力

6.3.4 评估数据污染问题

6.3.5 更听话的Llama 2模型

6.4 ChatGLM——国产大语言模型的开源先锋

6.4.1 研发历程

6.4.2 语言模型的架构选择

6.4.3 GLM-130B模型

6.4.4 悟道语料库

CHAPTER 7 第7章 探秘大语言模型的并行训练

7.1 并行训练一瞥

7.2 GPipe流水线

7.3 PipeDream流水线

7.3.1 高吞吐率的PipeDream-2BW流水线

7.3.2 节省内存的PipeDream-Flush流水线

CHAPTER 8 第8章 大语言模型应用

8.1 常见应用场景

8.2 利用外部知识库打败“幻觉”

8.2.1 检索增强生成

8.2.2 句子编码器模型——编码知识库

8.2.3 小世界模型——实现快速知识检索

8.2.4 混合检索——重拾传统检索技术

8.3 思维链——思维过程的草稿纸

8.4 使用工具拓展能力范围

8.4.1 学习如何使用外部工具

8.4.2 ReAct——连续自主行动的智能体

8.5 定制专属的智能体

CHAPTER 9 第9章 大语言模型前沿展望

9.1 多模态大模型——有眼睛和耳朵的大语言模型

9.1.1 视觉语言模型——从CLIP模型到火烈鸟模型

9.1.2 Llama 3模型的语音输入输出能力

9.2 关于安全和隐私的挑战

9.2.1 不同类型的安全和隐私问题

9.2.2 如何应对安全和隐私风险

9.3 大语言模型距离强人工智能还有多远

9.3.1 世界模拟器——Sora视频生成模型

9.3.2 JEPA——世界模型

9.3.3 草莓模型o1——学会“深思熟虑”

中英文对照表

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部