为你推荐

前言
CHAPTER 1 第1章 早期的神经语言模型
1.1 神经网络模型之前的时代
1.1.1 基于规则的方法面临的困难
1.1.2 借助统计方法的力量
1.1.3 朴素统计模型的极限
1.2 神经网络如何理解语言
1.2.1 化解统计方法的维度灾难
1.2.2 神经网络模型如何学习
1.2.3 困惑度——量化评估语言模型的预测能力
1.2.4 词嵌入——从词汇到可计算的数值向量
CHAPTER 2 第2章 深度学习时代的自然语言处理
2.1 擅长处理文本序列的循环神经网络
2.1.1 保持记忆的循环连接
2.1.2 控制记忆的门控单元
2.1.3 自然语言的编码器和解码器
2.2 Transformer“只需要注意力”
2.2.1 注意力机制的起源
2.2.2 “只需要注意力”
2.2.3 像检索数据库一样查看记忆
2.2.4 使用Transformer对语言进行编码和解码
CHAPTER 3 第3章 预训练语言模型的兴起
3.1 通过预训练提升语言模型能力
3.1.1 预训练——视觉深度学习模型的成熟经验
3.1.2 第一代GPT模型
3.1.3 GPT和BERT——选择不同道路
3.2 语言模型如何胜任多种任务
3.2.1 多任务模型先驱的启示
3.2.2 GPT-2模型
3.2.3 适用于多种语言的字节对编码
3.2.4 高质量的WebText数据集
CHAPTER 4 第4章 大语言模型能力涌现
4.1 学会如何学习——元学习和语境学习能力
4.1.1 GPT-3模型
4.1.2 稀疏注意力——大模型的高效注意力机制
4.1.3 语境学习能力显现
4.2 模型规模和能力的缩放定律
4.2.1 龙猫法则
4.2.2 能力涌现现象
4.3 大语言模型学会写代码
4.3.1 Codex模型——程序员的智能助手
4.3.2 检验语言模型的编程能力
CHAPTER 5 第5章 服从指令的大语言模型
5.1 InstructGPT——更听话的语言模型
5.1.1 从人类反馈中学习
5.1.2 近端策略优化算法
5.2 指令微调方法
5.3 拒绝采样——蒸馏提纯符合人类偏好的模型
5.4 从AI反馈中学习
CHAPTER 6 第6章 开源大语言模型
6.1 GPT-J和GPT-Neo——开源社区的率先探索
6.2 Pile开源大语言模型训练数据集
6.3 开源“羊驼”LLaMA模型
6.3.1 SwiGLU——改进神经网络激活函数
6.3.2 适合更长文本的RoPE
6.3.3 分组查询注意力
6.3.4 评估数据污染问题
6.3.5 更听话的Llama 2模型
6.4 ChatGLM——国产大语言模型的开源先锋
6.4.1 研发历程
6.4.2 语言模型的架构选择
6.4.3 GLM-130B模型
6.4.4 悟道语料库
CHAPTER 7 第7章 探秘大语言模型的并行训练
7.1 并行训练一瞥
7.2 GPipe流水线
7.3 PipeDream流水线
7.3.1 高吞吐率的PipeDream-2BW流水线
7.3.2 节省内存的PipeDream-Flush流水线
CHAPTER 8 第8章 大语言模型应用
8.1 常见应用场景
8.2 利用外部知识库打败“幻觉”
8.2.1 检索增强生成
8.2.2 句子编码器模型——编码知识库
8.2.3 小世界模型——实现快速知识检索
8.2.4 混合检索——重拾传统检索技术
8.3 思维链——思维过程的草稿纸
8.4 使用工具拓展能力范围
8.4.1 学习如何使用外部工具
8.4.2 ReAct——连续自主行动的智能体
8.5 定制专属的智能体
CHAPTER 9 第9章 大语言模型前沿展望
9.1 多模态大模型——有眼睛和耳朵的大语言模型
9.1.1 视觉语言模型——从CLIP模型到火烈鸟模型
9.1.2 Llama 3模型的语音输入输出能力
9.2 关于安全和隐私的挑战
9.2.1 不同类型的安全和隐私问题
9.2.2 如何应对安全和隐私风险
9.3 大语言模型距离强人工智能还有多远
9.3.1 世界模拟器——Sora视频生成模型
9.3.2 JEPA——世界模型
9.3.3 草莓模型o1——学会“深思熟虑”
中英文对照表
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜