多模态大模型与AI Agent智能体技术的快速成熟,为未来的AI应用辟了新的可能性,预示着人工智能将在更多领域发挥其深远的影响。本书正是在这样的背景下应运而生。它旨在为读者提供一个全面、深地了解当前多模态大模型与AI Agent智能体最新研究展和实践应用的窗口。全书共8章,力求将最前沿的技术原理、最实用的应用案例及最深刻的行业洞见呈现给读者。
售 价:¥
纸质售价:¥109.00购买纸书
6.7
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

封面页
书名页
版权页
作者简介
内容简介
前言
目录
第1章 大模型技术原理
1.1 大模型技术的起源、思想
1.2 基于Transformer的预训练语言模型
1.2.1 编码预训练语言模型
1.2.2 解码预训练语言模型
1.2.3 基于编解码架构的预训练语言模型
1.3 提示学习与指令微调
1.3.1 提示学习
1.3.2 指令微调
1.4 人类反馈强化学习
1.4.1 强化学习
1.4.2 PPO算法
1.4.3 大模型人类反馈强化学习对齐
1.5 GPT智能涌现原理与AGI通用人工智能
1.5.1 什么是智能涌现
1.5.2 思维链
1.5.3 上下文学习能力
1.5.4 指令理解
1.5.5 通用人工智能
第2章 大模型训练及微调
2.1 大模型训练概述
2.2 分布式训练的并行策略
2.2.1 数据并行
2.2.2 模型并行
2.2.3 混合并行
2.2.4 并行计算框架
2.3 预训练模型的压缩
2.3.1 模型压缩方案概述
2.3.2 结构化模型压缩策略
2.3.3 非结构化模型压缩策略
2.3.4 8位/4位量化压缩实战
2.4 大模型微调方法
2.4.1 Prefix Tuning微调
2.4.2 P-Tuning V1微调
2.4.3 P-Tuning V2微调
2.4.4 LoRA微调
2.4.5 QLoRA微调
2.5 基于旋转位置编码RoPE的长文本理解
2.5.1 RoPE技术原理
2.5.2 RoPE关键特性
第3章 主流大模型
3.1 国内大模型
3.1.1 智谱清言ChatGLM
3.1.2 百川智能
3.1.3 百度文心一言
3.1.4 阿里巴巴通义千问
3.1.5 腾讯混元
3.1.6 华为盘古
3.1.7 360智脑
3.1.8 科大讯飞星火
3.1.9 智源悟道大模型
3.1.10 月之暗面Kimi
3.1.11 复旦大学MOSS
3.1.12 零一万物
3.1.13 字节跳动豆包大模型
3.2 国外大模型
3.2.1 OpenAI GPT-4o
3.2.2 Meta LLaMA
3.2.3 Anthropic Claude
3.2.4 谷歌Gemini和开源Gemma
3.2.5 Mistral Large
3.2.6 xAI Grok
3.3 垂直类大模型
3.3.1 HuatuoGPT
3.3.2 BianQue
3.3.3 BenTsao
3.3.4 XrayGLM
3.3.5 DoctorGLM
3.3.6 ChatMed
3.3.7 度小满轩辕
3.3.8 BloombergGPT
3.3.9 LawGPT
3.3.10 LexiLaw
3.3.11 Lawyer LLaMA
3.3.12 ChatLaw
3.3.13 ChatGLM-Math
第4章 LangChain技术原理与实践
4.1 LangChain技术原理
4.2 LangChain六大核心模块
4.2.1 模型I/O
4.2.2 数据增强模块
4.2.3 链模块
4.2.4 记忆模块
4.2.5 Agent模块
4.2.6 回调处理器
第5章 RAG检索增强生成
5.1 RAG技术原理
5.1.1 RAG的概念与应用
5.1.2 RAG技术架构
5.1.3 分块和向量化
5.1.4 搜索索引
5.1.5 重新排序和过滤
5.1.6 查询转换与路由
5.1.7 RAG中的Agent智能体
5.1.8 响应合成器
5.1.9 大模型微调和RAG优劣势对比
5.2 文本向量模型
5.2.1 Embedding模型、Reranker模型及ColBERT模型
5.2.2 阿里巴巴GTE向量模型
5.2.3 中文acge_text_embedding模型
5.2.4 智源中英文语义向量模型BGE
5.2.5 Moka开源文本嵌入模型M3E
5.2.6 OpenAI的text-embedding模型
5.3 向量数据库
5.3.1 Faiss
5.3.2 Milvus
5.3.3 Pinecone
5.3.4 Chroma
5.4 RAG应用实践
5.4.1 基于大模型构建企业私有数据的知识问答
5.4.2 应对大模型落地挑战的优化策略
第6章 多模态大模型
6.1 多模态基础模型
6.1.1 多模态对齐、融合和表示
6.1.2 CLIP
6.1.3 BLIP
6.1.4 BLIP-2
6.1.5 InstructBLIP和X-InstructBLIP
6.1.6 SAM
6.1.7 OpenFlamingo
6.1.8 VideoChat
6.1.9 PaLM-E
6.2 OpenAI多模态大模型DALL·E 3、GPT-4V、GPT-4o、Sora
6.2.1 文生图多模态大模型DALL·E 3
6.2.2 GPT-4V
6.2.3 端到端训练多模态大模型GPT-4o技术原理
6.2.4 文生视频多模态大模型Sora
6.3 通义千问多模态大模型
6.3.1 开源Qwen-VL和Qwen-VL-Chat
6.3.2 Qwen-VL-Plus和Qwen-VL-Max
6.4 开源端到端训练多模态大模型LLaVA
6.4.1 LLaVA
6.4.2 LLaVA-1.5
6.4.3 LLaVA-1.6
6.4.4 MoE-LLaVA
6.4.5 LLaVA-Plus
6.4.6 Video-LLaVA和LLaVA-NeXT-Video
6.5 零一万物多模态大模型Yi-VL系列
6.5.1 Yi-VL系列模型架构
6.5.2 Yi-VL系列模型训练微调及推理
6.6 清华系多模态大模型
6.6.1 VisualGLM-6B
6.6.2 CogVLM2
6.6.3 CogAgent
6.6.4 CogView、CogVideo和CogVideoX
6.6.5 CogCoM
6.6.6 GLM-4V-9B
第7章 AI Agent智能体
7.1 AI Agent智能体介绍和原理
7.1.1 AI Agent的定义与角色
7.1.2 AI Agent技术原理
7.2 主流大模型Agent框架
7.2.1 AutoGPT
7.2.2 MetaGPT
7.2.3 ChatDev
7.2.4 AutoGen
7.2.5 FastGPT
7.2.6 XAgent
7.2.7 GPT-Engineer
7.2.8 BabyAGI
7.2.9 SuperAGI
第8章 大模型在企业应用中落地
8.1 基于大模型的对话式推荐系统
8.1.1 基于大模型的对话式推荐系统技术架构设计
8.1.2 推荐AI Agent智能体
8.1.3 面向推荐的语言表达模型
8.1.4 知识插件
8.1.5 基于大模型的推荐解释
8.1.6 对话式推荐系统的新型评测方法
8.2 多模态搜索
8.2.1 多模态搜索技术架构设计
8.2.2 多模态搜索关键技术
8.2.3 多模态实时搜索与个性化推荐
8.3 基于自然语言交互的NL2SQL数据即席查询
8.3.1 NL2SQL数据即席查询技术原理
8.3.2 NL2SQL应用实践
8.4 基于大模型的智能客服对话机器人
8.4.1 大模型智能客服对话机器人技术原理
8.4.2 AI大模型赋能提升智能客服解决率新策略
8.4.3 基于大模型的智能客服对话机器人系统搭建
8.5 多模态数字人
8.5.1 多模态数字人技术原理
8.5.2 三维建模与三维重建
8.5.3 声音克隆与形象克隆
8.5.4 唇形同步算法
8.5.5 NeRF、ER-NeRF与RAD-NeRF模型
8.5.6 数字人项目实践
8.6 多模态具身智能
8.6.1 多模态具身智能概念及技术路线
8.6.2 多模态感知与场景理解
8.6.3 视觉导航
8.6.4 世界模型
8.6.5 具身智能模拟器
8.6.6 多模态多感官交互具身智能大模型
8.6.7 端到端强化学习人形机器人
8.6.8 多模态通才具身智能体
图书推荐
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜