万本电子书0元读

万本电子书0元读

顶部广告

AI搜索:基础与前沿电子书

1.内容新:2015年ML兴起后最新的搜索引擎展,例如实时搜索、语义搜索、个性化搜索等。 2.代码示例丰富:大量的代码示例,可帮助读者深了解搜索引擎的实现细节。 3.真实的行业应用:网页搜索引擎、流媒体平台搜索引擎和大语言模型对搜索引擎的影响。

售       价:¥

纸质售价:¥92.80购买纸书

4人正在读 | 0人评论 6.3

作       者:邹敏 著

出  版  社:人民邮电出版社有限公司

出版时间:2025-08-01

字       数:23.0万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书系统介绍了搜索引擎的技术发展历程和前沿趋势,内容分为三大部分:搜索引擎基础、深度信息检索模型与算法以及AI搜索前沿。第一部分涵盖了搜索引擎的核心架构与关键技术,包括基本系统架构、查询理解、索引技术、关键词检索、排序学习等内容,为读者提供了现代搜索系统的技术框架和实践参考。第二部分详细探讨了深度学习技术在信息检索中的应用,包括深度召回模型、k近邻检索算法、深度相关性模型、深度排序模型等,并通过案例展示了如何将这些技术应用于实际问题。第三部分则聚焦于AI搜索前沿技术,介绍了大语言模型基础、AI搜索实践、生成式信息检索,探讨了AI搜索时代的技术特及未来发展方向。 本书附有丰富的实践案例和代码示例,可以帮助读者将理论知识付诸实践,既适合想了解AI搜索相关内容的初学者学习,也适合AI搜索领域的相关从业者参考。<br/>【推荐语】<br/>1.内容新:2015年ML兴起后最新的搜索引擎展,例如实时搜索、语义搜索、个性化搜索等。 2.代码示例丰富:大量的代码示例,可帮助读者深了解搜索引擎的实现细节。 3.真实的行业应用:网页搜索引擎、流媒体平台搜索引擎和大语言模型对搜索引擎的影响。<br/>【作者】<br/>邹敏,中国科学院数学研究所硕士,现任昆仑万维集团大模型团队算法总监。曾于微软必应(Bing)从事搜索引擎算法的研发工作,后任美国 Hulu 公司搜索团队负责人,作为资深研发经理主导了 Disney 与 Hulu搜索系统的建设。长期专注于信息检索、大模型与智能体技术领域,拥有 4 项发明专利。<br/>
目录展开

内容提要

推荐序一

推荐序二

前 言

资源与支持

第一部分 搜索引擎基础

第1章 搜索引擎的基本系统架构

1.1 网页抓取

1.1.1 网页抓取过程

1.1.2 网页抓取系统的组成部分

1.1.3 爬虫系统的衡量指标

1.2 内容理解

1.2.1 页面分析

1.2.2 网页分类

1.3 索引构建

1.3.1 索引的数据源

1.3.2 索引结构与压缩算法

1.3.3 索引的分片、复本与分级策略

1.4 查询理解

1.4.1 查询词预处理

1.4.2 查询改写

1.4.3 查询扩展

1.4.4 时效性分析

1.4.5 查询分类

1.5 召回

1.5.1 关键词召回

1.5.2 语义召回

1.6 排序

1.6.1 特征工程

1.6.2 排序模型

1.6.3 多级排序框架

1.7 其他

1.8 小结

第2章 查询理解

2.1 查询语法与查询解析

2.1.1 基本查询语法

2.1.2 查询解析

2.2 查询词预处理

2.3 拼写纠错

2.4 词权重计算

2.4.1 词权重模型

2.4.2 词权重模型训练过程

2.4.3 词权重应用

2.4.4 其他词权重计算方法

2.5 查询分类

2.5.1 垃圾查询识别

2.5.2 时效性查询识别

2.6 查询扩展

2.6.1 基于词典的查询扩展

2.6.2 基于相关文档的查询扩展

2.6.3 基于向量化表示的查询扩展

2.6.4 基于大语言模型的查询扩展

2.7 查询改写

2.7.1 基于机器翻译模型的查询改写

2.7.2 基于大语言模型的查询改写

2.8 小结

第3章 倒排索引技术

3.1 倒排索引的基本结构

3.1.1 词典

3.1.2 倒排列表

3.2 索引压缩算法

3.2.1 索引块压缩算法

3.2.2 字节压缩算法

3.2.3 索引结构示例

3.3 索引合并

3.3.1 倒排列表的基本合并操作

3.3.2 基于二分查找的倒排索引合并

3.3.3 基于跳表的倒排索引合并

3.4 倒排索引的构建

3.4.1 关键词分词

3.4.2 索引构建

3.5 倒排索引的分布式服务

3.6 案例一:使用 Lucene 进行搜索

3.7 案例二:基于 Elasticsearch 的关键词索引

3.8 小结

第4章 关键词检索

4.1 预备知识与准备工作

4.2 文本相关性

4.2.1 命中频次特征

4.2.2 命中紧密度特征

4.2.3 语言模型特征

4.2.4 意图匹配特征

4.3 权威性计算

4.4 文档的时效性计算

4.5 点击反馈

4.6 特征融合

4.6.1 线性组合

4.6.2 相关性优先组合

4.6.3 机器学习组合

4.6.4 混合组合

4.7 小结

第5章 排序学习

5.1 排序效果的评价指标

5.1.1 精确率与召回率

5.1.2 MRR

5.1.3 MAP

5.1.4 AUC

5.1.5 NDCG

5.2 经典相关性模型

5.2.1 BM25

5.2.2 向量空间模型

5.2.3 语言模型

5.2.4 经典相关性模型的缺点

5.3 经典排序学习方法

5.3.1 Pointwise

5.3.2 Pairwise

5.3.3 Listwise

5.4 经典机器学习模型

5.4.1 线性函数

5.4.2 多项式回归

5.4.3 逻辑回归

5.4.4 梯度提升决策树

5.5 特征工程

5.6 时效性排序

5.6.1 时效性排序模型构建

5.6.2 时效性与相关性的融合

5.7 使用 XGBoost 进行搜索排序示例

5.8 小结

第二部分 深度信息检索模型与算法

第6章 深度召回模型

6.1 深度召回模型的基本框架

6.2 词的编码与向量化表示

6.2.1 独热编码

6.2.2 词哈希

6.2.3 词嵌入

6.3 短句、句子的表示

6.3.1 池化

6.3.2 卷积神经网络

6.3.3 序列建模

6.4 案例:基于 BERT 的深度召回框架

6.4.1 微调数据准备和采样策略

6.4.2 BERT 模型微调和训练过程

6.4.3 在线召回

6.4.4 其他基于 BERT 改进的召回模型

6.5 混合召回

6.5.1 混合召回的工作原理

6.5.2 混合召回的优势

6.6 小结

第7章 k近邻检索算法

7.1 暴力穷举方法

7.2 KD 树

7.2.1 KD 树构建过程

7.2.2 KD 树搜索过程

7.3 局部敏感哈希

7.3.1 MinHash

7.3.2 SimHash

7.3.3 Banding

7.4 矢量量化

7.5 HNSW

7.5.1 NSW

7.5.2 层级图结构

7.6 使用 FAISS 进行 kNN 近邻检索示例

7.7 小结

第8章 深度相关性模型

8.1 基于交互矩阵的相关性模型

8.1.1 交互矩阵的核函数

8.1.2 基于交互矩阵的神经网络模型

8.2 基于 BERT 的相关性模型

8.2.1 用搜索语料做持续预训练

8.2.2 用 BERT 模型做微调

8.2.3 BERT 模型效果分析

8.3 BERT 相关性模型案例实践

8.3.1 BERT 模型微调示例

8.3.2 在线推理过程

8.4 小结

第9章 深度排序模型

9.1 精排模型演进

9.1.1 Wide & Deep

9.1.2 DeepFM

9.1.3 DIN

9.1.4 多目标

9.2 多样性

9.2.1 MMR

9.2.2 DPP

9.3 数据消偏

位置偏差

9.4 小结

第三部分 AI搜索前沿

第10章 大语言模型基础

10.1 大语言模型技术背景

10.1.1 Transformer 架构

10.1.2 Scaling Law

10.2 大语言模型训练过程

10.2.1 预训练:大语言模型训练的关键步骤

10.2.2 监督微调:从通用到特定的任务

10.2.3 奖励建模

10.3 提示词工程

10.3.1 提示词设计原则

10.3.2 少样本提示词

10.3.3 思维链

10.4 模型微调

10.4.1 模型微调的概念

10.4.2 模型微调的一般过程

10.5 小结

第11章 AI搜索实践

11.1 基于 RAG 架构的 AI 搜索

11.1.1 索引构建

11.1.2 查询理解

11.1.3 检索

11.1.4 生成

11.2 AI 搜索的 Agent 实现

11.2.1 搜索任务规划

11.2.2 搜索任务执行

11.2.3 答案满足判定

11.2.4 二次规划

11.2.5 答案生成

11.3 知识蒸馏与模型微调

11.3.1 知识蒸馏的数据准备

11.3.2 模型微调

11.4 评估

11.4.1 评估标准

11.4.2 评估方法

11.5 小结

第12章 生成式信息检索

12.1 可微搜索索引

12.2 标识符学习方法

12.3 多模态生成式信息检索

12.3.1 图像的向量表征

12.3.2 基于 CLIP 模型的向量检索

12.3.3 图像的量化表征

12.3.4 图像的量化检索

12.4 小结

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部