欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 搜索引擎技术与发展

搜索引擎技术与发展

| | 手机阅读

扫描下载当当云阅读App

搜索引擎技术与发展电子书

售价：¥

纸质售价：¥51.30购买纸书

102人正在读 | 1人评论

6.2

作者：罗刚

出版社：电子工业出版社

出版时间：2020-10-01

字数：6.2万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(1条)

读书简介
目录
累计评论(1条)

本书主要介绍如何使用Java语言发搜索引擎，包括搜索引擎技术门，使用Java发网络爬虫，实现从文档中提取索引内容，中文分词的原理与实现，在Linux服务器端发Solr应用，Spring Boot微服务框架实现的后端，以及React框架实现的前端等内容。第1章主要介绍各种类型的搜索引擎和发搜索引擎可以借助的软件工具；第2章主要介绍网络爬虫发和数据存储；第3章主要介绍从HTML文件中提取文本，以及从PDF、Word等非HTML文件中提取文本；第4章主要介绍Lucene中的中文分析器的原理与实现；第5章主要介绍Solr索引库的创建与维护，以及Solr的查询解析器；第6章主要介绍Web方式搜索结果界面的实现；第7章主要介绍如何使用SolrCloud实现分布式搜索。<br/>【作者】<br/>猎兔搜索技术创始人曾经担任国防大学科研处技术顾问工信部舆情发顾问东南大学社会导师首都师范大学金融课程讲师北京石油化工学院社会导师北大光华管理学院技术顾问蓝汛公司搜索集群技术咨询顾问新东方创新研究院研究员<br/>

目录展开

内容简介

前言

第1章遍历搜索引擎技术

1.1 快速上手搜索引擎

1.1.1 准备工作环境

1.1.2 生成索引

1.1.3 关键词查询

1.1.4 实现搜索界面

1.2 搜索语法

1.3 你也可以做搜索引擎

1.4 搜索引擎的基本技术

1.4.1 网络爬虫

1.4.2 全文索引结构

1.4.3 Solr全文检索引擎

1.4.4 Nutch网络搜索软件

1.4.5 用户界面

1.5 商业搜索引擎技术概述

1.5.1 通用搜索

1.5.2 垂直搜索

1.5.3 站内搜索

1.6 本章小结

第2章获得海量数据

2.1 自己的网络爬虫

2.1.1 使用URL访问网络资源

2.1.2 重试

2.1.3 网络爬虫的遍历与实现

2.1.4 多线程爬虫

2.1.5 Log4j2日志

2.1.6 存储URL地址

2.1.7 定向采集

2.1.8 暗网抓取

2.1.9 Selenium抓取动态页面

2.1.10 图片抓取

2.2 数据存储

2.2.1 写入文件

2.2.2 Jdbi写入数据库

2.3 本地部署

2.4 本章小结

第3章提取文档中的文本内容

3.1 从HTML文件中提取文本

3.1.1 使用HTMLParser实现定向抓取

3.1.2 结构化信息提取

3.1.3 网页的DOM结构

3.1.4 网页去噪

3.1.5 正文提取

3.2 从非HTML文件中提取文本

3.2.1 PDF文件

3.2.2 Word文件

3.2.3 Rtf文件

3.2.4 Excel文件

3.2.5 PowerPoint文件

3.2.6 从图片中提取文本

3.3 流媒体内容提取

3.3.1 音频流内容提取

3.3.2 视频流内容提取

3.4 本章小结

第4章中文分词

4.1 Lucene中的中文分词

4.2 中文分词的原理

4.3 查找词典算法

4.4 句子切分

4.5 有限状态机识别未登录串

4.6 最大概率分词方法

4.7 N元分词方法

4.7.1 二元词典

4.7.2 二元分词

4.7.3 开发中文分析器

4.8 新词发现

4.9 命名实体识别

4.9.1 人名识别

4.9.2 组织机构名称识别

4.9.3 化学物质识别

4.10 词性标注

4.11 平滑算法

4.12 地名切分

4.13 本章小结

第5章 Solr服务器端开发

5.1 在Linux操作系统中安装Solr

5.2 创建和维护索引库

5.3 索引本地硬盘上的文件

5.4 使用Bean索引文档

5.5 更新索引库中的索引文档

5.6 删除数据

5.7 检测索引

5.8 查询解析器

5.9 本章小结

第6章用户界面的设计与实现

6.1 Solr搜索接口（search代码）

6.2 搜索页面设计

6.2.1 用于显示搜索结果的模板

6.2.2 搜索结果分页

6.2.3 测试搜索结果页

6.2.4 界面国际化

6.2.5 用于Solr的Spring Data

6.2.6 Spring-HATEOAS实现REST架构

6.3 实现搜索接口

6.3.1 基本查询

6.3.2 布尔搜索

6.3.3 指定范围搜索

6.3.4 搜索结果排序

6.4 实现聚合

6.5 实现相似文档搜索

6.6 实现自动完成

6.6.1 总体结构

6.6.2 服务器端处理

6.6.3 自动完成客户端

6.7 搜索日志

6.8 React框架

6.9 本章小结

第7章 Solr分布式搜索

7.1 使用Solr实现分布式搜索

7.1.1 使用SolrCloud

7.1.2 分片

7.1.3 管理集群

7.1.4 SolrCloud工作原理

7.1.5 ZooKeeper分布式协调器

7.2 Jenkins持续集成

7.3 本章小结

参考文献

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

豆包使用秘笈:从入门到精通的100个实用技巧

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

王吉斌;曾亮;吴佳莹;黄飞杰

￥53.00

02

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

乔剑;苏小文

￥47.00

03

OpenClaw实战指南:零基础打造会干活的AI数字员工

OpenClaw实战指南:零基础打造会干活的AI数字员工￥79.00

徐尧

￥79.00

04

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

乔剑;苏小文;李天舒

￥35.00

05

学会提问,驾驭AI:提示词从入门到精通

学会提问,驾驭AI:提示词从入门到精通￥61.60

程希冀

￥61.60

06

腾讯元宝使用秘笈:从入门到精通的100个实用技巧

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00

王吉斌;吴佳莹;曾亮;张文杰

￥53.00

07

DeepSeek应用大全:从入门到精通的*案例解析

DeepSeek应用大全:从入门到精通的*案例解析￥54.60

李艮基;肖灵儿;等

￥54.60

08

DeepSeek硬核技术解读

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

09

豆包*学习:AI 辅助中小学生学习的方法与技巧

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

10

精通Excel数据统计与分析

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书