欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 多媒体/数据通信 > 网络爬虫全解析——技术、原理与实践

网络爬虫全解析——技术、原理与实践

| | 手机阅读

扫描下载当当云阅读App

网络爬虫全解析——技术、原理与实践电子书

相比用Python写网络爬虫，Java更有后发优势运行在服务器端的网络爬虫，更应该用Java发本书结合作者多年网络爬虫发经验全面系统讲解了网络爬虫相关技术并以Java实现通俗易懂、代码清晰、案例丰富实用一本书全面掌握网络爬虫发

售价：¥

纸质售价：¥54.50购买纸书

859人正在读 | 4人评论

6.3

作者：罗刚

出版社：电子工业出版社

出版时间：2017-03-01

字数：30.4万

所属分类：科技 > 计算机/网络 > 多媒体/数据通信

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(5条)

读书简介
目录
累计评论(5条)

本书介绍了如何发网络爬虫。内容主要包括发网络爬虫所需要的Java语法基础和网络爬虫的工作原理，如何使用源组件HttpClient和爬虫框架Crawler4j抓取网页信息，以及针对抓取到的文本行有效信息的提取。为了扩展抓取能力，本书介绍了实现分布式网络爬虫的关键技术。另外，本书介绍了从图像和语音等多媒体格式文件中提取文本信息，以及如何使用大数据技术存储抓取到的信息。*后，以实战为例，介绍了如何抓取微信和微博，以及在电商、医药、金融等领域的案例应用。其中，电商领域的应用介绍了使用网络爬虫抓取商品信息库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息，以及从年报PDF文档中提取表格等。本书适用于对发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的发人员参考。<br/>【推荐语】<br/>相比用Python写网络爬虫，Java更有后发优势运行在服务器端的网络爬虫，更应该用Java发本书结合作者多年网络爬虫发经验全面系统讲解了网络爬虫相关技术并以Java实现通俗易懂、代码清晰、案例丰富实用一本书全面掌握网络爬虫发<br/>【作者】<br/>罗刚，猎兔搜索创始人，带领猎兔搜索技术发团队先后发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等，实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#发搜索引擎》，获得广泛好评。在北京和上海等地均有猎兔培训的学员。<br/>

目录展开

内容简介

前言

第1章技术基础

1.1 第一个程序

1.2 准备开发环境

1.3 类和对象

1.4 常量

1.5 命名规范

1.6 基本语法

1.7 条件判断

1.8 循环

1.9 数组

1.10 位运算

1.11 枚举类型

1.12 比较器

1.13 方法

1.14 集合类

1.15 文件

1.16 多线程

1.17 折半查找

1.18 处理图片

1.19 本章小结

第2章网络爬虫入门

2.1 获取信息

2.2 各种网络爬虫

2.3 爬虫相关协议

2.4 爬虫架构

2.5 自己写网络爬虫

2.6 URL地址查新

2.7 部署爬虫

2.8 本章小结

第3章定向采集

3.1 下载网页的基本方法

3.2 HTTP基础

3.3 使用HttpClient下载网页

3.4 下载网络资源

3.5 PhantomJS

3.6 Selenium

3.7 信息过滤

3.8 采集新闻

3.9 遍历信息

3.10 并行抓取

3.11 分布式爬虫

3.12 增量抓取

3.13 管理界面

3.14 本章小结

第4章数据存储

4.1 存储提取内容

4.2 HBase

4.3 Web图

4.4 本章小结

第5章信息提取

5.1 从文本提取信息

5.2 从HTML文件中提取文本

5.3 RSS

5.4 网页去噪

5.5 从非HTML文件中提取文本

5.6 提取标题

5.7 图像的OCR识别

5.8 提取地域信息

5.9 提取新闻

5.10 流媒体内容提取

5.11 内容纠错

5.12 术语

5.13 本章小结

第6章 Crawler4j

6.1 使用Crawler4j

6.2 crawler4j原理

6.3 本章小结

第7章网页排重

7.1 语义指纹

7.2 SimHash

7.3 分布式文档排重

7.4 本章小结

第8章网页分类

8.1 关键词加权法

8.2 机器学习的分类方法

8.3 本章小结

第9章案例分析

9.1 金融爬虫

9.2 商品搜索

9.3 自动化行业采集

9.4 社会化信息采集

9.5 微博爬虫

9.6 微信爬虫

9.7 海关数据

9.8 医药数据

9.9 本章小结

后记

累计评论(5条) 6个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

剪映视频剪辑完全自学一本通

剪映视频剪辑完全自学一本通￥22.99

卢莉宏董磊唐增煦编著

￥22.99

02

AI艺术极简教程:零基础生成绘画、摄影、设计

AI艺术极简教程:零基础生成绘画、摄影、设计￥22.99

何惠、郭泽德、刘建军著

￥22.99

03

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版)

剪映视频剪辑/调色/*从入门到精通(手机版+电脑版) ￥52.00

麓山剪辑社编著

￥52.00

04

短视频制作实战策划拍摄制作运营(全彩慕课版)(第2版)

短视频制作实战策划拍摄制作运营(全彩慕课版)(第2版) ￥22.99

郭韬主编

￥22.99

05

成为AI高手:人人都能上手的智能体实战指南

成为AI高手:人人都能上手的智能体实战指南￥70.00

唐舰长;卢军;等

￥70.00

06

可编程网络自动化

可编程网络自动化￥69.90

[美]贾森·埃德尔曼(Jason Edelman),[美]斯科特·S· 洛(Scott S· Lowe),[美]马特·奥斯瓦尔特(Matt Oswalt) 著

￥69.90

07

零基础开发AI Agent——手把手教你用扣子做智能体

零基础开发AI Agent——手把手教你用扣子做智能体￥70.00

叶涛;管锴;等

￥70.00

08

多智能体协同:基于大语言模型的工程实践与系统构建

多智能体协同:基于大语言模型的工程实践与系统构建￥69.30

周佺喜

￥69.30

09

剪映+DeepSeek短视频剪辑全能一本通

剪映+DeepSeek短视频剪辑全能一本通￥52.00

Jack 著

￥52.00

10

神机妙算:一本关于算法的闲书

神机妙算:一本关于算法的闲书￥55.30

顾森

￥55.30

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书