万本电子书0元读

万本电子书0元读

顶部广告

Java网络爬虫精解与实践电子书

《Java网络爬虫精解与实践》是一本旨在帮助读者使用Java发高效网络爬虫系统的实用指南。深剖析源爬虫框架,掌握Web数据采集、解析和提取,验证码生成和识别,以及分布式网络爬虫架构设计等关键知识。覆盖手机APP通信抓包、逆向分析等技术,掌握基于手机APP的数据采集。最后,搭建完整的招聘领域网络爬虫系统,自动解析招聘信息,与搜索和推荐系统集成。《Java网络爬虫精解与实践》实用性强,提供丰富示例代码,适合IT从业者、发人员、培训机构及教学使用。无论您是深学习网络爬虫或初学者,《Java网络爬虫精解与实践》将带您踏上精彩的学习之旅,提升数据爬取和处理能力。

售       价:¥

纸质售价:¥50.70购买纸书

1人正在读 | 0人评论 6.3

作       者:张凯

出  版  社:清华大学出版社有限公司

出版时间:2024-11-01

字       数:26.6万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
《Java网络爬虫精解与实践》全面而系统地介绍与网络爬虫程序相关的理论知识,并包含大量的实践操作案例。 《Java网络爬虫精解与实践》共分为 8 章。第 1 章以自动化框架为基础,介绍网络爬虫程序的门发实践。第 2 章深讲解网页内容的处理、解析技术和数据提取方法。第 3 章讨论验证码识别技术以及如何有效绕过验证码的策略。第 4 章涉及网络抓包技术及其对抗策略。第 5 章深探讨 JavaScript 代码的混淆技术与逆向分析方法。第 6 章专注于移动端应用程序的数据爬取技术及相关逆向分析技术。第 7 章介绍构建分布式网络爬虫系统所需的关键技术。第 8 章通过实战案例,展示分布式网络爬虫系统设计与实现的思路。通过学习本书,读者将显著提升网络爬虫系统的设计与实现能力,并增强对网页代码及移动端应用程序代码的逆向分析水平。 《Java网络爬虫精解与实践》的内容不仅涵盖理论知识,还注重实践操作,适合广大网络爬虫程序发爱好者阅读。同时,《Java网络爬虫精解与实践》也适合作为培训机构和学校的教学参考用书。<br/>【推荐语】<br/>《Java网络爬虫精解与实践》是一本旨在帮助读者使用Java发高效网络爬虫系统的实用指南。深剖析源爬虫框架,掌握Web数据采集、解析和提取,验证码生成和识别,以及分布式网络爬虫架构设计等关键知识。覆盖手机APP通信抓包、逆向分析等技术,掌握基于手机APP的数据采集。最后,搭建完整的招聘领域网络爬虫系统,自动解析招聘信息,与搜索和推荐系统集成。《Java网络爬虫精解与实践》实用性强,提供丰富示例代码,适合IT从业者、发人员、培训机构及教学使用。无论您是深学习网络爬虫或初学者,《Java网络爬虫精解与实践》将带您踏上精彩的学习之旅,提升数据爬取和处理能力。<br/>【作者】<br/>张 凯 中国科学院大学软件工程专业硕士,研究方向为操作系统虚拟化,毕业后先后供职于微策略、新浪微博,目前供职于粉笔科技,任技术总监职务,担任爬虫平台、内容审核平台等多个重要系统技术负责人。对网络爬虫、高可用架构设计和文本分类领域有着深研究。<br/>
目录展开

内容简介

作者简介

前言

第1章 网络爬虫开发入门实践

1.1 Java网络爬虫框架概览

1.2 搭建开发环境

1.3 简单Web爬虫程序示例

1.4 WebDriver选项配置

1.5 BrowserMob Proxy

1.6 其他主流Web自动化测试框架

1.7 本章小结

1.8 本章练习

第2章 网页内容解析与提取

2.1 Selenium元素定位器

2.2 基于正则表达式的内容解析与提取

2.3 基于JsonPath的内容解析与提取

2.4 本章小结

2.5 本章练习

第3章 验证码绕过与识别

3.1 验证码介绍

3.2 避免CAPTCHA验证码触发

3.3 CAPTCHA验证码生成

3.4 CAPTCHA验证码识别

3.5 本章小结

3.6 本章练习

第4章 网络抓包与对抗

4.1 Fiddler

4.2 Charles

4.3 Wireshark

4.4 SSL Pinning保护机制下的网络数据抓包

4.5 JustTrustMe的工作原理

4.6 本章小结

4.7 本章练习

第5章 JavaScript逆向分析技术

5.1 常见的反爬虫策略及其应对方案

5.2 浏览器指纹识别与修复

5.3 JavaScript代码保护技术

5.4 JavaScript抽象语法树

5.5 JavaScript Hook技术

5.6 JavaScript逆向工程实践

5.7 本章小结

5.8 本章练习

第6章 App数据爬取与逆向分析

6.1 基于抓包分析的App数据爬取

6.2 基于Appium自动化框架的App数据采集

6.3 Android应用程序静态分析

6.4 Android应用程序动态分析

6.5 二进制文件逆向分析

6.6 加壳与脱壳技术

6.7 App逆向分析实战一

6.8 App逆向分析实战二

6.9 本章小结

6.10 本章练习

第7章 分布式爬虫系统关键技术

7.1 常用的分布式架构模式

7.2 任务调度策略

7.3 任务调度器

7.4 分布式消息队列

7.5 服务注册与发现

7.6 完全重复内容检测

7.7 近似重复内容检测

7.8 本章小结

7.9 本章练习

第8章 分布式爬虫系统实战

8.1 需求分析

8.2 系统设计与实现

8.3 本章小结

8.4 本章练习

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部