万本电子书0元读

万本电子书0元读

顶部广告

Python 3反爬虫原理与绕过实战电子书

【人气推荐】《Python 3 网络爬虫发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。 【干货满满】爬虫工程师不可错过的“武功秘籍”,内容包括但不限于Cookie 反爬虫、WebSocket 反爬虫、字体反爬虫、WebDriver 反爬虫、App 反爬虫、验证码反爬虫。 【反爬虫原理 爬虫实战】从实战出发,印证国内互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。 【21个反爬虫示例】结合练习平台 Steamboat,帮助读者随时复现书中的 21个爬虫示例,巩固所学知识。

售       价:¥

纸质售价:¥66.20购买纸书

378人正在读 | 1人评论 6.8

作       者:韦世东

出  版  社:人民邮电出版社有限公司

出版时间:2020-01-01

字       数:28.7万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
本书首先介绍了发环境的配置,着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,*后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险。<br/>【推荐语】<br/>【人气推荐】《Python 3 网络爬虫发实战》作者、微软小冰工程师崔庆才作序,腾讯、马蜂窝工程师倾力推荐。 【干货满满】爬虫工程师不可错过的“武功秘籍”,内容包括但不限于Cookie 反爬虫、WebSocket 反爬虫、字体反爬虫、WebDriver 反爬虫、App 反爬虫、验证码反爬虫。 【反爬虫原理 爬虫实战】从实战出发,印证国内互联网企业内部加密原理,侧重讲解反爬虫的原理以及绕过方法。 【21个反爬虫示例】结合练习平台 Steamboat,帮助读者随时复现书中的 21个爬虫示例,巩固所学知识。<br/>【作者】<br/>韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区优秀作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技巧。<br/>
目录展开

前言

阅读建议

本书内容

致谢

免责声明

相关资源

第 1 章 开发环境配置

1.1 操作系统的选择

1.1.1 Ubuntu 简介

1.1.2 VirtualBox 的安装

1.1.3 安装 Ubuntu

1.1.4 全屏设置

1.1.5 Python 设置

1.2 练习平台 Steamboat

1.2.1 安装 Docker

1.2.2 安装 Steamboat

1.2.3 Steamboat 使用说明

1.3 第三方库的安装

1.3.1 Requests

1.3.2 Selenium

1.3.3 浏览器驱动

1.3.4 Splash

1.3.5 Puppeteer

1.3.6 PyTesseract

1.4 常用软件的安装

1.4.1 nginx

1.4.2 Charles

1.4.3 PC端 SSL 证书

1.4.4 iOS 系统的证书设置

1.4.5 Andriod 模拟器的安装与证书设置

1.4.6 Postman

1.4.7 Google Chrome

1.4.8 JADX

1.5 深度学习环境配置

1.5.1 NVIDIA显卡驱动安装

1.5.2 CUDA Toolkit 的安装

1.5.3 cuDNN 的安装

1.5.4 深度学习库 PyTorch

1.5.5 深度学习框架 Darknet

1.5.6 图片标注工具 LabelImg

1.6 Node.js 环境配置

1.6.1 Node.js 的安装

1.6.2 UglifyJS 的安装

第 2 章 Web网站的构成和页面渲染

2.1 nginx服务器

2.1.1 nginx的信号

2.1.2 nginx配置文件

2.1.3 简单的代理服务

2.1.4 nginx模块与指令

2.1.5 nginx日志

2.1.6 小结

2.2 浏览器

2.2.1 浏览器的主要结构

2.2.2 页面渲染

2.2.3 HTML DOM

2.2.4 浏览器对象BOM

2.2.5 小结

2.3 网络协议

2.3.1 认识HTTP

2.3.2 资源与资源标识符

2.3.3 HTTP请求与响应

2.3.4 Cookie

2.3.5 了解HTTPS

2.3.6 认识WebSocket

2.3.7 WebSocket握手

2.3.8 数据传输与数据帧

2.3.9 WebSocket连接

2.3.10 连接保持

2.3.11 小结

本章总结

第 3 章 爬虫与反爬虫

3.1 动态网页与网页源代码

3.2 爬虫知识回顾

3.3 反爬虫的概念与定义

本章总结

第 4 章 信息校验型反爬虫

4.1 User-Agent 反爬虫

4.1.1 User-Agent 反爬虫绕过实战

4.1.2 User-Agent 反爬虫的原理与实现

4.1.3 小结

4.2 Cookie 反爬虫

4.2.1 Cookie 反爬虫绕过实战

4.2.2 Cookie 反爬虫原理与实现

4.2.3 Cookie 与 JavaScript 结合

4.2.4 用户过滤

4.2.5 小结

4.3 签名验证反爬虫

4.3.1 签名验证反爬虫示例

4.3.2 签名验证反爬虫原理与实现

4.3.3 有道翻译反爬虫案例

4.3.4 小结

4.4 WebSocket 握手验证反爬虫

4.5 WebSocket 消息校验反爬虫

4.5.1 WebSocket 消息校验反爬虫示例

4.5.2 乐鱼体育反爬虫案例

4.6 WebSocket Ping反爬虫

本章总结

第 5 章 动态渲染反爬虫

5.1 常见的动态渲染反爬虫案例

5.1.1 自动执行的异步请求案例

5.1.2 点击事件和计算

5.1.3 下拉加载和异步请求

5.1.4 小结

5.2 动态渲染的通用解决办法

5.2.1 Selenium 套件

5.2.2 异步渲染库 Puppeteer

5.2.3 异步渲染服务 Splash

5.2.4 通用不一定适用

5.2.5 渲染工具知识扩展

5.2.6 小结

本章总结

第 6 章 文本混淆反爬虫

6.1 图片伪装反爬虫

6.1.1 图片伪装反爬虫绕过实战

6.1.2 广西人才网反爬虫案例

6.1.3 小结

6.2 CSS 偏移反爬虫

6.2.1 CSS 偏移反爬虫绕过实战

6.2.2 去哪儿网反爬虫案例

6.2.3 小结

6.3 SVG 映射反爬虫

6.3.1 SVG 映射反爬虫绕过实战

6.3.2 大众点评反爬虫案例

6.3.3 SVG 反爬虫原理

6.3.4 小结

6.4 字体反爬虫

6.4.1 字体反爬虫示例

6.4.2 字体文件 WOFF

6.4.3 字体反爬虫绕过实战

6.4.4 小结

6.5 文本混淆反爬虫通用解决办法

6.5.1 光学字符识别 OCR

6.5.2 PyTesseract 的缺点

6.5.3 文字识别 API

6.5.4 小结

本章总结

第 7 章 特征识别反爬虫

7.1 WebDriver 识别

7.1.1 WebDriver 识别示例

7.1.2 WebDriver 识别原理

7.1.3 WebDriver 识别的绕过方法

7.1.4 淘宝网 WebDriver 案例

7.1.5 小结

7.2 浏览器特征

7.3 爬虫特征

7.3.1 访问频率限制绕过实战

7.3.2 访问频率限制的原理与实现

7.3.3 浏览器指纹知识扩展

7.3.4 淘宝网浏览器指纹案例

7.3.5 小结

7.4 隐藏链接反爬虫

7.4.1 隐藏链接反爬虫示例

7.4.2 隐藏链接反爬虫原理与实现

7.4.3 小结

本章总结

第 8 章 App反爬虫

8.1 App 抓包

8.1.1 HTTP 抓包示例

8.1.2 掌上英雄联盟抓包案例(HTTP)

8.1.3 京东商城抓包案例(HTTPS)

8.1.4 小结

8.2 APK文件反编译

8.2.1 App 签名验证反爬虫示例

8.2.2 APK文件反编译实战

8.2.3 小结

8.3 代码混淆反爬虫

8.3.1 Android 代码混淆原理

8.3.2 掘金社区 App 代码混淆案例

8.3.3 小结

8.4 App 应用加固知识扩展

8.5 了解应用程序自动化测试工具

8.5.1 了解 Appium

8.5.2 了解 Airtest Project

8.5.3 小结

本章总结

第 9 章 验证码

9.1 字符验证码

9.1.1 字符验证码示例

9.1.2 实现字符验证码

9.1.3 深度学习的概念

9.1.4 卷积神经网络的概念

9.1.5 使用卷积神经网络预测验证码

9.1.6 小结

9.2 计算型验证码

9.2.1 计算型验证码示例

9.2.2 实现计算型验证码

9.2.3 小结

9.3 滑动验证码

9.3.1 滑动验证码示例

9.3.2 实现滑动验证码

9.3.3 小结

9.4 滑动拼图验证码

9.4.1 滑动拼图验证码示例

9.4.2 实现滑动拼图验证码

9.4.3 难度升级

9.4.4 图片中的缺口位置识别

9.4.5 小结

9.5 文字点选验证码

9.5.1 文字点选验证码示例

9.5.2 实现文字点选验证码

9.5.3 目标检测的概念

9.5.4 深度学习实现文字定位

9.5.5 批量检测与坐标输出

9.5.6 小结

9.6 鼠标轨迹的检测和原理

9.7 验证码产品赏析

9.7.1 滑动验证码

9.7.2 图标验证码

9.7.3 空间推理验证码

9.7.4 小结

本章总结

第 10 章 综合知识

10.1 编码与加密

10.1.1 ASCII 编码

10.1.2 详解 Base64

10.1.3 基于编码的反爬虫设计

10.1.4 MD5消息摘要算法

10.1.5 对称加密与 AES

10.1.6 非对称加密与 RSA

10.1.7 小结

10.2 JavaScript 代码混淆

10.2.1 常见的混淆方法

10.2.2 混淆代码的还原

10.2.3 混淆原理

10.2.4 实现一个简单的混淆器

10.2.5 小结

10.3 前端禁止事件

10.3.1 禁止鼠标事件

10.3.2 禁止键盘事件

10.3.3 小结

10.4 法律法规

10.4.1 数据安全管理办法征求意见稿

10.4.2 爬虫协议 Robots

10.4.3 与爬虫相关的法律法规

10.4.4 小结

本章总结

作者简介

看完了

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部