万本电子书0元读

万本电子书0元读

顶部广告

实战Python网络爬虫电子书

从爬虫软件发到自己动手发爬虫框架 从原理到实践,深浅出,热门爬虫核心技术全掌握 涵盖丰富的爬虫工具、库、框架,十余个实战项目 资深爬虫工程师倾力奉献,门、阶、求职

售       价:¥

纸质售价:¥74.80购买纸书

412人正在读 | 2人评论 6.2

作       者:黄永祥

出  版  社:清华大学出版社

出版时间:2019-06-01

字       数:22.7万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(2条)
  • 读书简介
  • 目录
  • 累计评论(2条)
本书从原理到实践,循序渐地讲述了使用Python发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,行企业级发。实战篇深讲解了分布式爬虫、爬虫软件的发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手发一款爬虫框架、反爬虫技术的解决方案等内容。 本书使用Python 3.X编写,技术先,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深理解Python爬虫的发人员使用。<br/>【推荐语】<br/>从爬虫软件发到自己动手发爬虫框架 从原理到实践,深浅出,热门爬虫核心技术全掌握 涵盖丰富的爬虫工具、库、框架,十余个实战项目 资深爬虫工程师倾力奉献,门、阶、求职<br/>【作者】<br/>黄永祥,CSDN博客专家和签约讲师,多年软件研发经验,主要从事机器人流程系统研发、大数据系统研发、网络爬虫研发以及自动化运维系统研发。擅长使用Python编写高质量代码,对Python有深研究,热爱分享和新技术的探索。<br/>
目录展开

内容简介

作/者/简/介

前言

第1章 理解网络爬虫

1.1 爬虫的定义

1.2 爬虫的类型

1.3 爬虫的原理

1.4 爬虫的搜索策略

1.5 爬虫的合法性与开发流程

1.6 本章小结

第2章 爬虫开发基础

2.1 HTTP与HTTPS

2.2 请求头

2.3 Cookies

2.4 HTML

2.5 JavaScript

2.6 JSON

2.7 Ajax

2.8 本章小结

第3章 Chrome分析网站

3.1 Chrome开发工具

3.2 Elements标签

3.3 Network标签

3.4 分析QQ音乐

3.5 本章小结

第4章 Fiddler抓包

4.1 Fiddler介绍

4.2 Fiddler安装配置

4.3 Fiddler抓取手机应用

4.4 Toolbar工具栏

4.5 Web Session列表

4.6 View选项视图

4.7 Quickexec命令行

4.8 本章小结

第5章 爬虫库Urllib

5.1 Urllib简介

5.2 发送请求

5.3 复杂的请求

5.4 代理IP

5.5 使用Cookies

5.6 证书验证

5.7 数据处理

5.8 本章小结

第6章 爬虫库Requests

6.1 Requests简介及安装

6.2 请求方式

6.3 复杂的请求方式

6.4 下载与上传

6.5 本章小结

第7章 Requests-Cache爬虫缓存

7.1 简介及安装

7.2 在Requests中使用缓存

7.3 缓存的存储机制

7.4 本章小结

第8章 爬虫库Requests-HTML

8.1 简介及安装

8.2 请求方式

8.3 数据清洗

8.4 Ajax动态数据抓取

8.5 本章小结

第9章 网页操控与数据爬取

9.1 了解Selenium

9.2 安装Selenium

9.3 网页元素定位

9.4 网页元素操控

9.5 常用功能

9.6 实战:百度自动答题

9.7 本章小结

第10章 手机App数据爬取

10.1 Appium简介及原理

10.2 搭建开发环境

10.3 连接Android系统

10.4 App的元素定位

10.5 App的元素操控

10.6 实战:淘宝商品采集

10.7 本章小结

第11章 Splash、Mitmproxy与Aiohttp

11.1 Splash动态数据抓取

11.2 Mitmproxy抓包

11.3 Aiohttp高并发抓取

11.4 本章小结

第12章 验证码识别

12.1 验证码的类型

12.2 OCR技术

12.3 第三方平台

12.4 本章小结

第13章 数据清洗

13.1 字符串操作

13.2 正则表达式

13.3 BeautifulSoup数据清洗

13.4 本章小结

第14章 文档数据存储

14.1 CSV数据的写入和读取

14.2 Excel数据的写入和读取

14.3 Word数据的写入和读取

14.4 本章小结

第15章 ORM框架

15.1 SQLAlchemy介绍与安装

15.2 连接数据库

15.3 创建数据表

15.4 添加数据

15.5 更新数据

15.6 查询数据

15.7 本章小结

第16章 MongoDB数据库操作

16.1 MongoDB介绍

16.2 MogoDB的安装及使用

16.3 连接MongoDB数据库

16.4 添加文档

16.5 更新文档

16.6 查询文档

16.7 本章小结

第17章 实战:爬取51Job招聘信息

17.1 项目分析

17.2 获取城市编号

17.3 获取招聘职位总页数

17.4 爬取每个职位信息

17.5 数据存储

17.6 爬虫配置文件

17.7 本章小结

第18章 实战:分布式爬虫——QQ音乐

18.1 项目分析

18.2 歌曲下载

18.3 歌手的歌曲信息

18.4 分类歌手列表

18.5 全站歌手列表

18.6 数据存储

18.7 分布式爬虫

18.8 本章小结

第19章 实战:12306抢票爬虫

19.1 项目分析

19.2 验证码验证

19.3 用户登录与验证

19.4 查询车次

19.5 预订车票

19.6 提交订单

19.7 生成订单

19.8 本章小结

第20章 实战:玩转微博

20.1 项目分析

20.2 用户登录

20.3 用户登录(带验证码)

20.4 关键词搜索热门微博

20.5 发布微博

20.6 关注用户

20.7 点赞和转发评论

20.8 本章小结

第21章 实战:微博爬虫软件开发

21.1 GUI库及PyQt5的安装与配置

21.2 项目分析

21.3 软件主界面

21.4 相关服务界面

21.5 微博采集界面

21.6 微博发布界面

21.7 微博爬虫功能

21.8 本章小结

第22章 Scrapy爬虫开发

22.1 认识与安装Scrapy

22.2 Scrapy爬虫开发示例

22.3 Spider的编写

22.4 Items的编写

22.5 Item Pipeline的编写

22.6 Selectors的编写

22.7 文件下载

22.8 本章小结

第23章 Scrapy扩展开发

23.1 剖析Scrapy中间件

23.2 自定义中间件

23.3 实战:Scrapy+Selenium爬取豆瓣电影评论

23.4 实战:Scrapy+Splash爬取B站动漫信息

23.5 实战:Scrapy+Redis分布式爬取猫眼排行榜

23.6 分布式爬虫与增量式爬虫

23.7 本章小结

第24章 实战:爬取链家楼盘信息

24.1 项目分析

24.2 创建项目

24.3 项目配置

24.4 定义存储字段

24.5 定义管道类

24.6 编写爬虫规则

24.7 本章小结

第25章 实战:QQ音乐全站爬取

25.1 项目分析

25.2 项目创建与配置

25.3 定义存储字段和管道类

25.4 编写爬虫规则

25.5 本章小结

第26章 爬虫的上线部署

26.1 非框架式爬虫部署

26.2 框架式爬虫部署

26.3 本章小结

第27章 反爬虫的解决方案

27.1 常见的反爬虫技术

27.2 基于验证码的反爬虫

27.3 基于请求参数的反爬虫

27.4 基于请求头的反爬虫

27.5 基于Cookies的反爬虫

27.6 本章小结

第28章 自己动手开发爬虫框架

28.1 框架设计说明

28.2 异步爬取方式

28.3 数据清洗机制

28.4 数据存储机制

28.5 实战:用自制框架爬取豆瓣电影

28.6 本章小结

累计评论(2条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部