万本电子书0元读

万本电子书0元读

顶部广告

Python 3网络爬虫实战电子书

本书详解网络爬虫的技术基础、Python常用IDE的使用、Python数据的存储、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、PyQuery模块、Selenium模拟浏览器、PySpider框架图片验证识别、爬取App、爬虫与反爬虫等内容。本书内容通俗易懂,方便读者快速掌握Python 3网络爬虫技术。

售       价:¥

纸质售价:¥62.40购买纸书

82人正在读 | 0人评论 6.2

作       者:胡松涛

出  版  社:清华大学出版社

出版时间:2020-08-01

字       数:18.2万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书分为8章,内容包括Python的发环境、爬虫的基础原理和概念、数据解析与存贮、简单爬虫的使用、PyQuery模块、Scrapy框架、Beautiful Soup框架发出不同的网络爬虫。用实例显示出不同框架的优缺,供读者学习选择。<br/>【推荐语】<br/>本书详解网络爬虫的技术基础、Python常用IDE的使用、Python数据的存储、Python爬虫常用模块、Scrapy爬虫、BeautifulSoup爬虫、PyQuery模块、Selenium模拟浏览器、PySpider框架图片验证识别、爬取App、爬虫与反爬虫等内容。本书内容通俗易懂,方便读者快速掌握Python 3网络爬虫技术。<br/>【作者】<br/>胡松涛,高级工程师,参与多个Linux源项目,github知名代码分享者,活跃于国内著名的多个源论坛。<br/>
目录展开

封面页

书名页

版权页

内容简介

前言

目录

第1章 Python环境配置

1.1 Python简介

1.1.1 Python的历史由来

1.1.2 Python的现状

1.1.3 Python的应用

1.2 Python 3.8.0开发环境配置

1.2.1 在Windows下安装Python

1.2.2 在Windows下安装配置pip

1.2.3 在Linux下安装Python

1.2.4 在Linux下安装配置pip

1.2.5 永远的hello world

1.3 本章小结

第2章 爬虫基础快速入门

2.1 HTTP基本原理

2.1.1 URI和URL

2.1.2 超文本

2.1.3 HTTP和HTTPS

2.1.4 HTTP请求过程

2.1.5 请求

2.1.6 响应

2.2 网页基础

2.2.1 网页的组成

2.2.2 网页的结构

2.2.3 节点树及节点间的关系

2.2.4 选择器

2.3 爬虫的基本原理

2.3.1 爬虫概述

2.3.2 能抓取什么样的数据

2.3.3 JavaScript渲染页面

2.4 会话和Cookies

2.4.1 静态网页和动态网页

2.4.2 无状态HTTP

2.4.3 常见误区

2.5 代理的基本原理

2.5.1 基本原理

2.5.2 代理的作用

2.5.3 代理分类

2.5.4 常见代理设置

2.6 本章小结

第3章 数据存储与解析

3.1 文件存储

3.1.1 TXT文件存储

3.1.2 JSON文件存储

3.1.3 CSV文件存储

3.2 关系型数据库存储

3.2.1 连接数据库

3.2.2 创建表

3.2.3 插入数据

3.2.4 浏览数据

3.2.5 修改数据

3.2.6 删除数据

3.3 非关系型数据库存储

3.3.1 安装数据库

3.3.2 MongoDB概念解析

3.3.3 创建数据库

3.3.4 创建集合

3.3.5 插入文档

3.3.6 查询集合数据

3.3.7 修改记录

3.3.8 数据排序

3.3.9 删除文档

3.4 lxml模块解析数据

3.4.1 安装模块

3.4.2 XPath常用规则

3.4.3 读取文件进行解析

3.5 本章小结

第4章 Python爬虫常用模块

4.1 Python网络爬虫技术核心

4.1.1 Python网络爬虫实现原理

4.1.2 爬行策略

4.1.3 身份识别

4.2 Python 3标准库之urllib.request模块

4.2.1 urllib.request请求返回网页

4.2.2 urllib.request使用代理访问网页

4.2.3 urllib.request修改header

4.3 Python 3标准库之logging模块

4.3.1 简述logging模块

4.3.2 自定义模块myLog

4.4 re模块(正则表达式)

4.4.1 re模块(正则表达式的操作)

4.4.2 re模块实战

4.5 其他有用模块

4.5.1 sys模块(系统参数获取)

4.5.2 time模块(获取时间信息)

4.6 本章小结

第5章 Scrapy爬虫框架

5.1 安装Scrapy

5.1.1 在Windows下安装Scrapy环境

5.1.2 在Linux下安装Scrapy

5.1.3 vim编辑器

5.2 Scrapy选择器XPath和CSS

5.2.1 XPath选择器

5.2.2 CSS选择器

5.2.3 其他选择器

5.3 Scrapy爬虫实战一:今日影视

5.3.1 创建Scrapy项目

5.3.2 Scrapy文件介绍

5.3.3 Scrapy爬虫的编写

5.4 Scrapy爬虫实战二:天气预报

5.4.1 项目准备

5.4.2 创建并编辑Scrapy爬虫

5.4.3 数据存储到JSON

5.4.4 数据存储到MySQL

5.5 Scrapy爬虫实战三:获取代理

5.5.1 项目准备

5.5.2 创建编辑Scrapy爬虫

5.5.3 多个Spider

5.5.4 处理Spider数据

5.6 Scrapy爬虫实战四:糗事百科

5.6.1 目标分析

5.6.2 创建编辑Scrapy爬虫

5.6.3 Scrapy项目中间件——添加headers

5.6.4 Scrapy项目中间件——添加Proxy

5.7 Scrapy爬虫实战五:爬虫攻防

5.7.1 创建一般爬虫

5.7.2 封锁间隔时间破解

5.7.3 封锁Cookies破解

5.7.4 封锁User-Agent破解

5.7.5 封锁IP破解

5.8 本章小结

第6章 BeautifulSoup爬虫

6.1 安装BeautifulSoup环境

6.1.1 在Windows下安装BeautifulSoup

6.1.2 在Linux下安装BeautifulSoup

6.1.3 最强大的IDE——Eclipse

6.2 BeautifulSoup解析器

6.2.1 bs4解析器选择

6.2.2 lxml解析器的安装

6.2.3 使用bs4过滤器

6.3 bs4爬虫实战一:获取百度贴吧内容

6.3.1 目标分析

6.3.2 项目实施

6.3.3 代码分析

6.3.4 Eclipse调试

6.4 bs4爬虫实战二:获取双色球中奖信息

6.4.1 目标分析

6.4.2 项目实施

6.4.3 保存结果到Excel

6.4.4 代码分析

6.5 bs4爬虫实战三:获取起点小说信息

6.5.1 目标分析

6.5.2 项目实施

6.5.3 保存结果到MySQL

6.5.4 代码分析

6.6 bs4爬虫实战四:获取电影信息

6.6.1 目标分析

6.6.2 项目实施

6.6.3 bs4反爬虫

6.6.4 代码分析

6.7 bs4爬虫实战五:获取音悦台榜单

6.7.1 目标分析

6.7.2 项目实施

6.7.3 代码分析

6.8 本章小结

第7章 PyQuery模块

7.1 PyQuery模块

7.1.1 什么是PyQuery模块

7.1.2 PyQuery与其他工具

7.1.3 PyQuery模块的安装

7.2 PyQuery模块的用法

7.2.1 使用字符串初始化

7.2.2 使用文件初始化

7.2.3 使用URL初始化

7.3 CSS筛选器的使用

7.3.1 基本CSS选择器

7.3.2 查找节点

7.3.3 遍历结果

7.3.4 获取文本信息

7.4 PyQuery爬虫实战一:爬取百度风云榜

7.5 PyQuery爬虫实战二:爬取微博热搜

7.6 本章小结

第8章 Selenium模拟浏览器

8.1 安装Selenium模块

8.1.1 在Windows下安装Selenium模块

8.1.2 在Linux下安装Selenium模块

8.2 浏览器选择

8.2.1 Webdriver支持列表

8.2.2 在Windows下安装PhantomJS

8.2.3 在Linux下安装PhantomJS

8.3 Selenium&PhantomJS抓取数据

8.3.1 获取百度搜索结果

8.3.2 获取搜索结果

8.3.3 获取有效数据位置

8.3.4 从位置中获取有效数据

8.4 Selenium&PhantomJS实战一:获取代理

8.4.1 准备环境

8.4.2 爬虫代码

8.4.3 代码解释

8.5 Selenium&PhantomJS实战二:漫画爬虫

8.5.1 准备环境

8.5.2 爬虫代码

8.5.3 代码解释

8.6 本章小结

第9章 PySpider框架的使用

9.1 安装PySpider

9.1.1 安装PySpider

9.1.2 使用PyQuery测试

9.2 PySpider实战一:优酷影视排行

9.2.1 创建项目

9.2.2 爬虫编写一:使用PySpider+PyQuery实现爬取

9.2.3 爬虫编写二:使用PySpider+ BeautifulSoup实现爬取

9.3 PySpider实战二:电影下载

9.3.1 项目分析

9.3.2 爬虫编写

9.3.3 爬虫运行、调试

9.3.4 删除项目

9.4 PySpider实战三:音悦台MusicTop

9.4.1 项目分析

9.4.2 爬虫编写

9.5 本章小结

第10章 图形验证识别技术

10.1 图像识别开源库:Tesseract

10.1.1 安装Tesseract

10.1.2 设置环境变量

10.1.3 测试一:使用tesseract命令识别图片中的字符

10.1.4 测试二:使用pytesseract模块识别图片中的英文字符

10.1.5 测试三:使用pytesseract模块识别图片中的中文文字

10.2 对网络验证码的识别

10.2.1 图形验证实战一:读取网络验证码并识别

10.2.2 图形验证实战二:对验证码进行转化

10.3 实战三:破解滑块验证码

10.3.1 所需工具

10.3.2 解决思路

10.3.3 编写代码

10.4 本章小结

第11章 爬取App

11.1 Charles的使用

11.1.1 下载安装Charles

11.1.2 界面介绍

11.1.3 Proxy菜单

11.1.4 使用Charles进行PC端抓包

11.1.5 使用Charles进行移动端抓包

11.2 Mitmproxy的使用

11.2.1 安装Mitmproxy

11.2.2 启动Mitmproxy

11.2.3 编写自定义脚本

11.2.4 Mitmproxy事件

11.2.5 实战:演示Mitmproxy

11.3 实战:使用Mitmdump爬取App

11.3.1 事先准备

11.3.2 带脚本抓取

11.3.3 分析结果并保存

11.4 Appium的基本使用

11.4.1 安装Appium——直接下载安装包AppiumDesktop

11.4.2 安装Appium——通过Node.js

11.4.3 Android开发环境配置

11.4.4 iOS开发环境配置

11.4.5 使用Appium

11.4.6 操作App

11.5 本章小结

第12章 爬虫与反爬虫

12.1 防止爬虫IP被禁

12.1.1 反爬虫在行动

12.1.2 爬虫的应对

12.2 在爬虫中使用Cookies

12.2.1 通过Cookies反爬虫

12.2.2 带Cookies的爬虫

12.2.3 动态加载反爬虫

12.2.4 使用浏览器获取数据

12.3 本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部