万本电子书0元读

万本电子书0元读

顶部广告

Python爬虫开发与项目实战电子书

售       价:¥

纸质售价:¥57.00购买纸书

119人正在读 | 0人评论 6.4

作       者:范传辉

出  版  社:机械工业出版社

出版时间:2017-03-01

字       数:36.5万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(6条)
  • 读书简介
  • 目录
  • 累计评论(6条)
本书从基本的爬虫原理始讲解,通过介绍Pthyon编程语言与HTML基础知识引领读者门,之后根据当前风起云涌的云计算、大数据热潮,重讲述了云计算的相关内容及其在爬虫中的应用,而介绍如何设计自己的爬虫应用。主要内容分为基础篇、中级篇、深篇,基础篇包括Python编程基础、Web前端基础、HTML基础知识、基础爬虫设计、强化爬虫技术等。中级篇包括数据存储、动态网站抓取、协议分析、Scrapy爬虫框架分析及实战案例等。高级篇包括增量式爬虫、分布式爬虫、人性化爬虫等框架设计。<br/>【作者】<br/>范传辉 网虫,Python发者,参与发了多项网络应用,在实际发中积累了丰富的实战经验,并善于总结,贡献了多篇技术文章广受好评。研究兴趣是网络安全、爬虫技术、数据分析、驱动发等技术。<br/>
目录展开

前言

基础篇

第1章 回顾Python编程

1.1 安装Python

1.1.1 Windows上安装Python

1.1.2 Ubuntu上的Python

1.2 搭建开发环境

1.2.1 Eclipse+PyDev

1.2.2 PyCharm

1.3 IO编程

1.3.1 文件读写

1.3.2 操作文件和目录

1.3.3 序列化操作

1.4 进程和线程

1.4.1 多进程

1.4.2 多线程

1.4.3 协程

1.4.4 分布式进程

1.5 网络编程

1.5.1 TCP编程

1.5.2 UDP编程

1.6 小结

第2章 Web前端基础

2.1 W3C标准

2.1.1 HTML

2.1.2 CSS

2.1.3 JavaScript

2.1.4 XPath

2.1.5 JSON

2.2 HTTP标准

2.2.1 HTTP请求过程

2.2.2 HTTP状态码含义

2.2.3 HTTP头部信息

2.2.4 Cookie状态管理

2.2.5 HTTP请求方式

2.3 小结

第3章 初识网络爬虫

3.1 网络爬虫概述

3.1.1 网络爬虫及其应用

3.1.2 网络爬虫结构

3.2 HTTP请求的Python实现

3.2.1 urllib2/urllib实现

3.2.2 httplib/urllib实现

3.2.3 更人性化的Requests

3.3 小结

第4章 HTML解析大法

4.1 初识Firebug

4.1.1 安装Firebug

4.1.2 强大的功能

4.2 正则表达式

4.2.1 基本语法与使用

4.2.2 Python与正则

4.3 强大的BeautifulSoup

4.3.1 安装BeautifulSoup

4.3.2 BeautifulSoup的使用

4.3.3 lxml的XPath解析

4.4 小结

第5章 数据存储(无数据库版)

5.1 HTML正文抽取

5.1.1 存储为JSON

5.1.2 存储为CSV

5.2 多媒体文件抽取

5.3 Email提醒

5.4 小结

第6章 实战项目:基础爬虫

6.1 基础爬虫架构及运行流程

6.2 URL管理器

6.3 HTML下载器

6.4 HTML解析器

6.5 数据存储器

6.6 爬虫调度器

6.7 小结

第7章 实战项目:简单分布式爬虫

7.1 简单分布式爬虫结构

7.2 控制节点

7.2.1 URL管理器

7.2.2 数据存储器

7.2.3 控制调度器

7.3 爬虫节点

7.3.1 HTML下载器

7.3.2 HTML解析器

7.3.3 爬虫调度器

7.4 小结

中级篇

第8章 数据存储(数据库版)

8.1 SQLite

8.1.1 安装SQLite

8.1.2 SQL语法

8.1.3 SQLite增删改查

8.1.4 SQLite事务

8.1.5 Python操作SQLite

8.2 MySQL

8.2.1 安装MySQL

8.2.2 MySQL基础

8.2.3 Python操作MySQL

8.3 更适合爬虫的MongoDB

8.3.1 安装MongoDB

8.3.2 MongoDB基础

8.3.3 Python操作MongoDB

8.4 小结

第9章 动态网站抓取

9.1 Ajax和动态HTML

9.2 动态爬虫1:爬取影评信息

9.3 PhantomJS

9.3.1 安装PhantomJS

9.3.2 快速入门

9.3.3 屏幕捕获

9.3.4 网络监控

9.3.5 页面自动化

9.3.6 常用模块和方法

9.4 Selenium

9.4.1 安装Selenium

9.4.2 快速入门

9.4.3 元素选取

9.4.4 页面操作

9.4.5 等待

9.5 动态爬虫2:爬取去哪网

9.6 小结

第10章 Web端协议分析

10.1 网页登录POST分析

10.1.1 隐藏表单分析

10.1.2 加密数据分析

10.2 验证码问题

10.2.1 IP代理

10.2.2 Cookie登录

10.2.3 传统验证码识别

10.2.4 人工打码

10.2.5 滑动验证码

10.3 www>m>wap

10.4 小结

第11章 终端协议分析

11.1 PC客户端抓包分析

11.1.1 HTTP Analyzer简介

11.1.2 虾米音乐PC端API实战分析

11.2 App抓包分析

11.2.1 Wireshark简介

11.2.2 酷我听书App端API实战分析

11.3 API爬虫:爬取mp3资源信息

11.4 小结

第12章 初窥Scrapy爬虫框架

12.1 Scrapy爬虫架构

12.2 安装Scrapy

12.3 创建cnblogs项目

12.4 创建爬虫模块

12.5 选择器

12.5.1 Selector的用法

12.5.2 HTML解析实现

12.6 命令行工具

12.7 定义Item

12.8 翻页功能

12.9 构建Item Pipeline

12.9.1 定制Item Pipeline

12.9.2 激活Item Pipeline

12.10 内置数据存储

12.11 内置图片和文件下载方式

12.12 启动爬虫

12.13 强化爬虫

12.13.1 调试方法

12.13.2 异常

12.13.3 控制运行状态

12.14 小结

第13章 深入Scrapy爬虫框架

13.1 再看Spider

13.2 Item Loader

13.2.1 Item与Item Loader

13.2.2 输入与输出处理器

13.2.3 Item Loader Context

13.2.4 重用和扩展Item Loader

13.2.5 内置的处理器

13.3 再看Item Pipeline

13.4 请求与响应

13.4.1 Request对象

13.4.2 Response对象

13.5 下载器中间件

13.5.1 激活下载器中间件

13.5.2 编写下载器中间件

13.6 Spider中间件

13.6.1 激活Spider中间件

13.6.2 编写Spider中间件

13.7 扩展

13.7.1 配置扩展

13.7.2 定制扩展

13.7.3 内置扩展

13.8 突破反爬虫

13.8.1 UserAgent池

13.8.2 禁用Cookies

13.8.3 设置下载延时与自动限速

13.8.4 代理IP池

13.8.5 Tor代理

13.8.6 分布式下载器:Crawlera

13.8.7 Google cache

13.9 小结

第14章 实战项目:Scrapy爬虫

14.1 创建知乎爬虫

14.2 定义Item

14.3 创建爬虫模块

14.3.1 登录知乎

14.3.2 解析功能

14.4 Pipeline

14.5 优化措施

14.6 部署爬虫

14.6.1 Scrapyd

14.6.2 Scrapyd-client

14.7 小结

深入篇

第15章 增量式爬虫

15.1 去重方案

15.2 BloomFilter算法

15.2.1 BloomFilter原理

15.2.2 Python实现BloomFilter

15.3 Scrapy和BloomFilter

15.4 小结

第16章 分布式爬虫与Scrapy

16.1 Redis基础

16.1.1 Redis简介

16.1.2 Redis的安装和配置

16.1.3 Redis数据类型与操作

16.2 Python和Redis

16.2.1 Python操作Redis

16.2.2 Scrapy集成Redis

16.3 MongoDB集群

16.4 小结

第17章 实战项目:Scrapy分布式爬虫

17.1 创建云起书院爬虫

17.2 定义Item

17.3 编写爬虫模块

17.4 Pipeline

17.5 应对反爬虫机制

17.6 去重优化

17.7 小结

第18章 人性化PySpider爬虫框架

18.1 PySpider与Scrapy

18.2 安装PySpider

18.3 创建豆瓣爬虫

18.4 选择器

18.4.1 PyQuery的用法

18.4.2 解析数据

18.5 Ajax和HTTP请求

18.5.1 Ajax爬取

18.5.2 HTTP请求实现

18.6 PySpider和PhantomJS

18.6.1 使用PhantomJS

18.6.2 运行JavaScript

18.7 数据存储

18.8 PySpider爬虫架构

18.9 小结

累计评论(6条) 7个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部