万本电子书0元读

万本电子书0元读

顶部广告

精通Scrapy网络爬虫电子书

本书以应用为出发,详细深地介绍了Python流行框架Scrapy的核心技术及网络爬虫的发技巧。本书分为基础篇和高级篇两部分,基础篇重介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等内容。为方便读者快速上手,本书还设计了大量项目案列,包括供练习用的网站的爬取以及如*、知乎、豆瓣、360等网站的爬取。本书很适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。此外,书中涉及的关联知识很丰富,可以帮助读者拓展知识面,掌握更多实用技能。

售       价:¥

纸质售价:¥44.20购买纸书

596人正在读 | 5人评论 6.8

作       者:刘硕

出  版  社:清华大学出版社

出版时间:2017-10-01

字       数:20.1万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(6条)
  • 读书简介
  • 目录
  • 累计评论(6条)
本书深系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及*、知乎、豆瓣、360爬虫案例等。 本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。<br/>【推荐语】<br/>本书以应用为出发,详细深地介绍了Python流行框架Scrapy的核心技术及网络爬虫的发技巧。本书分为基础篇和高级篇两部分,基础篇重介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等内容。为方便读者快速上手,本书还设计了大量项目案列,包括供练习用的网站的爬取以及如*、知乎、豆瓣、360等网站的爬取。本书很适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。此外,书中涉及的关联知识很丰富,可以帮助读者拓展知识面,掌握更多实用技能。<br/>【作者】<br/>刘硕:硕士,曾就职于知名外企,从事一线发工作10年,目前主要从事Python发与教学工作,在慕课网设有多门Python课程,深受学员欢迎。<br/>
目录展开

内容简介

作者简介

前言

第1章 初识Scrapy

1.1 网络爬虫是什么

1.2 Scrapy简介及安装

1.3 编写第一个Scrapy爬虫

1.4 本章小结

第2章 编写Spider

2.1 Scrapy框架结构及工作原理

2.2 Request和Response对象

2.3 Spider开发流程

2.4 本章小结

第3章 使用Selector提取数据

3.1 Selector对象

3.2 Response内置Selector

3.3 XPath

3.4 CSS选择器

3.5 本章小结

第4章 使用Item封装数据

4.1 Item和Field

4.2 拓展Item子类

4.3 Field元数据

4.4 本章小结

第5章 使用Item Pipeline处理数据

5.1 Item Pipeline

5.2 更多例子

5.3 本章小结

第6章 使用LinkExtractor提取链接

6.1 使用LinkExtractor

6.2 描述提取规则

6.3 本章小结

第7章 使用Exporter导出数据

7.1 指定如何导出数据

7.2 添加导出数据格式

7.3 本章小结

第8章 项目练习

8.1 项目需求

8.2 页面分析

8.3 编码实现

8.4 本章小结

第9章 下载文件和图片

9.1 FilesPipeline和ImagesPipeline

9.2 项目实战:爬取matplotlib例子源码文件

9.3 项目实战:下载360图片

9.4 本章小结

第10章 模拟登录

10.1 登录实质

10.2 Scrapy模拟登录

10.3 识别验证码

10.4 Cookie登录

10.5 本章小结

第11章 爬取动态页面

11.1 Splash渲染引擎

11.2 在Scrapy中使用Splash

11.3 项目实战:爬取toscrape中的名人名言

11.4 项目实战:爬取京东商城中的书籍信息

11.5 本章小结

第12章 存入数据库

12.1 SQLite

12.2 MySQL

12.3 MongoDB

12.4 Redis

12.5 本章小结

第13章 使用HTTP代理

13.1 HttpProxyMiddleware

13.2 使用多个代理

13.3 获取免费代理

13.4 实现随机代理

13.5 项目实战:爬取豆瓣电影信息

13.6 本章小结

第14章 分布式爬取

14.1 Redis的使用

14.2 scrapy-redis源码分析

14.3 使用scrapy-redis进行分布式爬取

14.4 本章小结

累计评论(6条) 5个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部