万本电子书0元读

万本电子书0元读

顶部广告

Scrapy网络爬虫实战电子书

Scrapy爬虫框架可以用来高效爬取数据,其自定义扩展灵活,适合用来学习和研究数据爬取技术。本书假设读者已经掌握Python编程,从Scrapy框架操作手,由浅深地介绍爬虫原理、数据爬取、数据保存和爬虫优化等技术,使读者在深运用Python语言的同时,又能数据抽取与网络数据采集的技术之门。

售       价:¥

纸质售价:¥40.70购买纸书

43人正在读 | 0人评论 6.5

作       者:东郭大猫

出  版  社:清华大学出版社

出版时间:2019-10-01

字       数:8.1万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
随着大数据分析、大数据计算火热兴起,越来越多的企业发布了数据分析岗位,而数据分析的基础则是海量的数据。Python中的Scrapy框架就是为了抓取数据而设计的。本书是一本Scrapy爬虫框架零基础起步的实战图书。 本书共分11章,第1~2章介绍Python环境的搭建、编辑器的使用、爬虫的一些基础知识(urllib、requests、Selenium、Xpath、CSS、正则表达式、BeautifulSoup库)等。第3~8章主要介绍Scrapy框架的原理与使用。第9~11章主要介绍Scrapy的优化,包括内置服务、组件优化等,*后通过一个完整的大型示例对全书的知识做了应用总结。 本书门门槛低、浅显易懂,适合所有Scrapy爬虫和数据分析行业的门读者学习,也适合高等院校和培训学校作为爬虫门教材和训练手册。 随着大数据分析、大数据计算火热兴起,越来越多的企业发布了数据分析岗位,而数据分析的基础则是海量的数据。Python中的Scrapy框架就是为了抓取数据而设计的。本书是一本Scrapy爬虫框架零基础起步的实战图书。 本书共分11章,第1~2章介绍Python环境的搭建、编辑器的使用、爬虫的一些基础知识(urllib、requests、Selenium、Xpath、CSS、正则表达式、BeautifulSoup库)等。第3~8章主要介绍Scrapy框架的原理与使用。第9~11章主要介绍Scrapy的优化,包括内置服务、组件优化等,*后通过一个完整的大型示例对全书的知识做了应用总结。 本书门门槛低、浅显易懂,适合所有Scrapy爬虫和数据分析行业的门读者学习,也适合高等院校和培训学校作为爬虫门教材和训练手册。
【推荐语】
Scrapy爬虫框架可以用来高效爬取数据,其自定义扩展灵活,适合用来学习和研究数据爬取技术。本书假设读者已经掌握Python编程,从Scrapy框架操作手,由浅深地介绍爬虫原理、数据爬取、数据保存和爬虫优化等技术,使读者在深运用Python语言的同时,又能数据抽取与网络数据采集的技术之门。
【作者】
东郭大猫,常年从事数据相关的工作,擅长用Python行数据的爬取、分析和存储。使用Python超过5年,做过公司内部的数据爬取培训。
目录展开

内容简介

前 言

读懂本书

本书特点

示例代码下载

本书适用读者

第1章 Python开发环境的搭建

1.1 Python SDK安装

1.2 安装开发工具PyCharm社区版

1.3 安装开发工具Visual Studio社区版

第2章 爬虫基础知识

2.1 爬虫原理

2.2 网页分析方法1:浏览器开发人员工具

2.3 网页分析方法2:XPath语法

2.4 网页分析方法3:CSS选择语法

2.5 网页分析方法4:正则表达式

2.6 爬虫常用类库1:Python中的HTTP基本库urllib

2.7 爬虫常用类库2:更人性化的第三方库requests

2.8 爬虫常用类库3:元素提取利器BeautifulSoup

2.9 爬虫常用类库4:Selenium操纵浏览器

2.10 爬虫常用类库5:Scrapy爬虫框架

2.11 基本爬虫实战:抓取cnBeta网站科技类文章

第3章 Scrapy命令行与Shell

3.1 Scrapy命令行介绍

3.2 Scrapy Shell命令行

第4章 Scrapy爬虫

4.1 编写爬虫

4.2 通用爬虫

4.3 爬虫实战

第5章 Scrapy管道

5.1 管道简介

5.2 编写自定义管道

5.3 下载文件和图片

5.4 数据库存储MySQL

5.5 数据库存储MongoDB

5.6 实战:爬取链家二手房信息并保存到数据库

第6章 Request与Response

6.1 Request对象

6.2 Response

第7章 Scrapy中间件

7.1 编写自定义Spider中间件

7.2 Spider内置中间件

7.3 编写自定义下载器中间件

7.4 下载器内置中间件

7.5 实战:为爬虫添加中间件

第8章 Scrapy配置与内置服务

8.1 Scrapy配置简介

8.2 日 志

8.3 数据收集

8.4 发送邮件

8.5 实战:抓取猫眼电影TOP100榜单数据

第9章 模拟登录

9.1 模拟提交表单

9.2 用Cookie模拟登录状态

9.3 项目实战

第10章 Scrapy爬虫优化

10.1 Scrapy+MongoDB实战:抓取并保存IT之家博客新闻

10.2 用Benchmark进行本地环境评估

10.3 扩展爬虫

第11章 Scrapy项目实战:爬取某社区用户详情

11.1 项目分析

11.2 创建爬虫

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部