欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 程序设计 > Scrapy网络爬虫开发实战

Scrapy网络爬虫开发实战

| | 手机阅读

扫描下载当当云阅读App

Scrapy网络爬虫开发实战电子书

《Scrapy网络爬虫发实战》由猎兔搜索技术团队核心成员编写，使用流行的Scrapy框架发网络爬虫的应用，适合需要具体实现网络爬虫应用的发人员或者对网络爬虫等相关领域感兴趣的人士参考。

售价：¥

纸质售价：¥66.20购买纸书

35人正在读 | 0人评论

6.6

作者：罗刚

出版社：清华大学出版社有限公司

出版时间：2024-06-01

字数：164.4万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

《Scrapy网络爬虫发实战》介绍如何学习和使用流行的Scrapy框架发网络爬虫应用，主要内容使用Python发网络爬虫，识别网页的编码，结构化信息的提取，Scrapy爬虫的示例使用，Scrapy Playwright抓取动态JS网站，将抓取的数据保存到数据库，部署、调度和运行Scrapy爬虫等。《Scrapy网络爬虫发实战》适合作为高等院校计算机、软件工程专业本科生、研究生的参考书目，也适用于对Python网络爬虫领域感兴趣的人士参考阅读。

目录展开

封面页

书名页

内容简介

前言

目录

第1章　网络爬虫快速入门

1.1　各种网络爬虫

1.1.1　通用爬虫

1.1.2　定向爬虫

1.2　网络爬虫基本技术

1.3　Windows命令行

1.4　上手Scrapy网络爬虫开发

1.5　本章小结

第2章　Python开发快速入门

2.1　变量

2.2　注释

2.3　简单数据类型

2.3.1　数值

2.3.2　字符串

2.3.3　数组

2.4　字面值

2.5　控制流

2.5.1　if语句

2.5.2　循环

2.6　列表

2.7　元组

2.8　集合

2.9　字典

2.10　函数

2.11　模块

2.12　检查字符串是否包含子字符串

2.13　面向对象编程

2.14　泛型

2.15　日志记录

2.16　数据库

2.17　本章小结

第3章　使用Python开发网络爬虫

3.1　使用BeautifulSoup实现定向采集

3.2　URL基础

3.2.1　URI

3.2.2　解析相对地址

3.2.3　DNS解析

3.3　网络爬虫抓取原理

3.4　爬虫架构

3.4.1　基本架构

3.4.2　分布式爬虫架构

3.4.3　垂直爬虫架构

3.5　下载网页

3.5.1　HTTP

3.5.2　HTML文档

3.5.3　使用curl命令下载网络资源

3.5.4　使用wget命令下载网页

3.5.5　下载静态网页

3.5.6　使用Selenium下载动态内容

3.5.7　重试

3.6　下载图片

3.7　网络爬虫的遍历与实现

3.8　robots协议

3.9　连接池

3.10　URL地址查新

3.10.1　Redis数据库

3.10.2　布隆过滤器

3.11　抓取RSS

3.12　网页更新

3.13　进度条

3.14　垂直行业抓取

3.15　抓取限制的应对方法

3.15.1　模拟浏览器访问

3.15.2　使用代理IP

3.15.3　抓取需要登录的网页

3.16　保存信息

3.16.1　SQLite数据库

3.16.2　MySQL数据库

3.16.3　MongoDB数据库

3.16.4　存入Elasticsearch搜索引擎

3.17　本章小结

第4章　从互联网提取信息

4.1　识别网页的编码

4.1.1　二进制流的编码

4.1.2　识别编码的整体流程

4.2　正则表达式

4.3　结构化信息的提取

4.3.1　解析JSON

4.3.2　解析XML

4.3.3　XML接口

4.3.4　lxml处理网页

4.3.5　使用XPath提取信息

4.3.6　在Chrome浏览器中查找Selenium WebDriver的XPath

4.3.7　CSS选择器

4.3.8　使用Parsel

4.3.9　提取文本

4.3.10　网页正文提取

4.4　从文件提取信息

4.5　本章小结

第5章　使用Scrapy开发爬虫

5.1　一个示例爬虫的演练

5.2　Scrapy Playwright指南：渲染和抓取动态JS网站

5.3　将抓取的数据保存到SQLite数据库

5.4　将抓取的数据保存到MySQL数据库

5.5　将抓取的数据保存到Postgres数据库

5.6　Scrapyd：部署、调度和运行Scrapy爬虫

5.7　Scrapy Cloud托管爬虫

5.8　Twisted框架

5.9　本章小结

第6章　分布式爬虫开发

6.1　简单的Celery任务

6.2　从任务进行分布式抓取

6.3　本章小结

第7章　开发网络爬虫用户界面

7.1　Tkinter简介

7.2　网络爬虫图形用户界面

7.3　本章小结

第8章　案例分析

8.1　影视采集器

8.2　暗网爬虫

8.3　本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

Python完全自学教程

Python完全自学教程￥57.54

明日科技编著

￥57.54

02

大模型应用开发动手做AI Agent

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

03

算法超简单:趣味游戏带你轻松入门与实践

算法超简单:趣味游戏带你轻松入门与实践￥51.07

童晶著

￥51.07

04

Python AI游戏编程入门——基于Pygame和PyTorch

Python AI游戏编程入门——基于Pygame和PyTorch ￥50.56

肖凯

￥50.56

05

深度学习的数学——使用Python语言

深度学习的数学——使用Python语言￥57.47

[美]罗纳德·T·纽塞尔(Ronald T· Kneusel) 著

￥57.47

06

心流:OKR工作法

心流:OKR工作法￥36.50

李沛遥

￥36.50

07

线性代数与Python解法

线性代数与Python解法￥44.67

徐子珊著

￥44.67

08

Python极客项目编程(第2版)

Python极客项目编程(第2版) ￥44.67

[美] 马赫什·文基塔查拉姆(Mahesh Venkitachalam) 著

￥44.67

09

CPU眼里的C/C++

CPU眼里的C/C++ ￥53.40

阿布编程

￥53.40

10

Python人工智能编程实践

Python人工智能编程实践￥55.93

范淼、徐晟桐

￥55.93

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当读书5.0问答

意见反馈

Copyright (C) 当当网 2004-2021, All Rights Reserved

京ICP备17043473号-1|出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书