为你推荐
译者序
作者简介
技术审校者简介
前言
第一部分 网络爬取基础
第1章 简介
1.1 什么是网络爬取
1.1.1 网络爬取为什么用于数据科学
1.1.2 谁在使用网络爬取
1.2 准备工作
1.2.1 设置
1.2.2 Python快速入门
第2章 网络传输协议HTTP
2.1 网络的魔力
2.2 超文本传输协议
2.3 Python中的HTTP——Requests库
2.4 带参数的URL查询字符串
第3章 HTML和CSS
3.1 超文本标记语言HTML
3.2 将浏览器用作开发工具
3.3 层叠样式表CSS
3.4 Beautiful Soup库
3.5 有关Beautiful Soup的更多内容
第二部分 高级网络爬取
第4章 深入挖掘HTTP
4.1 使用表单和POST请求
4.2 其他HTTP请求方法
4.3 关于头的更多信息
4.4 使用Cookie
4.5 requests库的session对象
4.6 二进制、JSON和其他形式的内容
第5章 处理JavaScript
5.1 什么是JavaScript
5.2 爬取JavaScript
5.3 使用Selenium爬取网页
5.4 Selenium的更多信息
第6章 从网络爬取到网络爬虫
6.1 什么是网络爬虫
6.2 使用Python实现网络爬虫
6.3 数据库存储
第三部分 相关管理问题及最佳实践
第7章 网络爬取涉及的管理和法律问题
7.1 数据科学过程
7.2 网络爬取适合用于哪里
7.3 法律问题
第8章 结语
8.1 其他工具
8.1.1 其他Python库
8.1.2 Scrapy库
8.1.3 缓存
8.1.4 代理服务器
8.1.5 基于其他编程语言的爬取
8.1.6 命令行工具
8.1.7 图形化的爬取工具
8.2 最佳实践和技巧
第9章 示例
9.1 爬取Hacker News网页
9.2 使用Hacker News API
9.3 爬取引用信息
9.4 爬取书籍信息
9.5 爬取GitHub上项目被收藏的次数
9.6 爬取抵押贷款利率
9.7 爬取和可视化IMDB评级
9.8 爬取IATA航空公司信息
9.9 爬取和分析网络论坛的互动
9.10 收集和聚类时尚数据集
9.11 Amazon评论的情感分析
9.12 爬取和分析维基百科关联图
9.13 爬取和可视化董事会成员图
9.14 使用深度学习破解验证码图片
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜