万本电子书0元读

万本电子书0元读

顶部广告

数据科学实战之网络爬取:Python实践和示例电子书

售       价:¥

纸质售价:¥51.70购买纸书

1人正在读 | 0人评论 6.8

作       者:(比) 希普·万登·布鲁克,巴特·巴森斯,

出  版  社:机械工业出版社

出版时间:2018-12-08

字       数:12.1万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书提供了一个完整的、现代的Web抓取指南,使用Python作为编程语言,专为数据科学的读者编写,探讨了Web抓取和以及其背后的大量Web技术。书中首先简要概述抓取和现实生活中的用例,解释了HTTP、HTML和CSS的核心概念作为基础。*后总结了一些*佳实践和一系列的例子,这些数据科学用例汇集了你学到的所有知识。读者将学习到如何利用已建立的*佳实践和常用的Python包,处理包括JavaScript、Cookie和常见的web抓取技术。<br/>【作者】<br/>Seppe vanden Broucke是比利时鲁汶大学经济与商务学院数据科学方面的助理教授。他的研究兴趣包括商务数据挖掘和分析、机器学习、流程管理和流程挖掘,相关论文发表在知名国际期刊和会议上。 Seppe从事包括高级分析、大数据和信息管理课程方面的教学工作,也经常提供工业和商业用户的培训。除了工作,Seppe喜欢旅行、阅读(从Murakami到Bukowski到Asimov)、听音乐(从Booka Shade到Miles Davis到Claude Debussy)、看电影和连续剧(由于没时间现在看得少多了)、玩游戏和关注新闻事件。 Bart Baesens是比利时鲁汶大学大数据和数据分析方面的教授,也是英国南安普顿大学的讲师。他对大数据及分析、信用风险建模、欺诈检测和营销分析行了广泛的研究。Bart撰写了200多篇学术论文和若干本书。除了与家人共度时光外,他还是一名布鲁日足球俱乐部的铁杆球迷。Bart是美食家和业余厨师,他喜欢在他的酒窖里或者在花园里俯瞰红色英式电话亭时喝一杯好酒(他*喜欢的是白维欧尼或红赤霞珠)。Bart热爱旅行,对次世界大战着迷,并阅读了很多关于这个主题的书籍。<br/>
目录展开

译者序

作者简介

技术审校者简介

前言

第一部分 网络爬取基础

第1章 简介

1.1 什么是网络爬取

1.1.1 网络爬取为什么用于数据科学

1.1.2 谁在使用网络爬取

1.2 准备工作

1.2.1 设置

1.2.2 Python快速入门

第2章 网络传输协议HTTP

2.1 网络的魔力

2.2 超文本传输协议

2.3 Python中的HTTP——Requests库

2.4 带参数的URL查询字符串

第3章 HTML和CSS

3.1 超文本标记语言HTML

3.2 将浏览器用作开发工具

3.3 层叠样式表CSS

3.4 Beautiful Soup库

3.5 有关Beautiful Soup的更多内容

第二部分 高级网络爬取

第4章 深入挖掘HTTP

4.1 使用表单和POST请求

4.2 其他HTTP请求方法

4.3 关于头的更多信息

4.4 使用Cookie

4.5 requests库的session对象

4.6 二进制、JSON和其他形式的内容

第5章 处理JavaScript

5.1 什么是JavaScript

5.2 爬取JavaScript

5.3 使用Selenium爬取网页

5.4 Selenium的更多信息

第6章 从网络爬取到网络爬虫

6.1 什么是网络爬虫

6.2 使用Python实现网络爬虫

6.3 数据库存储

第三部分 相关管理问题及最佳实践

第7章 网络爬取涉及的管理和法律问题

7.1 数据科学过程

7.2 网络爬取适合用于哪里

7.3 法律问题

第8章 结语

8.1 其他工具

8.1.1 其他Python库

8.1.2 Scrapy库

8.1.3 缓存

8.1.4 代理服务器

8.1.5 基于其他编程语言的爬取

8.1.6 命令行工具

8.1.7 图形化的爬取工具

8.2 最佳实践和技巧

第9章 示例

9.1 爬取Hacker News网页

9.2 使用Hacker News API

9.3 爬取引用信息

9.4 爬取书籍信息

9.5 爬取GitHub上项目被收藏的次数

9.6 爬取抵押贷款利率

9.7 爬取和可视化IMDB评级

9.8 爬取IATA航空公司信息

9.9 爬取和分析网络论坛的互动

9.10 收集和聚类时尚数据集

9.11 Amazon评论的情感分析

9.12 爬取和分析维基百科关联图

9.13 爬取和可视化董事会成员图

9.14 使用深度学习破解验证码图片

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部