欢迎光临当当，请登录免费注册

男频| 女频

当当云阅读

当当云阅读文字

万本电子书0元读

万本电子书0元读

搜索

购物车

图书分类

小说: 侦探/悬疑/推理; 情感/都市; 科幻/魔幻; 作品集; 外国小说

文艺: 文学; 青春文学; 传记; 艺术; 动漫/幽默

历史文化: 哲学/宗教; 历史; 政治/军事; 文化; 社会科学; 古籍; 法律

经济/管理: 管理; 经济; 投资理财; 市场/营销; 商务沟通; 中国经济; 国际经济

心理/励志: 心理学; 女性心理学; 儿童心理学; 情绪管理; 职场/人际交往; 人生哲学

生活: 两性关系; 亲子/家教; 旅游/地图; 烹饪/美食; 保健/养生

童书: 儿童文学; 启蒙读物; 少儿英语; 动漫/图画书

科技/教育: 科普读物; 计算机/网络; 自然科学; 中小学教辅; 考试; 外语; 工具书

原版书: 外文原版书; 港台圖書; 小语种

我要充值赠送20%

顶部广告

当当云阅读 > 科技 > 计算机/网络 > 程序设计 > 数据科学实战之网络爬取:Python实践和示例

数据科学实战之网络爬取:Python实践和示例

| | 手机阅读

扫描下载当当云阅读App

数据科学实战之网络爬取:Python实践和示例电子书

售价：¥

纸质售价：¥49.70购买纸书

3人正在读 | 0人评论

6.8

作者：(比) 希普·万登·布鲁克,巴特·巴森斯,

出版社：机械工业出版社

出版时间：2018-12-08

字数：12.1万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书提供了一个完整的、现代的Web抓取指南，使用Python作为编程语言，专为数据科学的读者编写，探讨了Web抓取和以及其背后的大量Web技术。书中首先简要概述抓取和现实生活中的用例,解释了HTTP、HTML和CSS的核心概念作为基础。*后总结了一些*佳实践和一系列的例子，这些数据科学用例汇集了你学到的所有知识。读者将学习到如何利用已建立的*佳实践和常用的Python包，处理包括JavaScript、Cookie和常见的web抓取技术。<br/>【作者】<br/>Seppe vanden Broucke是比利时鲁汶大学经济与商务学院数据科学方面的助理教授。他的研究兴趣包括商务数据挖掘和分析、机器学习、流程管理和流程挖掘，相关论文发表在知名国际期刊和会议上。 Seppe从事包括高级分析、大数据和信息管理课程方面的教学工作，也经常提供工业和商业用户的培训。除了工作，Seppe喜欢旅行、阅读（从Murakami到Bukowski到Asimov）、听音乐（从Booka Shade到Miles Davis到Claude Debussy）、看电影和连续剧（由于没时间现在看得少多了）、玩游戏和关注新闻事件。 Bart Baesens是比利时鲁汶大学大数据和数据分析方面的教授，也是英国南安普顿大学的讲师。他对大数据及分析、信用风险建模、欺诈检测和营销分析行了广泛的研究。Bart撰写了200多篇学术论文和若干本书。除了与家人共度时光外，他还是一名布鲁日足球俱乐部的铁杆球迷。Bart是美食家和业余厨师，他喜欢在他的酒窖里或者在花园里俯瞰红色英式电话亭时喝一杯好酒（他*喜欢的是白维欧尼或红赤霞珠）。Bart热爱旅行，对次世界大战着迷，并阅读了很多关于这个主题的书籍。<br/>

目录展开

译者序

作者简介

技术审校者简介

前言

第一部分网络爬取基础

第1章简介

1.1 什么是网络爬取

1.1.1 网络爬取为什么用于数据科学

1.1.2 谁在使用网络爬取

1.2 准备工作

1.2.1 设置

1.2.2 Python快速入门

第2章网络传输协议HTTP

2.1 网络的魔力

2.2 超文本传输协议

2.3 Python中的HTTP——Requests库

2.4 带参数的URL查询字符串

第3章 HTML和CSS

3.1 超文本标记语言HTML

3.2 将浏览器用作开发工具

3.3 层叠样式表CSS

3.4 Beautiful Soup库

3.5 有关Beautiful Soup的更多内容

第二部分高级网络爬取

第4章深入挖掘HTTP

4.1 使用表单和POST请求

4.2 其他HTTP请求方法

4.3 关于头的更多信息

4.4 使用Cookie

4.5 requests库的session对象

4.6 二进制、JSON和其他形式的内容

第5章处理JavaScript

5.1 什么是JavaScript

5.2 爬取JavaScript

5.3 使用Selenium爬取网页

5.4 Selenium的更多信息

第6章从网络爬取到网络爬虫

6.1 什么是网络爬虫

6.2 使用Python实现网络爬虫

6.3 数据库存储

第三部分相关管理问题及最佳实践

第7章网络爬取涉及的管理和法律问题

7.1 数据科学过程

7.2 网络爬取适合用于哪里

7.3 法律问题

第8章结语

8.1 其他工具

8.1.1 其他Python库

8.1.2 Scrapy库

8.1.3 缓存

8.1.4 代理服务器

8.1.5 基于其他编程语言的爬取

8.1.6 命令行工具

8.1.7 图形化的爬取工具

8.2 最佳实践和技巧

第9章示例

9.1 爬取Hacker News网页

9.2 使用Hacker News API

9.3 爬取引用信息

9.4 爬取书籍信息

9.5 爬取GitHub上项目被收藏的次数

9.6 爬取抵押贷款利率

9.7 爬取和可视化IMDB评级

9.8 爬取IATA航空公司信息

9.9 爬取和分析网络论坛的互动

9.10 收集和聚类时尚数据集

9.11 Amazon评论的情感分析

9.12 爬取和分析维基百科关联图

9.13 爬取和可视化董事会成员图

9.14 使用深度学习破解验证码图片

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

当当云阅读

买过这本书的人还买过

读了这本书的人还在读

支持设备

同类图书排行榜

01

图解Skill:AI提效实战指南

图解Skill:AI提效实战指南￥39.90

宝玉著

￥39.90

02

Python从入门到全栈开发

Python从入门到全栈开发￥70.00

钱超

￥70.00

03

大模型应用开发动手做AI Agent

大模型应用开发动手做AI Agent ￥57.47

黄佳著

￥57.47

04

Python网络爬虫与数据分析从入门到实践

Python网络爬虫与数据分析从入门到实践￥55.86

马国俊

￥55.86

05

Python编程:从入门到实践(第3版)

Python编程:从入门到实践(第3版) ￥54.90

[美]埃里克·马瑟斯(Eric Matthes) 著

￥54.90

06

程序员必会的40种算法

程序员必会的40种算法￥59.40

(加)伊姆兰·艾哈迈德(Imran Ahmad)

￥59.40

07

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南

懒人“养虾”攻略:OpenClaw+豆包+扣子+飞书落地实战指南￥45.00

林园编著

￥45.00

08

量化投资：策略与技术

量化投资：策略与技术￥22.00

丁鹏

￥22.00

09

Python完全自学教程

Python完全自学教程￥57.54

明日科技编著

￥57.54

10

Python+Office:轻松实现Python办公自动化

Python+Office:轻松实现Python办公自动化￥55.30

王国平

￥55.30

更多同类图书 >

电子书排行榜

新书排行榜

5元封顶

关注我们

最受欢迎的阅读产品

关注我们：
- 新浪微博
- 官方微信
关于我们

欢迎反馈宝贵意见给我们

客服书吧：当当云阅读问答

意见反馈

Copyright (C) 当当网 2004-2022, All Rights Reserved

京ICP备17043473号-1 | 出版物经营许可证新出发京批字第直0673号

当当网收录的免费小说作品、频道内容、书友评论、用户上传文字、图片等其他一切内容及在当当网所做之广告均属用户个人行为，与当当网无关。

当当云阅读

二维码

0元畅读数万本精选电子书