当当云阅读 > 科技 > 计算机/网络 > 程序设计 > Python 3 爬虫、数据清洗与可视化实战(第2版)

| | 手机阅读

扫描下载当当云阅读App

Python 3 爬虫、数据清洗与可视化实战(第2版)电子书

这本书教大家如何利用Python撰写爬虫程序，清洗和组织数据，解析网页的内容，并将数据储存于数据库中，内容非常详细，帮助大家节省时间，是值得一读的好书！

售价：¥

纸质售价：¥54.50购买纸书

486人正在读 | 0人评论

6.7

作者：零一,韩要宾,等

出版社：电子工业出版社

出版时间：2020-07-01

字数：6.4万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(0条)

读书简介
目录
累计评论(0条)

本书是一本通过实战教初学者学习爬取数据、清洗和组织数据行分析和可视化的Python 读物。书中案例均经过实战检验，笔者在实践过程中深感采集数据、清洗和组织数据的重要性，作为一名数据行业的“码农”，数据就是沃土，没有数据，我们将无田可耕。本书共13 章，包括6 个核心主题，其一是Python 基础门，包括环境配置、基本操作、数据类型、语句和函数；其二是Python 爬虫的构建，包括网页结构解析、爬虫流程设计、代码优化、爬虫效率优化、无线端的数据采集、容错处理、反防爬虫、表单交互和模拟页面；其三是Python数据库应用，包括MongoDB、MySQL 在Python 中的连与应用；其四是数据清洗和组织，包括NumPy 数组知识，以及pandas 数据的读写、分组、变形，缺失值、异常值和重复值处理，时序数据处理和正则表达式的使用等；其五是综合应用实例，帮助读者贯穿爬虫、数据清洗与组织的过程；*后是数据可视化，包括matplotlib 和pyecharts 两个库的使用，涉及饼图、柱形图、线图、词云图等图形，帮助读者可视化的殿堂。本书以实战为主，适合Python 初学者及高等院校相关专业的学生阅读，也适合Python 培训机构作为实验教材。 【推荐语】 这本Python爬虫技术书是一个完整大数据应用框架：从数据收集、分析到数据可视化、数据建模。本书各章节以实际案例为出发，对大数据分析、爬虫技术应用感兴趣的小伙伴们来说，值得。 【作者】 零一原名陈海城，慕研数据分析师事务所创始人，电商数据专家，数据分析师，发工程师；从事教育培训、数据分析和人工智能行业，专注于电商企业的数据化服务。韩要宾 CDA数据分析研究院资深讲师；5年电商从业经验，4年数据挖掘实战经验；专注于数据分析与挖掘、机器学习、深度学习，服务客户包括苏宁易、迪卡侬、百草味、浙江师范大学等。黄园园具有10年软件发经验，全栈工程师，六西格玛黑带，精通Python和机器学习算法，具有丰富的分布式爬虫发经验；曾在苏州三星电子电脑（SESC）、新加坡电信（NCS）、希捷科技（Seagate Technology）等世界知名企业研发部工作，参与过花旗银行在线支付系统、银行账单自动化审核系统等大型软件发，曾任杭州沐垚科技有限公司CTO。

目录展开

书名页

内容简介

版权页

前言

第1章　Python语言基础

1.1　安装Python环境

1.1.1　Python 3.6.2安装与配置

1.1.2　使用IDE工具——PyCharm

1.1.3　使用IDE工具——Anaconda

1.2　Python操作入门

1.2.1　编写第一个Python代码

1.2.2　Python基本操作

1.2.3　变量

1.3　Python数据类型

1.3.1　数字

1.3.2　字符串

1.3.3　列表

1.3.4　元组

1.3.5　集合

1.3.6　字典

1.4　Python语句与函数

1.4.1　条件语句

1.4.2　循环语句

1.4.3　函数

1.5　习题

第2章　数据采集的基本知识

2.1　关于爬虫的合法性

2.2　了解网页

2.2.1　认识网页结构

2.2.2　写一个简单的HTML

2.3　使用requests库请求网站

2.3.1　安装requests库

2.3.2　爬虫的基本原理

2.3.3　使用GET方式抓取数据

2.3.4　使用POST方式抓取数据

2.4　使用Beautiful Soup解析网页

2.5　清洗和组织数据

2.6　爬虫攻防战

2.7　关于什么时候存储数据

2.8　习题

第3章　用API爬取天气预报数据

3.1　注册免费API和阅读技术文档

3.2　获取API数据

3.3　存储数据到MongoDB

3.3.1　下载并安装MongoDB

3.3.2　在PyCharm中安装Mongo Plugin

3.3.3　将数据存入MongoDB中

3.4　MongoDB数据库查询

3.5　习题

第4章　大型爬虫案例：抓取某电商网站的商品数据

4.1　观察页面特征和解析数据

4.2　工作流程分析

4.3　构建类目树

4.4　获取景点产品列表

4.5　代码优化

4.6　爬虫效率优化

4.7　容错处理

4.8　习题

第5章　采集手机App数据

5.1　模拟器及抓包环境配置

5.2　App数据抓包

5.3　手机App数据的采集

5.4　习题

第6章　Scrapy爬虫

6.1　Scrapy简介

6.2　安装Scrapy

6.3　案例：用Scrapy抓取股票行情

6.4　习题

第7章　Selenium爬虫

7.1　Selenium简介

7.2　安装Selenium

7.3　Selenium定位及操作元素

7.4　案例：用Selenium抓取某电商网站数据

7.5　习题

第8章　爬虫案例集锦

8.1　采集外卖平台数据

8.1.1　采集目标

8.1.2　采集代码

8.2　采集内容平台数据

8.2.1　采集目标

8.2.2　采集代码

8.3　采集招聘平台数据

8.3.1　采集目标

8.3.2　采集代码

8.4　采集知识付费平台数据

8.4.1　采集目标

8.4.2　采集代码

第9章　数据库连接和查询

9.1　使用PyMySQL

9.1.1　连接数据库

9.1.2　案例：某电商网站女装行业TOP100销量数据

9.2　使用SQLAlchemy

9.2.1　SQLAlchemy基本介绍

9.2.2　SQLAlchemy基本语法

9.3　MongoDB

9.3.1　MongoDB基本语法

9.3.2　案例：在某电商网站搜索“连衣裙”的商品数据

9.4　习题

第10章　NumPy数组操作

10.1　NumPy简介

10.2　一维数组

10.2.1　数组与列表的异同

10.2.2　数组的创建

10.3　多维数组

10.3.1　多维数组的高效性能

10.3.2　多维数组的索引与切片

10.3.3　多维数组的属性和方法

10.4　数组的运算

10.5　习题

第11章　pandas数据清洗

11.1　数据读写、选择、整理和描述

11.1.1　从CSV中读取数据

11.1.2　向CSV中写入数据

11.1.3　数据选择

11.1.4　数据整理

11.1.5　数据描述

11.2　数据分组、分割、合并和变形

11.2.1　数据分组

11.2.2　数据分割

11.2.3　数据合并

11.2.4　数据变形

11.2.5　案例：旅游数据的分析与变形

11.3　缺失值、异常值和重复值处理

11.3.1　缺失值处理

11.3.2　检测和过滤异常值

11.3.3　移除重复值

11.3.4　案例：旅游数据值的检查与处理

11.4　时序数据处理

11.4.1　日期/时间数据转换

11.4.2　时序数据基础操作

11.4.3　案例：天气预报数据分析与处理

11.5　数据类型转换

11.6　正则表达式

11.6.1　元字符与限定符

11.6.2　案例：用正则表达式提取网页文本信息

11.7　习题

第12章　综合应用实例

12.1　按性价比给用户推荐旅游产品

12.1.1　数据采集

12.1.2　数据清洗、建模

12.2　通过热力图分析为用户提供出行建议

12.2.1　某旅游网站热门景点爬虫代码

12.2.2　提取CSV文件中经纬度和销量信息

12.2.3　创建景点门票销量热力图HTML文件

第13章　数据可视化

13.1　应用matplotlib画图

13.1.1　画出各省份平均价格、各省份平均成交量柱状图

13.1.2　画出各省份平均成交量折线图、柱状图、箱形图和饼图

13.1.3　画出价格与成交量的散点图

13.2　应用pyecharts画图

13.2.1　Echarts简介

13.2.2　pyecharts简介

13.2.3　初识pyecharts，玫瑰相送

13.2.4　pyecharts基本语法

13.2.5　基于商业分析的pyecharts图表绘制

13.2.6　使用pyecharts绘制其他图表

13.2.7　pyecharts和Jupyter

13.3　习题

专业服务

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

Python网络爬虫:从入门到精通(附微课) ￥31.90

吕云翔主编

￥31.90

Python数据科学实战￥44.67

尤利•瓦西列夫(Yuli Vasiliev) 著

￥44.67

算法详解(卷3)——贪心算法和动态规划￥44.67

蒂姆·拉夫加登(Tim Roughgarden) 著

￥44.67

Python办公效率手册￥38.27

麦叔著

￥38.27

Python 3.8从零开始学￥27.93

刘艳,刘宇宙

￥27.93

面向对象是怎样工作的(第3版) ￥34.90

[日]平泽章著

￥34.90

算法详解(卷4)——NP-Hard问题算法￥51.07

蒂姆·拉夫加登(Tim Roughgarden) 著

￥51.07

Python数据分析基础与案例实战￥38.80

杨果仁张良均主编

￥38.80

递归算法与项目实战￥63.87

阿尔•斯维加特(Al Sweigart) 著

￥63.87

程序是怎样跑起来的(第3版) ￥29.90

[日]矢泽久雄著

￥29.90

更多同类图书 >

Python 3 爬虫、数据清洗与可视化实战(第2版)电子书

支持设备

Python网络爬虫:从入门到精通(附微课) ￥31.90

Python数据科学实战 ￥44.67

算法详解(卷3)——贪心算法和动态规划 ￥44.67

Python办公效率手册 ￥38.27

Python 3.8从零开始学 ￥27.93

面向对象是怎样工作的(第3版) ￥34.90

算法详解(卷4)——NP-Hard问题算法 ￥51.07

Python数据分析基础与案例实战 ￥38.80

递归算法与项目实战 ￥63.87