万本电子书0元读

万本电子书0元读

顶部广告

深入浅出Pandas:利用Python进行数据处理与分析电子书

(1)要用好Python,必先学好Pandas,它是数据科学武器库中的瑞士军刀;(2)初学者的系统学习门书,资深Python工程师的案头速查手册;(3)聚焦读者痛,全面、详尽讲解Pandas,知识精练,代码简洁,案例实用;(4)学术界和企业界多位专家联袂推荐。

售       价:¥

纸质售价:¥49.50购买纸书

142人正在读 | 0人评论 7.4

作       者:李庆辉

出  版  社:机械工业出版社

出版时间:2021-07-01

字       数:30.9万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
如果你想充分发挥Python的强大作用,如果你想成为一名好的Python工程师,你应该先学好Pandas。 这是一本全面覆盖了Pandas使用者的普遍需求和痛的著作,基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解,既是初学者系统学习Pandas难得的门书,又是有经验的Python工程师案头必不可少的查询手册。 本书共17章,分为七部分。 部分(第1~2章) Pandas门 首先介绍了Pandas的功能、使用场景和学习方法,然后详细讲解了Python发环境的搭建,Z后介绍了Pandas的大量基础功能,旨在引领读者快速门。 第二部分(第3~5章) Pandas数据分析基础 详细讲解了Pandas读取与输出数据、索引操作、数据类型转换、查询筛选、统计计算、排序、位移、数据修改、数据迭代、函数应用等内容。 第三部分(第6~9章) 数据形式变化 讲解了Pandas的分组聚合操作、合并操作、对比操作、数据透视、转置、归一化、标准化等,以及如何利用多层索引对数据行升降维。 第四部分(第10~12章) 数据清洗 讲解了缺失值和重复值的识别、删除、填充,数据的替换、格式转换,文本的提取、连、匹配、切分、替换、格式化、虚拟变量化等,以及分类数据的应用场景和操作方法。 第五部分(第13~14章)时序数据分析 讲解了Pandas中对于各种时间类型数据的处理和分析,以及在时序数据处理中经常使用的窗口计算。 第六部分(第15~16章) 可视化 讲解了Pandas的样式功能如何让数据表格更有表现力,以及Pandas的绘图功能如何让数据自己说话。 第七部分(第17章) 实战案例 介绍了从需求到代码的思考过程,如何利用式编程思想提高代码编写和数据分析效率,以及数据分析的基本方法与需要掌握的数据分析工具和技术栈,此外还从数据处理和数据分析两个角度给出了大量的应用案例及代码详解。<br/>【推荐语】<br/>(1)要用好Python,必先学好Pandas,它是数据科学武器库中的瑞士军刀; (2)初学者的系统学习门书,资深Python工程师的案头速查手册; (3)聚焦读者痛,全面、详尽讲解Pandas,知识精练,代码简洁,案例实用; (4)学术界和企业界多位专家联袂推荐。<br/>【作者】<br/>李庆辉 数据产品专家,某电商公司数据产品团队负责人,擅长通过数据治理、数据分析、数据化运营提升公司的数据应用水平。 精通Python数据科学及Python Web发,曾独立发公司的自动化数据分析平台,参与教育部“1 X”数据分析(Python)职业技能等级标准评审。 中国人工智能学会会员,企业数字化、数据产品和数据分析讲师,在个人网站“盖若”上编写的技术和产品教程广受欢迎。<br/>
目录展开

版权页

前言

第一部分 Pandas入门

第1章 Pandas简介及快速入门

1.1 Pandas是什么

1.1.1 Python简介

1.1.2 Python的应用

1.1.3 为什么不选择R

1.1.4 Pandas简介

1.1.5 Pandas的使用人群

1.1.6 Pandas的基本功能

1.1.7 Pandas的学习方法

1.1.8 小结

1.2 环境搭建及安装

1.2.1 Python环境安装

1.2.2 Anaconda简介

1.2.3 安装miniconda

1.2.4 多Python版本环境

1.2.5 安装编辑器

1.2.6 Jupyter Notebook

1.2.7 用pip安装三方库

1.2.8 安装Jupyter Notebook

1.2.9 启动Jupyter Notebook

1.2.10 使用Jupyter Notebook

1.2.11 安装Pandas

1.2.12 小结

1.3 Pandas快速入门

1.3.1 安装导入

1.3.2 准备数据集

1.3.3 读取数据

1.3.4 查看数据

1.3.5 验证数据

1.3.6 建立索引

1.3.7 数据选取

1.3.8 排序

1.3.9 分组聚合

1.3.10 数据转换

1.3.11 增加列

1.3.12 统计分析

1.3.13 绘图

1.3.14 导出

1.3.15 小结

1.4 本章小结

第2章 数据结构

2.1 数据结构概述

2.1.1 什么是数据

2.1.2 什么是数据结构

2.1.3 小结

2.2 Python的数据结构

2.2.1 数字

2.2.2 字符串

2.2.3 布尔型

2.2.4 列表

2.2.5 元组

2.2.6 字典

2.2.7 集合

2.2.8 小结

2.3 NumPy

2.3.1 NumPy简介

2.3.2 数据结构

2.3.3 创建数据

2.3.4 数据类型

2.3.5 数组信息

2.3.6 统计计算

2.3.7 小结

2.4 Pandas的数据结构

2.4.1 Series

2.4.2 DataFrame

2.4.3 索引

2.4.4 小结

2.5 Pandas生成数据

2.5.1 导入Pandas

2.5.2 创建数据

2.5.3 生成Series

2.5.4 生成DataFrame

2.5.5 小结

2.6 Pandas的数据类型

2.6.1 数据类型查看

2.6.2 常见数据类型

2.6.3 数据检测

2.6.4 小结

2.7 本章小结

第二部分 Pandas数据分析基础

第3章 Pandas数据读取与输出

3.1 数据读取

3.1.1 CSV文件

3.1.2 Excel

3.1.3 JSON

3.1.4 HTML

3.1.5 剪贴板

3.1.6 SQL

3.1.7 小结

3.2 读取CSV

3.2.1 语法

3.2.2 数据内容

3.2.3 分隔符

3.2.4 表头

3.2.5 列名

3.2.6 索引

3.2.7 使用部分列

3.2.8 返回序列

3.2.9 表头前缀

3.2.10 处理重复列名

3.2.11 数据类型

3.2.12 引擎

3.2.13 列数据处理

3.2.14 真假值转换

3.2.15 跳过指定行

3.2.16 读取指定行

3.2.17 空值替换

3.2.18 保留默认空值

3.2.19 日期时间解析

3.2.20 文件处理

3.2.21 符号

3.2.22 小结

3.3 读取Excel

3.3.1 语法

3.3.2 文件内容

3.3.3 表格

3.3.4 表头

3.3.5 列名

3.3.6 其他

3.3.7 小结

3.4 数据输出

3.4.1 CSV

3.4.2 Excel

3.4.3 HTML

3.4.4 数据库(SQL)

3.4.5 Markdown

3.4.6 小结

3.5 本章小结

第4章 Pandas基础操作

4.1 索引操作

4.1.1 认识索引

4.1.2 建立索引

4.1.3 重置索引

4.1.4 索引类型

4.1.5 索引对象

4.1.6 索引的属性

4.1.7 索引的操作

4.1.8 索引重命名

4.1.9 修改索引内容

4.1.10 小结

4.2 数据的信息

4.2.1 查看样本

4.2.2 数据形状

4.2.3 基础信息

4.2.4 数据类型

4.2.5 行列索引内容

4.2.6 其他信息

4.2.7 小结

4.3 统计计算

4.3.1 描述统计

4.3.2 数学统计

4.3.3 统计函数

4.3.4 非统计计算

4.3.5 小结

4.4 位置计算

4.4.1 位置差值diff()

4.4.2 位置移动shift()

4.4.3 位置序号rank()

4.4.4 小结

4.5 数据选择

4.5.1 选择列

4.5.2 切片[]

4.5.3 按轴标签.loc

4.5.4 按数字索引.iloc

4.5.5 取具体值.at/.iat

4.5.6 获取数据.get

4.5.7 数据截取.truncate

4.5.8 索引选择器

4.5.9 小结

4.6 本章小结

第5章 Pandas高级操作

5.1 复杂查询

5.1.1 逻辑运算

5.1.2 逻辑筛选数据

5.1.3 函数筛选

5.1.4 比较函数

5.1.5 查询df.query()

5.1.6 筛选df.filter()

5.1.7 按数据类型查询

5.1.8 小结

5.2 数据类型转换

5.2.1 推断类型

5.2.2 指定类型

5.2.3 类型转换astype()

5.2.4 转为时间类型

5.2.5 小结

5.3 数据排序

5.3.1 索引排序

5.3.2 数值排序

5.3.3 混合排序

5.3.4 按值大小排序

5.3.5 小结

5.4 添加修改

5.4.1 修改数值

5.4.2 替换数据

5.4.3 填充空值

5.4.4 修改索引名

5.4.5 增加列

5.4.6 插入列df.insert()

5.4.7 指定列df.assign()

5.4.8 执行表达式df.eval()

5.4.9 增加行

5.4.10 追加合并

5.4.11 删除

5.4.12 删除空值

5.4.13 小结

5.5 高级过滤

5.5.1 df.where()

5.5.2 np.where()

5.5.3 df.mask()

5.5.4 df.lookup()

5.5.5 小结

5.6 数据迭代

5.6.1 迭代Series

5.6.2 df.iterrows()

5.6.3 df.itertuples()

5.6.4 df.items()

5.6.5 按列迭代

5.6.6 小结

5.7 函数应用

5.7.1 pipe()

5.7.2 apply()

5.7.3 applymap()

5.7.4 map()

5.7.5 agg()

5.7.6 transform()

5.7.7 copy()

5.7.8 小结

5.8 本章小结

第三部分 数据形式变化

第6章 Pandas分组聚合

6.1 概述

6.1.1 原理

6.1.2 groupby语法

6.1.3 DataFrame应用分组

6.1.4 Series应用分组

6.1.5 小结

6.2 分组

6.2.1 分组对象

6.2.2 按标签分组

6.2.3 表达式

6.2.4 函数分组

6.2.5 多种方法混合

6.2.6 用pipe调用分组方法

6.2.7 分组器Grouper

6.2.8 索引

6.2.9 排序

6.2.10 小结

6.3 分组对象的操作

6.3.1 选择分组

6.3.2 迭代分组

6.3.3 选择列

6.3.4 应用函数apply()

6.3.5 管道方法pipe()

6.3.6 转换方法transform()

6.3.7 筛选方法filter()

6.3.8 其他功能

6.3.9 小结

6.4 聚合统计

6.4.1 描述统计

6.4.2 统计函数

6.4.3 聚合方法agg()

6.4.4 时序重采样方法resample()

6.4.5 组内头尾值

6.4.6 组内分位数

6.4.7 组内差值

6.4.8 小结

6.5 数据分箱

6.5.1 定界分箱pd.cut()

6.5.2 等宽分箱pd.qcut()

6.5.3 小结

6.6 分组可视化

6.6.1 绘图方法plot()

6.6.2 直方图hist()

6.6.3 箱线图boxplot()

6.6.4 小结

6.7 本章小结

第7章 Pandas数据合并与对比

7.1 数据追加df.append

7.1.1 基本语法

7.1.2 相同结构

7.1.3 不同结构

7.1.4 忽略索引

7.1.5 重复内容

7.1.6 追加序列

7.1.7 追加字典

7.1.8 小结

7.2 数据连接pd.concat

7.2.1 基本语法

7.2.2 简单连接

7.2.3 按列连接

7.2.4 合并交集

7.2.5 与序列合并

7.2.6 指定索引

7.2.7 多文件合并

7.2.8 目录文件合并

7.2.9 小结

7.3 数据合并pd.merge

7.3.1 基本语法

7.3.2 连接键

7.3.3 索引连接

7.3.4 多连接键

7.3.5 连接方法

7.3.6 连接指示

7.3.7 小结

7.4 按元素合并

7.4.1 df.combine_first()

7.4.2 df.combine()

7.4.3 df.update()

7.4.4 小结

7.5 数据对比df.compare

7.5.1 简单对比

7.5.2 对齐方式

7.5.3 显示相同值

7.5.4 保持形状

7.5.5 小结

7.6 本章小结

第8章 Pandas多层索引

8.1 概述

8.1.1 什么是多层索引

8.1.2 通过分组产生多层索引

8.1.3 由序列创建多层索引

8.1.4 由元组创建多层索引

8.1.5 可迭代对象的笛卡儿积

8.1.6 将DataFrame转为多层索引对象

8.1.7 小结

8.2 多层索引操作

8.2.1 生成数据

8.2.2 索引信息

8.2.3 查看层级

8.2.4 索引内容

8.2.5 排序

8.2.6 其他操作

8.2.7 小结

8.3 数据查询

8.3.1 查询行

8.3.2 查询列

8.3.3 行列查询

8.3.4 条件查询

8.3.5 用pd.IndexSlice索引数据

8.3.6 df.xs()

8.3.7 小结

8.4 本章小结

第9章 Pandas数据重塑与透视

9.1 数据透视

9.1.1 整理透视

9.1.2 整理透视操作

9.1.3 聚合透视

9.1.4 聚合透视操作

9.1.5 聚合透视高级操作

9.1.6 小结

9.2 数据堆叠

9.2.1 理解堆叠

9.2.2 堆叠操作df.stack()

9.2.3 解堆操作df.unstack()

9.2.4 小结

9.3 交叉表

9.3.1 基本语法

9.3.2 生成交叉表

9.3.3 归一化

9.3.4 指定聚合方法

9.3.5 汇总

9.3.6 小结

9.4 数据转置df.T

9.4.1 理解转置

9.4.2 转置操作

9.4.3 类型变化

9.4.4 轴交换df.swapaxes()

9.4.5 小结

9.5 数据融合

9.5.1 基本语法

9.5.2 融合操作

9.5.3 标识和值

9.5.4 指定名称

9.5.5 小结

9.6 虚拟变量

9.6.1 语法结构

9.6.2 生成虚拟变量

9.6.3 列前缀

9.6.4 从DataFrame生成

9.6.5 小结

9.7 因子化

9.7.1 基本方法

9.7.2 排序

9.7.3 缺失值

9.7.4 枚举类型

9.7.5 小结

9.8 爆炸列表

9.8.1 基本功能

9.8.2 DataFrame的爆炸

9.8.3 非列表格式

9.8.4 小结

9.9 本章小结

第四部分 数据清洗

第10章 Pandas数据清洗

10.1 缺失值的认定

10.1.1 缺失值类型

10.1.2 缺失值判断

10.1.3 缺失值统计

10.1.4 缺失值筛选

10.1.5 NA标量

10.1.6 时间数据中的缺失值

10.1.7 整型数据中的缺失值

10.1.8 插入缺失值

10.1.9 小结

10.2 缺失值的操作

10.2.1 缺失值填充

10.2.2 插值填充

10.2.3 缺失值删除

10.2.4 缺失值参与计算

10.2.5 小结

10.3 数据替换

10.3.1 指定值替换

10.3.2 使用替换方式

10.3.3 字符替换

10.3.4 缺失值替换

10.3.5 数字替换

10.3.6 数据修剪

10.3.7 小结

10.4 重复值及删除数据

10.4.1 重复值识别

10.4.2 删除重复值

10.4.3 删除数据

10.4.4 小结

10.5 NumPy格式转换

10.5.1 转换方法

10.5.2 DataFrame转为ndarray

10.5.3 Series转为ndarray

10.5.4 df.to_records()

10.5.5 np.array读取

10.5.6 小结

10.6 本章小结

第11章 Pandas文本处理

11.1 数据类型

11.1.1 文本数据类型

11.1.2 类型转换

11.1.3 类型异同

11.1.4 小结

11.2 字符的操作

11.2.1 .str访问器

11.2.2 文本格式

11.2.3 文本对齐

11.2.4 计数和编码

11.2.5 格式判定

11.2.6 小结

11.3 文本高级处理

11.3.1 文本分隔

11.3.2 字符分隔展开

11.3.3 文本切片选择

11.3.4 文本划分

11.3.5 文本替换

11.3.6 指定替换

11.3.7 重复替换

11.3.8 文本连接

11.3.9 文本查询

11.3.10 文本包含

11.3.11 文本提取

11.3.12 提取虚拟变量

11.3.13 小结

11.4 本章小结

第12章 Pandas分类数据

12.1 分类数据

12.1.1 创建分类数据

12.1.2 pd.Categorical()

12.1.3 CategoricalDtype对象

12.1.4 类型转换

12.1.5 小结

12.2 分类的操作

12.2.1 修改分类

12.2.2 追加新分类

12.2.3 删除分类

12.2.4 顺序

12.2.5 小结

12.3 本章小结

第五部分 时序数据分析

第13章 Pandas窗口计算

13.1 窗口计算

13.1.1 理解窗口计算

13.1.2 移动窗口

13.1.3 扩展窗口

13.1.4 指数加权移动

13.1.5 小结

13.2 窗口操作

13.2.1 计算方法

13.2.2 基本语法

13.2.3 移动窗口使用

13.2.4 统计方法

13.2.5 agg()

13.2.6 apply()

13.2.7 扩展窗口

13.2.8 小结

13.3 本章小结

第14章 Pandas时序数据

14.1 固定时间

14.1.1 时间的表示

14.1.2 创建时间点

14.1.3 时间的属性

14.1.4 时间的方法

14.1.5 时间缺失值

14.1.6 小结

14.2 时长数据

14.2.1 创建时间差

14.2.2 时长的加减

14.2.3 时长的属性

14.2.4 时长索引

14.2.5 小结

14.3 时间序列

14.3.1 时序索引

14.3.2 创建时序数据

14.3.3 数据访问

14.3.4 类型转换

14.3.5 按格式转换

14.3.6 时间访问器.dt

14.3.7 时长数据访问器

14.3.8 时序数据移动

14.3.9 频率转换

14.3.10 小结

14.4 时间偏移

14.4.1 DateOffset对象

14.4.2 偏移别名

14.4.3 移动偏移

14.4.4 应用偏移

14.4.5 偏移参数

14.4.6 相关查询

14.4.7 与时序的计算

14.4.8 锚定偏移

14.4.9 自定义工作时间

14.4.10 小结

14.5 时间段

14.5.1 Period对象

14.5.2 属性方法

14.5.3 时间段的计算

14.5.4 时间段索引

14.5.5 数据查询

14.5.6 相关类型转换

14.5.7 小结

14.6 时间操作

14.6.1 时区转换

14.6.2 时间的格式化

14.6.3 时间重采样

14.6.4 上采样

14.6.5 重采样聚合

14.6.6 时间类型间转换

14.6.7 超出时间戳范围时间

14.6.8 区间间隔

14.6.9 小结

14.7 本章小结

第六部分 可视化

第15章 Pandas样式

15.1 内置样式

15.1.1 样式功能

15.1.2 Styler对象

15.1.3 空值高亮

15.1.4 极值高亮

15.1.5 背景渐变

15.1.6 条形图

15.1.7 小结

15.2 显示格式

15.2.1 语法结构

15.2.2 常用方法

15.2.3 综合运用

15.2.4 小结

15.3 样式高级操作

15.3.1 样式配置操作

15.3.2 表格CSS样式

15.3.3 应用函数

15.3.4 样式复用

15.3.5 样式清除

15.3.6 导出Excel

15.3.7 生成HTML

15.3.8 小结

15.4 本章小结

第16章 Pandas可视化

16.1 plot()方法

16.1.1 plot()概述

16.1.2 plot()基础方法

16.1.3 图形类型

16.1.4 x轴和y轴

16.1.5 图形标题

16.1.6 字体大小

16.1.7 线条样式

16.1.8 背景辅助线

16.1.9 图例

16.1.10 图形大小

16.1.11 色系

16.1.12 绘图引擎

16.1.13 Matplotlib的其他参数

16.1.14 图形叠加

16.1.15 颜色的表示

16.1.16 解决图形中的中文乱码问题

16.1.17 小结

16.2 常用可视化图形

16.2.1 折线图plot.line

16.2.2 饼图plot.pie

16.2.3 柱状图plot.bar

16.2.4 直方图plot.hist

16.2.5 箱形图plot.box

16.2.6 面积图plot.area

16.2.7 散点图plot.scatter

16.2.8 六边形分箱图plot.hexbin

16.2.9 小结

16.3 本章小结

第七部分 实战案例

第17章 Pandas实战案例

17.1 实战思想

17.1.1 链式方法

17.1.2 代码思路

17.1.3 分析方法

17.1.4 分析流程

17.1.5 分析工具

17.1.6 小结

17.2 数据处理案例

17.2.1 剧组表格道具

17.2.2 当月最后一个星期三

17.2.3 同组数据转为同一行

17.2.4 相关性最强的两个变量

17.2.5 全表最大值的位置

17.2.6 编写年会抽奖程序

17.2.7 北京各区无新增新冠肺炎确诊病例天数

17.2.8 生成SQL

17.2.9 圣诞节的星期分布

17.2.10 试验三天中恰有两天下雨的概率

17.2.11 计算平均打卡上班时间

17.2.12 小结

17.3 综合案例

17.3.1 中国经济发展分析

17.3.2 新冠肺炎疫情分析

17.3.3 利用爬虫获取房价

17.3.4 全国城市房价分析

17.3.5 客服对话文本分析

17.3.6 RFM用户分层

17.3.7 自动邮件报表

17.3.8 鸢尾花品种预测

17.3.9 小结

17.4 本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部