用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。
售 价:¥
纸质售价:¥73.70购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
O'Reilly Media, Inc.介绍
业界评论
本书赞誉
前言
致谢
第 1 章 Python简介
1.1 为什么选择Python
1.2 开始使用Python
1.3 小结
第 2 章 Python基础
2.1 基本数据类型
2.2 数据容器
2.3 各种数据类型的用途
2.4 有用的工具:type、dir和help
2.5 综合运用
2.6 代码的含义
2.7 小结
第 3 章 供机器读取的数据
3.1 CSV数据
3.2 JSON数据
3.3 XML数据
3.4 小结
第 4 章 处理 Excel 文件
4.1 安装Python包
4.2 解析Excel文件
4.3 开始解析
4.4 小结
第 5 章 处理 PDF 文件,以及用 Python解决问题
5.1 尽量不要用PDF
5.2 解析PDF的编程方法
5.3 利用pdfminer解析PDF
5.4 学习解决问题的方法
5.5 不常见的文件类型
5.6 小结
第 6 章 数据获取与存储
6.1 并非所有数据生而平等
6.2 真实性核查
6.3 数据可读性、数据清洁度和数据寿命
6.4 寻找数据
6.5 案例研究:数据调查实例
6.6 数据存储
6.7 数据库简介
6.8 使用简单文件
6.9 其他数据存储方式
6.10 小结
第 7 章 数据清洗:研究、匹配与格式化
7.1 为什么要清洗数据
7.2 数据清洗基础知识
7.3 小结
第 8 章 数据清洗:标准化和脚本化
8.1 数据归一化和标准化
8.2 数据存储
8.3 找到适合项目的数据清洗方法
8.4 数据清洗脚本化
8.5 用新数据测试
8.6 小结
第 9 章 数据探索和分析
9.1 探索数据
9.2 分析数据
9.3 小结
第 10 章 展示数据
10.1 避免讲故事陷阱
10.2 可视化数据
10.3 展示工具
10.4 发布数据
10.5 小结
第 11 章 网页抓取:获取并存储网络数据
11.1 抓取什么和如何抓取
11.2 分析网页
11.3 得到页面:如何通过互联网发出请求
11.4 使用Beautiful Soup读取网页
11.5 使用lxml读取网页
11.6 小结
第 12 章 高级网页抓取:屏幕抓取器与爬虫
12.1 基于浏览器的解析
12.2 爬取网页
12.3 网络:互联网的工作原理,以及为什么它会让脚本崩溃
12.4 变化的互联网(或脚本为什么崩溃)
12.5 几句忠告
12.6 小结
第 13 章 应用编程接口
13.1 API特性
13.2 一次简单的Twitter REST API数据拉取
13.3 使用Twitter REST API进行高级数据收集
13.4 使用Twitter流式API进行高级数据收集
13.5 小结
第 14 章 自动化和规模化
14.1 为什么要自动化
14.2 自动化步骤
14.3 什么会出错
14.4 在哪里自动化
14.5 自动化的特殊工具
14.6 简单的自动化
14.7 大规模自动化
14.8 监控自动化程序
14.9 没有万无一失的系统
14.10 小结
第 15 章 结论
15.1 数据处理者的职责
15.2 数据处理之上
15.3 下一步做什么
附录 A 编程语言对比
A.1 C、C++、Java与Python
A.2 R或MATLAB与Python
A.3 HTML与Python
A.4 JavaScript与Python
A.5 Node.js与Python
A.6 Ruby和Ruby on Rails与Python
附录 B 初学者的 Python 学习资源
B.1 在线资源
B.2 线下小组
附录 C 学习命令行
C.1 bash
C.2 Windows cmd/PowerShell
附录 D 高级 Python 设置
D.1 第1步:安装GCC
D.2 第2步:(只在Mac上)安装Homebrew
D.3 第3步:(Mac系统)告诉系统去哪里寻找 Homebrew
D.4 第4步:安装Python 2.7
D.5 第5步:安装virtualenv(Windows、Mac、Linux)
D.6 第6步:创建一个新目录
D.7 第7步:安装virtualenvwrapper
D.8 学习我们的新环境(Windows、Mac、Linux)
D.9 高级设置回顾
附录 E Python陷阱
E.1 空白
E.2 可怕的GIL
E.3 =、==与is,以及何时只是复制
E.4 默认函数参数
E.5 Python作用域与内置函数:变量名称的重要性
E.6 定义对象与修改对象
E.7 修改不可变对象
E.8 类型检查
E.9 捕获多个异常
E.10 调试的力量
附录 F IPython 指南
F.1 为什么使用IPython
F.2 IPython起步
F.3 魔法函数
F.4 最后的思考:一个简单的终端
附录 G 使用亚马逊网络服务
G.1 启动AWS服务器
G.2 登录AWS服务器
G.3 小结
关于作者
关于封面
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜