万本电子书0元读

万本电子书0元读

顶部广告

Python数据处理电子书

用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。

售       价:¥

纸质售价:¥78.20购买纸书

504人正在读 | 4人评论 6.2

作       者:[美] 杰奎琳·凯泽尔(Jacqueline Kazil)凯瑟琳·贾缪尔(Katharine Jarmul)

出  版  社:人民邮电出版社

出版时间:2017-07-01

字       数:40.7万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:此类商品不支持退换货,不支持下载打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(3条)
  • 读书简介
  • 目录
  • 累计评论(3条)
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。 本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python基础知识,如何从CSV、Excel、XML、JSON和PDF文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和API中提取数据。
【推荐语】
用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。 * 快速了解Python基本语法、数据类型和语言概念 * 概述数据的获取与存储方式 * 清洗数据并格式化,以消除数据集中的重复值与错误 * 学习何时对数据行标准化,何时对数据清理行测试并将其脚本化 * 使用Scrapy写网络爬虫 * 利用新的Python库和技术对数据集行探索与分析 * 使用Python解决方案将整个数据处理过程自动化
【作者】
Jacqueline Kazil,数据科学家,zi深软件发者。活跃于Python软件基金会、PyLadies等社区。曾参与美国总统创新伙伴项目,是美国政府技术组织18F的联合创始人。曾担任《华盛顿邮报》数据记者。 Katharine Jarmul,zi深Python发者,PyLadies联合创始人。喜欢数据分析和获取、网页抓取、教人学习Python以及Unix,期望通过教育和培训来促Python和其他源语言的多元化。
目录展开

O'Reilly Media, Inc.介绍

业界评论

本书赞誉

前言

致谢

第 1 章 Python简介

1.1 为什么选择Python

1.2 开始使用Python

1.3 小结

第 2 章 Python基础

2.1 基本数据类型

2.2 数据容器

2.3 各种数据类型的用途

2.4 有用的工具:type、dir和help

2.5 综合运用

2.6 代码的含义

2.7 小结

第 3 章 供机器读取的数据

3.1 CSV数据

3.2 JSON数据

3.3 XML数据

3.4 小结

第 4 章 处理 Excel 文件

4.1 安装Python包

4.2 解析Excel文件

4.3 开始解析

4.4 小结

第 5 章 处理 PDF 文件,以及用 Python解决问题

5.1 尽量不要用PDF

5.2 解析PDF的编程方法

5.3 利用pdfminer解析PDF

5.4 学习解决问题的方法

5.5 不常见的文件类型

5.6 小结

第 6 章 数据获取与存储

6.1 并非所有数据生而平等

6.2 真实性核查

6.3 数据可读性、数据清洁度和数据寿命

6.4 寻找数据

6.5 案例研究:数据调查实例

6.6 数据存储

6.7 数据库简介

6.8 使用简单文件

6.9 其他数据存储方式

6.10 小结

第 7 章 数据清洗:研究、匹配与格式化

7.1 为什么要清洗数据

7.2 数据清洗基础知识

7.3 小结

第 8 章 数据清洗:标准化和脚本化

8.1 数据归一化和标准化

8.2 数据存储

8.3 找到适合项目的数据清洗方法

8.4 数据清洗脚本化

8.5 用新数据测试

8.6 小结

第 9 章 数据探索和分析

9.1 探索数据

9.2 分析数据

9.3 小结

第 10 章 展示数据

10.1 避免讲故事陷阱

10.2 可视化数据

10.3 展示工具

10.4 发布数据

10.5 小结

第 11 章 网页抓取:获取并存储网络数据

11.1 抓取什么和如何抓取

11.2 分析网页

11.3 得到页面:如何通过互联网发出请求

11.4 使用Beautiful Soup读取网页

11.5 使用lxml读取网页

11.6 小结

第 12 章 高级网页抓取:屏幕抓取器与爬虫

12.1 基于浏览器的解析

12.2 爬取网页

12.3 网络:互联网的工作原理,以及为什么它会让脚本崩溃

12.4 变化的互联网(或脚本为什么崩溃)

12.5 几句忠告

12.6 小结

第 13 章 应用编程接口

13.1 API特性

13.2 一次简单的Twitter REST API数据拉取

13.3 使用Twitter REST API进行高级数据收集

13.4 使用Twitter流式API进行高级数据收集

13.5 小结

第 14 章 自动化和规模化

14.1 为什么要自动化

14.2 自动化步骤

14.3 什么会出错

14.4 在哪里自动化

14.5 自动化的特殊工具

14.6 简单的自动化

14.7 大规模自动化

14.8 监控自动化程序

14.9 没有万无一失的系统

14.10 小结

第 15 章 结论

15.1 数据处理者的职责

15.2 数据处理之上

15.3 下一步做什么

附录 A 编程语言对比

A.1 C、C++、Java与Python

A.2 R或MATLAB与Python

A.3 HTML与Python

A.4 JavaScript与Python

A.5 Node.js与Python

A.6 Ruby和Ruby on Rails与Python

附录 B 初学者的 Python 学习资源

B.1 在线资源

B.2 线下小组

附录 C 学习命令行

C.1 bash

C.2 Windows cmd/PowerShell

附录 D 高级 Python 设置

D.1 第1步:安装GCC

D.2 第2步:(只在Mac上)安装Homebrew

D.3 第3步:(Mac系统)告诉系统去哪里寻找 Homebrew

D.4 第4步:安装Python 2.7

D.5 第5步:安装virtualenv(Windows、Mac、Linux)

D.6 第6步:创建一个新目录

D.7 第7步:安装virtualenvwrapper

D.8 学习我们的新环境(Windows、Mac、Linux)

D.9 高级设置回顾

附录 E Python陷阱

E.1 空白

E.2 可怕的GIL

E.3 =、==与is,以及何时只是复制

E.4 默认函数参数

E.5 Python作用域与内置函数:变量名称的重要性

E.6 定义对象与修改对象

E.7 修改不可变对象

E.8 类型检查

E.9 捕获多个异常

E.10 调试的力量

附录 F IPython 指南

F.1 为什么使用IPython

F.2 IPython起步

F.3 魔法函数

F.4 最后的思考:一个简单的终端

附录 G 使用亚马逊网络服务

G.1 启动AWS服务器

G.2 登录AWS服务器

G.3 小结

关于作者

关于封面

累计评论(3条) 7个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部