Python语言在科学计算和数据处理领域应用前景广阔。大数据时代,催生了人们处理大量数据的实际需求。Python应用领域的拓展,越来越多的人将Python用于处理大型数值数据集,使用标准格式来行数据的存储和通信也显得越来越重要,而HDF5也正迅速成为人们存储科学数据的选择。本书会带你迅速了解使用HDF5对大小从GB至TB的数字数据集行存档和共享的细节、实践以及陷阱,体验在Python语言中用HDF5存储科学数据。通过真实世界的例子以及动手练习,你将依次学习科学数据集、层次性组织的组、用户定义的元数据,以及有互操作性的文件等主题。本书的例子对于Python2和Python3都适用。 本书包括以下内容:设置HDF5工具并创建HDF5文件。通过学习HDF5数据集对象来使用数据集。理解数据集分块和压缩等高级功能。使用组来学习如何利用HDF5层次性结构。使用HDF5的属性来添加元数据,创建可以自解释的文件。利用HDF5的类型系统创建有互操作性的文件。使用引用,命名类型和维度标尺来表示数据之间的关系。了解在Python中如何编写能跟HDF5互动的并行代码。本书生产力和创造力的推器的一个真实的完美例子。本书会让你觉得"HDF5很简单"。
售 价:¥
纸质售价:¥29.20购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
作者简介
内容提要
本书中用到的排版规范
使用代码示例
在线Safari@书籍
如何联系我们
特别鸣谢
第1章 简介
1.1 Python和HDF5
1.1.1 数据和元数据的组织
1.1.2 大数据复制
1.2 HDF5到底是什么
1.2.1 HDF5文件规格
1.2.2 HDF5标准库
1.2.3 HDF5生态系统
第2章 开始使用
2.1 HDF基本原理
2.2 设置
2.2.1 Python2还是Python3
2.2.2 代码示例
2.2.3 NumPy
2.2.4 HDF5和h5py
2.2.5 IPython
2.2.6 时间和优化
2.3 HDF5工具
2.3.1 HDFView
2.3.2 ViTables
2.3.3 命令行工具
2.4 你的第一个HDF5文件
2.4.1 使用环境管理器
2.4.2 文件驱动
2.4.3 用户块
第3章 使用数据集
3.1 数据集基础
3.1.1 类型和形状
3.1.2 读和写
3.1.3 创建空数据集
3.1.4 显式指定存储类型来节省空间
3.1.5 自动类型转换和直读
3.1.6 用astype读
3.1.7 改变形状
3.1.8 默认填充值
3.2 读写数据
3.2.1 高效率切片
3.2.2 start-stop-step索引
3.2.3 多维切片和标量切片
3.2.4 布尔索引
3.2.5 坐标列表
3.2.6 自动广播
3.2.7 直读入一个已存在的数组
3.2.8 数据类型注解
3.3 改变数据集的形状
3.3.1 创建可变形数据集
3.3.2 用resize重新组织数据
3.3.3 何时以及如何进行resize
第4章 让分块和压缩来帮忙
4.1 连续存储
4.2 分块存储
4.3 设置分块形状
4.3.1 自动分块
4.3.2 手动选择一个形状
4.4 性能实例:可变形数据集
4.5 过滤器和压缩
4.5.1 过滤器流水线
4.5.2 压缩过滤器
4.5.3 GZIP/DEFLATE压缩器
4.5.4 SZIP压缩器
4.5.5 LZF压缩器
4.5.6 性能
4.6 其他过滤器
4.6.1 SHUFFLE过滤器
4.6.2 FLETCHER32过滤器
4.7 第三方过滤器
第5章 组、链接和迭代:HDF5的层次性
5.1 根组和子组
5.2 组的基本原理
5.2.1 字典风格的访问
5.2.2 特殊属性
5.3 使用链接
5.3.1 硬链接
5.3.2 剩余空间和重新打包
5.3.3 软链接
5.3.4 外部链接
5.3.5 对象名字注解
5.3.6 用get决定对象类型
5.3.7 用require简化你的应用程序
5.4 迭代和容器
5.4.1 组如何存储
5.4.2 字典风格的遍历
5.4.3 测试存在性
5.5 用Visitor模式多级遍历
5.5.1 以名字访问
5.5.2 多个链接和visit
5.5.3 访问对象
5.5.4 遍历中止:一个简单的搜索策略
5.6 复制对象
单文件复制
5.7 对象比较和哈希
第6章 用特征存储元数据
6.1 特征基本原理
6.1.1 类型猜测
6.1.2 字符串和文件匹配
6.1.3 Python对象
6.1.4 显式指定类型
6.2 真实世界的例子:粒子加速数据库
6.2.1 基于HDF5的应用格式
6.2.2 数据分析
第7章 更多关于类型
7.1 HDF5类型系统
7.2 整型和浮点
7.3 定长字符串
7.4 变长字符串
7.4.1 变长字符串的数据类型
7.4.2 变长字符串数据集的使用
7.4.3 字节字符串和Unicode字符串
7.4.4 使用Unicode字符串
7.4.5 不要在字符串中保存二进制数据
7.4.6 确保你Python 2程序的未来
7.5 复合类型
7.6 复数类型
7.7 枚举类型
7.8 布尔类型
7.9 数组类型
7.10 不透明类型
7.11 日期和时间
第8章 通过引用、类型和维度标尺来组织数据
8.1 对象引用
8.1.1 创建和解引用
8.1.2 引用是一种“永不失效”的链接
8.1.3 引用是一种数据
8.2 区域引用
8.2.1 创建和读取区域引用
8.2.2 复杂索引
8.2.3 用区域引用获得数据集
8.3 命名类型
8.3.1 数据类型对象
8.3.2 链接命名类型
8.3.3 管理命名类型
8.4 维度标尺
8.4.1 创建维度标尺
8.4.2 在数据集上添加标尺
第9章 HDF5并发性:多线程和多进程
9.1 Python并发的基本概念
9.2 多线程
9.3 多进程
9.4 MPI和并发HDF5
9.4.1 一个非常快速的MPI介绍
9.4.2 基于MPI的HDF5程序
9.4.3 集体操作和独立操作
9.4.4 原子操作模式
第10章 下一步
10.1 寻求帮助
10.2 做出贡献
索引
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜