万本电子书0元读

万本电子书0元读

顶部广告

数据质量管理:数据可靠性与数据质量问题解决之道电子书

你的产品仪表盘看起来时髦吗?你的季度报告过时了吗?你使用的数据集是坏的还是根本就是错误的?这些问题几乎影响每一个团队,但它们通常以一种临时的、被动的方式得到解决。如果你也受困于这些问题,那么本书就是为你准备的。如今,许多数据工程团队都面临着“好管道,坏数据”的问题。如果你的数据不好,那么数据基础设施再先也没用。在本书中,来自数据可观测性公司蒙特卡罗的Barr Moses、Lior Gavish和Molly Vorwerck解释了如何利用世界上一些最具创新性的公司采用的最佳实践和技术来解决大规模数据质量和信任问题。通过阅读本书,你将:? 构建更可信、更可靠的数据管道。? 编写脚本行数据检查,并通过数据可观测性识别损坏的管道。? 了解如何设置和维护数据SLA、SLI和SLO。? 制定并领导公司的数据质量计划。? 了解如何像对待生产软件一样对待数据服务和系统。? 跨数据生态系统自动绘制数据沿袭图。? 为关键数据资产构建异常检测器。

售       价:¥

纸质售价:¥81.70购买纸书

8人正在读 | 0人评论 6.8

作       者:(美)巴尔·摩西,(美)利奥·加维什,(美)莫莉·沃尔维克

出  版  社:机械工业出版社

出版时间:2024-05-16

字       数:19.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。<br/>【推荐语】<br/>你的产品仪表盘看起来时髦吗?你的季度报告过时了吗?你使用的数据集是坏的还是根本就是错误的?这些问题几乎影响每一个团队,但它们通常以一种临时的、被动的方式得到解决。如果你也受困于这些问题,那么本书就是为你准备的。如今,许多数据工程团队都面临着“好管道,坏数据”的问题。如果你的数据不好,那么数据基础设施再先也没用。在本书中,来自数据可观测性公司蒙特卡罗的Barr Moses、Lior Gavish和Molly Vorwerck解释了如何利用世界上一些最具创新性的公司采用的最佳实践和技术来解决大规模数据质量和信任问题。通过阅读本书,你将:? 构建更可信、更可靠的数据管道。? 编写脚本行数据检查,并通过数据可观测性识别损坏的管道。? 了解如何设置和维护数据SLA、SLI和SLO。? 制定并领导公司的数据质量计划。? 了解如何像对待生产软件一样对待数据服务和系统。? 跨数据生态系统自动绘制数据沿袭图。? 为关键数据资产构建异常检测器。<br/>【作者】<br/>Barr Moses是蒙特卡罗公司的首席执行官兼联合创始人,该公司是数据可观测性类别的创建者。在长达十年的数据职业生涯中,她曾担任以色列空军数据情报部队指挥官、贝恩公司顾问和Gainsight公司运营副总裁。她主持了O'Reilly的第一门数据质量课程。 Lior Gavish是蒙特卡罗公司的首席技术官兼联合创始人,曾联合创办网络安全初创公司Sookasa,该公司于2016年被Barracuda公司收。在Barracuda,他曾担任高级工程副总裁,推出了屡获殊荣的ML防欺诈产品。Lior拥有斯坦福大学工商管理硕士学位和特拉维夫大学计算机科学硕士学位。 Molly Vorwerck是蒙特卡罗公司的内容主管,还担任过Uber工程博客的主编和Uber技术品牌团队的首席项目经理。她还负责Uber首席技术官的内部沟通,以及Uber人工智能实验室研究审查项目的战略。<br/>
目录展开

O'Reilly Media,Inc.介绍

本书赞誉

译者序

前言

第1章 为什么数据质量值得关注

1.1 什么是数据质量

1.2 构筑当下

1.3 总结

第2章 对可靠数据系统的构建模块进行组装

2.1 了解事务型数据和分析型数据之间的差异

2.2 是什么让它们有所不同

2.3 数据仓库与数据湖

2.4 收集数据质量指标

2.5 设计数据目录

2.6 构建数据目录

2.7 总结

第3章 收集、清洗、转换和测试数据

3.1 收集数据

3.2 清洗数据

3.3 批处理与流处理

3.4 流处理的数据质量

3.5 数据标准化

3.6 运行分析型数据转换

3.7 警报和测试

3.8 使用Apache Airflow管理数据质量

3.9 总结

第4章 数据管道的监控和异常检测

4.1 了解已知的未知和未知的未知

4.2 构建异常检测的算法

4.3 为模式和沿袭构建监控器

4.4 使用Python和机器学习扩展异常检测

4.5 深入探究:其他有用的异常检测方法

4.6 为数据仓库和数据湖分别设计数据质量监控器

4.7 总结

第5章 为数据可靠性进行架构设计

5.1 在摄取数据时评估并维护高数据可靠性

5.2 度量和维护管道中的数据质量

5.3 了解下游的数据质量

5.4 构建数据平台

5.5 建立对数据的信任

5.6 案例分析:Blinkist

5.7 总结

第6章 解决大规模数据质量问题

6.1 在软件研发过程中解决数据质量问题

6.2 数据事件管理

6.3 事件应对与缓解策略

6.4 案例分析:PagerDuty公司的数据事件管理

6.5 总结

第7章 构建端到端的数据沿袭

7.1 为现代数据系统构建端到端字段级别的沿袭

7.2 案例分析:在福克斯公司构建数据可靠性

7.3 总结

第8章 推广和普及数据质量

8.1 将“数据”视为产品

8.2 将数据视为产品的经验

8.3 在数据平台中建立信任

8.4 分配数据质量所有权

8.5 为数据质量创建责任制

8.6 平衡数据可访问性与数据信任

8.7 对数据进行认证

8.8 实施数据认证流程的七个步骤

8.9 案例分析:Toast寻找适合其数据团队结构的过程

8.10 提高数据素养

8.11 优先考虑数据治理和合规性

8.12 构建数据质量策略

8.13 总结

第9章 现实世界中的数据质量:对话和案例分析

9.1 为更高的数据质量构建数据网格

9.2 为什么要实施数据网格

9.3 与Zhamak Dehghani的对话:数据质量在数据网格中的作用

9.4 案例分析:Kolibri Games的数据栈之旅

9.5 让元数据为业务服务

9.6 通过数据发现释放元数据的价值

9.7 决定何时开始处理公司的数据质量问题

9.8 总结

第10章 开创可靠数据系统的未来

10.1 要积极主动,而不是消极被动

10.2 对数据质量和数据可靠性未来的预测

10.3 何去何从

作者介绍

封面介绍

推荐阅读

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部