万本电子书0元读

万本电子书0元读

顶部广告

AI辅助数据质量监控电子书

当ChatGPT因数据噪声输出误导结论,当企业仪表盘数字遭高管质疑——本书正是根治数据信任危机的'手术刀'。译者团队深谙国内数据痛,将硅谷前沿技术本土化: 技术深度:独创'数据质量四大支柱'框架,详解无监督学习模型调优 行业温度:Discover金融、BuzzFeed等案例验证千倍ROI 人文洞察:以姥鲨隐喻'微小数据缺陷的致命影响',唤醒质量敬畏 数据工程师告别'救火',决策者远离直觉依赖——这或是企业智能化转型中最关键的一本书!

售       价:¥

纸质售价:¥59.20购买纸书

4人正在读 | 0人评论 6.5

作       者:(美)杰里米·斯坦利,(美)佩奇·施瓦茨

出  版  社:机械工业出版社

出版时间:2025-05-21

字       数:12.6万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书主要介绍了如何确保企业所依赖的数据的质量。书中详细阐述了自动化数据质量监控的重要性,并提供了实用的方法,帮助企业高效地覆盖所有数据表,主动发现数据问题,并立即解决。作者们解释了如何构建无监督机器学习模型来检测数据问题,以及如何实施通知机制以减少警报疲劳,并迅速分类和解决这些问题。此外,本书还探讨了如何将自动化数据质量监控与数据目录、BI和ML系统集成,以克服自动化监控的局限性,并在大规模环境中部署和管理监控解决方案。这本书是数据质量领域的实用指南,为企业提供了确保数据质量的有效策略和方法。<br/>【推荐语】<br/>当ChatGPT因数据噪声输出误导结论,当企业仪表盘数字遭高管质疑——本书正是根治数据信任危机的'手术刀'。译者团队深谙国内数据痛,将硅谷前沿技术本土化: 技术深度:独创'数据质量四大支柱'框架,详解无监督学习模型调优 行业温度:Discover金融、BuzzFeed等案例验证千倍ROI 人文洞察:以姥鲨隐喻'微小数据缺陷的致命影响',唤醒质量敬畏 数据工程师告别'救火',决策者远离直觉依赖——这或是企业智能化转型中最关键的一本书!<br/>【作者】<br/>Jeremy Stanley是Anomalo公司的联合创始人兼首席技术官。此前,他曾在Instacart公司担任数据科学副总裁,在那里他领导了机器学习项目,并推动了旨在提高公司盈利能力的各项举措。Paige Schwartz是Anomalo公司的一名专业技术作家,曾为包括Airbnb(爱彼迎)、Grammarly和OpenAI等在内的企业客户撰写文案。她曾担任谷歌的产品经理,擅长机器学习和数据相关领域的话题。<br/>
目录展开

O’Reilly Media,Inc.介绍

本书赞誉

译者序一

译者序二

前言

第1章 数据质量监控势在必行

1.1 高质量的数据是新时代的黄金

1.1.1 数据驱动型公司是当今的颠覆者

1.1.2 数据分析的普及

1.1.3 人工智能和机器学习是竞争优势之源[1]

1.1.4 公司正在投资现代数据栈

1.2 数据越多,问题越多

1.2.1 数据工厂中的问题

1.2.2 数据迁移

1.2.3 第三方数据源

1.2.4 公司的成长与变化

1.2.5 外界因素

1.3 为什么我们需要数据质量监控

1.3.1 数据疤痕

1.3.2 数据冲击

1.4 自动化数据质量监控:一个全新的领域

第2章 数据质量监控策略与自动化的角色

2.1 监控需求

2.2 数据可观测性:必要但不充分

2.3 传统的数据质量监控方法

2.3.1 人工数据质量检测

2.3.2 基于规则的测试

2.3.3 指标监控

2.4 使用无监督机器学习实现自动化数据质量监控

2.4.1 什么是无监督机器学习

2.4.2 类比:车道偏离警告

2.4.3 自动化的局限性

2.5 数据质量监控的四大支柱方法

第3章 对自动化数据质量监控的商业影响进行评估

3.1 对数据进行评估

3.1.1 数量

3.1.2 种类

3.1.3 速度

3.1.4 真实性

3.1.5 特殊情况

3.2 评估你的行业

3.2.1 监管压力

3.2.2 人工智能/机器学习的风险

3.2.3 数据即产品

3.3 评估你的数据成熟度

3.4 评估对利益相关方的好处

3.4.1 工程师

3.4.2 数据团队领导者

3.4.3 科学家

3.4.4 消费者

3.5 进行投资回报率分析

3.5.1 定量指标

3.5.2 定性指标

3.6 总结

第4章 利用机器学习使数据质量监控自动化

4.1 要求

4.1.1 敏感性

4.1.2 特异性

4.1.3 透明度

4.1.4 可扩展性

4.1.5 非必要需求

4.1.6 数据质量监控不等同于异常检测

4.2 机器学习方法和算法

4.2.1 数据抽样

4.2.2 特征编码

4.2.3 模型开发

4.2.4 模型可解释性

4.3 整体思路的伪代码实现

4.4 其他应用

4.5 总结

第5章 构建一个适用于真实数据的模型

5.1 数据挑战及应对措施

5.1.1 季节性

5.1.2 基于时间的特征

5.1.3 混乱程度

5.1.4 就地更新表格

5.1.5 列之间的相关性

5.2 模型测试

5.2.1 引入合成异常

5.2.2 基准测试

5.2.3 模型改进

5.3 总结

第6章 实施警报机制同时避免警报疲劳

6.1 如何通过通知促进数据问题响应

6.1.1 分类处理

6.1.2 路由

6.1.3 解决方案

6.1.4 文档记录

6.2 在没有通知的情况下采取行动

6.3 一个通知的解析

6.3.1 可视化

6.3.2 操作

6.3.3 文本描述

6.3.4 检查的创建者/最后编辑者

6.4 发送通知

6.4.1 通知的受众

6.4.2 通知的渠道

6.4.3 通知的时机

6.5 避免警报疲劳

6.5.1 合理安排检查顺序

6.5.2 使用机器学习对警报进行聚类

6.5.3 抑制通知

6.6 自动化根因分析

6.7 总结

第7章 集成监控与数据工具和系统

7.1 监控数据堆栈

7.2 数据仓库

7.2.1 与数据仓库集成

7.2.2 安全性

7.2.3 多仓库之间的数据协调

7.3 数据编排器

7.4 数据目录

7.5 数据使用者

7.5.1 BI和分析工具

7.5.2 MLOps

7.6 总结

第8章 大规模运营解决方案

8.1 自建还是购买

8.2 配置

8.2.1 确定最重要的表格

8.2.2 决定监控表格中的哪些数据

8.2.3 大规模配置

8.3 启用

8.3.1 用户角色和权限

8.3.2 培训、支持与推广

8.4 持续改善数据质量

8.4.1 数据健康计划

8.4.2 衡量指标

8.5 从混乱到清晰

附录 数据质量问题的类型

关于作者

关于封面

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部