《数据资产管理核心技术与应用》从核心技术和应用实践两个角度,讲述如何管理好数据资产、如何解决数据资产管理中面临的诸多技术痛,帮助数据资产管理者、发者架构好数据服务的技术基础,从而帮助数据资产使用人员、数据分析师、经营决策人员等快速地找到自己想要的数据,让数据可以发挥出更大的价值。
售 价:¥
纸质售价:¥89.00购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
内容简介
推荐序1
推荐序2
推荐序3
作者简介
前言
关于本书
配套资源下载
本书作者
鸣谢
目 录
第1章 认识数据资产
1.1 数据资产的基本介绍
1.数据资产的关键特性
2.数据资产的常见类型
1.2 数据资产的分类
1.3 数据资产的价值评估
1.通过成本来评估数据资产的价值
2.通过收益来评估数据资产的价值
1.4 数据资产的质量
1.5 数据资产的存储
1.文档存储时代
2.普通数据库存储的时代
3.数据仓库存储的时代
4.数据湖存储的时代
5.湖仓一体的时代
1.6 数据资产管理
1.数据资产管理的内容
2.数据资产的管理方式
1.7 数据资产管理的信息化建设
1.数据资产管理信息化的好处
2.数据资产管理信息化建设的核心要素
1.8 数据资产与人工智能
第2章 元数据的采集与存储
2.1 Hive中的元数据采集
2.1.1 基于Hive Meta DB的元数据采集
1.Hive的数据模型
2.Hive元数据数据库中常见的关键表
3.Hive元数据中常见的关键表之间的关联关系
2.1.2 基于Hive Catalog的元数据采集
2.1.3 基于Spark Catalog的元数据采集
2.2 Delta Lake中的元数据采集
2.2.1 基于Delta Lake自身设计来采集元数据
1.Delta Lake的元数据
2.获取表级元数据的方式
2.2.2 基于Spark Catalog来采集元数据
2.3 MySQL中的元数据采集
2.4 Apache Hudi中的元数据采集
2.4.1 基于Spark Catalog采集元数据
2.4.2 Hudi Timeline Meta Server
1.Hudi中常见的Action操作
2.Timeline Meta Server
3.Marker
2.4.3 基于Hive Meta DB采集元数据
1.HoodieMetaSyncOperations接口定义的方法
2.部署Hudi使用的配置项
2.5 Apache Iceberg中的元数据采集
2.5.1 Iceberg的元数据设计
2.5.2 Iceberg元数据的采集
1.通过Spark Catalog来采集元数据
2.通过Iceberg Java API来获取元数据
2.6 元数据的存储模型设计
2.6.1 如何对元数据进行整合
2.6.2 元数据的存储模型设计
第3章 数据血缘
3.1 获取数据血缘的技术实现
3.1.1 如何从Hive中获取数据血缘
1.LineageLogger
2.Hive中常见的钩子
3.1.2 从Spark执行计划中获取数据血缘
1.Spark的执行计划
2.Spark中常见的执行计划实现类
3.InsertIntoHadoopFsRelationCommand实现的执行计划
3.1.3 从Spark SQL语句中获取数据血缘
3.1.4 从Flink中获取数据血缘
3.1.5 从数据任务的编排系统中获取数据血缘
3.2 数据血缘的存储模型与展示设计
第4章 数据质量的技术实现
4.1 质量数据采集的技术实现
4.1.1 定义数据采集的规则
1.通用规则
2.自定义的规则
1)SQL脚本
2)Python脚本
3)Scala脚本
4.1.2 定时Job的技术选型
1.Apache DolphinSchedur
2.Apache Spark
1)t_quality_rule_template
2)t_quality_rule
3)t_quality_rule_exec
4.2 如何处理采集到的质量数据
4.3 质量数据的存储模型设计
4.4 常见的开源数据质量管理平台
4.4.1 Apache Griffin
4.4.2 Qualitis
第5章 数据监控与告警
5.1 数据监控
5.1.1 数据监控的种类
5.1.2 监控数据的特点与存储方式
5.2 常见的数据监控目标
5.2.1 数据链路监控
1.实时链路
1)Reading Metrics Interactively
2)Reporting Metrics programmatically using Asynchronous APIs
3)Reporting Metrics using Dropwizard
2.离线链路
5.2.2 数据任务监控
1.实时任务
2.离线任务
5.2.3 数据质量监控
5.2.4 数据服务监控
5.2.5 数据处理资源监控
5.3 Prometheus简介
1.Jobs/Exporters
2.Pushgateway
3.Alertmanager
4.Prometheus Server
5.4 Grafana简介
5.5 使用Grafana和Prometheus来实现数据监控与告警
5.5.1 数据链路的告警实现
5.5.2 数据任务的告警实现
5.5.3 数据质量的告警实现
5.5.4 数据服务的告警实现
5.5.5 数据处理资源的告警实现
第6章 数据服务
6.1 如何设计数据服务
6.1.1 数据源管理
6.1.2 数据服务的敏捷化和可配置化
6.1.3 数据服务文档的自动生成
6.1.4 数据服务的统一认证与鉴权
6.1.5 数据服务的监控与告警
6.2 数据服务的性能
1.SQL优化
2.数据库优化
1)使用缓存
2)读写分离
3)分库分表
3.架构设计优化
4.硬件优化
6.3 数据服务的熔断与降级
第7章 数据权限与安全
7.1 常见的权限设计模式
7.1.1 基于角色的访问控制
7.1.2 基于属性的访问控制
7.1.3 基于对象的访问控制
7.2 数据权限
7.2.1 列权限控制
7.2.2 行权限控制
7.3 数据脱敏
1.常见的数据脱敏方式
2.数据脱敏的常用技术
1)数据处理入库时脱敏
2)数据查询时脱敏
7.4 数据安全
第8章 数据资产架构
8.1 数据资产的架构设计
8.1.1 数据获取层
8.1.2 数据处理层
8.1.3 数据存储层
8.1.4 数据管理层
8.1.5 数据分析层
8.1.6 数据服务层
8.2 常见的开源数据资产管理平台
8.2.1 Apache Atlas
8.2.2 Data Hub
1.Data Hub的主要功能
2.Data Hub技术架构实现
8.2.3 OpenMetadata
1.OpenMetadata的核心功能
2.OpenMetadata官方提供的技术实现架构图
第9章 元数据管理实践
9.1 如何理解元数据
9.1.1 为何需要元数据
9.1.2 如何让元数据产生更大价值
9.1.3 元数据分类及其好处
9.1.4 元数据管理
1.元数据战略和目标
2.元数据管理标准
3.元数据治理
4.元数据管理分层
9.1.5 参与角色
9.2 元数据管理
9.2.1 元数据模型的组织关系
1.数据资产的分类管理
2.用户的权限设计
3.Owner关系
9.2.2 元数据的采集
1.数据源对接
2.数据源管理
9.2.3 业务域设计
1.业务域的划分
1)按照部门划分
2)按照行业标准划分
3)按照业务系统划分
2.主题域命名规范
9.2.4 业务术语设计
1.业务术语挑战
2.业务术语结构
3.业务术语发布管理
4.业务术语管理示例
9.2.5 元数据标签设计
1.元数据标签管理
2.数据分级
9.2.6 数据Owner
9.2.7 数据生命周期
9.2.8 元数据注册和发布
1.形成基础元模型
2.注册元数据模型
3.实施发布
9.2.9 核心功能介绍
1.数据地图
2.数据血缘
3.元数据开放
4.数据质量
第10章 数据建模实践
10.1 什么是数据建模
10.1.1 数据模型分类
1.概念模型
2.逻辑模型
3.物理模型
10.1.2 数据建模方法
10.2 数据仓库建模架构
10.3 关系型数据建模
10.3.1 概念模型阶段
1.识别实体
2.识别关系
3.识别属性
10.3.2 逻辑模型阶段
1.定义表模型
2.正则化逻辑模型
1)第一范式
2)第二范式
3)第三范式
3.定义约束条件
4.逻辑模型图
10.3.3 物理模型阶段
10.4 维度建模
10.4.1 基本概念
1.数据来源及命名规范
2.维度建模模式
1)星型模型
2)雪花模型
3)星座模型
3.粒度
4.维度表结构
5.事实表结构
6.维度建模步骤
1)选择业务过程
2)声明粒度
3)确认维度
4)确认事实
10.4.2 维度表设计
1.一致性问题
1)维度一致性问题
2)粒度一致性
2.缓慢变化维
10.4.3 事实表分类
10.4.4 基于维度建模的数据分析实践
1.数据钻取
2.切片和切块
3.旋转
参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜