《SparkSQL内核剖析》朱锋,张韶全电子书txt下载、在线阅读、内容简介、评论读后感-当当读书

内容简介

经过多年的发展，大数据处理技术逐步成熟。作为业界大数据计算的事实标准，Apache Spark系统已经广泛应用于各大企业与研究机构，并形成完整的生态系统。Spark系统包含了SQL、GraphX和R等各个子系统以支持不同业务领域的需求。作为传统关系数据库/数据仓库在大数据场景下的解决方案，Spark SQL已经成为了业界的重要选择方案，同时也成为了Spark源社区中*为活跃的部分。本书聚焦于Spark SQL系统，对其整体架构、内部各个模块的技术实现机制行源码级别的剖析，涉及到SQL编译、逻辑计划、物理执行计划、重要查询(如Aggregation与Join等)的技术细节。此外，本书内容上还会结合生产环境的海量应用，分享大量真实发案例与实践优化经验。
【推荐语】
√ 揭秘Spark SQL内部架构、算法设计与实现原理，从源码实现层面掌握数据库SQL处理与Spark分布式计算模型。 √ 作为SQL-on-Hadoop解决方案的佼佼者，Spark SQL志在取代传统数据仓库，在数据库应用场景中其模块一直备受关注。 √ 腾讯T4专家Spark领军人物黄明领衔，长期从事分布式计算和查询优化方面工作，对Spark SQL有较深研究及大量工程积累。 √ 分享腾讯日均百万SQL总量和数百PB数据处理的一线生产实践，其中披露TDW经验对大数据平台建设和性能优化有重要借鉴意义。 √ 适合要对原生系统行定制化改造或新特性添加的发人员，以及想通过理解系统背后核心知识学习分布式系统和数据库实现等技术的从业者。
【作者】
朱锋，博士毕业于中科院软件所，研究方向为分布式计算与软件工程。长期关注数据分析、数据库技术和大数据相关系统，并积极参与源社区贡献。2017年加腾讯，负责Spark SQL相关平台的发、优化和维护工作，在SQL-on-Hadoop方面积累了丰富的经验。张韶全，香港中文大学博士，博士期间研究方向为系统优分布式算法。曾任香港应用研究院研究员、联想香港研发中心高级研究员。现任腾讯大数据平台高级研发工程师，负责腾讯大数据SQL平台的建设与研发，平台规模达到上万台服务器，百万级别业务量，PB级日数据计算量，支撑着腾讯全公司的数据分析业务，拥有多年互联网公司一线的大数据平台设计与研发经验。旨在传播大数据技术和实践经验，使其在不同行业落地生根。黄明，腾讯T4专家，Spark中国区早期研究者和布道者之一。

展开