当当云阅读 > 科技 > 计算机/网络 > 计算机理论与教程 > 基于Hadoop与Spark的大数据开发实战

| | 手机阅读

扫描下载当当云阅读App

基于Hadoop与Spark的大数据开发实战电子书

1、选取知识核心实用，以互联网实现终身学习 2、以企业需求为设计导向，以任务驱动为讲解方式 3、以案例为主线组织知识，以实战项目来提升技术 4、充分考虑学习者的认知曲线，由浅深，边讲边练

售价：¥

纸质售价：¥50.10购买纸书

308人正在读 | 2人评论

6.2

作者：肖睿丁科吴刚山

出版社：人民邮电出版社

出版时间：2018-03-01

字数：31.4万

所属分类：科技 > 计算机/网络 > 计算机理论与教程

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(2条)

读书简介
目录
累计评论(2条)

大数据技术让我们以一种前所未有的方式，对海量数据行分析，从中获得有巨大价值的产品和服务，*终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术行讲解，主要内容包括Hadoop环境配置、Hadoop分布式文件系统（HDFS）、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书紧密结合实际应用，运用大量案例说明和实践，提炼含金量十足的发经验。另外，本书配以多元的学习资源和支持服务，包括视频教程、案例素材下载、学习交流社区、讨论组等学习内容，为读者带来全方位的学习体验。 【推荐语】 1、选取知识核心实用，以互联网实现终身学习 2、以企业需求为设计导向，以任务驱动为讲解方式 3、以案例为主线组织知识，以实战项目来提升技术 4、充分考虑学习者的认知曲线，由浅深，边讲边练 【作者】 肖睿任职于北京课工场教育科技有限公司。课工场是专注互联网教育的生态平台，汇聚了中国和北美数百位来自知名互联网企业的行业大咖，向寻求就业和技术提升的人群提供直播、录播、面授等多模式教学场景，并通过遍布全国的线下服务中心提供成熟的学习服务，形成完善的“互联网教育”解决方案。同时，课工场也为高校、企业、行业提供教育技术赋能，依托Transformer智能教育生态平台，造智慧校园、企业大学、行业培训的教育场景，提供一站式教育解决方案。

目录展开

内容提要

序言

前言

第1章 Hadoop初体验

任务1 初识大数据

1.1.1 大数据基本概念

1.1.2 大数据带来的挑战

任务2 初识Hadoop

1.2.1 Hadoop概述

1.2.2 Hadoop生态圈

1.2.3 Hadoop应用案例

任务3 安装Hadoop平台

1.3.1 安装虚拟机

1.3.2 安装Linux系统

1.3.3 安装Hadoop伪分布式环境

本章总结

本章练习

第2章 Hadoop分布式文件系统

任务1 HDFS入门

2.1.1 认识HDFS

2.1.2 HDFS基础

2.1.3 HDFS架构

任务2 HDFS基本操作

2.2.1 使用HDFS shell访问

2.2.2 使用Java API访问

任务3 HDFS运行原理

2.3.1 HDFS读写流程

2.3.2 HDFS副本机制

2.3.3 HDFS负载均衡

2.3.4 HDFS机架感知

任务4 HDFS高级知识

2.4.1 Hadoop序列化机制

2.4.2 Sequence File

2.4.3 Map File

本章总结

本章练习

第3章 Hadoop分布式计算框架

任务1 认识Map Reduce编程模型

3.1.1 Map Reduce基础

3.1.2 Map Reduce编程模型

3.1.3 Map Reduce词频统计编程实例

任务2 Map Reduce应用开发

3.2.1 Map Reduce输入/输出类型

3.2.2 Map Reduce输入格式

3.2.3 Map Reduce输出格式

3.2.4 Combiner操作

3.2.5 Partitioner操作

3.2.6 自定义Record Reader

任务3 Map Reduce高级应用

3.3.1 使用Map Reduce实现join操作

3.3.2 使用Map Reduce实现排序

3.3.3 使用Map Reduce实现二次排序

3.3.4 使用Map Reduce合并小文件

本章总结

本章练习

第4章 Hadoop新特性

任务1 初识YARN

4.1.1 YARN产生背景

4.1.2 YARN简介

4.1.3 YARN架构设计

任务2 了解HDFS新特性

4.2.1 HDFS Name Node 高可用机制

4.2.2 HDFS Name Node Federation

4.2.3 HDFS Snapshots

4.2.4 HDFS REST API

4.2.5 Dist Cp工具

任务3 了解YARN新特性

4.3.1 Resource Manager自动重启

4.3.2 Resource Manager高可用机制

本章总结

本章练习

第5章 Hadoop分布式数据库

任务1 认识HBase

5.1.1 HBase简介

5.1.2 HBase体系结构

5.1.3 HBase数据模型

5.1.4 HBase的安装

任务2 HBase Shell操作

5.2.1 HBase Shell简介

5.2.2 HBase Shell的使用

任务3 HBase编程

5.3.1 开发HBase应用程序

5.3.2 HBase数据存储管理API

本章总结

本章练习

第6章 Hadoop综合实战——音乐排行榜

任务1 Map Reduce与HBase的集成

6.1.1 Map Reduce与HBase的集成环境

6.1.2 批量数据导入（Bulk Loading）

任务2 HBase Map Reduce API

6.2.1 HBase Map Reduce API 简介

6.2.2 Table Mapper的使用

6.2.3 Table Reducer的使用

任务3 实现音乐排行榜

6.3.1 程序的结构与实现

6.3.2 HBase数据库设计优化

6.3.3 Map Reduce全局共享数据

本章总结

本章练习

第7章数据仓库Hive

任务1 Hive基础

7.1.1 认识Hive

7.1.2 Hive架构设计

7.1.3 Hive与Hadoop

7.1.4 Hive与传统关系型数据库

7.1.5 Hive数据存储模型

7.1.6 Hive部署

任务2 掌握Hive操作

7.2.1 Hive DDL

7.2.2 Hive DML

7.2.3 Hive shell

任务3 Hive高级应用

7.3.1 Hive函数

7.3.2 Hive调优策略

本章总结

本章练习

第8章大数据离线处理辅助系统

任务1 认识并使用数据迁移框架Sqoop

8.1.1 Sqoop简介

8.1.2 使用Sqoop导入My SQL数据到HDFS

8.1.3 使用Sqoop导出HDFS数据到My SQL

8.1.4 使用Sqoop导入My SQL数据到Hive

8.1.5 Sqoop Job

任务2 使用Azkaban实现工作流调度

8.2.1 Azkaban概述

8.2.2 Azkaban环境部署

8.2.3 Azkaban应用实例

本章总结

本章练习

第9章 Spark基础

任务1 Spark入门

9.1.1 Spark简介

9.1.2 Spark优势

9.1.3 Spark生态圈

任务2 Scala基础

9.2.1 Scala简介

9.2.2 Scala函数定义

9.2.3 Scala面向对象操作

9.2.4 Scala集合的使用

9.2.5 Scala高阶函数

任务3 编译Spark

9.3.1 下载Spark源码

9.3.2 编译Spark源码

任务4 Spark初体验

9.4.1 Spark环境部署

9.4.2 spark-shell

本章总结

本章练习

第10章 Spark Core

任务1 Spark RDD

10.1.1 RDD介绍

10.1.2 RDD的创建

10.1.3 RDD的转换算子

10.1.4 RDD的动作算子

10.1.5 RDD的依赖关系

任务2 RDD高级应用

10.2.1 RDD缓存机制

10.2.2 共享变量

10.2.3 Spark架构设计

任务3 基于RDD的Spark应用程序开发

10.3.1 准备工作

10.3.2 词频计数实例

10.3.3 年龄统计实例

本章总结

本章练习

第11章 Spark SQL

任务1 认识Spark SQL

11.1.1 SQL

11.1.2 SQL on Hadoop框架

11.1.3 Spark SQL简介

任务2 Spark SQL编程基础

11.2.1 Spark SQL编程入口

11.2.2 Data Frame基础

11.2.3 Data Frame编程实例

任务3 Spark SQL编程进阶

11.3.1 Spark SQL操作外部数据源

11.3.2 Spark SQL函数

11.3.3 Spark SQL调优

本章总结

本章练习

第12章 Spark Streaming

任务1 流处理框架及Spark Streaming

12.1.1 流处理框架简介

12.1.2 Spark Streaming简介

任务2 使用Spark Streaming编程

12.2.1 Spark Streaming核心

12.2.2 Spark Streaming编程实例

任务3 Spark Streaming高级应用

12.3.1 使用Spark Streaming整合Flume

12.3.2 使用Spark Streaming整合Kafka

12.3.3 Spark Streaming优化策略

本章总结

本章练习

附录

累计评论(2条) 2个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

DeepSeek硬核技术解读￥59.00

刘丹;尹俊希;杨院伶

￥59.00

精通Excel数据统计与分析￥57.54

李宗璋著

￥57.54

豆包*学习:AI 辅助中小学生学习的方法与技巧￥47.00

薛碧芸;郭泽德

￥47.00

OpenClaw实战指南:零基础打造会干活的AI数字员工￥79.00

徐尧

￥79.00

更多同类图书 >

基于Hadoop与Spark的大数据开发实战电子书

支持设备

豆包从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥47.00

豆包使用秘笈:从入门到精通的100个实用技巧￥53.00

千问从入门到精通:AI助手和智能体轻松搞定工作、学习和生活难题￥35.00

学会提问,驾驭AI:提示词从入门到精通￥61.60

腾讯元宝使用秘笈:从入门到精通的100个实用技巧￥53.00