万本电子书0元读

万本电子书0元读

顶部广告

Hadoop+Spark大数据技术电子书

1.融应用场景,理论讲解与动手实践相结合。 2.适配大数据处理主流技术,提供大量实践案例。 3.基础知识 案例指导 综合应用。 本书结合编者多年的程序设计、系统发与课程讲授的经验,由浅深、循序渐地展,使读者能够系统、全面地掌握程序设计的理论与应用。

售       价:¥

纸质售价:¥41.30购买纸书

1人正在读 | 0人评论 6.5

作       者:曾国荪 曹洁 编著

出  版  社:人民邮电出版社有限公司

出版时间:2022-09-01

字       数:14.3万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书主要讲解Hadoop的分布式文件系统、MapReduce编程模型和Spark大数据处理技术。全书共12章,具体包括大数据概述、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、HBase分布式数据库、Spark概述、基于Scala的Spark编程、Windows环境下Spark综合编程、Spark SQL结构化数据处理、Spark Streaming流计算、Spark GraphX图计算、项目实训:《平凡的世界》孙家人物关系图分析。 本书可作为高等院校计算机、信息管理、软件工程、大数据、人工智能等相关专业的大数据课程教材,也可供企业中从事大数据发的工程师和科技工作者参考。<br/>【推荐语】<br/>1.融应用场景,理论讲解与动手实践相结合。 2.适配大数据处理主流技术,提供大量实践案例。 3.基础知识 案例指导 综合应用。 本书结合编者多年的程序设计、系统发与课程讲授的经验,由浅深、循序渐地展,使读者能够系统、全面地掌握程序设计的理论与应用。<br/>【作者】<br/>同济大学计算机软件与理论专业博士,郑州轻工业大学软件学院教师。研究方向:数据分析、机器学习、并行分布式处理等。近年在软件学报、电子学报、计算机研究与发展、通信学报等核心刊物上发表学术论文10余篇,2019年7月在清华大学出版社以作者身份出版高等院校信息技术规划教材《Python语言程序设计(微课版)》<br/>
目录展开

扉页

内容提要

前言

第1章 Hadoop大数据开发环境

1.1 Hadoop概述

1.1.1 Hadoop简介

1.1.2 Hadoop的优势

1.2 在VirtualBox上安装虚拟机

1.2.1 Master节点的安装

1.2.2 复制虚拟机

1.3 Hadoop安装前的准备工作

1.3.1 Linux主机的配置

1.3.2 安装SSH、配置SSH免密码登录

1.3.3 安装Java环境

1.4 Hadoop的安装与配置

1.4.1 Hadoop的安装

1.4.2 Hadoop单机模式的配置

1.4.3 Hadoop伪分布式模式的配置

1.4.4 Hadoop分布式模式的配置

1.5 习题

第2章 HDFS大数据分布式存储

2.1 HDFS的基本特征

2.2 HDFS的存储架构及组件

2.2.1 HDFS的存储架构

2.2.2 数据块

2.2.3 DataNode

2.2.4 NameNode

2.2.5 SecondaryNameNode

2.2.6 心跳消息

2.2.7 客户端

2.3 HDFS的Shell操作

2.3.1 查看命令的使用方法

2.3.2 HDFS常用的Shell操作

2.3.3 HDFS的管理员命令

2.3.4 HDFS的Java API操作

2.3.5 HDFS的Web管理界面

2.4 案例实战:HDFS编程

2.4.1 安装Eclipse

2.4.2 在Eclipse中创建项目

2.4.3 为项目添加需要用到的JAR包

2.4.4 编写Java应用程序

2.4.5 编译与运行程序

2.4.6 应用程序的部署

2.5 习题

第3章 MapReduce分布式计算框架

3.1 MapReduce概述

3.1.1 并发、并行与分布式编程的概念

3.1.2 MapReduce并行编程模型

3.1.3 Map函数和Reduce函数

3.2 MapReduce工作原理

3.2.1 MapReduce体系架构

3.2.2 MapTask工作原理

3.2.3 ReduceTask工作原理

3.3 案例实战:MapReduce编程

3.3.1 WordCount执行流程示例

3.3.2 WordCount具体实现

3.3.3 使用Eclipse编译与运行词频统计程序

3.4 习题

第4章 HBase分布式数据库

4.1 HBase概述

4.1.1 HBase的技术特点

4.1.2 HBase与传统关系数据库的区别

4.1.3 HBase与Hadoop中其他组件的关系

4.2 HBase系统架构和数据访问流程

4.2.1 HBase系统架构

4.2.2 HBase数据访问流程

4.3 HBase数据表

4.3.1 HBase数据表的逻辑视图

4.3.2 HBase数据表的物理视图

4.3.3 HBase数据表面向列的存储

4.3.4 HBase数据表的查询方式

4.3.5 HBase表结构的设计

4.4 HBase安装

4.4.1 下载安装文件

4.4.2 配置环境变量

4.4.3 添加用户权限

4.4.4 查看HBase的版本信息

4.5 HBase配置

4.5.1 单机模式的配置

4.5.2 伪分布式模式的配置

4.6 HBase的Shell操作

4.6.1 基本操作

4.6.2 创建表

4.6.3 插入与更新表中的数据

4.6.4 查询表中的数据

4.6.5 删除表中的数据

4.6.6 表的启用/禁用

4.6.7 修改表结构

4.6.8 删除HBase表

4.7 HBase的Java API操作

4.7.1 HBase数据库管理API

4.7.2 HBase数据库表API

4.7.3 HBase数据库表的行/列API

4.8 案例实战:HBase编程

4.8.1 在Eclipse中创建项目

4.8.2 添加项目需要用到的JAR包

4.8.3 编写Java应用程序

4.8.4 编译与运行程序

4.9 习题

第5章 Scala基础编程

5.1 Scala概述

5.1.1 Scala特性

5.1.2 在Windows环境下安装Scala

5.2 Scala基础语法

5.2.1 声明常量和变量

5.2.2 输出值的方式

5.2.3 数据类型

5.2.4 运算符

5.3 Scala控制结构

5.3.1 条件表达式

5.3.2 if...else选择结构

5.3.3 编写和运行Scala脚本

5.3.4 循环结构

5.4 数组

5.4.1 定长数组

5.4.2 变长数组

5.4.3 遍历数组

5.4.4 数组转换

5.4.5 数组对象的操作方法

5.5 列表

5.5.1 不可变列表

5.5.2 可变列表

5.6 集合

5.6.1 不可变集合

5.6.2 可变集合

5.7 元组

5.7.1 元组的常用操作

5.7.2 拉链操作

5.8 映射

5.8.1 不可变映射

5.8.2 可变映射

5.9 Scala函数

5.9.1 函数的定义

5.9.2 匿名函数

5.9.3 高阶函数

5.10 Scala模式匹配

5.11 Scala面向对象编程

5.11.1 类与对象

5.11.2 单例对象和伴生对象

5.12 Scala读写文件

5.12.1 读文件

5.12.2 写文件

5.13 习题

第6章 Spark大数据处理框架

6.1 Spark概述

6.1.1 Spark的产生背景

6.1.2 Spark的优点

6.1.3 Spark的应用场景

6.1.4 Spark的生态系统

6.2 Spark的运行机制

6.2.1 Spark的基本概念

6.2.2 Spark的运行架构

6.3 Spark的安装及配置

6.3.1 Spark的基础环境

6.3.2 下载安装文件

6.3.3 单机模式的配置

6.3.4 伪分布式模式的配置

6.4 使用Spark Shell编写Scala代码

6.4.1 启动Spark Shell

6.4.2 退出Spark Shell

6.5 使用PySpark Shell编写Python代码

6.6 习题

第7章 Spark RDD编程

7.1 创建RDD的方式

7.1.1 使用程序中的数据集创建RDD

7.1.2 使用文本文件创建RDD

7.1.3 使用JSON文件创建RDD

7.1.4 使用CSV文件创建RDD

7.2 RDD的操作方法

7.2.1 转换操作

7.2.2 行动操作

7.3 RDD之间的依赖关系

7.3.1 窄依赖

7.3.2 宽依赖

7.4 RDD的持久化

7.5 案例实战:Spark RDD实现词频统计

7.5.1 安装sbt

7.5.2 编写词频统计的Scala应用程序

7.5.3 用sbt打包Scala应用程序

7.5.4 通过spark-submit运行程序

7.6 Spark读写HBase数据

7.6.1 读HBase的数据

7.6.2 向HBase写数据

7.7 习题

第8章 Windows环境下Spark综合编程

8.1 Windows环境下Spark与Hadoop的安装

8.1.1 Windows环境下Spark的安装

8.1.2 Windows环境下Hadoop的安装

8.2 用IntelliJ IDEA搭建Spark开发环境

8.2.1 下载与安装IntelliJ IDEA

8.2.2 Scala插件的安装与使用

8.2.3 配置全局的JDK和SDK

8.2.4 Maven的安装与项目开发

8.2.5 开发本地Spark应用

8.3 案例实战:Spark RDD学生考试成绩分析

8.4 习题

第9章 Spark SQL结构化数据处理

9.1 Spark SQL概述

9.1.1 Spark SQL简介

9.1.2 DataFrame与Dataset

9.2 创建DataFrame对象的方式

9.2.1 使用Parquet文件创建DataFrame对象

9.2.2 使用JSON文件创建DataFrame对象

9.2.3 使用RDD创建DataFrame对象

9.2.4 使用SparkSession方式创建DataFrame对象

9.2.5 使用Seq创建DataFrame对象

9.3 将DataFrame对象保存为不同格式的文件

9.3.1 通过write.×××()方法保存DataFrame对象

9.3.2 通过write.format()方法保存DataFrame对象

9.3.3 先将DataFrame对象转化成RDD再保存到文件中

9.4 DataFrame对象的常用操作

9.4.1 展示数据

9.4.2 筛选

9.4.3 排序

9.4.4 汇总与聚合

9.4.5 统计

9.4.6 合并

9.4.7 连接

9.5 创建Dataset对象

9.6 案例实战:瓜子二手车数据分析

9.6.1 设置程序入口并读取数据

9.6.2 数据清洗

9.6.3 折扣率分析

9.6.4 数据统计

9.7 习题

第10章 Spark Streaming流计算

10.1 流计算概述

10.1.1 流数据概述

10.1.2 批处理与流处理

10.2 Spark Streaming工作原理

10.3 Spark Streaming编程模型

10.3.1 编写Spark Streaming程序的步骤

10.3.2 创建StreamingContext对象

10.4 创建DStream对象

10.4.1 创建输入源为文件流的DStream对象

10.4.2 定义DStream的数据源为套接字流

10.4.3 定义DStream的数据源为RDD队列流

10.5 DStream操作

10.5.1 DStream无状态转换操作

10.5.2 DStream有状态转换操作

10.5.3 DStream输出操作

10.6 案例实战:实时统计文件流的词频

10.7 习题

第11章 Spark GraphX图计算

11.1 GraphX图计算概述

11.1.1 图结构

11.1.2 图计算的典型应用

11.1.3 GraphX简介

11.2 GraphX图计算模型

11.2.1 属性图

11.2.2 GraphX图存储模式

11.2.3 GraphX图计算原理

11.3 GraphX属性图的创建

11.3.1 使用顶点RDD和边RDD创建属性图

11.3.2 使用边集合的RDD创建属性图

11.3.3 使用边的两个顶点的ID所组成的二元组RDD创建属性图

11.4 属性图操作

11.4.1 图的属性操作

11.4.2 图的视图操作

11.4.3 图的缓存操作

11.4.4 图的顶点和边的属性变换

11.4.5 图的连接操作

11.4.6 图的结构操作

11.5 习题

第12章 项目实训:《平凡的世界》中部分人物关系图分析

12.1 需求分析

12.1.1 《平凡的世界》概述

12.1.2 《平凡的世界》中部分人物关系图可视化

12.1.3 需求分析

12.2 《平凡的世界》中部分人物关系图分析

12.2.1 功能实现

12.2.2 人物关系图分析结果

参考文献

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部