万本电子书0元读

万本电子书0元读

顶部广告

Hadoop海量数据处理 技术详解与项目实战电子书

  Hadoop是目前*受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深入探讨了Hadoop的运维和调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。   本书的**特点是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。

售       价:¥

纸质售价:¥40.70购买纸书

83人正在读 | 1人评论 6.2

作       者:范东来

出  版  社:信息技术第一出版分社

出版时间:2015-03-01

字       数:26.1万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(5条)
  • 读书简介
  • 目录
  • 累计评论(5条)
《Hadoop海量数据处理:技术详解与项目实战》介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,并深探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书行总结,并对技术发展做了展望。 《Hadoop海量数据处理:技术详解与项目实战》结构针对学习曲线行了优化,由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。<br/>【推荐语】<br/>Hadoop是目前*受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书主要介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop,还深探讨了Hadoop的运维和调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。 本书的**特是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的发过程。 本书由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也适合作为高等院校相关课程的教学参考书。<br/>【作者】<br/>作者介绍 范东来 北京航空航天大学硕士,就职于清华大学苏州汽车研究院大数据处理中心,数据挖掘工程师,对Apache Hadoop、Apache Spark的发、运维和数据处理有较丰富的经验,研究方向为分布式计算、机器学习。<br/>
目录展开

前言

基础篇:Hadoop基础

第1章 绪论

1.1 Hadoop和云计算

1.2 Hadoop和大数据

1.3 数据挖掘和商业智能

第2章 环境准备

2.1 Hadoop的发行版本选择

2.2 Hadoop架构

2.3 安装Hadoop

2.4 安装Hive

2.5 安装Sqoop

2.6 Eclipse Hadoop插件的安装和使用

第3章 Hadoop的基石:HDFS

3.1 认识HDFS

3.2 HDFS读取文件和写入文件

3.3 如何访问HDFS

第4章 分而治之的智慧:MapReduce

4.1 认识MapReduce

4.2 Hello WordCount

4.3 MapReduce的过程

4.4 MapReduce的工作机制

4.5 MapReduce编程

4.6 MapReduce编程实例:连接

4.7 MapReduce编程实例:二次排序

4.8 MapReduce编程实例:全排序

第5章 SQL on Hadoop:Hive

5.1 认识Hive

5.2 数据类型和存储格式

5.3 HQL:数据定义

5.4 HQL:数据操作

5.5 HQL:数据查询

5.6 Hive函数

5.7 Hive用户自定义函数

第6章 SQL to Hadoop:Sqoop

6.1 一个Sqoop示例

6.2 导入过程

6.3 导出过程

6.4 Sqoop的使用

第7章 Hadoop性能调优和运维

7.1 Hadoop客户端

7.2 Hadoop性能调优

7.3 Hive性能调优

7.4 Hadoop运维

应用篇:商业智能系统项目实战

第8章 在线图书销售商业智能系统

8.1 项目背景

8.2 功能需求

8.3 非功能需求

第9章 系统结构设计

9.1 系统架构

9.2 功能设计

9.3 数据仓库结构

9.4 系统网络拓扑与硬件选型

9.5 技术选型

第10章 在开发之前

10.1 新建一个工程

10.2 代码目录结构

10.3 项目的环境变量

10.4 如何调试

第11章 实现数据导入导出模块

11.1 处理流程

11.2 导入方式

11.3 读取配置文件

11.4 SqoopUtil

11.5 整合

11.6 导入说明

11.7 导出模块

第12章 实现数据分析工具模块

12.1 处理流程

12.2 读取配置文件

12.3 HiveUtil

12.4 整合

12.5 数据分析和报表

第13章 实现业务数据的数据清洗模块

13.1 ETL

13.2 处理流程

13.3 数据去重

第14章 实现点击流日志的数据清洗模块

14.1 数据仓库和Web

14.2 处理流程

14.3 字段的获取

14.4 编写MapReduce作业

14.5 还能做什么

第15章 实现购书转化率分析模块

15.1 漏斗模型

15.2 处理流程

15.3 读取配置文件

15.4 提取所需数据

15.5 编写转化率分析MapReduce作业

15.6 对中间结果进行汇总得到最终结果

15.7 整合

第16章 实现购书用户聚类模块

16.1 物以类聚

16.2 聚类算法

16.3 用MapReduce实现聚类算法

16.4 处理流程

16.5 提取数据并做归一化

16.6 维度相关性

16.7 使用Mahout完成聚类

16.8 得到最终结果

16.9 评估聚类结果

第17章 实现调度模块

17.1 工作流

17.2 编写代码

17.3 crontab

17.4 让数据说话

结束篇:总结和展望

第18章 总结和展望

18.1 总结

18.2 YARN和CDH5

18.3 Apache Spark

18.4 NoSQL和NewSQL

参考文献

累计评论(5条) 6个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部