PySpark可以对大数据行分布式处理,降低了大数据的学习门槛。本书是一本PySpark门教材,重讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,*后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。
售 价:¥
纸质售价:¥56.50购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
封面页
书名页
版权页
内容简介
前言
目录
第1章 大数据时代
1.1 什么是大数据
1.1.1 大数据的特点
1.1.2 大数据的发展趋势
1.2 大数据下的分析工具
1.2.1 Hadoop
1.2.2 Hive
1.2.3 HBase
1.2.4 Apache Phoenix
1.2.5 Apache Drill
1.2.6 Apache Hudi
1.2.7 Apache Kylin
1.2.8 Apache Presto
1.2.9 ClickHouse
1.2.10 Apache Spark
1.2.11 Apache Flink
1.2.12 Apache Storm
1.2.13 Apache Druid
1.2.14 Apache Kafka
1.2.15 TensorFlow
1.2.16 PyTorch
1.2.17 Apache Superset
1.2.18 Elasticsearch
1.2.19 Jupyter Notebook
1.2.20 Apache Zeppelin
1.3 小结
第2章 大数据的瑞士军刀——Spark
2.1 Hadoop与生态系统
2.1.1 Hadoop概述
2.1.2 HDFS体系结构
2.1.3 Hadoop生态系统
2.2 Spark与Hadoop
2.2.1 Apache Spark概述
2.2.2 Spark和Hadoop比较
2.3 Spark核心概念
2.3.1 Spark软件栈
2.3.2 Spark运行架构
2.3.3 Spark部署模式
2.4 Spark基本操作
2.5 SQL in Spark
2.6 Spark与机器学习
2.6.1 决策树算法
2.6.2 贝叶斯算法
2.6.3 支持向量机算法
2.6.4 随机森林算法
2.6.5 人工神经网络算法
2.6.6 关联规则算法
2.6.7 线性回归算法
2.6.8 KNN算法
2.6.9 K-Means算法
2.7 小结
第3章 Spark实战环境设定
3.1 建立Spark环境前提
3.1.1 CentOS 7安装
3.1.2 FinalShell安装
3.1.3 PuTTY安装
3.1.4 JDK安装
3.1.5 Python安装
3.1.6 Visual Studio Code安装
3.1.7 PyCharm安装
3.2 一分钟建立Spark环境
3.2.1 Linux搭建Spark环境
3.2.2 Windows搭建Spark环境
3.3 建立Hadoop集群
3.3.1 CentOS配置
3.3.2 Hadoop伪分布模式安装
3.3.3 Hadoop完全分布模式安装
3.4 安装与配置Spark集群
3.5 安装与配置Hive
3.5.1 Hive安装
3.5.2 Hive与Spark集成
3.6 打造交互式Spark环境
3.6.1 Spark Shell
3.6.2 PySpark
3.6.3 Jupyter Notebook安装
3.7 小结
第4章 活用PySpark
4.1 Python语法复习
4.1.1 Python基础语法
4.1.2 Python变量类型
4.1.3 Python运算符
4.1.4 Python控制语句
4.1.5 Python函数
4.1.6 Python模块和包
4.1.7 Python面向对象
4.1.8 Python异常处理
4.1.9 Python JSON处理
4.1.10 Python日期处理
4.2 用PySpark建立第一个Spark RDD
4.2.1 PySpark Shell建立RDD
4.2.2 VSCode编程建立RDD
4.2.3 Jupyter编程建立RDD
4.3 RDD的操作与观察
4.3.1 first操作
4.3.2 max操作
4.3.3 sum操作
4.3.4 take操作
4.3.5 top操作
4.3.6 count操作
4.3.7 collect操作
4.3.8 collectAsMap操作
4.3.9 countByKey操作
4.3.10 countByValue操作
4.3.11 glom操作
4.3.12 coalesce操作
4.3.13 combineByKey操作
4.3.14 distinct操作
4.3.15 filter操作
4.3.16 flatMap操作
4.3.17 flatMapValues操作
4.3.18 fold操作
4.3.19 foldByKey操作
4.3.20 foreach操作
4.3.21 foreachPartition操作
4.3.22 map操作
4.3.23 mapPartitions操作
4.3.24 mapPartitionsWithIndex操作
4.3.25 mapValues操作
4.3.26 groupBy操作
4.3.27 groupByKey操作
4.3.28 keyBy操作
4.3.29 keys操作
4.3.30 zip操作
4.3.31 zipWithIndex操作
4.3.32 values操作
4.3.33 union操作
4.3.34 takeOrdered操作
4.3.35 takeSample操作
4.3.36 subtract操作
4.3.37 subtractByKey操作
4.3.38 stats操作
4.3.39 sortBy操作
4.3.40 sortByKey操作
4.3.41 sample操作
4.3.42 repartition操作
4.3.43 reduce操作
4.3.44 reduceByKey操作
4.3.45 randomSplit操作
4.3.46 lookup操作
4.3.47 join操作
4.3.48 intersection操作
4.3.49 fullOuterJoin操作
4.3.50 leftOuterJoin与rightOuterJoin操作
4.3.51 aggregate操作
4.3.52 aggregateByKey操作
4.3.53 cartesian操作
4.3.54 cache操作
4.3.55 saveAsTextFile操作
4.4 共享变数
4.4.1 广播变量
4.4.2 累加器
4.5 DataFrames与Spark SQL
4.5.1 DataFrame建立
4.5.2 Spark SQL基本用法
4.5.3 DataFrame基本操作
4.6 撰写第一个Spark程序
4.7 提交你的Spark程序
4.8 小结
第5章 PySpark ETL实战
5.1 认识资料单元格式
5.2 观察资料
5.3 选择、筛选与聚合
5.4 存储数据
5.5 Spark存储数据到SQL Server
5.6 小结
第6章 PySpark分布式机器学习
6.1 认识数据格式
6.2 描述统计
6.3 资料清理与变形
6.4 认识Pipeline
6.5 逻辑回归原理与应用
6.5.1 逻辑回归基本原理
6.5.2 逻辑回归应用示例:Titanic幸存者预测
6.6 决策树原理与应用
6.6.1 决策树基本原理
6.6.2 决策树应用示例:Titanic幸存者预测
6.7 小结
第7章 实战:PySpark+Kafka实时项目
7.1 Kafka和Flask环境搭建
7.2 代码实现
7.3 小结
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜