为你推荐
内容简介
PREFACE 前言
第1章 数据架构整体设计
1.1 数据架构概述
1.2 数据架构设计的8个考虑因素
1.3 数据架构设计的4个核心内容
1.4 常见的6种数据架构
1.5 案例:某B2B企业的数据架构选型
1.6 常见问题
第2章 数据源和数据采集
2.1 数据源概述
2.2 企业内部流量数据采集技术选型
2.3 企业外部互联网数据采集技术选型
2.4 使用Requests+BeautifulSoup抓取数据并写入Sqlite
2.5 使用Scrapy+XPath抓取数据并写入MongoDB
2.6 案例:某B2C电商企业的数据源结构
2.7 常见问题
第3章 数据同步
3.1 数据同步概述
3.2 数据同步的技术选型
3.3 Python操作DataX实现数据同步
3.4 Python操作第三方库实现Google Analytics数据同步
3.5 案例:某O2O企业离线数据同步案例
3.6 常见问题
第4章 消息队列
4.1 消息队列概述
4.2 消息队列的技术选型
4.3 Python操作RabbitMQ处理消息队列服务
4.4 Python操作Kafka处理消息队列服务
4.5 Python操作ZeroMQ处理消息队列服务
4.6 案例:利用消息队列采集电商用户行为数据
4.7 常见问题
第5章 关系数据库
5.1 关系数据库概述
5.2 关系数据库的技术选型
5.3 使用基于DB-API 2.0规范的PyMySQL操作MySQL数据库
5.4 使用基于ORM技术的SQLAlchemy操作PostgreSQL数据库
5.5 案例:某传统零售企业基于关系数据库的数据集市
5.6 常见问题
第6章NoSQL数据库
6.1 NoSQL数据库概述
6.2 不同类型NoSQL数据库的技术选型
6.3 使用Python操作HBase
6.4 使用Python操作Redis
6.5 使用Python操作ES
6.6 使用Python操作Neo4j
6.7 使用Python操作MongoDB
6.8 案例:某菜谱网站基于ES+Redis构建智能搜索推荐引擎
6.9 常见问题
第7章 批处理
7.1 批处理概述
7.2 批处理的技术选型
7.3 Python使用PyHive操作HQL进行批处理
7.4 PySpark操作DataFrame进行批处理
7.5 案例:某B2C企业基于PySpark实现用户画像标签的构建
7.6 常见问题
第8章 流处理
8.1 流处理概述
8.2 流处理的依赖条件
8.3 流处理的技术选型
8.4 Python操作Structured Streaming实现流处理
8.5 案例:某B2C企业基于Structured Streaming实现实时话题热榜统计
8.6 常见问题
第9章 图计算
9.1 图计算概述
9.2 图计算引擎的技术选型
9.3 Python操作GraphFrames实现图计算
9.4 案例:基于用户社交行为的分析
9.5 常见问题
第10章 人工智能
10.1 人工智能概述
10.2 人工智能的技术选型
10.3 PySpark ML的应用实践
10.4 案例:某B2C企业推荐系统的搭建与演进
10.5 常见问题
第11章 数据产品开发
11.1 数据产品开发概述
11.2 数据产品的路线选型
11.3 Python数据产品自研的技术选型
11.4 基于Django的产品开发
11.5 案例:某企业基于Django构建内部用户画像标签产品
11.6 常见问题
附录A Docker安装使用
附录B 使用EMR搭建Hadoop大数据集群
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜