万本电子书0元读

万本电子书0元读

顶部广告

大数据分析与处理:实践者的研究方法电子书

本书以六篇架构串联理论与实践,从数据预处理到推荐系统、知识图谱等应用场景,配套案例代码与学堂在线慕课,助你快速具备工程落地能力。

售       价:¥

纸质售价:¥61.90购买纸书

4人正在读 | 0人评论 6.6

作       者:车海莺,薛静锋,金福生,商亮

出  版  社:机械工业出版社

出版时间:2025-08-20

字       数:33.3万

所属分类: 教育 > 大中专教材 > 研究生/本科/专科教材

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(条)
  • 读书简介
  • 目录
  • 累计评论(条)
本书融合作者多年的教学与实践经验,是一本全面且实用的大数据分析与处理教材。全书分为六部分共20章,内容循序渐,从大数据的基本概念出发,逐步深探讨数据采集和预处理、数据存储、数据处理、大数据分析平台以及大数据应用等关键环节。本书详细介绍了PyTorch、TensorFlow和Spark MLlib等热门大数据分析平台,并通过深剖析和实战演练,帮助读者轻松掌握这些先工具的使用技巧。同时,本书针对数据可视化、文本分析、推荐系统等经典应用场景,通过案例分析和代码实现,引导读者从理论走向实践,快速掌握大数据分析的核心技能。本书适合作为普通高校数据科学与大数据相关专业的教材,也适合相关专业的技术人员使用。<br/>【推荐语】<br/>本书以六篇架构串联理论与实践,从数据预处理到推荐系统、知识图谱等应用场景,配套案例代码与学堂在线慕课,助你快速具备工程落地能力。<br/>【作者】<br/>车海莺 北京理工大学计算机学院数据科学与知识工程研究所副教授。北京理工大学博士,德国Karlsruhe大学信息工程博士后。美国史蒂文斯理工学院访问学者。研究方向包括大数据分析、人工智能、区块技术等,相关领域发表高水平学术文章20余篇,发明专利3项。 讲授课程包括全英文大数据分析、软件工程、信息管理等。具有丰富的工程项目经验,作为主要完成人参与完成多项科技部重研发计划项目和国家自然基金项目。获得2024年华为产学合作项目,2024年拓金计划项目“大数据分析”,2023年国家一流本科课程(线上一流课程:大数据技术导论)主要成员,2022年北京理工大学迪文优秀教师、2021年华为栋梁之师,重教改项目等奖项。获得IBM全球共享研究计划项目奖,IBM全球学者奖(Faculty Awards),2015、2017、2019、2020年国家留学基金委IBM优秀教师奖教金等多项奖励。出版教材专著3部。独立完成慕课4门(英文大数据分析、中文大数据分析、大数据时代的创新思维和软件理论与工程),参与建设慕课1门(大数据技术导论)。社会职务包括欧美同学会德奥分会理事,SAP学术与教育工作委员会委员等。薛静锋 博士,现任北京理工大学计算机学院副院长、教授、博士生导师,软件评测中心主任,兼任高等学校大学计算机课程教学指导委员会委员,全国高等院校计算机基础教育研究会理工专委会秘书长,中国人工智能学会理事、智能信息网络专委会秘书长。发表SCI/EI检索论文60余篇,申请国家发明专利30余项,编写教材6部。<br/>
目录展开

前言

第一部分 绪论

第1章 概述

1.1 大数据的基本概念

1.2 结构化和非结构化数据

1.3 大数据的特征

1.4 科学研究的第四范式

1.5 大数据的生命周期

1.6 大数据的处理流程

1.7 大数据的架构

总结

习题[1]

第二部分 数据采集和预处理

第2章 大数据的采集

2.1 内部数据

2.2 外部数据

总结

习题

第3章 大数据的预处理

3.1 数据预处理概述

3.2 数据质量

3.3 数据清洗技术

3.4 数据转换

3.5 数据归约

总结

习题

第三部分 数据存储

第4章 数据存储系统

4.1 数据建模

4.2 分布式文件系统

4.3 NoSQL数据库

4.4 统一数据访问接口

总结

习题

第5章 图数据库

5.1 图数据库的发展

5.2 图数据库概述

5.3 图数据库的特点及优缺点

5.4 图数据库的主要技术

5.5 代表性图数据库——Neo4j

5.6 Neo4j图数据库的基础实验

5.7 Neo4j图数据库的进阶实验

总结

习题

第四部分 数据处理

第6章 数据处理系统

6.1 数据处理系统概述

6.2 计算模型

6.3 计算平台与引擎

总结

习题

第7章 批数据处理系统

7.1 MapReduce

7.2 MapReduce应用实例

总结

习题

第8章 流数据处理系统

8.1 流计算的定义

8.2 原生流处理——Storm

8.3 微批流处理系统——Spark Streaming

8.4 Flink

8.5 流数据处理实验

8.6 大数据处理体系结构

总结

习题

第9章 分布式图处理

9.1 分布式图处理概述

9.2 分布式图处理的概念

9.3 分布式图处理的工作原理

9.4 分布式图处理的框架——Pregel

9.5 Pregel框架实验

总结

习题

第10章 处理架构

10.1 对称多处理架构

10.2 非一致性内存访问架构

10.3 大规模并行处理架构

10.4 SMP、NUMA和MPP的比较

总结

习题

第11章 内存计算

11.1 SAP HANA

11.2 Spark

总结

习题

第12章 数据处理算法

12.1 数据处理基础

12.2 机器学习方法

12.3 深度学习方法

总结

习题

第五部分 大数据分析平台

第13章 PyTorch

13.1 PyTorch的发展背景

13.2 PyTorch结构概览

13.3 数据载体模块

13.4 求导模块

13.5 效率工具模块

13.6 优化算法模块

13.7 神经网络模块

13.8 运算性能模块

13.9 PyTorch的基础实验——基于LSTM的房价预测

13.10 PyTorch的进阶实验——搭建Transformer框架

总结

习题

第14章 TensorFlow

14.1 TensorFlow概述

14.2 TensorFlow的系统架构

14.3 神经网络的构建与TensorFlow的基本用法

14.4 TensorFlow的特点、优势和应用领域

14.5 比较PyTorch和TensorFlow

14.6 TensorFlow实验

总结

习题

第15章 Spark MLlib

15.1 Spark MLlib概述

15.2 Spark MLlib的系统架构

15.3 Spark MLlib的工作流

总结

习题

第六部分 大数据应用

第16章 数据可视化

16.1 数据可视化概述

16.2 数据可视化基础

16.3 数据可视化工具和软件

16.4 数据可视化分析案例

总结

习题

第17章 大数据分析应用——文本分析

17.1 文本分析概述

17.2 文本分析相关技术

17.3 情感分析案例

总结

习题

第18章 大数据分析应用——推荐系统

18.1 推荐系统概述

18.2 推荐系统的相关算法

18.3 推荐系统的其他问题

18.4 推荐系统案例

总结

习题

第19章 图数据分析的应用——知识图谱

19.1 图数据分析概述

19.2 知识图谱概述

19.3 知识图谱的相关技术

19.4 知识图谱的应用案例

总结

习题

第20章 图数据分析的应用——社交网络

20.1 社交网络概述

20.2 社交网络分析的结构特性

20.3 社交网络分析的研究

20.4 基于图卷积网络的社交网络分类实验

总结

习题

参考文献

累计评论(条) 个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部