数据科学和大数据分析是指利用数据的力量来发现新的见解。本书涵盖了数据科学涉及的行为广度以及所使用的方法和工具。本书内容侧重于任何行业和技术环境中都会用到的概念、原理和实际应用,并通过源软件来分析案例,以帮助读者更好地理解。本书将帮助您:成为数据科学团队中的一名贡献者;部署结构化的生命周期方法来分析数据问题;应用合适的分析技术和工具来分析大数据;学习如何用数据来讲一个动人的故事,以推动商业行为;备考EMC Proven Professional数据科学家认证。EEMC专家认证是IT行业领先的教育和认证项目,涵盖了信息存储技术、虚拟化技术、云计算、数据科学与大数据分析等领域。通过认证是一种很好的自我投资方式,同时也是对自己专业知识的正式验证。本书可以作为准备数据科学专员(EMCDSA)认证的资料。在驱动企业和服务提供商转型其运营方式以及以服务形式交付IT(IT as a service)方面,EMC是全球领导者。而该转型的基础则是云计算。通过创新的产品和服务,EMC加速了云计算的展,旨在帮助IT部门以一种更为敏捷、可信和具备成本效益的方式来存储、管理、保护和分析它们有价值的资产——信息。关于EMC的更多信息,请访问www.EMC.com。
售 价:¥
纸质售价:¥51.30购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
内容提要
主要贡献人
致谢
译者简介
主审人员简介
前言
第1章 大数据分析介绍
1.1 大数据概述
1.2 分析的实践状态
1.3 新的大数据生态系统中的关键角色
1.4 大数据分析案例
1.5 总结
1.6 练习
参考书目
第2章 数据分析生命周期
2.1 数据分析生命周期概述
2.2 第1阶段:发现
2.3 第2阶段:数据准备
2.4 第3阶段:模型规划
2.5 第4阶段:模型建立
2.6 第5阶段:沟通结果
2.7 第6阶段:实施
2.8 案例研究:全球创新网络和分析(GINA)
2.9 总结
2.10 练习
参考书目
第3章 使用R进行基本数据分析
3.1 R简介
3.2 探索性数据分析
3.3 用于评估的统计方法
3.4 总结
3.5 练习
参考文献
第4章 高级分析理论与方法:聚类
4.1 聚类概述
4.2 k均值聚类
4.3 其他算法
4.4 总结
4.5 练习
参考书目
第5章 高级分析理论与方法:关联规则
5.1 概述
5.2 Apriori算法
5.3 评估候选规则
5.4 关联规则的应用
5.5 杂货店交易示例
5.6 验证和测试
5.7 诊断
5.8 总结
5.9 练习
参考书目
第6章 高级分析理论与方法:回归
6.1 线性回归
6.2 逻辑回归
6.3 选择理由和注意事项
6.4 其他回归模型
6.5 总结
6.6 练习
第7章 高级分析理论与方法:分类
7.1 决策树
7.2 朴素贝叶斯
7.3 分类器诊断
7.4 其他分类方法
7.5 总结
7.6 练习
参考书目
第8章 高级分析理论与方法:时间序列分析
8.1 时间序列分析概述
8.2 ARIMA模型
8.3 其他方法
8.4 总结
8.5 练习
第9章 高级分析理论与方法:文本分析
9.1 文本分析步骤
9.2 一个文本分析的示例
9.3 收集原始数据
9.4 表示文本
9.5 词频-逆文档频率(TFIDF)
9.6 通过主题来分类文件
9.7 情感分析
9.8 获得洞察力
9.9 总结
9.10 练习
参考书目
第10章 高级分析技术与工具:MapReduce和Hadoop
10.1 非结构化数据分析
10.2 Hadoop生态系统
10.3 NoSQL
10.4 总结
10.5 练习
参考书目
第11章 高级分析技术与工具:数据库内分析
11.1 SQL基本要素
11.2 数据库内的文本分析
11.3 高级SQL技术
11.4 总结
11.5 练习
参考书目
第12章 结尾
12.1 沟通和实施一个分析项目
12.2 创建最终可交付成果
12.3 数据可视化基础
12.4 总结
12.5 练习
12.6 参考文献与扩展阅读
参考书目
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜