万本电子书0元读

万本电子书0元读

顶部广告

白话大数据与机器学习电子书

  资深大数据专家多年实战经验总结,拒绝晦涩,启大数据与机器学习妙趣之旅   以降低学习曲线和阅读难度为宗旨,重讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图

售       价:¥

纸质售价:¥49.80购买纸书

28人正在读 | 0人评论 6.8

作       者:高扬

出  版  社:机械工业出版社

出版时间:2016-06-01

字       数:24.7万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(3条)
  • 读书简介
  • 目录
  • 累计评论(3条)
资深大数据专家多年实战经验总结,拒绝晦涩,启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。 本书共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、地气。 第1~5章,这部分是大数据门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化 运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。 第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻); 回归(线性回归、残差分析、拟合相关问题); 聚类(K-Means算法、有趣模式、孤立、层次与密度聚类,聚类的评估等); 分类(朴素贝叶斯、决策树归纳、*森林、隐马尔科夫模型、SVM、遗传算法)。 第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这 些也是工业界和学术界研究的热。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。 第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面行了解读。 附录部分给出了大数据平台运行可能需要的软件和库,以及群众如何看待炙手可热的大数据。<br/>【推荐语】<br/>  资深大数据专家多年实战经验总结,拒绝晦涩,启大数据与机器学习妙趣之旅 以降低学习曲线和阅读难度为宗旨,重讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图 目前很多大中型企业都有数据分析岗位,尤其是和自己业务结合紧密的分析岗位。企业求贤若渴,而求职者对数据分析岗位望而却步。这就是当前大数据分析市场的尴尬。 原因有三: ●数学基础薄弱:很多应用中的统计学、概率学,成为学习中的巨大阻力。 ●学习成本高:数学和相关的算法过于抽象,布道者往往忽略了很多解释性的内容,使得读者学习起来费时费力。 ●变现不确定:这也是数据分析人员的尴尬。个人对数据的加工增值以及变现有多大的贡献难以度量。 本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的 抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲 解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选: ●大数据产业解读——剖析产业情况,人才供需、职业选择与相应“武器”库; ●步大数据之门——解读数据、信息、算法,以及与大数据应用的关系; ●大数据基石——结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习; ●大数据算法奥义——信息论、向量空间、回归、聚类、分类等*为核心的算法的释义与应用,举重若轻; ●大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等*实用、*需要了解的应用的原理与实现; ●大数据主流框架——介绍了主流的大数据框架(Hadoop、Spark和Cassandra); ●系统架构与调优——从速度与稳定性方面给出调优的一般性“内功心法”; ●大数据价值与变现——从运营指标、AB测试、大数据价值与变现场景多维度解读。<br/>【作者】<br/>高扬,金山软件西山居资深大数据架构师与大数据专家,有多年编程经验(多年日本和澳洲工作经验)和多年大数据架构设计与数据分析、处理经验,目前负责西山 居的大数据产品市场战略与产品战略。专注于大数据系统架构以及变现研究。擅长数据挖掘、数据建模、关系型数据库应用以及大数据框架Hadoop、 Spark、Cassandra、Prestodb等的应用。负责西山居紫霞系统——大数据日志处理系统的系统架构与设计工作。 卫 峥,西山居软件架构师,多年的软件发和架构经验,精通C/C 、Python、Golang、JavaScript等多门编程语言,近几年专注于数据 处理、机器学算法的研究、应用与服务研发。曾在新浪网平台架构部负责音视频转码平台的架构和研发工作,为新浪微博,新浪微盘,秒拍等提供视频在线观看服 务。51CTO讲师。 尹会生,西山居高级系统工程师。曾任新浪研发中心技术经理、北京尚观科技高级讲师。在新浪广告、微博广告、西山 居大数据平台架构中担任关键角色。擅长企业集群解决方案和内核调优经验,并提供高性能和高可用性集群咨询服务。近4年专注于Hadoop集群、Spark 集群在推荐系统和BI相关领域的解决方案。 万娟,星盘科技有限公司UI设计师平面,对VI设计、包装、海报设计等、商业插画、App交互、网页设计等有独到认识。多次参与智能家居和智能音箱等项目的UI设计。多次参加国际和国内艺术和工业设计比赛,并获奖。从小酷爱绘画,理想是一个属于自己的画室。<br/>
目录展开

前言

为什么要写这本书

本书特色

读者对象

如何阅读本书

勘误和支持

致谢

第1章 大数据产业

1.1 大数据产业现状

1.2 对大数据产业的理解

1.3 大数据人才

1.3.1 供需失衡

1.3.2 人才方向

1.3.3 环节和工具

1.3.4 门槛障碍

1.4 小结

第2章 步入数据之门

2.1 什么是数据

2.2 什么是信息

2.3 什么是算法

2.4 统计、概率和数据挖掘

2.5 什么是商业智能

2.6 小结

第3章 排列组合与古典概型

3.1 排列组合的概念

3.1.1 公平的决断——扔硬币

3.1.2 非古典概型

3.2 排列组合的应用示例

3.2.1 双色球彩票

3.2.2 购车摇号

3.2.3 德州扑克

3.3 小结

第4章 统计与分布

4.1 加和值、平均值和标准差

4.1.1 加和值

4.1.2 平均值

4.1.3 标准差

4.2 加权均值

4.2.1 混合物定价

4.2.2 决策权衡

4.3 众数、中位数

4.3.1 众数

4.3.2 中位数

4.4 欧氏距离

4.5 曼哈顿距离

4.6 同比和环比

4.7 抽样

4.8 高斯分布

4.9 泊松分布

4.10 伯努利分布

4.11 小结

第5章 指标

5.1 什么是指标

5.2 指标化运营

5.2.1 指标的选择

5.2.2 指标体系的构建

5.3 小结

第6章 信息论

6.1 信息的定义

6.2 信息量

6.2.1 信息量的计算

6.2.2 信息量的理解

6.3 香农公式

6.4 熵

6.4.1 热力熵

6.4.2 信息熵

6.5 小结

第7章 多维向量空间

7.1 向量和维度

7.1.1 信息冗余

7.1.2 维度

7.2 矩阵和矩阵计算

7.3 数据立方体

7.4 上卷和下钻

7.5 小结

第8章 回归

8.1 线性回归

8.2 拟合

8.3 残差分析

8.4 过拟合

8.5 欠拟合

8.6 曲线拟合转化为线性拟合

8.7 小结

第9章 聚类

9.1 K-Means算法

9.2 有趣模式

9.3 孤立点

9.4 层次聚类

9.5 密度聚类

9.6 聚类评估

9.6.1 聚类趋势

9.6.2 簇数确定

9.6.3 测定聚类质量

9.7 小结

第10章 分类

10.1 朴素贝叶斯

10.1.1 天气的预测

10.1.2 疾病的预测

10.1.3 小结

10.2 决策树归纳

10.2.1 样本收集

10.2.2 信息增益

10.2.3 连续型变量

10.3 随机森林

10.4 隐马尔可夫模型

10.4.1 维特比算法

10.4.2 前向算法

10.5 支持向量机SVM

10.5.1 年龄和好坏

10.5.2 “下刀”不容易

10.5.3 距离有多远

10.5.4 N维度空间中的距离

10.5.5 超平面怎么画

10.5.6 分不开怎么办

10.5.7 示例

10.5.8 小结

10.6 遗传算法

10.6.1 进化过程

10.6.2 算法过程

10.6.3 背包问题

10.6.4 极大值问题

10.7 小结

第11章 关联分析

11.1 频繁模式和Apriori算法

11.1.1 频繁模式

11.1.2 支持度和置信度

11.1.3 经典的Apriori算法

11.1.4 求出所有频繁模式

11.2 关联分析与相关性分析

11.3 稀有模式和负模式

11.4 小结

第12章 用户画像

12.1 标签

12.2 画像的方法

12.2.1 结构化标签

12.2.2 非结构化标签

12.3 利用用户画像

12.3.1 割裂型用户画像

12.3.2 紧密型用户画像

12.3.3 到底“像不像”

12.4 小结

第13章 推荐算法

13.1 推荐思路

13.1.1 贝叶斯分类

13.1.2 利用搜索记录

13.2 User-based CF

13.3 Item-based CF

13.4 优化问题

13.5 小结

第14章 文本挖掘

14.1 文本挖掘的领域

14.2 文本分类

14.2.1 Rocchio算法

14.2.2 朴素贝叶斯算法

14.2.3 K-近邻算法

14.2.4 支持向量机SVM算法

14.3 小结

第15章 人工神经网络

15.1 人的神经网络

15.1.1 神经网络结构

15.1.2 结构模拟

15.1.3 训练与工作

15.2 FANN库简介

15.3 常见的神经网络

15.4 BP神经网络

15.4.1 结构和原理

15.4.2 训练过程

15.4.3 过程解释

15.4.4 示例

15.5 玻尔兹曼机

15.5.1 退火模型

15.5.2 玻尔兹曼机

15.6 卷积神经网络

15.6.1 卷积

15.6.2 图像识别

15.7 深度学习

15.8 小结

第16章 大数据框架简介

16.1 著名的大数据框架

16.2 Hadoop框架

16.2.1 MapReduce原理

16.2.2 安装Hadoop

16.2.3 经典的WordCount

16.3 Spark框架

16.3.1 安装Spark

16.3.2 使用Scala计算WordCount

16.4 分布式列存储框架

16.5 PrestoDB——神奇的CLI

16.5.1 Presto为什么那么快

16.5.2 安装Presto

16.6 小结

第17章 系统架构和调优

17.1 速度——资源的配置

17.1.1 思路一:逻辑层面的优化

17.1.2 思路二:容器层面的优化

17.1.3 思路三:存储结构层面的优化

17.1.4 思路四:环节层面的优化

17.1.5 资源不足

17.2 稳定——资源的可用

17.2.1 借助云服务

17.2.2 锁分散

17.2.3 排队

17.2.4 谨防“雪崩”

17.3 小结

第18章 数据解读与数据的价值

18.1 运营指标

18.1.1 互联网类型公司常用指标

18.1.2 注意事项

18.2 AB测试

18.2.1 网页测试

18.2.2 方案测试

18.2.3 灰度发布

18.2.4 注意事项

18.3 数据可视化

18.3.1 图表

18.3.2 表格

18.4 多维度——大数据的灵魂

18.4.1 多大算大

18.4.2 大数据网络

18.4.3 去中心化才能活跃

18.4.4 数据会过剩吗

18.5 数据变现的场景

18.5.1 数据价值的衡量的讨论

18.5.2 场景1:征信数据

18.5.3 场景2:宏观数据

18.5.4 场景3:画像数据

18.6 小结

附录A VMware Workstation的安装

A.1 VMware简介

A.2 安装前的准备工作

附录B CentOS虚拟机的安装方法

B.1 下载光盘镜像

B.2 创建VMware虚拟机

B.3 安装CentOS 7操作系统

附录C Python语言简介

附录D Scikit-learn库简介

附录E FANN for Python安装

附录F 群众眼中的大数据

写作花絮

参考文献

累计评论(3条) 4个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部