万本电子书0元读

万本电子书0元读

顶部广告

Python数据科学与机器学习:从入门到实践电子书

数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。 提供三大实战案例: 1.使用真实的电影评分数据创建一个电影推荐系统; 2.创建一个能实际运行的维基百科数据搜索引擎; 3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件行正确的分类。 本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。

售       价:¥

纸质售价:¥54.50购买纸书

136人正在读 | 0人评论 6.2

作       者:(美)弗兰克·凯恩(Frank Kane)

出  版  社:人民邮电出版社有限公司

出版时间:2019-06-01

字       数:20.3万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书介绍了使用Python行数据分析和高效的机器学习,首先从一节Python速成课始,然后回顾统计学和概率论的基础知识,着深讨论与数据挖掘和机器学习相关的60多个主题,包括贝叶斯定理、聚类、决策树、回归分析、实验设计等。<br/>【推荐语】<br/>数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。 提供三大实战案例: 1.使用真实的电影评分数据创建一个电影推荐系统; 2.创建一个能实际运行的维基百科数据搜索引擎; 3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件行正确的分类。 本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。 ●清理和准备数据,使其可用于分析 ●应用Python中流行的聚类和回归方法 ●使用决策树和随机森林训练高效的机器学习模型 ●使用Python Matplotlib库对分析结果行可视化 ●使用Apache Spark的MLlib包在大型数据库上行机器学习<br/>【作者】<br/>Frank Kane,Sundog Software公司创始人,曾在Amazon和IMDb工作近9年,在分布式计算、数据挖掘和机器学习等领域持有17项专利。 【译者简介】 陈光欣,毕业于清华大学并留校工作,主要兴趣为数据分析与数据挖掘。<br/>
目录展开

版权声明

前言

第 1 章 入门

1.1 安装Enthought Canopy

1.2 使用并理解IPython/Jupyter Notebook

1.3 Python基础——第一部分

1.4 理解Python代码

1.5 导入模块

1.6 Python基础——第二部分

1.7 运行Python脚本

1.8 小结

第 2 章 统计与概率复习以及Python实现

2.1 数据类型

2.2 均值、中位数和众数

2.3 在Python中使用均值、中位数和众数

2.4 标准差和方差

2.5 概率密度函数和概率质量函数

2.6 各种类型的数据分布

2.7 百分位数和矩

2.8 小结

第 3 章 Matplotlib与概率高级概念

3.1 Matplotlib快速学习

3.2 协方差与相关系数

3.3 条件概率

3.4 贝叶斯定理

3.5 小结

第 4 章 预测模型

4.1 线性回归

4.2 多项式回归

4.3 多元回归和汽车价格预测

4.4 多水平模型

4.5 小结

第 5 章 使用Python进行机器学习

5.1 机器学习及训练/测试法

5.2 使用训练/测试法防止多项式回归中的过拟合

5.3 贝叶斯方法——概念

5.4 使用朴素贝叶斯实现垃圾邮件分类器

5.5 均值聚类

5.6 基于收入与年龄进行人群聚类

5.7 熵的度量

5.8 决策树——概念

5.9 决策树——使用Python预测录用决策

5.10 集成学习

5.11 支持向量机简介

5.12 使用scikit-learn通过SVM进行人员聚集

5.13 小结

第 6 章 推荐系统

6.1 什么是推荐系统

6.2 基于项目的协同过滤

6.3 基于项目的协同过滤是如何工作的

6.4 找出电影相似度

6.5 改善电影相似度结果

6.6 向人们推荐电影

6.7 改善推荐结果

6.8 小结

第 7 章 更多数据挖掘和机器学习技术

7.1 最近邻的概念

7.2 使用KNN预测电影评分

7.3 数据降维与主成分分析

7.4 对鸢尾花数据集的PCA示例

7.5 数据仓库简介

7.6 强化学习

7.7 小结

第 8 章 处理真实数据

8.1 偏差-方差权衡

8.2 使用折交叉验证避免过拟合

8.3 数据清理和标准化

8.4 清理Web日志数据

8.5 数值型数据的标准化

8.6 检测异常值

8.7 小结

第 9 章 Apache Spark——大数据上的机器学习

9.1 安装Spark

9.2 Spark简介

9.3 Spark和弹性分布式数据集

9.4 MLlib简介

9.5 在Spark中使用MLlib实现决策树

9.6 在Spark中实现均值聚类

9.7 TF-IDF

9.8 使用Spark MLlib搜索维基百科

9.9 使用Spark 2.0中的MLlib数据框API

9.10 小结

第 10 章 测试与实验设计

10.1 A/B测试的概念

10.2 检验与值

10.3 使用Python计算统计量和值

10.4 确定实验持续时间

10.5 A/B测试中的陷阱

10.6 小结

看完了

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部