数据科学家实践指南,依据高科技公司中数据科学家的职位描述和要求,创作本书。 提供三大实战案例: 1.使用真实的电影评分数据创建一个电影推荐系统; 2.创建一个能实际运行的维基百科数据搜索引擎; 3.创建一个垃圾邮件分类器,可以对邮件账户中的垃圾邮件和正常邮件行正确的分类。 本书涵盖准备分析数据、训练机器学习模型和可视化分析结果等主题,有助你提高使用Python高效地行数据分析和机器学习的能力,并建立信心以更好地分析自己的机器学习模型。
售 价:¥
纸质售价:¥54.50购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
版权声明
前言
第 1 章 入门
1.1 安装Enthought Canopy
1.2 使用并理解IPython/Jupyter Notebook
1.3 Python基础——第一部分
1.4 理解Python代码
1.5 导入模块
1.6 Python基础——第二部分
1.7 运行Python脚本
1.8 小结
第 2 章 统计与概率复习以及Python实现
2.1 数据类型
2.2 均值、中位数和众数
2.3 在Python中使用均值、中位数和众数
2.4 标准差和方差
2.5 概率密度函数和概率质量函数
2.6 各种类型的数据分布
2.7 百分位数和矩
2.8 小结
第 3 章 Matplotlib与概率高级概念
3.1 Matplotlib快速学习
3.2 协方差与相关系数
3.3 条件概率
3.4 贝叶斯定理
3.5 小结
第 4 章 预测模型
4.1 线性回归
4.2 多项式回归
4.3 多元回归和汽车价格预测
4.4 多水平模型
4.5 小结
第 5 章 使用Python进行机器学习
5.1 机器学习及训练/测试法
5.2 使用训练/测试法防止多项式回归中的过拟合
5.3 贝叶斯方法——概念
5.4 使用朴素贝叶斯实现垃圾邮件分类器
5.5 均值聚类
5.6 基于收入与年龄进行人群聚类
5.7 熵的度量
5.8 决策树——概念
5.9 决策树——使用Python预测录用决策
5.10 集成学习
5.11 支持向量机简介
5.12 使用scikit-learn通过SVM进行人员聚集
5.13 小结
第 6 章 推荐系统
6.1 什么是推荐系统
6.2 基于项目的协同过滤
6.3 基于项目的协同过滤是如何工作的
6.4 找出电影相似度
6.5 改善电影相似度结果
6.6 向人们推荐电影
6.7 改善推荐结果
6.8 小结
第 7 章 更多数据挖掘和机器学习技术
7.1 最近邻的概念
7.2 使用KNN预测电影评分
7.3 数据降维与主成分分析
7.4 对鸢尾花数据集的PCA示例
7.5 数据仓库简介
7.6 强化学习
7.7 小结
第 8 章 处理真实数据
8.1 偏差-方差权衡
8.2 使用折交叉验证避免过拟合
8.3 数据清理和标准化
8.4 清理Web日志数据
8.5 数值型数据的标准化
8.6 检测异常值
8.7 小结
第 9 章 Apache Spark——大数据上的机器学习
9.1 安装Spark
9.2 Spark简介
9.3 Spark和弹性分布式数据集
9.4 MLlib简介
9.5 在Spark中使用MLlib实现决策树
9.6 在Spark中实现均值聚类
9.7 TF-IDF
9.8 使用Spark MLlib搜索维基百科
9.9 使用Spark 2.0中的MLlib数据框API
9.10 小结
第 10 章 测试与实验设计
10.1 A/B测试的概念
10.2 检验与值
10.3 使用Python计算统计量和值
10.4 确定实验持续时间
10.5 A/B测试中的陷阱
10.6 小结
看完了
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜