大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。 为此,作者发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。 通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改你的数据科学工作流。
售 价:¥
纸质售价:¥33.80购买纸书
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐
前言
第1章 简介
1.1 概述
1.2 数据科学就是OSEMN
1.3 插入的几章
1.4 什么是命令行
1.5 为什么用命令行做数据科学工作
1.6 一个现实用例
1.7 延伸阅读
第2章 入门指南
2.1 概述
2.2 设置数据科学工具箱
2.3 必要的概念和工具
2.4 延伸阅读
第3章 数据获取
3.1 概述
3.2 将本地文件复制到数据科学工具箱
3.3 解压缩文件
3.4 微软Excel电子表格的转换
3.5 查询关系数据库
3.6 从互联网下载
3.7 调用Web API
3.8 延伸阅读
第4章 创建可重用的命令行工具
4.1 概述
4.2 将单行转变为shell脚本
4.3 用Python和R创建命令行工具
4.4 延伸阅读
第5章 数据清洗
5.1 概述
5.2 纯文本的常见清洗操作
5.3 处理CSV
5.4 处理HTML/XML和JSON
5.5 CSV的常见清洗操作
5.6 延伸阅读
第6章 管理数据工作流
6.1 概述
6.2 Drake简介
6.3 Drake的安装
6.4 获取古腾堡计划中下载最多的电子书
6.5 所有工作流都从单个步骤开始
6.6 具体情况具体对待
6.7 重新构建具体目标
6.8 讨论
6.9 延伸阅读
第7章 数据探索
7.1 概述
7.2 检查数据及其属性
7.3 计算描述性统计信息
7.4 生成可视化图形
7.5 延伸阅读
第8章 并行管道
8.1 概述
8.2 串行处理
8.3 并行处理
8.4 分布式处理
8.5 讨论
8.6 延伸阅读
第9章 数据建模
9.1 概述
9.2 更多的酒,来吧!
9.3 用Tapkee降维
9.4 用Weka聚类
9.5 通过SciKit-Learn Laboratory进行回归
9.6 用BigML分类
9.7 延伸阅读
第10章 总结
10.1 让我们回顾一下
10.2 三条建议
10.3 接下来做什么
10.4 联系方式
附录A 命令行工具列表
附录B 参考文献
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜