万本电子书0元读

万本电子书0元读

顶部广告

命令行中的数据科学电子书

  大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。   为此,作者发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。   通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改你的数据科学工作流。

售       价:¥

纸质售价:¥33.80购买纸书

15人正在读 | 1人评论 6.2

作       者:[荷]詹森斯(Jeroen Janssens)

出  版  社:人民邮电出版社有限公司

出版时间:2015-06-01

字       数:15.6万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
本书集实用性和先性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。无论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。无论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。<br/>【推荐语】<br/>大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。 为此,作者发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。 通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改你的数据科学工作流。 通过本书你将学会: 从网站、API、数据库和电子表格中获取数据 对纯文本、CSV、HTML/XML和JSON格式数据行清洗 探索数据,计算描述性统计信息,行可视化呈现 管理数据科学工作流 使用单行命令和已有的Python或R代码创建可重用的命令行工具 实现数据密集管道的并行化和分布化 使用降维、聚类、回归和分类算法对数据行建模<br/>【作者】<br/>Jeroen Janssens 爱思唯尔(*的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学*学位。他热衷于创建数据科学的源工具,个人网站是http://jeroenjanssens.com/。 王晓伟(译) 毕业于国防科学技术大学,获计算机科学与技术专业博士学位。研究兴趣为海量数据管理与挖掘。 刘峰(译) 百度LBS位置大数据部资深研发工程师,新加坡南洋理工大学计算机工程系博士,研究领域包括机器学习、神经网络、数据挖掘等。2010年加百度,主要从事大数据分析和挖掘方面的工作,近年来专注于网络定位、智能交通等LBS大数据的挖掘和机器学习应用。<br/>
目录展开

前言

第1章 简介

1.1 概述

1.2 数据科学就是OSEMN

1.3 插入的几章

1.4 什么是命令行

1.5 为什么用命令行做数据科学工作

1.6 一个现实用例

1.7 延伸阅读

第2章 入门指南

2.1 概述

2.2 设置数据科学工具箱

2.3 必要的概念和工具

2.4 延伸阅读

第3章 数据获取

3.1 概述

3.2 将本地文件复制到数据科学工具箱

3.3 解压缩文件

3.4 微软Excel电子表格的转换

3.5 查询关系数据库

3.6 从互联网下载

3.7 调用Web API

3.8 延伸阅读

第4章 创建可重用的命令行工具

4.1 概述

4.2 将单行转变为shell脚本

4.3 用Python和R创建命令行工具

4.4 延伸阅读

第5章 数据清洗

5.1 概述

5.2 纯文本的常见清洗操作

5.3 处理CSV

5.4 处理HTML/XML和JSON

5.5 CSV的常见清洗操作

5.6 延伸阅读

第6章 管理数据工作流

6.1 概述

6.2 Drake简介

6.3 Drake的安装

6.4 获取古腾堡计划中下载最多的电子书

6.5 所有工作流都从单个步骤开始

6.6 具体情况具体对待

6.7 重新构建具体目标

6.8 讨论

6.9 延伸阅读

第7章 数据探索

7.1 概述

7.2 检查数据及其属性

7.3 计算描述性统计信息

7.4 生成可视化图形

7.5 延伸阅读

第8章 并行管道

8.1 概述

8.2 串行处理

8.3 并行处理

8.4 分布式处理

8.5 讨论

8.6 延伸阅读

第9章 数据建模

9.1 概述

9.2 更多的酒,来吧!

9.3 用Tapkee降维

9.4 用Weka聚类

9.5 通过SciKit-Learn Laboratory进行回归

9.6 用BigML分类

9.7 延伸阅读

第10章 总结

10.1 让我们回顾一下

10.2 三条建议

10.3 接下来做什么

10.4 联系方式

附录A 命令行工具列表

附录B 参考文献

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部