万本电子书0元读

万本电子书0元读

顶部广告

图灵程序设计丛书:大规模数据处理入门与实战(套装全10册)电子书

售       价:¥

28人正在读 | 1人评论 6.2

作       者:人民邮电出版社有限公司

出  版  社:青岛出版社

出版时间:2019-09-01

字       数:252.3万

所属分类: 科技 > 计算机/网络 > 程序设计

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(1条)
  • 读书简介
  • 目录
  • 累计评论(1条)
《SQL反模式》是一本广受好评的SQL图书。它介绍了如何避免在SQL的使用和开发中陷入一些常见却经常被忽略的误区。它通过讲述各种具体的案例,以及开发人员和使用人员在面对这些案例时经常采用的错误解决方案,来介绍如何识别、利用这些陷阱,以及面对问题时正确的解决手段。另外,《SQL反模式》还涉及了SQL的各级范式和针对它们的正确理解。   《SQL反模式》适合SQL数据库开发人员与管理人员阅读。   SQL是使用广泛的数据库语言,几乎所有重要的DBMS都支持SQL。《图灵程序设计丛书:SQL必知必会(第4版)》由浅入深地讲解了SQL的基本概念和语法,涉及数据的排序、过滤和分组,以及表、视图、联结、子查询、游标、存储过程和触发器等内容,实例丰富,便于查阅。新版增加了针对ApacheOpenOfficeBase、MariaDB、SQlite等DBMS的描述,并根据新版本的Oracle、SQLServer、MySQL和PostgreSQL更新了相关示例。   《图灵程序设计丛书:SQL必知必会(第4版)》适合SQL初学者,也可供广大开发及管理人员参考。   《数据科学实战》脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。 本书由 Spark ***及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。 本书基于易于理解且具有数据科学相关的丰富的库的Python语言环境,从零开始讲解数据科学工作。具体内容包括:Python速成,可视化数据,线性代数,统计,概率,假设与推断,梯度下降法,如何获取数据,k近邻法,朴素贝叶斯算法,等等。作者借助大量具体例子以及数据挖掘、统计学、机器学习等领域的重要概念,详细展示了什么是数据科学。 本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。 本书面向愿意学习和尝试数据挖掘的程序员。 《Hadoop安全 大数据平台隐私保护》阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密、密钥管理和商业实践在内的诸多主题,并在实际环境下加以讨论。第 1章是介绍性内容,随后分为四大部分:第 一部分是安全架构,第 二部分是验证、授权和安全审计,第三部分是数据安全,第四部分是归纳总结。介绍了几个使用案例,融合了书中诸多概念。 《Hadoop安全 大数据平台隐私保护》适合对Hadoop感兴趣的读者,有大数据平台保护需求的读者。 本书是关于Kafka的全面教程,主要内容包括:Kafka相对于其他消息队列系统的优点,主要是它如何匹配大数据平台开发;详解Kafka内部设计;用Kafka构建应用的实践;理解在生产中部署Kafka的方式;如何确保Kafka集群的安全。 本书适合Java开发人员、大数据平台开发人员以及对分布式系统感兴趣的读者阅读。 通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,* 一部分从非常高的层次介绍分布式计算,讨论如何在集群上运行计算;* 二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。 近年来,流处理变得越来越流行。作为高度创新的开源流处理器,Flink拥有诸多优势,包括容错性、高吞吐、低延迟,以及同时支持流处理和批处理的能力。本书分为6章,侧重于介绍Flink的核心设计理念、功能和用途,内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评,以及Flink如何实现批处理。 本书面向有兴趣学习如何分析大规模流数据的读者。
目录展开

总目录

Kafka权威指南

版权声明

O'Reilly Media, Inc. 介绍

前言

第 1 章 初识 Kafka

第 2 章 安装 Kafka

第 3 章 Kafka 生产者——向 Kafka 写入数据

第 4 章 Kafka 消费者——从 Kafka 读取数据

第 5 章 深入 Kafka

第 6 章 可靠的数据传递

第 7 章 构建数据管道

第 8 章 跨集群数据镜像

第 9 章 管理 Kafka

第 10 章 监控 Kafka

第 11 章 流式处理

附录 A 在其他操作系统上安装 Kafka

作者介绍

封面介绍

Flink基础教程

版权声明

O'Reilly Media, Inc. 介绍

前言

第 1 章 为何选择 Flink

第 2 章 流处理架构

第 3 章 Flink 的用途

第 4 章 对时间的处理

第 5 章 有状态的计算

第 6 章 批处理:一种特殊的流处理

附录 其他资源

关于作者

数据科学实战

版权声明

O'Reilly Media, Inc.介绍

作者介绍

关于封面图

前言

第 1 章 简介:什么是数据科学

第 2 章 统计推断、探索性数据分析和数据科学工作流程

第 3 章 算法

第 4 章 垃圾邮件过滤器、朴素贝叶斯与数据清理

第 5 章 逻辑回归

第 6 章 时间戳数据与金融建模

第 7 章 从数据到结论

第 8 章 构建面向大量用户的推荐引擎

第 9 章 数据可视化与欺诈侦测

第 10 章 社交网络与数据新闻学

第 11 章 因果关系研究

第 12 章 流行病学

第 13 章 从竞赛中学到的:数据泄漏和模型评价

第 14 章 数据工程:MapReduce、Pregel、Hadoop

第 15 章 听听学生们怎么说

第 16 章 下一代数据科学家、自大狂和职业道德

SQL反模式

版 权 声 明

读 者 感 言

译 者 序 一

译 者 序 二

第1章 引言

第一部分 逻辑型数据库设计反模式

第2章 乱穿马路

第3章 单纯的树

第4章 需要ID

第5章 不用钥匙的入口

第6章 实体—属性—值

第7章 多态关联

第8章 多列属性

第9章 元数据分裂

第二部分 物理数据库设计反模式

第10章 取整错误

第11章 每日新花样

第12章 幽灵文件

第13章 乱用索引

第三部分 查询反模式

第14章 对未知的恐惧

第15章 模棱两可的分组

第16章 随机选择

第17章 可怜人的搜索引擎

第18章 意大利面条式查询

第19章 隐式的列

第四部分 应用程序开发反模式

第20章 明文密码

第21章 SQL注入

第22章 伪键洁癖

第23章 非礼勿视

第24章 外交豁免权

第25章 魔豆

第五部分 附录

附录A 规范化规则

附录B 参考书目

目录

SQL必知必会(第4版)

引言

致谢

第1课 了解SQL

1.1 数据库基础

1.1.1 数据库

1.1.2 表

1.1.3 列和数据类型

1.1.4 行

1.1.5 主键

1.2 什么是SQL

1.3 动手实践

1.4 小结

第2课 检索数据

2.1 SELECT语句

2.2 检索单个列

2.3 检索多个列

2.4 检索所有列

2.5 检索不同的值

2.6 限制结果

2.7 使用注释

2.8 小结

第3课 排序检索数据

3.1 排序数据

3.2 按多个列排序

3.3 按列位置排序

3.4 指定排序方向

3.5 小结

第4课 过滤数据

4.1 使用WHERE子句

4.2 WHERE子句操作符

4.2.1 检查单个值

4.2.2 不匹配检查

4.2.3 范围值检查

4.2.4 空值检查

4.3 小结

第5课 高级数据过滤

5.1 组合WHERE子句

5.1.1 AND操作符

5.1.2 OR操作符

5.1.3 求值顺序

5.2 IN操作符

5.3 NOT操作符

5.4 小结

第6课 用通配符进行过滤

6.1 LIKE操作符

6.1.1 百分号(%)通配符

6.1.2 下划线(_)通配符

6.1.3 方括号([ ])通配符

6.2 使用通配符的技巧

6.3 小结

第7课 创建计算字段

7.1 计算字段

7.2 拼接字段

使用别名

7.3 执行算术计算

7.4 小结

第8课 使用函数处理数据

8.1 函数

函数带来的问题

8.2 使用函数

8.2.1 文本处理函数

8.2.2 日期和时间处理函数

8.2.3 数值处理函数

8.3 小结

第9课 汇总数据

9.1 聚集函数

9.1.1 AVG()函数

9.1.2 COUNT()函数

9.1.3 MAX()函数

9.1.4 MIN()函数

9.1.5 SUM()函数

9.2 聚集不同值

9.3 组合聚集函数

9.4 小结

第10课 分组数据

10.1 数据分组

10.2 创建分组

10.3 过滤分组

10.4 分组和排序

10.5 SELECT子句顺序

10.6 小结

第11课 使用子查询

11.1 子查询

11.2 利用子查询进行过滤

11.3 作为计算字段使用子查询

11.4 小结

第12课 联结表

12.1 联结

12.1.1 关系表

12.1.2 为什么使用联结

12.2 创建联结

12.2.1 WHERE子句的重要性

12.2.2 内联结

12.2.3 联结多个表

12.3 小结

第13课 创建高级联结

13.1 使用表别名

13.2 使用不同类型的联结

13.2.1 自联结

13.2.2 自然联结

13.2.3 外联结

13.3 使用带聚集函数的联结

13.4 使用联结和联结条件

13.5 小结

第14课 组合查询

14.1 组合查询

14.2 创建组合查询

14.2.1 使用UNION

14.2.2 UNION规则

14.2.3 包含或取消重复的行

14.2.4 对组合查询结果排序

14.3 小结

第15课 插入数据

15.1 数据插入

15.1.1 插入完整的行

15.1.2 插入部分行

15.1.3 插入检索出的数据

15.2 从一个表复制到另一个表

15.3 小结

第16课 更新和删除数据

16.1 更新数据

16.2 删除数据

16.3 更新和删除的指导原则

16.4 小结

第17课 创建和操纵表

17.1 创建表

17.1.1 表创建基础

17.1.2 使用NULL值

17.1.3 指定默认值

17.2 更新表

17.3 删除表

17.4 重命名表

17.5 小结

第18课 使用视图

18.1 视图

18.1.1 为什么使用视图

18.1.2 视图的规则和限制

18.2 创建视图

18.2.1 利用视图简化复杂的联结

18.2.2 用视图重新格式化检索出的数据

18.2.3 用视图过滤不想要的数据

18.2.4 使用视图与计算字段

18.3 小结

第19课 使用存储过程

19.1 存储过程

19.2 为什么要使用存储过程

19.3 执行存储过程

19.4 创建存储过程

19.5 小结

第20课 管理事务处理

20.1 事务处理

20.2 控制事务处理

20.2.1 使用ROLLBACK

20.2.2 使用COMMIT

20.2.3 使用保留点

20.3 小结

第21课 使用游标

21.1 游标

21.2 使用游标

21.2.1 创建游标

21.2.2 使用游标

21.2.3 关闭游标

21.3 小结

第22课 高级SQL特性

22.1 约束

22.1.1 主键

22.1.2 外键

22.1.3 唯一约束

22.1.4 检查约束

22.2 索引

22.3 触发器

22.4 数据库安全

22.5 小结

附录A 样例表脚本

A.1 样例表

A.2 获得样例表

A.2.1 下载可供使用的数据文件

A.2.2 下载DBMS SQL脚本

附录B 流行的应用程序

B.1 使用Apache Open Office Base

B.2 使用Adobe ColdFusion

B.3 使用IBM DB2

B.4 使用MariaDB

B.5 使用Microsoft Access

B.6 使用Microsoft ASP

B.7 使用Microsoft ASP.NET

B.8 使用Microsoft Query

B.9 使用Microsoft SQL Server(包括Microsoft SQL Server Express)

B.10 使用MySQL

B.11 使用Oracle

B.12 使用Oracle Express

B.13 使用PHP

B.14 使用PostgreSQL

B.15 使用SQLite

B.16 配置ODBC数据源

附录C SQL语句的语法

C.1  ALTER TABLE

C.2 COMMIT

C.3 CREATE INDEX

C.4 CREATE PROCEDURE

C.5 CREATE TABLE

C.6 CREATE VIEW

C.7 DELETE

C.8 DROP

C.9 INSERT

C.10 INSERT SELECT

C.11 ROLLBACK

C.12 SELECT

C.13 UPDATE

附录D SQL数据类型

D.1 字符串数据类型

D.2 数值数据类型

D.3 日期和时间数据类型

D.4 二进制数据类型

附录E SQL保留字

常用SQL语句速查

目录

Spark快速大数据分析

版权声明

O'Reilly Media, Inc. 介绍

推荐序

译者序

前言

第 1 章 Spark 数据分析导论

第 2 章 Spark 下载与入门

第 3 章 RDD 编程

第 4 章 键值对操作

第 5 章 数据读取与保存

第 6 章 Spark 编程进阶

第 7 章 在集群上运行 Spark

第 8 章 Spark 调优与调试

第 9 章 Spark SQL

第 10 章 Spark Streaming

第 11 章基于 MLlib 的机器学习

作者简介

封面介绍

数据科学入门

版权声明

O'Reilly Media, Inc. 介绍

前言

第 1 章 导论

第 2 章 Python 速成

第 3 章 可视化数据

第 4 章 线性代数

第 5 章 统计学

第 6 章 概率

第 7 章 假设与推断

第 8 章 梯度下降

第 9 章 获取数据

第 10 章 数据工作

第 11 章 机器学习

第 12 章 k 近邻法

第 13 章 朴素贝叶斯算法

第 14 章 简单线性回归

第 15 章 多重回归分析

第 16 章 逻辑回归

第 17 章 决策树

第 18 章 神经网络

第 19 章 聚类分析

第 20 章 自然语言处理

第 21 章 网络分析

第 22 章 推荐系统

第 23 章 数据库与 SQL

第 24 章 MapReduce

第 25 章 数据科学前瞻

作者简介

关于封面

Python数据挖掘入门与实践

版权声明

译者序

前言

第 1 章 开始数据挖掘之旅

第 2 章 用scikit-learn估计器分类

第 3 章 用决策树预测获胜球队

第 4 章 用亲和性分析方法推荐电影

第 5 章 用转换器抽取特征

第 6 章 使用朴素贝叶斯进行社会媒体挖掘

第 7 章 用图挖掘找到感兴趣的人

第 8 章 用神经网络破解验证码

第 9 章 作者归属问题

第 10 章 新闻语料分类

第 11 章 用深度学习方法为图像中的物体进行分类

第 12 章 大数据处理

附录 接下来的方向

Hadoop安全:大数据平台隐私保护

版权声明

O'Reilly Media, Inc. 介绍

业界评论

前言

目标读者

排版约定

使用代码示例

Safari® Books Online

联系我们

致谢

来自Joey的致谢

来自Ben的致谢

来自Eddie的致谢

免责声明

电子书

第 1 章 引言

1.1 安全概览

1.1.1 机密性

1.1.2 完整性

1.1.3 可用性

1.1.4 验证、授权和审计

1.2 Hadoop安全:简史

1.3 Hadoop组件和生态系统

1.3.1 Apache HDFS

1.3.2 Apache YARN

1.3.3 Apache MapReduce

1.3.4 Apache Hive

1.3.5 Cloudera Impala

1.3.6 Apache Sentry

1.3.7 Apache HBase

1.3.8 Apache Accumulo

1.3.9 Apache Solr

1.3.10 Apache Oozie

1.3.11 Apache ZooKeeper

1.3.12 Apache Flume

1.3.13 Apache Sqoop

1.3.14 Cloudera Hue

1.4 小结

第一部分 安全架构

第 2 章 保护分布式系统

2.1 威胁种类

2.1.1 非授权访问/伪装

2.1.2 内在威胁

2.1.3 拒绝服务

2.1.4 数据威胁

2.2 威胁和风险评估

2.2.1 用户评估

2.2.2 环境评估

2.3 漏洞

2.4 深度防御

2.5 小结

第 3 章 系统架构

3.1 运行环境

3.2 网络安全

3.2.1 网络划分

3.2.2 网络防火墙

3.2.3 入侵检测和防御

3.3 Hadoop角色和隔离策略

3.3.1 主节点

3.3.2 工作节点

3.3.3 管理节点

3.3.4 边界节点

3.4 操作系统安全

3.4.1 远程访问控制

3.4.2 主机防火墙

3.4.3 SELinux

3.5 小结

第 4 章 Kerberos

4.1 为什么是Kerberos

4.2 Kerberos概览

4.3 Kerberos工作流:一个简单示例

4.4 Kerberos信任

4.5 MIT Kerberos

4.5.1 服务端配置

4.5.2 客户端配置

4.6 小结

第二部分 验证、授权和审计

第 5 章 身份和验证

5.1 身份

5.1.1 将Kerberos主体映射为用户名

5.1.2 Hadoop用户到组的映射

5.1.3 Hadoop用户配置

5.2 身份验证

5.2.1 Kerberos

5.2.2 用户名和密码验证

5.2.3 令牌

5.2.4 用户模拟

5.2.5 配置

5.3 小结

第 6 章 授权

6.1 HDFS授权

HDFS扩展ACL

6.2 服务级授权

6.3 MapReduce和YARN的授权

6.3.1 MapReduce(MR1)

6.3.2 YARN (MR2)

6.4 ZooKeeper ACLs

6.5 Oozie授权

6.6 HBase和Accumulo的授权

6.6.1 系统、命名空间和表级授权

6.6.2 列级别和单元级别授权

6.7 小结

第 7 章 Apache Sentry(孵化中)

7.1 Sentry概念

7.2 Sentry服务

Sentry服务配置

7.3 Hive授权

Hive Sentry的配置

7.4 Impala授权

Impala的Sentry配置

7.5 Solr授权

Solr的Sentry配置

7.6 Sentry特权模型

7.6.1 SQL特权模型

7.6.2 Solr特权模型

7.7 Sentry策略管理

7.7.1 SQL命令

7.7.2 SQL策略文件

7.7.3 Solr策略文件

7.7.4 策略文件的验证和校验

7.7.5 从策略文件迁移

7.8 小结

第 8 章 审计

8.1 HDFS审计日志

8.2 MapReduce审计日志

8.3 YARN审计日志

8.4 Hive审计日志

8.5 Cloudera Impala审计日志

8.6 HBase审计日志

8.7 Accumulo审计日志

8.8 Sentry审计日志

8.9 日志聚合

8.10 小结

第三部分 数据安全

第 9 章 数据保护

9.1 加密算法

9.2 静态数据加密

9.2.1 加密和密钥管理

9.2.2 HDFS静态数据加密

9.2.3 MapReduce2中间数据加密

9.2.4 Impala磁盘溢出加密

9.2.5 全盘加密

9.2.6 文件系统加密

9.2.7 Hadoop中重要数据的安全考虑

9.3 动态数据加密

9.3.1 传输层安全

9.3.2 Hadoop动态数据加密

9.4 数据销毁和删除

9.5 小结

第 10 章 数据导入安全

10.1 导入数据的完整性

10.2 数据导入的机密性

10.2.1 Flume加密

10.2.2 Sqoop加密

10.3 导入工作流

10.4 企业架构

10.5 小结

第 11 章 数据提取和客户端访问安全

11.1 Hadoop命令行接口

11.2 保护应用安全

11.3 HBase

11.3.1 HBase shell

11.3.2 HBase REST网关

11.3.3 HBase Thrift网关

11.4 Accumulo

11.4.1 Accumulo shell

11.4.2 Accumulo代理服务

11.5 Oozie

11.6  Sqoop

11.7 SQL访问

11.7.1 Impala

11.7.2 Hive

11.8 WebHDFS/HttpFS

11.9 小结

第 12 章 Cloudera Hue

12.1 Hue HTTPS

12.2 Hue身份验证

12.2.1 SPNEGO后端

12.2.2 SAML后端

12.2.3 LDAP后端

12.3 Hue授权

12.4 Hue SSL客户端配置

12.5 小结

第四部分 综合应用

第 13 章 案例分析

13.1 案例分析:Hadoop 数据仓库

13.1.1 环境搭建

13.1.2 用户体验

13.1.3 小结

13.2 案例分析:交互式HBase Web应用

13.2.1 设计与架构

13.2.2 安全需求

13.2.3 集群配置

13.2.4 实现中的注意事项

13.2.5 小结

后记

统一授权

数据管控

原生数据保护

结语

关于作者

关于封面

Hadoop数据分析

版权声明

O'Reilly Media, Inc. 介绍

前言

第一部分 分布式计算入门

第 1 章 数据产品时代

第 2 章 大数据操作系统

第 3 章 Python 框架和 Hadoop Streaming

第 4 章 Spark 内存计算

第 5 章 分布式分析和模式

第二部分 大数据科学的工作流和工具

第 6 章 数据挖掘和数据仓储

第 7 章 数据采集

第 8 章 使用高级 API 进行分析

第 9 章 机器学习

第 10 章 总结:分布式数据科学实战

附录 A 创建 Hadoop 伪分布式开发环境

附录 B 安装 Hadoop 生态系统产品

术语表

关于作者

关于封面

累计评论(1条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部