万本电子书0元读

万本电子书0元读

顶部广告

SRE原理与实践:构建高可靠性互联网应用电子书

适读人群 :*互联网行业运维工程师、研发工程师、架构师 *关注软件系统可靠性的管理者 *关注软件可靠性的研究者、计算机专业师生等 (1)作者背景资深:就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。 (2)作者经验丰富:拥有20年软件发、架构、运维、SRE经验,为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定的保障体系。

售       价:¥

纸质售价:¥74.20购买纸书

23人正在读 | 0人评论 6.6

作       者:张观石

出  版  社:机械工业出版社

出版时间:2022-11-16

字       数:21.2万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
这是一本从架构、发、测试、运维全流程讲解如何行软件可靠性工程建设的著作,它将帮助读者构建针对软件可靠性工程的完整的知识体系、工程体系和理论体系。 本书作者是虎牙科技的SRE架构师,他基于20余年的架构、研发和运维经验,用4年时间反复磨,代表中国的工程师总结了中国互联网企业的SRE方法和经验。本书得到了中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价并一致推荐。 本书参考传统可靠性工程及软件可靠性工程体系,把传统可靠性工程中的“六性”(可靠性、维修性、测试性、保障性、安全性、环境适应性)转化为互联网软件可靠性工程的6种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)。每一项能力都包括:互联网SRE体系中的概念、能力的设计、能力建设的原则与方法、能力的度量与改,以及相应的实践案例。通过这6种能力把可靠性相关的工作组织起来,6种能力对应6个工作方向,不仅清晰地描绘出互联网软件可靠性工程体系的全貌,而且详细阐述了每一种能力的获得方法。 本书基于传统可靠性和软件可靠性的研究成果,借鉴和应用它们的成熟理论和工程方法,结合互联网软件的实际情况并加以融合和改,提出了一套符合互联网时代的软件可靠性工程方法。 此外,本书还介绍了可靠性管理能力,对互联网软件发团队、运维团队的技术领导者以及希望转型为可靠性工程师的传统运维人员、发人员应该都有一定参考价值。<br/>【推荐语】<br/>适读人群 :*互联网行业运维工程师、研发工程师、架构师 *关注软件系统可靠性的管理者 *关注软件可靠性的研究者、计算机专业师生等 (1)作者背景资深:就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。 (2)作者经验丰富:拥有20年软件发、架构、运维、SRE经验,为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定的保障体系。 (3)总结中国SRE实践:作者立足于本土SRE实践经验,历时4年精心磨,帮助读者构建针对SRE的完整的知识体系、工程体系、理论体系。 (4)全流程讲解SRE:从架构、发、测试、运维全流程讲解如何行软件可靠性工程建设,总结了要符合时代要求的SRE方法论体系。 (5)建设SRE六种能力:详解SRE的6种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)的概念、设计、建设原则与方法、度量与改。 (6)10余行业专家推荐:中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价。<br/>【作者】<br/>张观石 资深运维专家和架构师,拥有20余年软件发、架构、运维、SRE经验。目前就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。 为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定的保障体系,多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深研究和丰富经验。 同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了《信息系统稳定性保障能力建设指南》。《运维前线》一书的联合作者。多次参与GOPS、MSUP、GDevops技术大会分享。<br/>
目录展开

Foreword 推荐序1

Foreword 推荐序2

Foreword 推荐序3

Foreword 推荐序4

Praise 赞誉

Preface 前言

Chapter 1 第1章 互联网软件可靠性概论

1.1 为什么要研究互联网软件可靠性工程

1.2 什么是可靠性工程

1.3 软件可靠性工程

1.4 互联网软件的可靠性

1.5 互联网软件可靠性工程的工作思路

1.6 本章小结

Chapter 2 第2章 互联网软件可靠性工程及可靠性度量

2.1 软件生命周期的可靠性工作

2.2 故障生命周期的可靠性工作

2.3 可靠性工程6种能力综述

2.4 互联网软件可靠性度量与评价

2.5 本章小结

Chapter 3 第3章 互联网软件可靠性设计与分析

3.1 为什么要进行可靠性设计

3.2 可靠性设计原则与通用方法

3.3 软件可靠性架构模型

3.4 可靠性分析与架构风险

3.5 可靠性分配

3.6 架构分层设计及其可靠性方法

3.7 架构可靠性评审

3.8 可靠性预计

3.9 本章小结

Chapter 4 第4章 可靠性观测能力建设与实践

4.1 建设观测能力的目的

4.2 排查、监控、观测技术的发展

4.3 监控观测的感知场景与感知方式

4.4 观测能力设计

4.5 观测能力要求与度量

4.6 观测能力建设实践

4.7 本章小结

Chapter 5 第5章 故障修复、综合保障能力建设与实践

5.1 软件故障修复能力概述

5.2 软件故障修复能力设计与建设

5.3 运维保障能力

5.4 修复能力的度量和要求

5.5 修复能力及保障能力建设实践

5.6 本章小结

Chapter 6 第6章 可靠性试验与反脆弱能力建设与实践

6.1 互联网软件可靠性试验与反脆弱能力概述

6.2 软件系统的脆弱性因素分析

6.3 反脆弱能力建设与分析

6.4 可靠性试验与反脆弱能力的要求

6.5 实践案例

6.6 本章小结

Chapter 7 第7章 可靠性管理能力

7.1 可靠性管理工作概述

7.2 软件可靠性工作规划及目标管理

7.3 故障治理

7.4 人员与团队管理

7.5 以SRE方式运维业务

7.6 本章小结

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部