万本电子书0元读

万本电子书0元读

顶部广告

SRE生存指南:系统中断响应与正常运行时间最大化电子书

适读人群 :《SRE写真》适合需要时常应对网站崩溃问题并有志于提升公司软件稳定性的软件发者、始从事网站可靠性工程师工作的起步者阅读。 √ 作者长期服务于对服务中断非常敏感的大型互联网公司,总结出一套久经考验的方法论,专用于监控现代Web服务、设置警报、评估针对生产事件的响应机制,以及短时间内恢复网站宕机事故。 √ 除了别出心裁增设SRE面试一章,精华内容还包括监控灾难性故障向团队发出紧急宕机警报分析生产事件应对策略构建属于自己的自动化测试工具或相关软件预测瓶颈以改善用户体验。

售       价:¥

纸质售价:¥58.80购买纸书

83人正在读 | 0人评论 6.2

作       者:(美)Nat Welch(纳特·韦尔奇)

出  版  社:电子工业出版社有限公司

出版时间:2019-09-01

字       数:15.3万

所属分类: 科技 > 计算机/网络 > 多媒体/数据通信

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
站可靠性工程(Site Reliability Engineering,简称SRE)是一个令人兴奋的新兴领域,它专注于如何确保系统稳定、可靠地运行。本书基于一个金字塔层次结构模型,深浅出地介绍了关于SRE 的方方面面,涉及监控、事故响应与回顾、测试与发布、容量规划、发、用户体验设计,以及贯穿其中的沟通技巧。本书是SRE 工程师、DevOps 工程师、运维工程师和系统管理员不可或缺的参考资料;软件架构师、软件工程师、用户体验设计师也能从本书中获取关于SRE 的相关知识。<br/>【推荐语】<br/>适读人群 :《SRE写真》适合需要时常应对网站崩溃问题并有志于提升公司软件稳定性的软件发者、始从事网站可靠性工程师工作的起步者阅读。 √ 作者长期服务于对服务中断非常敏感的大型互联网公司,总结出一套久经考验的方法论,专用于监控现代Web服务、设置警报、评估针对生产事件的响应机制,以及短时间内恢复网站宕机事故。 √ 除了别出心裁增设SRE面试一章,精华内容还包括监控灾难性故障向团队发出紧急宕机警报分析生产事件应对策略构建属于自己的自动化测试工具或相关软件预测瓶颈以改善用户体验。 √ 阿里巴巴高可用架构团队负责人游骥蘑菇街平台技术总监赵成《SRE:Google运维解密》译者(谷歌前SRE)作序力荐,ThoughtWorks资深技术专家冯文辉倾情献译。 √ 不仅涵盖对服务中断的反应——揭示安全测试和发布软件所需的工具和策略、制订长期增长计划,还预测了未来的瓶颈所在,完整覆盖网站全线全周期危机。 √ 全书系统呈现由冗余和容灾容量规划系统自动保护失败预案监控能力发布与变更管理故障应急处理等领域核心话题构成的SRE技术蓝图。<br/>【作者】<br/>Nat Welch是一名美国的软件发人员。自2005年以来,他一直做着构建网站并保持其运行的工作。他曾先后是谷歌、HFA等各大平台的网站可靠性工程师。多年来,他一直致力于提高网站的可靠性以帮助发人员构建可靠的系统。 冯文辉,现任ThoughtWorks中国区资深架构咨询师,具有11年的软件行业经验,曾服务于多个世界500强企业,覆盖银行、保险、通信、汽车、物流等行业。为客户提供敏捷发、DevOps、架构设计与数字化转型等咨询服务。热衷于探索更好的架构设计方法,助力企业的数字化转型。<br/>
目录展开

书名页

内容简介

版权页

推荐序1

推荐序2

推荐序3

前言

1 简介

SRE简史

SRE是什么

关于这本书

以SRE作为新项目的框架

小结

2 监控

为什么要监控

检测应用程序

度量什么

SLI、SLO和错误预算简介

收集和保存监控数据

轮询应用程序

推送应用程序

展示监控信息

任意查询

图表

仪表板

聊天机器人

管理和维护监控数据

沟通

他们知道有监控吗

小结

参考资料

3 事故响应

什么是事故

什么是事故响应

警报

什么时候发起警报

怎么发出警报

向谁发出警报

随时待命

沟通

事故指挥系统

在哪里沟通

恢复系统

警报解除

小结

4 事后回顾

什么是事后回顾

为什么写事后回顾报告

何时写事后回顾报告

开展事故分析

如何写事后回顾报告

总结

影响

时间

根本原因

行动项

附录

停止事后指责

举行事后回顾会议

分析以往的事后回顾报告

MTTR与MTBF

警报疲劳

讨论过去的服务中断

小结

参考资料

5 测试和发布

测试

测试内容

发布

何时发布

回滚

自动化

持续

小结

6 容量规划

企业财务简介

为什么需要规划

风险管理与期望管理

定义一个规划

当前的容量是多少

何时达到容量极限

应该如何更改容量

执行规划

架构——性能变化的根源

技术作为利润中心和采购

小结

7 构建工具

寻找项目

定义项目

RDD

设计文档

项目计划

例子

回顾会与站会

工作分配

构建项目

关于编写代码的建议

关注点分离

长期工作

笔记本

文档与维护项目

小结

8 用户体验

设计和用户体验简介

现实世界的交互设计

用户测试

挑选一种体验

设计测试

寻找要测试的人

开发者体验

工具经验

绩效预算

安全性

身份认证

授权

风险概况

网络钓鱼

ACM道德准则

小结

参考资料

9 网络基础

互联网

发送一个HTTP请求

DNS

以太网和TCP/IP

HTTP

curl与wget

网络监控工具

netstat

nc

tcpdump

小结

参考资料

10 Linux 和云基础

Linux基础

一切皆是文件

进程是什么

syscalls

构建自己的工具

云基础

虚拟机

容器

负载均衡

自动伸缩

存储

队列与发布/订阅

伸缩单元

架构面试示例

小结

参考资料

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部