万本电子书0元读

万本电子书0元读

顶部广告

SRE:Google运维解密电子书

√  超级畅销书,Amazon主站排名*,标#1 Best Seller √  运维高烧不退,谷歌神书问世,继续为这一热潮推波助澜 √  本书解密全球*神秘*让人仰望的技术岗位——谷歌SRE √  未出先火,本书原著问世时各大社区火爆异常、人气爆棚

售       价:¥

纸质售价:¥85.30购买纸书

667人正在读 | 0人评论 6.6

作       者:孙宇聪

出  版  社:电子工业出版社

出版时间:2016-09-01

字       数:40.7万

所属分类: 科技 > 计算机/网络 > 软件系统

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
大型软件系统生命周期的绝大部分都处于“使用”阶段,而非“设计”或“实现”阶段。那么为什么我们却总是认为软件工程应该首要关注设计和实现呢?在《SRE:Google运维解密》中,Google SRE的关键成员解释了他们是如何对软件行生命周期的整体性关注的,以及为什么这样做能够帮助Google成功地构建、部署、监控和运维世界上现存*的软件系统。通过阅读《SRE:Google运维解密》,读者可以学习到Google工程师在提高系统部署规模、改可靠性和资源利用效率方面的指导思想与具体实践——这些都是可以立即直应用的宝贵经验。 任何一个想要创建、扩展大规模集成系统的人都应该阅读《SRE:Google运维解密》。《SRE:Google运维解密》针对如何构建一个可长期维护的系统提供了非常宝贵的实践经验。<br/>【推荐语】<br/>√  超级畅销书,Amazon主站排名*,标#1 Best Seller √  运维高烧不退,谷歌神书问世,继续为这一热潮推波助澜 √  本书解密全球*神秘*让人仰望的技术岗位——谷歌SRE √  未出先火,本书原著问世时各大社区火爆异常、人气爆棚<br/>【作者】<br/>Betsy Beyer 是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane 获得学历。 Chris Jones 是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务,每天处理超过280 亿个请求。他的办公室在旧金山,他之前的工作包括Google 广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris 曾经在学校IT 行业任职,同时参与过竞选数据分析,以及一些BSD 内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有*的职业工程师。 Jennifer Petoff 是Google SRE 团队的一名项目经理,工作地在都柏林,爱尔兰。她曾经负责管理大型全球项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加Google 之前,曾在化工行业任职八年。她获得了Stanford 大学的化学博士与学士学位,同时她还拥有Rochester 大学的心理学学位。 Niall Murphy 是Google 爱尔兰团队广告SRE 的负责人。他拥有20 年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包括O’Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学,以及诗歌学的学历(他当时一定是想错了!)。他目前与妻子和两个儿子居住在都柏林。 译者 孙宇聪,曾就职于美国加利福尼亚谷歌总部,后先后就任Coding.net技术负责人、火币中国全球IT负责人及火币美国硅谷研发团队负责人,以及Facebook脸书运维技术经理等职位。译有《SRE:谷歌运维揭秘》《架构整洁之道》《BPF之巅:洞悉Linux系统和应用性能》等名著,曾在全球软件发大会、Qcon、全球架构师峰会、 O'Reilly Velocity等科技峰会行公演讲。  <br/>
目录展开

赞誉

译者序

前言

序言

第Ⅰ部分 概览

第1章 介绍

第2章 Google 生产环境:SRE视角

第Ⅱ部分 指导思想

第3章 拥抱风险

第4章 服务质量目标

第5章 减少琐事

第6章 分布式系统的监控

第7章 Google 的自动化系统的演进

第8章 发布工程

第9章 简单化

第Ⅲ部分 具体实践

第10章 基于时间序列数据进行有效报警

第11章 on-call轮值

第12章 有效的故障排查手段

第13章 紧急事件响应

第14章 紧急事故管理

第15章 事后总结:从失败中学习

第16章 跟踪故障

第17章 测试可靠性

第18章 SRE部门中的软件工程实践

第19章 前端服务器的负载均衡

第20章 数据中心内部的负载均衡系统

第21章 应对过载

第22章 处理连锁故障

第23章 管理关键状态:利用分布式共识来提高可靠性

第24章 分布式周期性任务系统

第25章 数据处理流水线

第26章 数据完整性:读写一致

第27章 可靠地进行产品的大规模发布

第Ⅳ部分 管理

第28章 迅速培养SRE加入on-call

第29章 处理中断性任务

第30章 通过嵌入SRE的方式帮助团队从运维过载中恢复

第31章 SRE与其他团队的沟通与协作

第32章 SRE参与模式的演进历程

第Ⅴ部分 结束语

第33章 其他行业的实践经验

第34章 结语

附录A 系统可用性

附录B 生产环境运维过程中的最佳实践

附录C 事故状态文档示范

附录D 事后总结示范

附录E 发布协调检查列表

附录F 生产环境会议记录示范

参考文献

索引

累计评论(0条) 1个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部