The Site Reliability Workbook pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:O′Reilly

作者:[美] Betsy Beyer

出品人:

页数:500

译者:

出版时间:2018-7-31

价格:GBP 35.99

装帧:Paperback

isbn号码:9781492029502

丛书系列:

图书标签:

SRE
计算机
2018
Programming
DevOps
软件工程
美国
2019-读书
SRE
可靠性工程
DevOps
系统设计
故障排除
监控
自动化
云计算
生产环境
可观测性

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到小哈图书下载中心

qciss.net

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

In 2016, Google’s Site Reliability Engineering book ignited an industry discussion on what it means to run production services today—and why reliability considerations are fundamental to service design. Now, Google engineers who worked on that bestseller introduce The Site Reliability Workbook, a hands-on companion that uses concrete examples to show you how to put SRE principles and practices to work in your environment.

This new workbook not only combines practical examples from Google’s experiences, but also provides case studies from Google’s Cloud Platform customers who underwent this journey. Target, Home Depot, The New York Times, and other companies outline their hard-won experience of what worked for them and what didn’t.

Dive into this workbook and learn how to flesh out your own SRE framework, no matter what size your company is.

You’ll learn:

How to run reliable services in environments you don’t completely control—like cloud

Practical examples of how to create, monitor, and run your services via Service Level Objectives

How to convert existing ops teams to SRE—including how to dig out of operational overload

Methods for starting SRE from either greenfield or brownfield

深入剖析现代软件系统运营的基石：《高效能系统管理实践指南》本书旨在为系统架构师、运维工程师、SRE 团队以及任何致力于构建和维护高可用、可扩展软件系统的专业人士，提供一套全面、实用的操作手册和思维框架。我们聚焦于如何将理论转化为日常的、可衡量的工程实践，确保复杂的分布式系统在面对故障、流量洪峰和持续演进的需求时，依然能保持卓越的性能与可靠性。 --- 第一部分：构建可靠性的基石——度量与可见性现代系统的复杂性要求我们必须依赖数据来指导决策，而非猜测。本书的第一部分将系统地拆解“何为可靠性”以及“如何衡量可靠性”这一核心问题。第一章：超越平均值的艺术——定义与量化可靠性指标 (SLI/SLO/SLA) 可靠性并非一个抽象的概念，它必须是可量化的。本章详细探讨了如何从业务需求出发，反推技术指标。我们将深入研究以下关键领域：服务等级指标 (SLI) 的设计艺术：如何选择最能反映用户体验的指标？我们不只是关注延迟，更关注延迟的分布（P95、P99）。探讨了延迟、吞吐量、错误率和覆盖率这四大支柱指标的有效组合策略。服务等级目标 (SLO) 的制定与承诺：为什么“五个九”并非万能？学习如何根据业务的价值密度和用户容忍度来设定合理的 SLO 目标，并理解 SLO 窗口期的数学模型和对开发周期的影响。 SLA 的法律与操作边界：如何在技术团队与业务/法务部门之间搭建沟通桥梁，确保技术承诺与合同义务的一致性。错误的预算 (Error Budget) 机制的深度实施：这不仅仅是一个数字，它是一种文化驱动力。我们将详细介绍如何将错误预算转化为开发团队的“创新许可证”，以及如何有效地监控预算的消耗速度，并触发必要的工程干预（例如，暂停新功能发布）。第二章：全景监控的构建——可观测性三驾马车 (Metrics, Logs, Traces) 的集成策略仅仅收集数据是不够的，系统必须能够“说话”。本章侧重于如何构建一个统一的、高效率的可观测性平台。指标 (Metrics) 的结构化采集：探讨 Prometheus、InfluxDB 等时间序列数据库的最佳实践，包括标签 (label) 策略、高基数（High Cardinality）问题的规避，以及如何有效利用预聚合 (Pre-aggregation) 技术来降低查询成本。日志 (Logs) 的结构化与上下文关联：摒弃自由格式日志，转向 JSON 或其他结构化格式。重点讲解如何通过统一的请求 ID (Trace ID) 将日志与分布式追踪无缝链接，实现从宏观到微观的快速下钻。分布式追踪 (Tracing) 的全链路覆盖：深入 OpenTelemetry 规范，指导团队如何无侵入地在微服务架构中植入追踪数据。分析 B3 格式、W3C Trace Context 的演进，以及如何利用追踪数据进行真正的瓶颈分析（例如，识别跨服务调用中的序列化/网络延迟）。基线建立与异常检测：介绍如何利用历史数据建立动态基线，并部署基于统计学模型（如 Z-Score、EWMA）的异常检测系统，从而在 SLO 违规发生之前发出预警。 --- 第二部分：主动式故障管理与容量规划可靠性不是在故障发生后才开始的，它贯穿于系统的整个生命周期。本部分关注如何通过前瞻性的工程实践，最小化计划内外的停机时间。第三章：容量规划的科学——预测、模拟与资源弹性容量规划是确保系统在高流量下生存的关键。本章摒弃经验主义，转向数据驱动的预测模型。负载测试的深度剖析：区分压力测试、负载测试和稳定性测试。设计分层级的测试场景，模拟真实世界的流量模式（例如，高峰期、节假日促销、爬虫流量）。性能基线与饱和点识别：如何通过负载测试曲线识别系统的“性能拐点”——即资源利用率达到某个阈值后，延迟急剧上升的点。容量模型建立：介绍如何将业务需求（如每秒请求数 RPS）映射到基础资源（CPU、内存、网络 I/O）。构建可自动调整的资源分配模型，以应对非线性的增长。多活架构下的容量均衡：针对跨区域、多云部署，探讨如何实现智能的流量调度，确保故障区域的负载能平滑地转移到健康的区域。第四章：自动化响应——告警的精炼与事件管理流程重塑有效的告警是减少平均恢复时间 (MTTR) 的核心。本章致力于消除“告警疲劳”，提升事件响应的效率。告警的瘦身运动：严格遵循 SLO 驱动的告警原则——只在可能影响到 SLO 或预算消耗过快时才触发告警。探讨如何利用“结果导向”的告警代替“症状导向”的告警（例如，告警 CPU 100% 不如告警 P99 延迟超过阈值）。告警抑制与分组 (Deduplication & Grouping)：介绍使用集中式告警平台（如 Alertmanager）的先进功能，如何有效抑制“级联告警”，确保值班人员在同一时间只收到一个核心事件通知。 Runbook 的现代化与自动化嵌入：静态的 Runbook 已过时。本章指导如何将诊断和恢复步骤嵌入到自动化脚本中。介绍“一键修复”工具的开发流程，以及如何利用工具链（如 Ansible, Terraform）在确认故障后自动回滚或扩容。事后复盘 (Postmortem) 的文化建设：推动无指责 (Blameless) 的复盘文化。详细拆解一次高质量事后报告的结构（时间线、根本原因分析、行动项），确保每次故障都能转化为结构性的改进，而非简单的任务列表。 --- 第三部分：面向韧性的工程实践——变更、灾难恢复与安全集成可靠性并非静态的，而是通过持续不断的、有纪律的工程实践来维护的。本部分关注如何管理系统的演进。第五章：安全交付——变更管理的自动化与控制系统的每一次变更都是潜在的风险点。本章重点在于如何将可靠性原则融入持续集成与持续交付 (CI/CD) 流水线。金丝雀发布与渐进式部署：深入讲解如何设计和执行金丝雀发布策略，确保新版本仅对一小部分用户或流量暴露。讨论自动化的健康检查钩子 (Health Checks Hooks) 在发布流程中的关键作用。蓝绿部署的无缝切换：针对对延迟要求极高的服务，详细分析蓝绿部署的流量隔离、数据同步挑战，以及如何设计原子化切换机制，最大程度地减少用户感知到的中断。基础设施即代码 (IaC) 的可靠性保障：使用 Terraform 或 Pulumi 管理基础设施时，如何编写具有幂等性 (Idempotency) 和状态验证的代码。探讨如何将配置漂移 (Configuration Drift) 纳入监控体系。第六章：在混沌中测试——压力注入与灾难恢复演练混沌工程 (Chaos Engineering) 是主动验证系统韧性的终极手段。混沌工程的入门与扩展：从简单的服务重启实验开始，逐步扩展到网络分区、延迟注入、依赖服务故障模拟。强调实验的科学设计（提出假设、最小化影响范围、定义成功标准）。关键依赖的隔离与降级策略：讨论如何设计“断路器 (Circuit Breaker)”、“限流 (Rate Limiting)”和“超时 (Timeouts)”这三大防御机制。重点分析在依赖服务故障时，如何优雅地触发降级路径（例如，从实时推荐切换到静态缓存推荐）。数据恢复与备份策略的验证：备份策略的价值仅在于其可恢复性。指导读者设计定期的、全自动化的数据恢复演练，验证 RTO（恢复时间目标）和 RPO（恢复点目标）的实际达成情况。 --- 附录：工具链与社区资源本书最后将提供一个精选的开源和商业工具生态系统概览，帮助读者快速构建或升级其现有的工程平台，并指引读者进入前沿的 SRE 社区和论文资源。本书致力于将“可靠性”从一个抽象的目标，转化为一套可执行、可重复、可衡量的工程规范，使您的软件系统能够以更低的成本，提供更高的用户价值。

作者简介

Betsy Beyer is a Technical Writer for Google Site Reliability Engineering in NYC. She has previously written documentation for Google Datacenters and Hardware Operations teams. Before moving to New York, Betsy was a lecturer on technical writing at Stanford University.

Niall Murphy has been working in Internet infrastructure for twenty years. He is a company founder, a published author, a photographer, and holds degrees in Computer Science & Mathematics and Poetry Studies.

Dave Rensin is a Google SRE Director, previous O’Reilly author, and serial entrepreneur. He holds a degree in Statistics.

Kent Kawahara is a Program Manager for Google's Site Reliability Engineering team focused on Google Cloud Platform customers and is based in Sunnyvale, CA. In previous Google roles, he managed technical and design teams to develop advertising support tools and worked with large advertisers and agencies on strategic advertising initiatives. Prior to Google, he worked in Product Management, Software QA, and Professional Services at two successful telecommunications startups. He holds a BS Electrical Engineering and Computer Science from the University of California at Berkeley.

Stephen Thorne is a Senior Site Reliability Engineer at Google. He currently works in Customer Reliability Engineering, helping to integrate Google's Cloud customers' operations with Google SRE. Stephen learned how to be an SRE on the team that runs Google's advertiser and publisher user interfaces, and later worked on App Engine. Before his time at Google, he fought against spam and viruses in his home country of Australia, where he also earned his B.S. in Computer Science.

目录信息

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

拿到《Site Reliability Workbook》这本书，说实话，一开始我有点犹豫。我之前对SRE（Site Reliability Engineering）的了解仅限于一些概念性的文章，觉得它离我的日常工作有些遥远，更像是大厂才需要关注的高精尖技术。但事实证明，我的顾虑完全是多余的。这本书的开篇就用一种非常接地气的方式，阐述了SRE的核心理念，以及为什么这些理念对于任何规模的软件系统都至关重要。它并没有一开始就抛出一堆复杂的术语和算法，而是从“为什么”开始，引导读者去思考，去理解SRE的价值所在。我尤其喜欢作者在书中反复强调的“可靠性不是一种功能，而是一种必需品”这样的观点，这让我立刻联想到自己曾经因为系统不稳定而经历的无数个不眠之夜，以及那些因为小小的故障而造成的巨大业务损失。这本书就像一位经验丰富的朋友，在和我分享他的宝贵经验，让我看到了一个清晰的、可行的路径，去构建和维护真正可靠的系统。它不仅仅是关于技术，更是关于一种工程思维和文化，让我对“如何让软件变得更靠谱”有了全新的认识。我开始重新审视我过去的项目，那些曾经被我视为“正常”的宕机时间和性能瓶颈，现在看来都显得那么不可原谅。这本书让我对SRE的理解从“很高大上”变成了“触手可及”，并且激起了我深入学习和实践的强烈愿望。

评分☆☆☆☆☆

《Site Reliability Workbook》这本书给我的感觉，就像是在参加一场由经验丰富的SRE专家主导的深度工作坊。作者在书中分享的每一个案例，每一个方法论，都经过了反复的打磨和实践的检验。尤其是在关于“可靠性指标”（SLIs）和“服务等级协议”（SLAs）的部分，作者对如何定义、测量和管理这些关键指标进行了非常细致的阐述。他解释了为什么我们需要这些指标，它们如何帮助我们衡量系统的性能，以及如何将它们作为指导我们工程决策的基础。书中还探讨了如何根据业务需求来设定合理的SLOs（Service Level Objectives），并且如何利用这些目标来驱动团队的改进。这对我来说是一个非常重要的启示。在过去，我们常常是在系统出现问题后才去关注性能，而这本书让我明白，我们需要主动地去定义和追踪这些指标，让它们成为我们工作的“导航仪”，而不是“事后诸葛亮”。它帮助我建立了一种更积极主动的工程文化。

评分☆☆☆☆☆

《Site Reliability Workbook》这本书最让我印象深刻的是，它能够将SRE的核心理念，用一种非常清晰、易于理解的方式传达给读者，即使是没有SRE背景的读者也能轻松上手。在关于“Postmortem”（事后分析）的部分，作者提供了一个非常详尽的指南，详细介绍了如何进行一次有效的、非指责性的事后分析。他强调了事后分析的目的是为了学习和改进，而不是为了追究责任。这本书中列举了许多事后分析的模板和最佳实践，例如如何组织会议，如何收集信息，如何撰写报告，以及如何跟进改进措施。这对于我来说，实在是太及时了。我们团队之前在事后分析方面做得不够系统，往往流于形式，没有真正从中吸取到足够多的教训。这本书让我看到了构建一个健康、高效的事后分析文化的可能性，并且提供了具体的实施步骤。它让我明白，每一次的故障都是一次宝贵的学习机会。

评分☆☆☆☆☆

《Site Reliability Workbook》这本书最打动我的地方在于，它始终坚持以“用户体验”为核心。作者在书中反复强调，SRE的最终目标是为了保障用户能够获得稳定、可靠的服务。他分享了许多关于如何通过SRE实践来提升用户体验的案例，例如如何优化系统的响应速度，如何减少服务的延迟，以及如何处理用户反馈。书中还探讨了“用户体验指标”（UXIs）的概念，以及如何将这些指标纳入到SRE的监控和管理体系中。这让我深刻地认识到，SRE不仅仅是技术人员的事情，更是与业务紧密相连的。通过关注用户体验，我们可以更好地理解业务的需求，并将SRE的实践与业务目标对齐。这本书帮助我建立了一种“以用户为中心”的SRE思维模式，让我能够更清晰地认识到SRE的价值所在，并且更好地为用户创造价值。

评分☆☆☆☆☆

《Site Reliability Workbook》这本书的结构设计得非常巧妙，它不是一本那种需要从头读到尾的教科书，而更像是一个工具箱，一本可以随时翻阅的参考手册。我特别欣赏作者为每一章都设计的“练习”或“思考题”，这些环节不是简单的填空题，而是引导你将书中的理论知识与自己的实际工作相结合，去思考如何解决现实中的问题。比如，在关于“错误预算”的那一章，书中的案例分析就非常生动，它解释了如何在追求可靠性和快速迭代之间找到一个平衡点。我立刻就想到了我们团队在产品发布周期和稳定性之间常常遇到的矛盾，通过书中的方法，我开始尝试量化这些权衡，并为团队提供了一个更客观的决策依据。而且，这本书的内容涵盖了SRE的方方面面，从最初的系统设计，到日常的监控、报警，再到事后分析和自动化，几乎涵盖了软件生命周期的每一个关键环节。它让我明白，SRE不是一个孤立的岗位，而是一种需要跨团队协作的工程实践。作者并没有回避SRE过程中可能遇到的挑战和困难，而是坦诚地分享了许多实用的技巧和经验，让我在学习的过程中，能够提前预见到可能遇到的坑，并找到规避的方法。

评分☆☆☆☆☆

当我开始阅读《Site Reliability Workbook》时，我并没有把它当作一本“读完就丢”的书，而是把它当作一本可以“常备不懈”的参考书。它所涵盖的SRE知识点非常全面，并且在每一个知识点上都进行了深入的挖掘。我特别喜欢书中关于“风险管理”的讨论。作者将SRE视为一种风险管理工程，并详细阐述了如何识别、评估和缓解系统中的各种风险。他分享了如何通过故障注入（Chaos Engineering）等手段来主动测试系统的韧性，以及如何根据风险评估结果来制定相应的应对策略。这让我意识到，SRE不仅仅是“救火”，更是“防火”。通过主动的风险管理，我们可以提前发现和解决潜在的问题，从而避免发生更严重的故障。这本书为我提供了一个系统性的风险管理框架，让我能够更全面地思考我们系统的安全性和稳定性。

评分☆☆☆☆☆

不得不说，《Site Reliability Workbook》这本书的设计思路非常符合“实用主义”的精髓。它并没有刻意地去追求那些“花哨”或“前沿”的技术概念，而是将精力集中在那些能够切实解决实际问题、提升系统可靠性的方法上。在关于“容量规划”的章节，我受益匪浅。作者详细地讲解了如何预估系统的负载，如何根据业务增长来规划基础设施的容量，以及如何避免因为容量不足而导致的服务中断。他提出了一种基于数据分析的容量规划方法，并且提供了一些实用的工具和模型。这让我深刻地认识到，容量规划并不是一次性的任务，而是需要持续进行的、动态的过程。通过学习这本书，我开始更系统地思考我们团队的容量规划策略，并且意识到之前在这方面的一些盲点。这本书给了我一个清晰的框架，让我能够更有条理地应对不断增长的业务需求，并确保我们的系统能够持续稳定地运行。

评分☆☆☆☆☆

我必须承认，刚开始接触《Site Reliability Workbook》的时候，我确实有点被它的“工作手册”这个名字吓到，以为里面会充斥着各种枯燥的公式和繁琐的操作步骤。然而，这本书带给我的惊喜远远大于我的预期。它之所以被称为“工作手册”，是因为它提供了大量可供读者直接参考和实践的指南，而并非它本身就是一本生硬的指令集。作者在书中对SRE的各个方面进行了非常深入的阐述，但同时又保持了非常高的可读性。尤其是在描述如何进行有效的系统监控和告警时，作者列举了许多实际的案例，并且详细解释了如何设置合理的告警阈值，如何避免告警的“噪音”，以及如何通过告警来驱动问题的快速解决。这对我来说太有用了！我之前一直觉得我们的告警系统虽然能发出告警，但很多时候都是“狼来了”式的无效告警，反而分散了我们处理真正问题的精力。这本书让我看到了构建一个高质量、有意义的告警系统的可能性，并且给了我具体的操作方法。此外，关于“事件响应”的部分，也非常具有指导意义，作者详细介绍了如何建立一个清晰的事件响应流程，以及如何进行有效的复盘，从中吸取教训，避免重复犯错。

评分☆☆☆☆☆

《Site Reliability Workbook》这本书的作者无疑是一位在SRE领域有着深厚实践经验的专家。他并没有像许多技术书籍那样，仅仅停留在理论的层面，而是将自己的实践经验提炼成了一套系统性的方法论，并且通过这本书的形式分享出来。我印象最深刻的是关于“可观测性”（Observability）的章节。在现代分布式系统中，要理解系统的行为，可观测性至关重要。这本书不仅解释了可观测性的概念，还详细阐述了日志、指标和追踪这三大支柱，以及如何有效地收集、存储和分析这些数据。作者还分享了一些在实际工作中，如何利用这些数据来诊断复杂问题，优化系统性能的技巧。对我而言，这意味着我不仅要知道“是什么”，更重要的是知道“为什么”以及“如何做”。这本书给了我非常清晰的指引，让我能够更好地理解和实践可观测性，从而提升我分析和解决问题的能力。它让我明白，SRE不仅仅是关于“修复bug”，更是关于“预测和预防bug”，而可观测性正是实现这一目标的关键。

评分☆☆☆☆☆

当我翻开《Site Reliability Workbook》这本书时，我并没有期待它能给我带来多少颠覆性的改变，毕竟SRE的概念我还是有所耳闻。但这本书的内容深度和广度，让我不得不重新审视我的认知。它不仅仅是在介绍SRE的工具和技术，更是在引导读者去理解SRE背后的工程哲学和管理思想。我特别赞赏作者在书中对“自动化”的强调。在SRE的实践中，自动化是提高效率、降低人为错误的关键。这本书深入探讨了各种可以将重复性、耗时性的任务自动化的方法，从基础设施的自动化部署，到日常的运维操作，再到事件响应的自动化。作者不仅给出了理论指导，还分享了许多具体的自动化工具和实现思路。这让我看到，原来许多我们团队还在手动执行的任务，都可以通过自动化来完成，从而释放更多的人力去关注更具战略意义的工作。读完这部分内容，我感到非常有启发，并且立即开始思考如何在我们的日常工作中引入更多的自动化，以提高整体的运维效率和可靠性。

评分☆☆☆☆☆

可以看作第一本书《SRE》的续集，主要是在实践中加入了其它公司的实践，让SRE更加具有普遍意义。其核心的工程师文化和以数据为驱动的决策非常有借鉴意义。

评分☆☆☆☆☆