Kush's Wiki

Book/

SRE サイトリライアビリティエンジニアリング

commited date: 2025-03-21

Googleの信頼性を支えるエンジニアリングチーム

Authors:

Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy

#Book #Reliability #Observability

O’Reilly Japan

SREについてGoogleエンジニアが書いた書籍

キーワード

英語版は無料で公開されている

Google - Site Reliability Engineering

第Ⅰ部 イントロダクション

1章 イントロダクション

2章 SREの観点から見た Googleのプロダクション環境

第Ⅱ部 原則

4章 サービスレベル目標

5章 トイルの撲滅

6章 分散システムのモニタリング

7章 Googleにおける自動化の進化

8章 リリースエンジニアリング

  • 継続的ビルド/継続的デプロイメント

9章 単純さ

第Ⅲ部 実践

10章 時系列データからの実践的なアラート

11章 オンコール対応

12章 効果的なトラブルシューティング

13章 緊急対応

14章 インシデント管理

15章 ポストモーテムの文化:失敗からの学び

16章 サービス障害の追跡

17章 信頼性のためのテスト

18章 SREにおけるソフトウェアエンジニアリング

19章 フロントエンドにおけるロードバランシング

20章 データセンターでのロードバランシング

21章 過負荷への対応

22章 カスケード障害への対応

23章 クリティカルな状態の管理 :信頼性のための分散合意

24章 cronによる分散定期スケジューリング

25章 データ処理のパイプライン #Data Processing

26章 データの完全性:What You Read Is What You Wrote

27章 大規模なプロダクトのローンチにおける信頼性

  • 機能フラグ

第Ⅳ部 管理

28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ

29章 割り込みへの対処

30章 SREの投入による運用過負荷からのリカバリ

31章 SREにおけるコミュニケーションとコラボレーション

32章 進化する SREのエンゲージメントモデル

第V部 まとめ

33章 他の業界からの教訓

34章 まとめ