Googleの信頼性を支えるエンジニアリングチーム
Authors
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
#Book #Reliability #Observability
SRE サイトリライアビリティエンジニアリング
O’Reilly Japan
SREについてGoogleエンジニアが書いた書籍
キーワード
英語版は無料で公開されている
Google - Site Reliability Engineering
第Ⅰ部 イントロダクション
1章 イントロダクション
2章 SREの観点から見た Googleのプロダクション環境
第Ⅱ部 原則
4章 サービスレベル目標
5章 トイルの撲滅
6章 分散システムのモニタリング
7章 Googleにおける自動化の進化
8章 リリースエンジニアリング
9章 単純さ
第Ⅲ部 実践
10章 時系列データからの実践的なアラート
11章 オンコール対応
12章 効果的なトラブルシューティング
13章 緊急対応
14章 インシデント管理
15章 ポストモーテムの文化:失敗からの学び
16章 サービス障害の追跡
17章 信頼性のためのテスト
18章 SREにおけるソフトウェアエンジニアリング
20章 データセンターでのロードバランシング
21章 過負荷への対応
23章 クリティカルな状態の管理 :信頼性のための分散合意
24章 cronによる分散定期スケジューリング
26章 データの完全性:What You Read Is What You Wrote
27章 大規模なプロダクトのローンチにおける信頼性
第Ⅳ部 管理
28章 SREの成長を加速する方法:新人からオンコール担当、そしてその先へ
29章 割り込みへの対処
30章 SREの投入による運用過負荷からのリカバリ
31章 SREにおけるコミュニケーションとコラボレーション
32章 進化する SREのエンゲージメントモデル
第V部 まとめ
33章 他の業界からの教訓
34章 まとめ