Googleの信頼性を支えるエンジニアリングチーム
Authors:
Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy
#Book #Reliability #Observability
SREについてGoogleエンジニアが書いた書籍
キーワード
英語版は無料で公開されている
Google - Site Reliability Engineering
第Ⅰ部 イントロダクション
1章 イントロダクション
2章 SREの観点から見た Googleのプロダクション環境
第Ⅱ部 原則
4章 サービスレベル目標
5章 トイルの撲滅
6章 分散システムのモニタリング
- モニタリング
- 4大シグナル
7章 Googleにおける自動化の進化
8章 リリースエンジニアリング
- 継続的ビルド/継続的デプロイメント
9章 単純さ
第Ⅲ部 実践
10章 時系列データからの実践的なアラート
11章 オンコール対応
12章 効果的なトラブルシューティング
13章 緊急対応
14章 インシデント管理
15章 ポストモーテムの文化:失敗からの学び
16章 サービス障害の追跡
17章 信頼性のためのテスト
18章 SREにおけるソフトウェアエンジニアリング
19章 フロントエンドにおけるロードバランシング
20章 データセンターでのロードバランシング
21章 過負荷への対応
22章 カスケード障害への対応
23章 クリティカルな状態の管理 :信頼性のための分散合意
24章 cronによる分散定期スケジューリング
25章 データ処理のパイプライン #Data Processing
26章 データの完全性:What You Read Is What You Wrote
27章 大規模なプロダクトのローンチにおける信頼性
- 機能フラグ