Reliability

エラーバジェット

#Reliability リリース可否を決めるための指標となるような考え方。 SLOを満たせない時間を名前の通り予算として管理する。エラーバジェットが残っていればリリース可能、エラーバジェットを使い切っていればリリースはストップしシステムの改善を行うというような運用をする。エラーバジェットによってプロダクト開発者とSREでイノベーションと信頼性のバランスを適切に扱う
データ指向アプリケーションデザイン
Book/

SRE サイトリライアビリティエンジニアリング
SLO

Service level objectives #Reliability サービスレベル目標の略。サービスレベル指標(Service level indicators = SLI)に対してターゲットとする値または範囲を目標とする。サービスレベル指標に用いられるのは主に以下のようなもの可用性リクエストレイテンシエラー率システムスループットサービスレベルアグリーメント(Service level agreement = SLA)は、SLOを守るまたは守れないケースに関する規定をユーザーと同意するもの。 SLO, SLI, SLAは定義が曖昧になりやすいので注意が必要
サーキットブレーカー

#Reliability アプリケーションが失敗する可能性のある操作を繰り返し試行するのを防ぐ信頼性パターンサーキットブレーカーパターン - Azure Architecture Center
リトライ

#Reliability ネットワーク接続先からのレスポンスが失敗している場合、すぐにあるいは少し時間を置いてからアクティビティを再度実行する信頼性パターンバックオフ戦略としてExponential backoffのようなパターンがある Retry with backoff pattern - AWS Prescriptive Guidance
SRE

Site Reliability Engineering #Reliability
カスケード障害

#Reliability 1つのワークロードが引き起こす障害がシステム全体に影響を及ぼすこと
テイルレイテンシ

#Reliability p95, p99, p999のような極端に悪い外れ値を考慮外にする大きなパーセンタイル値のこと
サービスの信頼性の階層
マスタリングAPIアーキテクチャ
パーセンタイル

#Reliability 指定するパーセントのリクエストが何秒以内に処理された、といったようなケースで用いる値代表的な例として中央値は50パーセンタイル値である