Reliability
-
SLO
Service level objectives #Reliability サービスレベル目標の略。 サービスレベル指標(Service level indicators = SLI)に対してターゲットとする値または範囲を目標とする。 サービスレベル指標に用いられるのは主に以下のようなもの 可用性 リクエストレイテンシ エラー率 システムスループット サービスレベルアグリーメント(Service level agreement = SLA)は、SLOを守るまたは守れないケースに関する規定をユーザーと同意するもの。 SLO, SLI, SLAは定義が曖昧になりやすいので注意が必要
-
リトライ
#Reliability ネットワーク接続先からのレスポンスが失敗している場合、すぐにあるいは少し時間を置いてからアクティビティを再度実行する信頼性パターン バックオフ戦略としてExponential backoffのようなパターンがある Retry with backoff pattern - AWS Prescriptive Guidance
-
サーキットブレーカー
#Reliability アプリケーションが失敗する可能性のある操作を繰り返し試行するのを防ぐ信頼性パターン サーキット ブレーカー パターン - Azure Architecture Center
-
SRE サイトリライアビリティエンジニアリング
-
マスタリングAPIアーキテクチャ
-
サービスの信頼性の階層
-
エラーバジェット
#Reliability プロダクト開発者とSRE間でリリース可否を決めるための指標となるような考え方。 SLOを満たせない時間を名前の通り予算として管理する。 エラーバジェットが残っていればリリース可能、エラーバジェットを使い切っていればリリースはストップしシステムの改善を行うというような運用をする。 エラーバジェットによってプロダクト開発者とSREでイノベーションと信頼性のバランスを適切に扱う
-
データ指向アプリケーションデザイン