Reliability
-
サーキットブレーカー#Reliability アプリケーションが失敗する可能性のある操作を繰り返し試行するのを防ぐ信頼性パターン サーキット ブレーカー パターン - Azure Architecture Center
-
カスケード障害#Reliability 1つのワークロードが引き起こす障害がシステム全体に影響を及ぼすこと
-
マスタリングAPIアーキテクチャ
-
テイルレイテンシ#Reliability p95, p99, p999のような極端に悪い外れ値を考慮外にする大きなパーセンタイル値のこと
-
サービスの信頼性の階層
-
SLOService level objectives #Reliability サービスレベル目標の略。 サービスレベル指標(Service level indicators = SLI)に対してターゲットとする値または範囲を目標とする。 サービスレベル指標に用いられるのは主に以下のようなもの 可用性 リクエストレイテンシ エラー率 システムスループット サービスレベルアグリーメント(Service level agreement = SLA)は、SLOを守るまたは守れないケースに関する規定をユーザーと同意するもの。 SLO, SLI, SLAは定義が曖昧になりやすいので注意が必要
-
SRESite Reliability Engineering #Reliability
-
Book/SRE サイトリライアビリティエンジニアリング
-
パーセンタイル#Reliability 指定するパーセントのリクエストが何秒以内に処理された、といったようなケースで用いる値 代表的な例として中央値は50パーセンタイル値である
-
データ指向アプリケーションデザイン
-
エラーバジェット#Reliability リリース可否を決めるための指標となるような考え方。 SLOを満たせない時間を名前の通り予算として管理する。 エラーバジェットが残っていればリリース可能、エラーバジェットを使い切っていればリリースはストップしシステムの改善を行うというような運用をする。 エラーバジェットによってプロダクト開発者とSREでイノベーションと信頼性のバランスを適切に扱う
-
リトライ#Reliability ネットワーク接続先からのレスポンスが失敗している場合、すぐにあるいは少し時間を置いてからアクティビティを再度実行する信頼性パターン バックオフ戦略としてExponential backoffのようなパターンがある Retry with backoff pattern - AWS Prescriptive Guidance