Kush's Wiki
信頼性
commited date: 2026-02-11
Reliability
システムが障害(ハードウェア・ソフトウェア・人為的なエラー)が発生しても正しく動作し続けること
クラウドネイティブで実現する マイクロサービス開発・運用 実践ガイド
エラーバジェット
#SRE リリース可否を決めるための指標となるような考え方。 SLOを満たせない時間を名前の通り予算として管理する。 エラーバジェットが残っていればリリース可能、エラーバジェットを使い切っていればリリースはストップしシステムの改善を行うというような運用をする。 エラーバジェットによってプロダクト開発者とSREでイノベーションと信頼性のバランスを適切に扱う
Book/
SRE サイトリライアビリティエンジニアリング
データ指向アプリケーションデザイン
カスケード障害
1つのワークロードが引き起こす障害がシステム全体に影響を及ぼし、信頼性を損なうこと
SRE
Site Reliability Engineering Webサービスの信頼性に対してソフトウェアエンジニアリングの手法を適用する分野
テイルレイテンシ
p95, p99, p999のような極端に悪い外れ値を考慮外にする大きなパーセンタイル値のこと 信頼性の計測において用いられる
マスタリングAPIアーキテクチャ
リトライ
ネットワーク接続先からのレスポンスが失敗している場合、すぐにあるいは少し時間を置いてからアクティビティを再度実行する信頼性パターン バックオフ戦略としてExponential backoffのようなパターンがある Retry with backoff pattern - AWS Prescriptive Guidance
オブジェクト指向入門 第2版 原則・コンセプト
サービスの信頼性の階層
サーキットブレーカー
アプリケーションが失敗する可能性のある操作を繰り返し試行するのを防ぐ信頼性パターン サーキット ブレーカー パターン - Azure Architecture Center