Kush's Wiki
SRE
commited date: 2026-02-11
Site Reliability Engineering
Webサービスの
信頼性
に対してソフトウェアエンジニアリングの手法を適用する分野
クラウドネイティブで実現する マイクロサービス開発・運用 実践ガイド
Platform EngineeringはこれまでのSREやインフラチームと何が違うのか?
#Platform Engineering SRE SLI/SLO/SLA https://codezine.jp/article/detail/18856
エラーバジェット
#SRE リリース可否を決めるための指標となるような考え方。 SLOを満たせない時間を名前の通り予算として管理する。 エラーバジェットが残っていればリリース可能、エラーバジェットを使い切っていればリリースはストップしシステムの改善を行うというような運用をする。 エラーバジェットによってプロダクト開発者とSREでイノベーションと信頼性のバランスを適切に扱う
Book/
チームトポロジー
Book/
SRE サイトリライアビリティエンジニアリング
あなたの興味は信頼性?それとも生産性? SREとしてのキャリアに悩むみなさまに伝えたい選択肢
Author: 草間 一人 SRE/SRE サイトリライアビリティエンジニアリング エレガントパズル Four Keys/DevOps Platform Engineering Team Topologies Building Effective AI Agents
SLO
Service level objectives SREにおけるサービスレベル目標の略。 サービスレベル指標(Service level indicators = SLI)に対してターゲットとする値または範囲を目標とする。 サービスレベル指標に用いられるのは主に以下のようなもの 可用性 リクエストレイテンシ エラー率 システムスループット サービスレベルアグリーメント(Service level agreement = SLA)は、SLOを守るまたは守れないケースに関する規定をユーザーと同意するもの。 SLO, SLI, SLAは定義が曖昧になりやすいので注意が必要
NINES don’t matter if USERS aren’t HAPPY
#SRE Charity Majorsによる主張。ナインとは可用性のこと ユーザーが満足していなければ、ナインは重要ではない
サービスの信頼性の階層