この記事は公開されてから1年以上経過しており、最新の内容に追従できていない可能性があります。
これはなに
-
SLO計算機 | tools.gomiba.co
- SLOをどの時間枠で計算するかを決める(Time Window)と、どれくらいの余裕(Error Budget)が与えられるか、を計算するもの
- Error Budgetとして、以下の計算おこなう
TimeWindow内のリクエストの総数 * (1 - SLO Level) = TimeWindowで許容されるエラーのリクエスト数
リクエスト数 * (Time Window / Unit) = TimeWindow内のリクエストの総数
Time Window * (1 - SLO Level) = TimeWindowで許容されるダウンタイム
なぜつくったのか
- 毎回わからなくて電卓パチパチしたりググっているから
- 未リリースのものとかで何もわからない想定しかできない、みたいなところから始めるとき、この一覧を見ながら、これくらいのレベルにすると、これくらいの余裕があるのか、じゃあこの目標で行ってみよう、としたかった
- ある程度状況が観測、可視化できているならそういうツール上で計算して様子を見たほうがわかりやすいと思う
- リクエストのエラー率=1-SLO 、逆に言えば、リクエストの成功率=SLO、というなのはそれはそうだと思うんだけど、具体的にどれくらいの数になるのかわかったほうが実感がありそうだなと思った
- 特にリクエスト数がそこまで大きくないようなものはそう
- 例えば、1req/hourしかないもので99.9%/monthにすると0.72reqになるので1リクエストも失敗できない、とか
- これだと実質100%のSLOになってしまうので、99%とか99.5%とかにするといいんじゃないだろうか
- 逆にリクエスト数の大きい部分は何も参考にならない気がする。
どうやってつくったのか