サイト案内

運営してるひと: @sters9

妻と娘と猫と神奈川県に住んでいます。最近は Go, Ruby, Rails, Kubernetes, GCP, Datadog あたりをしていますがもっといろいろやりたい!

サイト案内

開発環境の紹介

プライバシーポリシー

tools.gomiba.co

サイト内検索

アーカイブ

2024/04 (7) 2024/03 (4) 2024/01 (3)

2023/12 (1) 2023/11 (3) 2023/10 (1) 2023/09 (1) 2023/08 (2) 2023/05 (4) 2023/04 (4) 2023/03 (4) 2023/02 (2) 2023/01 (1)

2022/12 (1) 2022/11 (4) 2022/10 (3) 2022/09 (2) 2022/08 (4) 2022/07 (5) 2022/06 (4) 2022/05 (9) 2022/04 (8) 2022/03 (10) 2022/02 (21) 2022/01 (8)

2021/12 (11) 2021/11 (1) 2021/10 (4) 2021/09 (2) 2021/08 (1) 2021/07 (2) 2021/06 (5) 2021/05 (10) 2021/04 (1) 2021/03 (8) 2021/02 (12) 2021/01 (8)

2020/05 (2) 2020/04 (2) 2020/02 (2) 2020/01 (1)

2019/12 (3) 2019/11 (2) 2019/10 (5) 2019/09 (3) 2019/07 (6) 2019/06 (4) 2019/04 (3) 2019/01 (2)

2018/12 (6) 2018/10 (4) 2018/09 (6) 2018/08 (7) 2018/07 (16) 2018/06 (7) 2018/05 (7) 2018/04 (5) 2018/03 (3) 2018/02 (10) 2018/01 (6)

2017/12 (8) 2017/11 (6) 2017/10 (10) 2017/09 (12) 2017/08 (12) 2017/07 (3) 2017/06 (1) 2017/01 (4)

2016/12 (5) 2016/10 (3) 2016/09 (1) 2016/07 (2) 2016/06 (1) 2016/04 (1) 2016/02 (1) 2016/01 (2)

2015/12 (1) 2015/10 (1) 2015/09 (3) 2015/06 (1) 2015/01 (1)

2014/08 (2) 2014/07 (3) 2014/05 (1) 2014/01 (7)

2013/12 (2) 2013/11 (4) 2013/10 (1) 2013/09 (1) 2013/08 (3) 2013/07 (4) 2013/06 (5) 2013/05 (2) 2013/04 (7) 2013/03 (1)

グレースフルデグラデーションをどうするのか

この記事は公開されてから1年以上経過しており、最新の内容に追従できていない可能性があります。

マイクロサービスな世界になったとき、自分たちのサービスは動いているけれど、依存しているとあるサービスがダウンしている(常にエラーを返してしまう)、といった場合にどうするか。

ひとつは、自分たちのサービスも一緒にダウンする。 これは簡単だけれども、自分たちのサービスが提供できなくなってしまう。つまり、また別のサービスが自分たちのサービスに依存している場合に、彼らにもエラーを返してしまう。例えば、すべてのサービスが同じアプローチを取っていると、たった一つのサービスが何らかの理由で一時的にエラーを返してしまうような状態になると、全体としてエラーになってしまう。 各サービスが独立して動けるほうがよいはずなので、これはちょっと困る。

もうひとつは、自分たちのサービスはダウンせず、引き続き機能を提供する。これはなかなか難しい。

何が難しいかというと、単純に自分たちのサービスを継続する、ということはできず、あるサービスからの返答が無いために、欠けてしまうデータ、欠けてしまう処理があるはずで、それをどう補うかを考える必要があることが難しい。

例えば、ECサイトの商品レビューをイメージしたとき、レビュー投稿のためには、ユーザサービス(認証認可サービス)を使い認証認可して、商品サービスを使って商品が正しく存在することを確認して、自分たち(レビューサービス)で初めてレビューのデータを保存できるような形になるんじゃないかなと思う。他にもありそうだけどいったん。

ここで、ユーザがいよいよ投稿するぞ!というタイミングで、商品サービスがダウンしてしまった場合、商品が存在するか判定ができないので、レビューサービスとしてはどうするかの判断が迫られる。

  • エラーを返す
    • 商品サービスがダウンする可能性が低い、短時間のダウンならこれでもいいかもしれない。
    • 「一時的なシステムエラーです。あとでお試しください。」
  • 下書きとして保存する
    • レビューサービスとして、下書き機能を提供し、本投稿が出来なかった変わりに下書きに入れておきました。
    • その機能がなければ作る手間があるし、機能が増えることでプロダクトは複雑になる。
    • 「一時的なシステムエラーです。下書きに保存しました。」
  • イベントを発行して、非同期でリトライする
    • 反映されるまで時間がかかる場合があります、というようなもの。
    • 全部後回しにできるので、ユーザ体験上はいいかもしれない。
    • でもデータは保存されていないので、投稿したレビュー一覧、とかで見れない。
  • 何食わぬ顔で保存する
    • 投稿されたデータを完全に信頼することになる。
    • 未発表の商品IDが指定されても保存できてしまうのが問題か…?
  • レビューサービス上で商品の存在可否をキャッシュ
    • キャッシュしてあればそれを使う、なければリクエスト。
    • キャッシュと実態の不整合は起こりそうではある。
  • ハイブリッド案
    • レビューデータにis_validatedのようなフィールドをもたせる。
    • バリデーションが出来ても出来なくてもデータはとりあえず保存する。
    • バリデーションが出来ていなければイベントであとでバリデーションをする。
    • バリデーションNGだったらデータを消す(非表示状態にする)
  • VS 実装の手間、コスト

つまるところ、サービス単位では基本的にはダウンさせない、プロダクトとして通して見たときに何が出来ないとエラーになるのかその時の補填をどうするか、を考える必要がありそう(それはそう、とここまで書いておいて思った)

冒頭でマイクロサービス〜とかって話にしたけれど、よく考えれば、外部のAPIを使っているようなプロダクト、サービスは全部いっしょなんだよな。そのAPIに何かしらの理由で疎通できなくなることは十分に考えられるので、そのとき自分達が何をするか、どうできるか、と。

なんかここ、こういうパターンでサービス提供は継続できますよ、みたいな一般化ができそうな気もするけれどどうなんだろう??

あとそのまんまのワードでググると、Webフロントエンドないしブラウザ系の話と、サービス間の話と、2つの世界が出てくる。どちらも違う話のように見えるけれど、本質的には、ユーザに価値を提供するためにどうするか、で一緒っぽい。