日経コンピュータ 2022年4月14日号 〜システム監視の新常識〜
表紙は、「クラウドやコンテナで激変 システム監視の新常識」です。
久しぶりにみずほの一連の障害に対する分析記事が紹介されていました。
数ある記事の中から、私が印象に残ったテーマを紹介します。
印象に残ったテーマ① みずほのシステム障害への対策不足
みずほと同様に他のメガバンクでもシステム障害は定期的に発生していますが、他行では大きな影響を出さないようにダメージコントロール機能がうまく働いているという記事が紹介されていました。
他行ではシステム障害を想定した訓練をしっかりと行っていたり、システムの開発部門と運用部門が相互に牽制を利かせ、システムの設計や開発に対して、運用部門が「運用しやすいか」という観点でレビューするプロセスが構築されているようです。
システム障害を完全にゼロにすることは不可能という前提に立ち、これらの、ある意味当たり前のことを着実に実行できる組織作りができているかどうかが、大きな障害を引き起こさないために重要であることが分かりました。
印象に残ったテーマ② みずほと他行の差異
マルチベンダー体制、利用ツール、障害への備え等、様々な観点でみずほと他行の比較が為されていました。
特に、みずほでは各業務コンポーネントで使用するツールやミドルウェアがあまりにも多種多様なラインナップとなっており、非常に運用の難しいシステム構成である点が印象に残りました。
障害対応を容易に行うために、ツールやミドルウェアの種類を減らす重要性を感じました。
印象に残ったテーマ③ クラウド時代のシステム監視
ITインフラがクラウドに移行したことで、オンプレミスのシステム監視の常識が通用しなくなってきているという記事が紹介されていました。
まず、オンプレミスでは、ログは物理サーバの中に残り続けますが、クラウド、特にコンテナ環境の場合は、コンテナが消えるとログも消えるため、外部のデータウェアハウスなどに保存する必要があります。
また、従来の三階層アプリケーションからマイクロサービスに変化したことで、監視すべきアプリケーションが格段に増えました。
このため、こうした複雑なアプリケーション構成に対応した監視ツールを導入する必要があり、SaaSを利用するケースが増えているようです。
まとめ
システムを安定可動させるために、クラウドに対する理解が欠かせないと感じました。
他にも、非常に勉強になることが書いてあるので、ぜひ読んでみてください。