ポストモーテム みずほ銀行システム障害 事後検証報告 | 日経コンピュータ |本 | 通販 | Amazon
感想
-
みずほ銀行システム統合、苦闘の19年史 史上最大のITプロジェクト「3度目の正直」 | 日経コンピュータ, 山端 宏実, 岡部 一詩, 中田 敦, 大和田 尚孝, 谷島 宣之 |本 | 通販 | Amazon
- 前著、この本を出す中でコンポーネントのつながりを疎にしたことを説明した責務から、このポストモーテムを出版するとのまえがき...
根本的な問題は「分散トランザクションを採用した」&「分散トランザクションのトランザクションログを(意図せず)インメモリ管理にしてしまった」
- 端的にはAmazon書評の↑のとおり。
- 事実の記載に関してはとても詳細。
- ひとまず結論が知りたいので結論から読んだ。
- 「みずほ銀行は~だった。しかも~だ。」という文が続くと胃が痛くなる。
- 一方「運用監視の環境があまりに貧弱だったためである」などという原因分析があるが、「あまりに貧弱」がどう貧弱だったのかまでは踏み込まれていない。他行のフローや環境に比べてなのだろうか、単なる指差し確認であるからなのか、等、ちょっともどかしい...
- 全体として、ポストモーテムと言いつつ、責任の所在を探る論の匂いが見え隠れする部分で、感情移入すると冷静になれない本である...
要点
- 第1章 前代未聞、12カ月で11回のシステム障害
- 頭取はネットニュースでトラブルを知ったという。
- KDDIは、すごいなと感じる。
- 第2章 行内で何が起きたのか、システム障害の真相
- 第3章 なぜ障害は拡大した、15個の疑問点
- なぜデータベースは更新不能になったのか
- なぜDBの更新不能がATMのカード取り込みにつながったのか
- なぜ「二重エラー」が発生したのか
- なぜ一度減ったATMのカード取り込みが急増したのか
- なぜ警告やエラーは見逃されたのか
- なぜ障害の規模や原因を見誤ったのか
- なぜ頭取に情報が届かなかったのか
- なぜ営業店での顧客対応が遅れたのか
- なぜe-口座への一括切り替え処理を2~3月に実施したのか
- なぜインデックスファイルをメモリーに置いたのか
- なぜインデックスファイルのリスクを見逃したのか
- なぜSOAなのに被害が拡大したのか
- 2月28日はどの不手際が致命傷になったのか
- 8月20日はなぜDBをすぐに復旧できなかったのか
- なぜハードウエア障害が頻発したのか
- 第4章 金融庁が分析する「原因」「背景」「真因」
- 第5章 障害を繰り返す歴史
- 第6章 なぜ何度も障害が起きるのか
まとめ
- 【読書感想文】『ポストモーテム みずほ銀行システム障害 事後検証報告』|猫のフレディ|日々の思考発信|note
- 【感想・ネタバレ】ポストモーテム みずほ銀行システム障害 事後検証報告のレビュー
- 再発防止策: https://www.mizuhobank.co.jp/release/pdf/2022_status.pdf
- 障害報告書を書こう! - Qiita
- 「Hey QA、なぜそのバグを見つけられなかった?」 - Qiita
- 「次から気をつけます」に対抗する、反省文よりは効果が上がる再発防止、学びの機会 - Qiita
メモがてら以上です~。