予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善 by 吉澤 政洋

SRE Kaigi 2026
セッション(30分)

予期せぬコストの急増を障害のように扱う――「コスト版ポストモーテム」の導入とその後の改善

muziyoshiz 吉澤 政洋 muziyoshiz
11

■ 発表カテゴリ

・Practices: SREの実践例と得られた教訓

■ 発表概要(400字程度)

アプリケーションのリリース起因の不具合や、クラウドサービスの設定ミスによって、本来不必要なコストが急増することがあります。このようなコストの急増(弊社では「コスト障害」と定義)への迅速な対応および再発防止には、過去のナレッジを開発組織内で共有することが重要です。

発表者は、コスト障害に関するナレッジの共有のため、SREのプラクティスであるポストモーテムをFinOpsに適用した「コスト版ポストモーテム」を提案・導入しました。そして、これを実際のコスト障害で試した結果、ポストモーテムだけでなく、その前後のワークフローもFinOpsに適用する必要があることに気づきました。

本セッションでは、コスト版ポストモーテムの導入に至った背景と、導入後に気づいた課題を、実際の事例に基づいて紹介します。そして、この課題を解決するために導入したコスト障害発生時のワークフローを紹介します。

■ 発表の詳細(1000字程度)

自分たちの現場でも本セッションのプラクティスを採用すべきか判断していただくために、はじめにコスト版ポストモーテムの提案に至った背景を説明します。

そして、コスト版ポストモーテムの提案と導入、およびその後の改善(コスト障害発生時のワークフローの整備)を、具体的な実例を交えて紹介します。

  • 背景:インフラコスト削減の取り組み
    • 多数の開発チームによるマルチプロダクト開発
    • SREチーム単独でのインフラコスト削減の取り組みの限界
    • インフラコスト削減のため、2024年6月にSREとソフトウェア開発者の合同チームを結成
    • アーキテクチャ改善を含むコスト削減を実施し、目標を達成
  • コスト版ポストモーテムの提案
    • コスト削減にもポストモーテムが必要と考えた理由
    • コスト版ポストモーテムの提案
    • アーキテクチャ改善によるコスト削減の実例
    • 実例に基づくプロトタイプ版の執筆
    • 開発本部内での共有およびアンケートの実施
  • コスト版ポストモーテムの導入
    • コスト版ポストモーテムを書く2つのパターン
    • パターン1. アーキテクチャ改善後
    • パターン2. 予期せぬコストの急増への対応後
    • 予期せぬコストの急増の例:アプリの不具合によるインフラコストの急増
    • 導入してわかったこと1. ポストモーテムを書く以前の問題として、コスト障害に対する開発チームの優先度が上がらない
    • 導入してわかったこと2. ポストモーテムを書いたあとに、誰かが再発防止策を徹底させる役割を持つ必要がある
  • コスト障害発生時のワークフローの整備
    • 基本的なアイディア:予期せぬコストの急増を障害のように扱う。通常の障害とは別に「コスト障害」を定義する
    • CREチームを中心としたアンドパッドの障害対応の体制
    • 従来の障害対応のワークフロー
    • コスト障害対応のワークフロー
    • 従来の障害対応のワークフローを踏襲した部分
    • 従来の障害対応のワークフローとは変えた部分
  • まとめ

■ 対象聴衆とその人たちが得られるもの

対象聴衆

  • インフラコスト削減に取り組むエンジニア(主にSRE、FinOpsエンジニア)

その人たちが得られるもの

  • 開発組織を、予期せぬインフラコストの急増に対応できるようにするためのプラクティス(コスト版ポストモーテム、コスト障害対応のワークフロー)

■ なぜこのトピックについて話したいのか(モチベーション)

SREはインフラに精通しているため、インフラコスト削減の主導・実施を求められがちです。その一方、コストに関する取り組みは社外発表しづらいこともあり、なかなか他社の事例を聞く機会がありません。この発表が、SREのFinOps的な活動の共有を促すきっかけになることを期待しています。