■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
アプリケーションのリリース起因の不具合や、クラウドサービスの設定ミスによって、本来不必要なコストが急増することがあります。このようなコストの急増(弊社では「コスト障害」と定義)への迅速な対応および再発防止には、過去のナレッジを開発組織内で共有することが重要です。
発表者は、コスト障害に関するナレッジの共有のため、SREのプラクティスであるポストモーテムをFinOpsに適用した「コスト版ポストモーテム」を提案・導入しました。そして、これを実際のコスト障害で試した結果、ポストモーテムだけでなく、その前後のワークフローもFinOpsに適用する必要があることに気づきました。
本セッションでは、コスト版ポストモーテムの導入に至った背景と、導入後に気づいた課題を、実際の事例に基づいて紹介します。そして、この課題を解決するために導入したコスト障害発生時のワークフローを紹介します。
■ 発表の詳細(1000字程度)
自分たちの現場でも本セッションのプラクティスを採用すべきか判断していただくために、はじめにコスト版ポストモーテムの提案に至った背景を説明します。
そして、コスト版ポストモーテムの提案と導入、およびその後の改善(コスト障害発生時のワークフローの整備)を、具体的な実例を交えて紹介します。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
その人たちが得られるもの
■ なぜこのトピックについて話したいのか(モチベーション)
SREはインフラに精通しているため、インフラコスト削減の主導・実施を求められがちです。その一方、コストに関する取り組みは社外発表しづらいこともあり、なかなか他社の事例を聞く機会がありません。この発表が、SREのFinOps的な活動の共有を促すきっかけになることを期待しています。