■ 発表カテゴリ
・Tech: SREを支える具体的な技術や手法
・Practices: SREの実践例と得られた教訓
■ 発表概要
複数のAWSアカウントを運用する上では、サービスを横断したアラートの管理やコストの可視化、そして運用効率の向上が求められます。
メタップスのSREチームは、コスト最適化の観点から、ログとコストを統合的に可視化できるダッシュボードを開発しました。
本登壇では、その開発背景とアーキテクチャ、具体的な活用事例について紹介します。
■ 発表カテゴリ
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
近年、日本でもスタッフエンジニアという名称が広まってきました。スタッフエンジニアは管理職ではなく、技術面でのリーダーシップを発揮するキャリアパスです。しかし、SREの分野でスタッフエンジニアとなって活躍するには、どのような能力や役割が求められるのでしょうか。
本セッションでは、前職のメルカリでプリンシパルエンジニアおよびエンジニアリングマネージャーを経験した視点から、SREにおけるテクニカルリーダーシップと、キャリアパスについて解説します。技術力と組織への影響力を両立させるための動き方や、SREならではの課題と機会についても触れます。
管理職以外のキャリアパスを模索するSREの方々、そしてSRE組織でのリーダーシップに関心のある方々にとって、有意義なセッションになるとうれしいです。
■ 発表の詳細(1000字程度)
本セッションでは、SREのキャリアパスを考えている人に向けて、スピーカーの実体験に基づいた具体的な事例や実践的なアドバイスを伝えたいと思っています。どのような人がスタッフエンジニアのような役割を担っていたのか、他社の事例なども含めて共有します。
また、エンジニアリングマネージャーの経験を持つスピーカーならではの視点で、管理職とスタッフエンジニアの役割や実際の働き方の違いや、それぞれのキャリアパスの特徴についても言及します。これにより、参加者が自身のキャリアを考える上での新たな視点を提供します。
以下のような構成を考えています。
はじめに
スタッフエンジニアについて、一般的な定義や役割を説明し、エンジニアリングマネージャーなどのキャリアとの比較を行います。
また、SREという組織におけるリーダーシップの特殊性について説明します。
SREスタッフエンジニアの役割
スタッフエンジニアとしての役割や動き方を、実際の事例などを含めて紹介します。
必要なスキルと能力
求められるマインドや技術的な知識・経験について説明します。以下のようなトピックについて話す予定です。
キャリアパスの構築
実際にどのようにしたらSREとしてキャリアを築くことができるか、考えを共有します。
各トピックでは、理論的な説明だけでなく実際の業務シーンを想定したシナリオや、スピーカーが直面した具体的な課題とその解決策を紹介します。
■ 対象聴衆とその人たちが得られるもの
SREとしてのキャリアをより良くしたいと考えている人が、新たな視点を持つことができることを期待しています
■ なぜこのトピックについて話したいのか(モチベーション)
より多くのSREの人がエンジニアリングを続けて、現場で活躍して欲しいから
■ 発表カテゴリ
・Future: SREの未来と新しいトレンド
■ 発表概要(400字程度)
「Platform Engineeringが成熟している組織ではSREは不要ではないか」という疑問が存在します。確かに、Platformが成熟すると、開発者とPlatformだけでReliabilityを担保できるように見えますが、実際にはさまざまな課題が存在します。本発表では、Platform EngineeringとSREの役割を共に考える必要性について探求します。メルカリでの新規事業立ち上げの具体例を通じて、SREがどのように関与し、どのような方向性を持っているのかを紹介します。これにより、Platform Engineering時代に求められるSREの効果的な役割を考察し、未来へのビジョンを共有します。
■ 発表の詳細(1000字程度)
「Platform Engineeringが成熟している組織ではSREは不要ではないか」という疑問が存在します。確かに、Platformが成熟すると、開発者とPlatformだけでReliabilityを担保できるように見えますが、実際にはさまざまな課題が潜んでいます。
まず、Platform Engineeringが様々なサービスやツールを提供するようになると、それに伴い認知負荷が増加します。開発者は多様なツールを効果的に使いこなすために時間を割く必要がありますが、その結果、もしサービス改善に充てる時間が減ってしまうと、本来の開発業務に集中できなくなります。このような状況は特に新しいツールやフレームワークが追加されるたびに起こりやすく、開発者の生産性に悪影響を及ぼすのです。
Platform Engineeringは多数のサービスチームを相手にするため、各サービスチームとの距離を縮めるのは非常に難しいという課題も抱えています。ユースケースや各チームのニーズを的確に吸い上げ、適切なソリューションを提供するのは容易ではありません。開発者が実際に求めている機能とPlatform Engineeringの将来的な方向性が必ずしも一致するとは限らないため、ミスマッチを生むリスクも存在します。
このような課題をBridgeとして埋めていくのがSREの役割であると我々は考えています。SREはEnabling Teamとして、サービスチームと一体となり、提供されるサービスに対する責任を持ちながらPlatform Engineeringと密に関わります。具体的には、サービスチームとのコミュニケーションを強化し、フィードバックを収集することで、実際のニーズや課題に基づいた改善を行うことが求められます。また、SREがPlatform Engineeringの一部の改善に関与することで、組織全体として効率的に機能するための仕組みを作り上げることが可能になります。
結果として、SREは単なる運用管理者ではなく、Platform Engineeringの成長とともに進化し、その中で重要な役割を果たす存在であることを示します。SREの活動を通じて、個々のサービスチームがより高い可用性と生産性を実現できるよう、さらに進化するための道筋を示したいと考えています。
■ 対象聴衆とその人たちが得られるもの
SREチームなどでSREのより効果的な実践を行う方法を模索しており、そのための手段としてPlatform Engineeringに注目している方々がターゲットとなります。
Platform Engineeringが確たるトレンドとなりつつある今、その中でSREだからこそ果たすことができる役割があることを認識し、その知見を持ってそれぞれのPlatform Engineering/SREの実践にフィードバックしていただけることを期待します。
■ なぜこのトピックについて話したいのか(モチベーション)
今回の発表では、メルカリSREとメルカリハロSREの2人が発表者となります。Platform Engineering時代のSREの新しい役割について、新規事業である「メルカリ ハロ」の立ち上げを具体例としてとりあげ、その裏側を紹介します。
もとよりメルカリグループではPlatform Engineeringの持つ力に注目し、比較的早い段階から注力してきました。一方、Platform Engineeringの進展とともにSREの果たすべき役割も徐々に変化しつつあると感じており、最適な姿がどうあるべきかを模索している段階です。
そういった状況の中、ゼロから新規事業を立ち上げる際に、どのように今までメルカリが10年間積み上げてきたPlatform Engineeringの資産を活用し、プロダクトのスピーディーな立ち上げにつなげた試みについて紹介し、フィードバックを得たいと考えています。
ハイレベルに抽象化されたas a serviceを提供するPlatformチームとビジネス価値をいち早く市場に届けるプロダクト開発チームの間で、開発者の現実課題をPlatformを駆使して解決に導き、安定稼働を実現するためにSREができることが何なのか。Platform Engineeringの持つポテンシャルを最大限に引き出すためのSREとしての関わり方について、活発な議論につなげていきたいです。
■ 発表カテゴリ
募集要項( https://www.notion.so/srekaigi/SRE-Kaigi-2025-CfP-0939fcd968a74bddaebdbf638a957ab9 ) にある6つの発表カテゴリからお選びください
・Case Studies: 実際の導入事例や失敗談
■ 発表概要(400字程度)
サービスの信頼性を維持し、ユーザーに機能を提供するためには、サービスがユーザーの期待通りに動作しているかを観測することが不可欠です。これを実現する上で、テレメトリーの計装は重要な役割を果たします。
本セッションでは、監視SaaSの運用を例に、メトリクスを中心にしたテレメトリーの計装を通じてObservability (可観測性) をどのように改善してきたかについてお話しします。
また、その過程で直面した一般的な課題や、監視SaaSのサービス固有の課題を解決したアプローチについて監視SaaSの提供者側の視点で取り上げます。
■ 発表の詳細(1000字程度)
このセッションでは、監視SaaS 「Mackerel」 の運用において取り組んできたObservabilityの改善事例についてお話しします。セッションを通じて、Observabilityを改善する上での実践的な進め方やテレメトリーの計装に関する手法や知識を提供します。
まず、Mackerelのシステムを簡潔に紹介します。Mackerelでは、ユーザーの監視設定の不備や外部ネットワークの一時的な不調など、システム外の要因を考慮して監視機能を提供するシステムが正常に動作しているか観測する必要があり、システムの内部状態を正確に表現するテレメトリーの重要性について説明します。
次に、計装されているテレメトリー、特にメトリクスについて解説します。ここでは、メトリックの収集が容易なシステムメトリクスを利用していた状態から、テレメトリーの計装を進めたことによりObservabilityがどのように改善されてきたかを説明します。その過程で開発された、各種データベースへのクエリ結果をメトリックに変換・投稿するsql-metric-collectorやCloudWatch Logs に出力されたログを集計しメトリックとして投稿するcloudwatch-logs-aggregatorといったツール群や技術的なアプローチの変遷について紹介します。また、テレメトリーデータの計装・収集を目的としたプロジェクトであるOpenTelemetryの導入についても言及します。
加えて、テレメトリーの計装を通じたObservabilityの改善において実際に直面した課題、これに対するアプローチについても掘り下げます。具体的には、ログをメトリックを変換する際に気を付けるポイントやユーザー側の設定不備による異常を判別できるテレメトリーの計装といったサービス固有の課題への取り組みについてお話しする予定です。
■ 対象聴衆とその人たちが得られるもの
対象聴衆
Observabilityの改善に興味がある、あるいは現在進行形で取り組んでいるSRE、インフラエンジニア、アプリケーションエンジニア
得られるもの
Observabilityの改善事例
サービスにおいて実際に直面したObservabilityに関する課題やそれに対するアプローチを共有することで、SREやソフトウェアエンジニアが自社のシステムにおけるObservabilityを改善する上での実践的な進め方を知ることができます。 計装手法も含めて改善の過程に焦点を当てることで、参加者自身がObservabilityの改善に向き合う上でのヒントを得る一助となればと考えています。
テレメトリー計装の具体的な手法や知識
サービスで計装されている各種テレメトリーやその計装手法について解説します。参加者は、これらの計装手法や計装時のポイントからテレメトリーの計装に関する手法や知識を得ることができます。
■ なぜこのトピックについて話したいのか(モチベーション)
テレメトリーの計装、ひいてはObservabilityの改善はサービスの運用に携わるエンジニアの多くが一度は向き合ったことがある課題であると筆者は考えています。このようなトピックをセッションのメインテーマとして設定することで、カンファレンスでの対話や議論を促進し、セッションを通して参加者が直面している課題についても対話の場で掘り下げる機会を提供できればと考えています。
また、SREの実践事例ではテレメトリーの計装を通じた課題解決とその結果がフォーカスされることが多く、Observabilityの改善事例を参加者が参考にする上で、計装手法などの改善の過程により比重を置いたセッションがあってもいいのではないかと思い、このような発表内容でプロポーザルを提出しました。
■ 発表カテゴリ
・Practices: SREの実践例と得られた教訓
■ 発表概要(400字程度)
「SplunkとObservabilityを活用したSREの未来:データドリブンなシステム運用」では、SREにおけるデータ活用の重要性とその未来像について解説します。私の今までのキャリアでのコンテナ運用やSplunkを用いた経験をもとに、インシデント対応を効率化し、信頼性向上に貢献した実例を紹介します。また、SLOやSLIを用いた顧客体験の改善方法や、Splunkを活用したインシデントの根本原因分析、自動化対応の進展も取り上げます。さらに、データドリブンなアプローチが顧客満足度向上にどのように寄与するかを探り、SRE業務の未来におけるSplunkの役割を展望します。
■ 発表の詳細(1000文字程度)
本セッションでは、SREにおけるデータ活用の重要性と、それがどのようにしてSRE業務に変革をもたらすかについて具体的な事例とともに解説します。データに基づいた意思決定とインシデント対応は、SREにおける信頼性向上の核となる要素であり、サービスの安定運用に不可欠です。このセッションでは、私のこれまでのSplunkを用いたキャリアでの経験と、現在Splunkでお客様の活用を支援している立場から、データドリブンなSRE手法を探っていきます。
具体的には、Splunkのログ管理やSplunk Observabilityのモニタリング機能を活用して、どのようにシステムのパフォーマンスを監視し、インシデントを予測・回避するかを説明します。また、実際の障害発生時やリリース時にSplunkを活用した迅速な対応方法についても紹介し、データに基づく対応がインシデントの影響を最小限に抑え、サービスの信頼性を向上させる方法を共有します。さらに、SLAやSLOの重要性、データ活用による効率化と自動化の進展についても触れ、顧客体験を向上させるデータ活用法を解説します。また、SLA/SLOの明確な設定は、サービスの品質を定量的に評価し、エンドユーザとの透明なコミュニケーションを促進する鍵です。これにより、エンドユーザとの信頼関係構築と満足度向上の戦略を共有します。
■ 具体的には以下のようなアジェンダを企画しています。
■ 対象聴衆とその人たちが得られるもの
Splunkの活用に興味がある方や、データドリブンなSRE業務に関心がある方にとって、Splunkを活用した新しいSREのアプローチや、インシデント対応・顧客満足度向上に役立つ具体的な手法を学べます。
■ 発表カテゴリ
・Tech: SREを支える具体的な技術や手法
■ 発表概要(400字程度)
コード化されていない稼働中のサーバを移設/再構築する必要が出てきたことはないでしょうか?私はこれまで4度ほど経験してきました。この経験を通じて、手動設定が多いシステムや長期間運用されているサーバの移設/再構築がいかに難しいかを実感しました。
現代のIT運用では、インフラのコード化(IaC)が主流ですが、すべてのサーバがコード化されているわけではありません。本セッションでは、コード化されていない稼働中のサーバを安全かつ効率的に移設するための技術と手法について解説します。今後の長期に渡るインフラ運用を見据え、移設後の最適化と信頼性に関する考察や実例を交えながら、具体的な移設方法を共有し、参加者が今後のシステム運用を行う上での一助となることを目指します。
■ 発表カテゴリ
・Culture: SRE文化の醸成と組織変革
・Future: SREの未来と新しいトレンド
■ 発表概要(400字程度)
みなさんのSREとの日々は、納得感を持って進められていますか?SREは今や、業種業態問わずシステムの信頼性を高めるための重要なポジションとしての認識が広がり、実践例が増えていますよね。多くの方は満足感・納得感を得ながら仕事をできていると思います。ですが、中にはもしかすると「なにか思っていたのとは違うな」と感じている方もいるかもしれません。その違和感は、もしかすると信頼性と生産性のバランスの違いから来ているのかもしれません。
ソフトウェアエンジニアリングを元に運用を改善していくSREは、信頼性と生産性の両方にアプローチできます。それはとても良いことなのですが、その2要素は場合によっては相反することもある概念です。SREのプラクティスは信頼性を高めることにプライオリティがおかれているため、生産性のほうに興味が強い方には、もしかすると違和感を覚えることもあるかもしれません。
そんな中で出てきたのかPlatform Engineeringです。生産性を高めることにフォーカスしたこの分野は、SREと似ているポイントもあれば、異なる部分もあります。本セッションでは、その違いに着目しながら、キャリアとしてのPlatform EngineerとSREを分ける要素は何なのか、みなさんがどちらに向いているのかを判断するためのエッセンスとキャリアについてお話します。