インフラコストとセキュリティ課題解決のためのリアーキテクチャリング by 東口和暉

SRE Kaigi 2025
採択
2025/01/26 13:35〜
ルーム A
セッション(30分)

インフラコストとセキュリティ課題解決のためのリアーキテクチャリング

hgsgtk 東口和暉 hgsgtk
3

■ 発表カテゴリ

・Architecture: SREの視点からのシステム設計

■ 発表概要(400字程度)

サービス信頼性向上の為のボトルネックは、サービスのアーキテクチャ自体の見直しなくしては解消できないことがあります。

品質保証エンジニアリングプラットフォームAutifyのSREチームは、プロダクトのコアに手を入れなくても最適化できるコスト効率化を終えた後、コスト効率化・潜在的なセキュリティ課題解消のため、Kubernetesへの移行、Karpenterの導入、MLワークロードが稼働するGKEクラスターの運用改善、そして、SPOFを解消するリアーキテクチャリングに取り組みました。

テスト自動化ツールのインフラストラクチャは典型的なWEBサービスとはトラフィックやスケーリング要件が異なるため、教科書通りのクラウドネイティブ技術の適用では収まらない面白みがあります。本セッションで紹介される事例は、独自性のある事例であるともに、様々なサービス開発現場で再利用可能なナレッジとなるでしょう。

■ 発表の詳細(1000字程度)

本セッションは、品質保証エンジニアリングプラットフォームAutifyを題材に、サービス信頼性向上のために実施してきたリアーキテクチャリングに焦点をあてます。

Autifyは2019年にサービスローンチ後、顧客数に比例して増加するインフラコストや、複数のサービスインシデントから、アーキテクチャ自体にいくつか課題があることが明瞭化してきました。以下、SREチームによって実施されたアーキテクチャ課題を抜粋、エッセンスを議論します。

  • コスト最適化のためのAmazon ECSからEKSへのワークロードの移行
    1. 最もコスト高なワーカーサーバーの移行
      1. サーバー要求数にリアルタイムに応答するpod scalerの実装
    2. 新規マイクロサービスをhelm-chartリポジトリを活用したスピーディーな立ち上げ
    3. ノードサーバーのコスト効率化のためのKarpenter導入
  • MLワークロードが稼働するKubernetes (GKE) クラスタの引き継ぎと改善
    1. TerraformによるIaCと移行
    2. Savings Planを適用するコスト効率化
    3. GKEのauto-upgradeを安全に本番適用するRollout sequencing
  • 既知のセキュリティ課題を解消するためのテスト実行インフラのリアーキテクチャリング
    1. ゼロダウンタイムでテスト実行のSPOF (Single Point of Failure)なコンポーネントSelenium Hubのメンテナンスアップデートを行うTooling
    2. SPOFを解消するインハウスのテストノードマネジメントマイクロサービスの開発
      1. ロジックの堅牢性をテストするrobustnessテストの導入
      2. 様々なエラーケースを実際に検証するFault Injection Testingの実践

これらは、Autifyという、いちSeries-Bグローバルスタートアップに留まらない再利用可能なナレッジとして共有します。

■ 対象聴衆とその人たちが得られるもの

  • Kubernetes移行を検討している運用担当者
  • AWS EKSやGoogle Cloud GKEの適用・運用事例を知りたいインフラエンジニア
  • サービスのリアーキテクチャリングの必要性を感じているSREエンジニア・アプリケーションエンジニア
  • Resilience engineeringやFault Injection Testingに興味のあるエンジニア

本セッションを通じて以下が得られます。

  • Kubernetesへの移行事例
  • 再利用可能なhelm chartの実装方法
  • AWS EKSにおけるKarpenterの導入事例
  • production-readyなGKE clusterの運用
  • SPOFなシステムコンポーネントのメンテナンス改善とSPOF自体を排除するリアーキテクチャリングのアイデア

■ なぜこのトピックについて話したいのか(モチベーション)

  • 典型的なWebサービスの運用とは異なるからこそ、少し特殊なサービスにおけるSRE実践例の議論はこうしたカンファレンスにとって非常に有用であると信じているから。
  • 本サービスは、E2Eテストという分野ですが、一般化すると、任意のタイミングで実行されるが、その実行時間や使用リソースはバッチ的であるという扱いの難しいリクエストに対し、迅速、かつ、コストを抑えながら応答するかという要求にSREエンジニアとしてどう高い信頼性を担保していくか、という議論は聴講者の方々にとって興味深いテーマになるはずです。
  • また、Autifyに蓄積された大量のデータを用いて構築されたビジュアルリグレッションテスト等様々なAI-drivenな機能を支えるMLインフラのMLOpsやKubernetesクラスタ運用の事例は、AIが広くサービスに適用される昨今においてはあまねく参考になるでしょう。