SREcon25 Americasに参加してきました
インフラストラクチャ部の岩堀(@egmc)です。
3/25-27にアメリカのサンタ・クララで開催されたSREcon25Americasに参加してきましたので、こちらの記事では現地の様子やおすすめセッションの紹介します。
なお、ほとんどのセッションについてはオープンアクセスポリシーによりすでにスライド、動画が公開されています。本記事からセッションに興味を持たれた方はぜひリンク先もチェックしてみてください。
SREconについて
既にSREというロールで業務に当たられている方にとっては説明不要かと思いますが、USENIXによって開催されているベンダー中立なSREの国際カンファレンスです。
2023年を最後にAPACでの開催がなくなり、現在は概ね1年に1回Americas、Europe/Middle East/Africaそれぞれで開催されています。
なぜ今回参加したのか
SREconへの参加は2019年以来2回目となります。
今回このタイミングで参加することにした理由のひとつとして、コンテンツの変化がありました。
SREcon25ではAmericasで初となるディスカッショントラックの導入に加え、Birds-of-a-Feather Sessions (BoFs)もアナウンスされていました。
SREconは先に述べた通りセッションの動画自体は概ね公開されます。
しかしディスカッションではそのトピックのエキスパートがリードし、参加者が自由に発言してインタラクティブにやりとりすることができます。これは現地ならではの体験です。
これらを主な目的として、今回6年ぶりにSREconへの現地参加をさせて頂きました。

会場のハイアット
ディスカッションについて
以下のディスカッショントラックに参加しました。
- What Do SRE ICs Do? How to Build SRE Skillsets
- Service Level Objectives
- Tech Debt
- Observability
- Open Unconference on SRE
開催形式は主にブレークアウトディスカッション(テーブルごとに分かれてグループディスカッションする)とAMA(Ask Me Anything、セッションオーナーが話題を振って参加者全体で議論する)に分かれます。
どちらも使うものは付箋とペンくらいで、かなりアナログに進行していきます。
正直AMAは特に物理的な距離の遠さなども相まって英語が聞き取りづらくややむずかしいな、という感じでしたが、ブレークアウトディスカッションについては比較的狭いコンテキストの中で話し合われるのでなんとか参加できました。
特にObservabilityのディスカッションで、Observabilityにかかるコストについての責任をSREが持つべきか?等、それぞれの(だいたいにおいて大きなスケールをもつ)組織の悩みポイントについて話し合われていたのが印象的でした。

ディスカッショントラックでのテーマ決め

BoFのテーマを書くボード
セッションの紹介
参加したものの中から3つピックアップして紹介します。
Safe Evaluation and Rollout of AI Models
https://www.usenix.org/conference/srecon25americas/presentation/burns
MicrosoftのCopilotの事例として、AIモデルをリリースする際に行っていることを紹介するセッションです。
会場ではその場で参加者にアンケートを取っていましたが、AIをプロダクションで利用している人は15%くらいでした。
通常SLOなどに使われる指標(レイテンシなど)に加え、AIチャットを提供するサービスとして品質を評価する必要があり、ユーザーが回答に満足したかどうか?yes/noをアンケートを取って指標とするが、回答に満足した人は通常yes(Thumbs Up)はしないので主にno(Thumbs down)をみるなど品質測定の難しさなどが話されていました。
データ収集のアプローチとしては、プライバシー上の理由により、入力されたコンテキストをデフォルトでは収集しないようにしているがそれではモデル改善のための十分なデータが得られず、そのためMicrosoft内部のユーザー(従業員)からデータを集めるという話が特徴的でした。企業として十分に大きな規模があるからこそ取れる戦略ですね。
Tackling Slow Queries: A Practical Approach to Prevention and Correction
https://www.usenix.org/conference/srecon25americas/presentation/famili
Shopifyのエンジニアによるセッションです。
ShopifyではTimeout / Circuit Breaker等複数の仕組みによりDBはresilientに構成されているが、Slow Queryによる問題は依然としてあり、それに対処する話がメインでした。
具体的にはActive Recordのコード変更検知を行い、テストでみつかった新しいクエリのexplainを自動で実行、Full Table ScanがみつかったらWarningを出して修正を促すといった手法が提示されました。

講演の様子
Distributed Tracing in Action: Our Journey with OpenTelemetry
https://www.usenix.org/conference/srecon25americas/presentation/detsicas
Cisco ThousandEyesのエンジニアによるセッションです。
OpenTelemetryによる計装を導入していく王道のセッションという内容で、これから組織として導入していくフェーズの方などに良い内容だと思います。
計装に関するテクニカルな話の他に新規サービスでは導入することを義務化して、Jenkinsへの導入など実例で効果を示すことで導入しやすくする、といった組織への導入のヒントも話されています。
なお、Cisco ThousandEyes自体もネットーワーク監視のソリューションですがトレースのバックエンドとしてはGrafana Tempoが使われていました。
理由としてはクエリ言語が柔軟なところと、メトリクスも使ってたので合わせて使うことにしたそうです。
おわりに
以上、簡単ですがSREcon25 Americasへの参加レポートでした。
全体としてはやはりAI・機械学習セッションが増えている傾向はありつつ、かといってAI一色ではなくLinuxシステム上のメモリカウントの話だけをするセッションやVarnishのような歴史のあるプロダクトとOtelの組み合わせといったセッションもあり、SREという領域の広さを改めて感じるイベントでした。
期待していたディスカッショントラック、BoFは英語でのコミュニケーションの難しさはありつつ、関連本の著者やその領域の専門家が直接フォローしてくれるのでとても体験として良いものでした。
開催場所や言語の壁もありなかなか気軽に参加できるイベントではないですが、いずれまた機会があれば参加してみたいですね。
もしこちらの記事で少しでも興味を持って頂けましたら、まずはプログラムを眺め、公開されている動画などをチェックして頂ければ幸いです。