bpftraceで深夜にプロセスをkillした犯人を特定する

インフラのいわほり(egmc)です。 eBPFを利用したプロダクトとしてはCiliumなどがcloud nativeな文脈として盛り上がっていますが、一方でBCC Toolsやbpftaceは、システム内部のかゆいところ […]

Managed Prometheusを用いたGKE監視基盤の話

こんにちは、インフラの小林です。 GCP環境の監視基盤が一段落し実績も積めてきたので、アーキテクチャについて簡単に紹介します。この記事ではメトリックに焦点を当てています。Prometheusを用いたGCP監視基盤を検討し […]

10年もののメトリクス収集機構をリプレースした話

インフラのいわほり(@egmc)です。 久々のエントリとなりますが、今回はインフラのMonitoring Unitとして長期的に取り組んでいた監視システムのリプレースについてのお話になります。 背景含めて長いエントリとな […]

SREcon19 Americasに参加してきました

開発本部インフラストラクチャ部の岩堀・反田です。 私達は部内のチームへの所属の他、Monitoring Unitというチームに属しており、サーバ監視システムの運用を担当しております。 今回Unitとして3/25-27にブ […]

Info
SREcon19 Americas
6年くらい前に自作した metric がそこそこ有用だと思うので、OSSで公開します

こんにちわ。せじまです。 秋くらいから艦これ再開したので、ちょうどよいWindowsタブレットはないものかと物色しており、 Surface GO LTE Advanced(一般向け)の発売を待ちわびている今日この頃です。 […]

Stackdriver Monitoringの機能拡張

インフラの反田です。AWSやGCPのモニタリングまわりを担当しています。 GREEでは、大部分のサービスをAWSで運用していますが、一部の新しいサービスではGCPも利用しています。 AWSで運用しているサービスについては […]

Prometheusによる数百台規模のモニタリングで直面した問題について

インフラの反田 (@mtanda) です。 GREEでは、多くのサービスをAWS環境で運用しており、それらサービスのモニタリングシステムとしてPrometheusを利用しています。 Prometheusを導入してから約2 […]

SQS、ElastiCache、Lambdaで作る高可用なアラート通知システム

インフラのいわほり(@egmc)です。 サーバ監視を構成するシステムは色々ありますが、今回はAWS環境上での監視に使われているアラート通知の仕組みについて紹介させて頂きます。 監視システムの構築そのものは2015年頃、A […]

Info
大規模インフラの監視システム その2

 こんにちは。グリーのmdoi(@m_doi)です。  今回は、グリーの監視システムについて説明したいと思います。以前、こちらの記事にて、リソース監視システムの説明をさせて頂きましたが、死活監視やログ監視については語られ […]

大規模インフラの監視システム

こんにちは。インフラチームの ebisawa です。 今回はグリーのインフラにおける各種機器の監視がどのように行われているのかご紹介させていただきたいと思います。一般にサーバの監視というと、システムダウンを検出するための […]