パーシャルルート運用あるある

みなさまはじめまして。きたうちです。
グリーボルダリング部の活動の傍ら、ネットワークの設計や運用を担当しています。

今回は、弊社で起きたとある事象をご紹介したいと思います。

その前にグリーの対外ネットワークを三行で

  • グリーではレイテンシーや対障害性を考慮し、複数の経路(Peering,Transit)を利用しています
  • PeeringはIXと呼ばれるインターネット上の接続点で行っています
  • Trasit回線からフルルートを受け取らない運用(仮にパーシャルルート運用と呼びます)をおこなっています

※弊社のパーシャルルート運用についてはこちらもどうぞ

今回の事象

ピアリング、トランジットのパスをそれぞれもつ、とある対向ASの内部NWから、弊社のサービスにアクセス出来ないという事象が発生しました。
対向ASとの接続は以下の図の通りです。
01

事象発生時には以下の様なルーティングとなっていました。
先ほどご説明したとおり、弊社はTransit回線からフルルートを受け取らないパーシャルルート運用をおこなっています。
02

上の図で注目して頂きたいのは、IX経由で受信している「10.0.0.0/8」の経路です。これは対向ASがバックアップ用として広報しているものだと思われます。

弊社がTransit回線から対向ASの経路を受信していなかったため、ロンゲストマッチによりバックアップ経路にトラフィックが吸い込まれてしまい、今回の事象が発生しました。
03

こういった事象が発生した場合、解決する手段はいくつか考えられますが、今回は対向ASの経路をTransitからも受信することで解決としました。
04

まとめ

今回の事象は何かが壊れたわけではなく、対向ASのポリシーと弊社のNW構成のミスマッチが原因だったため、なかなか原因に気づくことが出来ませんでした。
同様の事象をすぐ検知出来るようななにかが欲しいところです。

今後も安定したサービスをお客様に提供できるようがんばっていきます。
最後までお読みいただき、ありがとうございました。