◆なるべく切れない回線とはなんですか?
「落ちないシステムなんてない」
「切れない回線なんてない」
エンジニアの方なら理解してくれると思います。
しかし、理解はしつつも回線断を体験したことがある人はあまりいないのではないでしょうか。
じつはその「あまり」中にあなたが含まれないのは、わりと運が良いだけなのかもしれません。
今日もたくさんの回線が切れています。今もどこかで切れています。月額5000円のベストエフォート回線でも、月額1000万円の10G専有回線でも、切れるときはいつでも切れます。明日もたくさん切れるでしょう。明後日も。来年も。10年後も。古来電信回線から今後5Gになっても、人類が通信をし続ける限りは切れ続けます。その時に切れるのは、もしかするとあなたに関係があるネットワークかもしれませんし、運良くそんな事態には遭遇しないのかもしれませんし、気づかないうちに復旧しているかもしれません。
冗長・迂回設計の話はとても奥が深く面白い技術ですが、こと最も脆弱な物理レベルで「気を付けるべきこと」というのはあまり見たことがありませんでした。
というわけで、なるべく切れないために と なるべく早く復旧させるために どうすれば良いか。物理層というより物理で殴るレベルの、とても低いレイヤーについて、個人的に思ったことを書いていこうと思います
◆うちには関係ねーし?
キラキラステキベンチャーオフィスで働いているそこのあなた!
「実行環境も開発環境もクラウドにあるから関係ねーよ家でも仕事できるし」なんておもっていませんか?
じつはそのオフィスに引かれているのはギガフレッツ1本だったりしないでしょうか?
じつはクラウドへ接続できるのは社内オンプレVPNだけだったりしないでしょうか?
じつはファイルサーバは社内においてたりしないでしょうか?
堅実大企業の自前ビルで情シスやっているそこのあなた!
「さすがに複数キャリアバックアップ組んでるから関係ねーよ基幹はDCだし」なんておもっていませんか?
じつはその物理回線はまったく同じ経路に敷設されていたりしないでしょうか?
じつはそのDCの内部構成を把握できてなかったりしないでしょうか?
じつは入館システムだけクラウドだったりしないでしょうか?
「今日は出資元獲得のプレゼン!」
「今日は待望のリリース日!」
「本番系で障害発生中!」
そういう時にヤツらはやってきます。
オフィスの通信回線が全滅したとき
あなたの会社は仕事をつづけることができますか?
それとも、すべてを放り出して休むことができますか?
◆なにが切れますか?
切れることへの対策を行うために、なにが切れるのかを考えてみましょう。本稿では、ネットワークのうちのアクセス区間。さらに最も末端で最も脆弱で最も身近な部分にフォーカスします。場合により無限の構成がありますが、アクセス区間の物理構成はおおよそ以下のようになります
(Impressの資料がわかりやすいので引用させて頂きます。すばらしい記事なのでリンク先もぜひ参照してみてください)
Image Credit:Impress とう道の地下迷宮、都内に総延長290km~ネット社会を支える知られざるトンネル網
NTTビル/GC局
全国に数千箇所あるNTTのネットワークセンターのようなものです。「NTTビル」「GC」「所内」とも呼ばれ、DC並の規模のビルから、平屋のプレハブまでさまざまなものがあります。基本はNTT-GC局のことを指し、ほとんどのキャリアはこの内のラックを借りて通信事業を行っています。GoogleMapで「NTTビル」等で検索すれば場所がわかります。1 大型のNTTビル間やキャリアのネットワークセンタ間をコア(バックボーン)ネットワークと呼び、地域GC局間をエリア(メトロ)ネットワークと呼ぶことが多いです。"アクセス区間"という定義は場合により、「あなたの建物からコア手前のエッジ設備まで」の全てを指す場合と「あなたの建物からGC局まで」のラストワンマイルのみを指す場合があります。SLAを確認する時は気をつけましょう。対災害性能が高く、蓄電池・非常用発電機や電源車との接続も可能で、エリア停電でもほとんどの内部機器は稼働します。
光ファイバ/加入ダークファイバ
さまざまなキャリアや鉄道会社は自社でつかっていない光ファイバを貸し出しており、これをダークファイバと呼びます。このうち、GC局とGC局を結ぶものを中継ダークファイバと呼び、GC局からオフィスや家を結ぶものを加入ダークファイバと呼びます。
1本の光ケーブルには数十芯〜数百芯の光ファイバが入っており、さらに1本の光ファイバ芯に複数回線を乗せることもできます。そして、アクセス区間のダークファイバ、つまり加入ダークファイバと言ったとき、ほぼNTTのものを指すと考えて良いでしょう。
ほとんどは架空(電柱と電柱の間)ケーブルですが、無電柱化=共同溝化されたエリアでは地下を通ることができます。距離は都市部では数百メートルから数キロ、北海道などのごく限られた部分のみ長くても40キロ程度になります。2
クロージャ/AO
電柱にぶらがっている黒い/灰色い箱です。上図には局外スプリッタと記載がある部分になります。内部には光接続点やスプリッタがあります。つまり加入ダークファイバの終わりの点です。
引込線/ドロップケーブル
クロージャから建物内へ入っていく光ファイバケーブルです。屋外に設置される場合はテンションケーブル(金属線)があるケーブルになるでしょう。小規模な建物ならば数芯の光ケーブルであり、上記のクロージャ内部で、コネクタまたは融着によって加入ダークファイバと接続されています。建物内部には光成端箱/光ローゼットがあります。
建物
あなたの建物の中に入ったドロップケーブルは、光成端箱やローゼットに接続されます。もしNTT東西以外のキャリアを使っているなら、成端箱より先はそのキャリアの光ケーブル(構内線)となり、NTT東西を使っている(フレッツ等)場合は引き続きNTT東西の光ケーブルとなって、さらにそのキャリアのONU(またはメディアコンバータ・BBルーター・ホームゲートウェイ等)が置かれ、さらにネットワーク機器につながっていくでしょう。どこからどこまでが誰の責任となるかは明確に定められており、この境界をPOI(責任分界点)と呼びます。
これらはキャリア・SIerなどの資産である場合がありますが、なるべく切れないようにするためには、あなたが積極的に管理するべきネットワークファシリティとなります。
◆なんで切れますか?
さて、なにが切れるか分かったところで、これらがなぜ切れるのかを改めて考えてみましょう。
- 装置異常
- 自前装置故障/作業影響 (作業や劣化により自社装置が壊れる)
- キャリア装置故障/作業影響 (作業や劣化によりキャリア装置が壊れる)
- 電源 (電源喪失)
- 天災 (天災により機器が壊れる)
- トラフィック影響
- 自社トラフィック影響 (社内からのトラフィックが逼迫する/ループする)
- 他社トラフィック影響 (他社のトラフィックにより逼迫/キャリア装置がダウンする)
- 外部からの攻撃 (DDoS等により疎通不可に陥る)
- キャリアによる遮断 (キャリアにより遮断され疎通不可になる)
- 光ファイバー断
- 経年劣化 (経年劣化により疎通不可になる)
- 人間/動物/自動車 (要因により破壊される)
- 振動 (振動により接点が外れる)
- 自社作業影響 (自社の作業で破壊される)
- 他社作業影響 (他社の作業で破壊される)
- 火災 (火災により燃える)
- 天災 (天災により壊れる)
だいたいこのような感じです。装置をべつにすれば、ドロップケーブル>クロージャ>>>ダークファイバの順でやられます。これらの原因はほぼ経年劣化や鳥獣による害ですが、これらは以下のように
- 毎月のようにどこかでクレーンを下げ忘れたトラックが暴走して電柱ケーブルをめった切りにし
- 毎週のようにどこかの企業の残念なSEがベストエフォート回線にスループット試験機をぶっぱなし
- 山火事が起きて基幹ケーブルが鉄塔ごと溶け落ちたり
- 春がくればカラスが電柱に金属ハンガーで幸せなマイホームを建築し
- 夏がくれば蝉が光ケーブルに卵を産み
- 秋がくれば台風がケーブルをゆらして少しづつ劣化させ
- 冬がくればわずかに縮んだケーブルの接点がはずれます
ほとんどの要素が「どうしようもねぇな」とゆうことがわかると思います。もし小動物や鳥類と会話する技術がつけられるならば、Zabbixを使いこなせるよりもよほどハイクラスなインフラエンジニアになれるでしょう。Infra as Code?DevOps?この世界では念仏のほうがいくぶん役に立つように見えます。
「最新iDCなら大丈夫だろ?」とか思っていませんか?どんなに整えられ、セキュリティが強固な環境でも劣化するものは劣化し、切れるときは切れます。まったく関係ないDCユーザの作業で「フリアク下にL2SW落としてファイバーいっぱい切れちゃった☆」とか。
そのようなことを予防するためのエンジニアリングとして、ラックにお札を貼る以外に何ができるというのでしょうか?3
◆切れないためにはどうすればいいですか?
それでも私たちはエンジニアなので「とりあえず切れないようにして」と、パン買ってこいよ並みのノリで森羅万象に立ち向かうオーダーを受けます。そのとき、どのようにすれば少しはマシにできるのでしょうか。
建物
NWなんだからとNWのことばかり気にしてしまいますが、建物選びの時点で5割くらい決まります。オフィスも立派なネットワークファシリティの一環と考えましょう。もしあなたがオフィスを探したりするのであれば、おすすめは以下のようになります。
- 比較的新しくそこそこ人口が多い街であること
- 無電柱化され共同溝で光ファイバがひきこめること
- ねずみがあまりいない街であること4
- 比較的新しい建物であること
- 配管パイプが太く、室内まで光ケーブルを引き込めること
- EPS/MDF室に24/7で入室できる+ビル管との面倒な手続きがないこと
- クルマで迅速にたどり着け、最寄り電柱付近に停車できること+駐車場が近くにあること
- 基地局アンテナが見えること
共同溝化されている都市部エリアは圧倒的に障害率が低いです。最近整備されたということもあるのでしょうが、第一に優先する条件です。ただし、共同溝とただの埋設管が異なることに気を付けてください。ただの埋設管は、光ファイバ断になる確率は確かに下がりますが、万が一ユンボにぶちぬかれたときは復旧が長時間化します。また、地方の老朽化した"共同溝めいた何か"は水道管破裂などですべて破壊され、復旧に数日かかる場合もあります。
もし地上区間ならば、最寄りのGC局から家まで光ファイバをたどってみることをおすすめします。見るだけでわかることはそんなに多くありませんが、例えば経路のケーブルが重機駐車場の前を通っていたりしたらもうキレ芸のレベルなので避けましょう。
古い雑居ビル街はおすすめしませんが、巨大ビル(六本木のアレみたいなもの)もまたおすすめできません。キャリアだけでなくビル内専用の光ファイバ業者をはさむため、復旧が遅くなる傾向があります。もちろん、自然豊かなエリアなど論外です。あなたが運用者ならば、多くの緑や川のせせらぎよりも、切れない回線のほうがはるかに心に潤いを与えてくれるでしょう。
テナントを探すときは、シャフト(縦貫)を必ず見せてもらってください。ケーブル配管がテナントごとに分離され、綺麗に配線されているビルならば最高です。これらの配線は電気・通信業者が行なうことですが、人間はどうしてもきれいなところはきれいに配線しますし、きたないところできれいに配線することは不可能です。もし美しい配線を見たら、美しいコードを書けたときと同じ感覚を持ってください。そしてプログラムと同じく、一旦カオスになったビル配線は2度と整理されることはありません。他テナント作業で巻沿いになるケースは非常に多いです。
建物そのものと同じくらい重要なのがビル管です。24/7で即応でき、機器室に入室できることを確認しましょう。立ち会いはALSOKのような大手警備会社に委託しているところのほうが安全でしょう。いくら大家さんがいい人でいつでも駆け付けてくれると言っていても、人間は病気にもなればハワイにも行きます。そしてなぜか障害はそのような時に起きるようです。
道路に関しても案外重要です。キャリアはバケット車(高所作業できるトラック)で来る場合が多いですが、これが到達しやすいと復旧が迅速になります。建物前が2車線の国道で、作業時に封鎖する必要がでてきたりすると最悪の結末となります。高さ制限のない駐車場があれば完璧です。
基地局アンテナが見えることは、屋内にキャリアレピータを設置する手間を省きます。後述しますが、無線回線を設置する際の助けにもなるでしょう。
おおまかなイメージとしては、お台場のような環境が理想です。逆に神田のような古い雑居ビル街+飲食店が入り混じっている所は、可能なら避けるべきでしょう。
建物内部
オフィスには、キャリアの光終端装置やルータ、光ケーブルを設置することになります。また、その配下にはその他機器、HUBやWi-Fi APなども接続するはずです。キャリア側の故障であれば楽にすむのですが、残念ながら故障のほとんどはこれらの自前設備が原因です。このような機器類の設置ひとつでも、障害発生の低下、障害時の復旧時間に大きく関わります。
- 小型でよいのでラックに収納しましょう
- 冷却能力を重視しましょう ファンレス機器の場合は特に気を付けましょう
- ラック周辺は、前面だけでなく背面もアクセス可能にしましょう
- できない場合は、電源系統も含めてすべて前面から作業できるように実装しましょう
- 電源タップは良質なものを使用しましょう
- マウントできない装置は装置の上に積まず、ちゃんと棚板を実装しましょう
- ケーブルには丸札をつけましょう
- ケーブルはフリアクや天井付近など、人や物が触れない場所を通し、モールで保護しましょう
- HUBやスイッチをカスケードしない構成にしましょう
- Wi-Fi化はループの危険を減らします+Wi-Fi APはケチらないほうが良いです
- ぜったいに装置を積むなよ
- 家具を固定するなど、基本の地震対策をしましょう
- 簡単でいいので物理/論理ケーブル図を書きましょう。装置にはテプラを貼りましょう
- だから装置を積むなって
もしあなたが非常に優秀なエンジニアで、回線をキャリアに、ルータ等機器をベンダに手配し、自分でNWを構築しWi-Fi APやHUBを追加して低コストで社内NWを構築していたとしましょう。しかし残念なことに、それら機器をオフィスの片隅の机の下に積んだ積んだにしていると何が起きるのでしょうか?それらがいつしか荷物に埋もれていくことは確実です。そして不運なある日、キャリアもSIerも即座に修理に駆け付けるでしょうが、彼らは自社以外の物質に触れると爆発する呪いにかけられているため一切手を出すことができません。結果として、あなたは駆け付けたフィールドエンジニアに見守られる中、1人で引っ越しに等しい肉体労働をすることになります。しかもタイムアタックつきの。
さらに、アレニウスの法則という有名な法則にしたがえば、温度が10℃あがると寿命は半分になります。NW機器は発熱する部分が決まっています(ASICなど)から、同型のNW機器を積むということは高温部を集中させるということにほかならず、それは明確に故障率を上昇させます。
また、災害としては、地震の揺れでファイバの接続が外れるなどはほとんどなく、主な原因は「何かが倒れて光ファイバをぶっちぎる」です。ネットワークだけでなく人命を守るためにも、必ず家具を固定しましょう。水道管破裂・雨漏りによる機器故障もなかなか数が多いですが、漏電・感電の危険がないことを確認できない限りは復旧作業ができないため長時間化します。
電源
電源もまたネットワークの稼働に必須のものです。UPSを設置してください。
しかし本来UPSは、稼働しつづけるのではなく、コンピュータやサーバのシャットダウンまでの時間を稼ぐものです。ネットワーク機器はサーバ類とは違い(一部の装置を除いて)シャットダウンまで時間を要しないため、基本的にはUPSは不要そうにも思えます。
しかしここでは「一般的なオフィスの電源事情は必ずしも良いものではない」という点を考慮してください。「毎朝インターネットが切れる原因を調査をしていたら、掃除のおばちゃんが掃除機をかけていた影響だった」という事例は残念ながら結構多いのですが、UPSをかませることでこのような瞬断影響をなくすことができますし、サージからも守ることができます。(特定の時間に起きる異常があった場合、まずは現実世界で何かが起きていないかを疑って下さい)
オフィス側のネットワーク機器はそこまで電力を消費しないことが多いです。小型のUPSはそこまで高価ではなく、投資効果は非常に高いため、積極的に導入するとよいでしょう。ただし謎の中華バッテリUPSはオフィスごと燃えてなくなる可能性があるため絶対にやめましょう。
キャリア/回線
メインっぽい題材です。ではどこのどういうサービスを契約すればいいのでしょうか?
- アクセス回線の冗長は、デュアルアクセスを用いるくらいしかない
- マルチキャリアにしても冗長になるかはわからない
- 小規模な組織の場合、4G無線端末が活用できる
さんざん建物や環境ばかりを書いたのは、アクセス回線光ケーブルを完全に冗長するのは非常に困難だからです。この国ではごく一部を除いて、アクセス回線の光ファイバを持っているのはNTTと電力系事業者だけです。つまりキャリアっぽい会社に依頼しても結局NTTのダークファイバを利用することになります。NTT-COMとソフトバンクのキャリア冗長だウェーイ!それはどちらもNTT東西のダークファイバです。東京ならばNTT東西とKDDIの冗長、またはNTTデュアルアクセス、KDDIデュアルアクセス等を選択するくらいしかありません。その他の地方であれば電力系事業者(中部テレコミュニケーションズやトークネット等)に確認して下さい。場所により選択できない例もあり、電力系エリアでもNTTダークファイバを使用する場合もあります。
さて、運が良ければ2つのキャリアの回線を使えそうなことがわかりましたが、さらに困難なこととして、安易にマルチキャリアにするとお互いどのような経路を通っているかわからず、プリウスが電柱につっこんだらまったく冗長されてないことがわかったなんてことが起きます。ただしこのあたりは基本的に非開示なので、どこまで冗長を確保できるか(確保できるか確認できる)はあなたの会社のRFPパワー次第となります。
さんざん同一経路である危険を記載しましたが、もし「なるべく切れてはいけない」というレベルであれば、同一経路になる可能性とそれで起きうる障害は許容しつつ、通常通り複数キャリアで1本づつの契約をすることをおすすめします。「どうせ1経路しか通っていないんだから冗長する意味ないだろ」という発想は誤りです。
上記したサービスはSOHOやベンチャー的には高価であり、到底手が出せるものではありません。しかし小規模な集団では逆にバックアップにモバイル回線を利用するという選択肢が生まれます。最近は法人向けの設置型4G端末もあり、緊急時のバックアップとしては非常に優秀なので持っておくことをおすすめします。SIMを刺すだけで自動で冗長構成が可能になるVPNルータもあります。規模にもよりますが、基本的にはメインで使い続けられるレベルではないことを覚えておいてください。しかし数人レベルのオフィスならば業務を続行することが可能です。
◆切れたときのためにどうすればいいですか?
切れないことよりもこちらのほうがはるかに重要です。絶対に切れるのですから。
最も重要なのは、自分の設備が悪いのか、キャリアやSIerの機器が悪いのかを把握できることです。あなたのネットワークをあなた以上に知っている人はこの世にいません。あなたが初期切り分けを行えるならば、数時間のレベルで迅速に復旧させることができます。
何か異常がある。でもわからない。だから片っ端から連絡して「なんかよくわからないけど使えない」「なんか重い」「いいから早く来い」という依頼は、どこのキャリア・SIerも毎日5000兆回くらいきているので相手にされません(お客様窓口はこれを断るのが仕事になっています)。コンビニでタバコを番号で指定できず怒り狂っているおっさんのようにならないようにするには、何をすれば良いのでしょうか?
切れたことを把握できるようにする
- 適切な間隔で監視を行う
- バックアップ回線も必ず監視する
「切れたことがない」と思っていても、じつは「切れたことに気づいていない」ケースはかなり多いです。そこまでシビアでないのなら、ルータ等へのPing監視で良いでしょう。キャリアやSierによる能動通知オプション等もありますが、やっていることに変わりはありません。絶対に気を付けなければならないのは、「気づかなくてもよいレベルの異常を拾ってしまう」ことです。今まで監視を行っていなかったのであれば、そこまでする必要はないということです。そして、監視レベルは上げることは容易でも下げることは困難です。必ず必要最低限かつ精神的な安全が保てる範囲で監視をするようにしてください。日中は自身がオフィスにいて気づけるのであれば、キャリアの目標故障回復時間以上の間隔でPingを飛ばせば十分だと思います。
また、必ずバックアップ回線の疎通も監視できるようにします。メインに異常があり、切り替わっても疎通不可。連絡したら「え?1年前から切れてますけど?」みたいなこともあります。
切れそうな要因を把握しておく
- キャリア、ISP、ビル管の作業通知を管理する
- Windows Updateの日を把握しておく
- 社内システム/サービスの作業/イベントを把握しておく
キャリアやISP、ビル管からの作業通知を把握しておきましょう。また、社内がWindowsマシンならWindows Updateの日を把握しておきましょう。契約帯域が逼迫しているだけの可能性があります(これは非常に多いです)。
もっとも重要なのは社内でのイベントです。社内で何らかの作業をする日や、Web系のサービスを提供している場合はイベントがある日も把握し、備えておきましょう。オンプレサーバで運用しているECサイトでセールを開始したら中国からのアクセスが多くDDoS誤検知して売上ごとブラックホール行きのような、アクセス回線の異常以外も未然に防ぐことができます。
どこが切れたかを把握できるようにする
- 社内の論理構成を把握する
- 物理構成も必ず把握する
- 切り分け手段を検討・立て付ける
- 装置の正常/異常LED状態を把握する
「DCにある社内システムにアクセスできるからこのオフィスの回線は生きてる!」と思っていたらじつはその社内システムはオフィス内にあった、なんていう笑い話(笑えない)もあります。平和なうちにNW構成だけでなく物理構成も把握し、切り分け手段を検討しましょう。あらゆる疎通がオフィスから出られないなら、アクセス回線の異常の可能性が高いでしょう。ここは下手にIPレベルの切り分けをするより、機器のLEDを見ることをおすすめします。コンシューマ回線であっても、異常を示すLED状態は説明書に記載されているはずですし、実はこれでほとんどの部分を特定できます。
切れた場所によりどうするかを整理する
- 連絡先、連絡フローを整理する
- 社内での作業申請フローを整理する
- 緊急作業フローを立て付ける(社内申請が煩雑な場合)
- オフィスの作業申請方法を整理する
- DCの入館/作業申請フローを整理する(DCを利用している場合)
切れたことも、切れた場所も把握できるようになりました!最後は切れたらどうするかです。
まずは連絡先を整理しましょう。緊急連絡先が一見してわかる場所に貼っていない運用など、ちゃんと冷蔵庫に水道修理屋のマグネットを貼ってるカーチャン以下です。
回線が切れた場合はSIerなのか。キャリアなのか。どの装置が誰のものなのか。簡単なように見えますが、これらは契約で詳細に決まってるため案外難しいところです。例えば「回線が切れているのでキャリアに直接話した方が早い」と思いきや、契約上キャリアからSIerにさらに連絡しなければならず、SIerから正式依頼があってからキャリア対応がはじまる・・・など、正しいフローを把握していないと見えないところで無駄に時間を消費します。
次に「作業をする時はどのような手続きが必要か」ということを把握しておきましょう。「ビル管/DC/自社に連絡がいるのか」「どのような情報が必要なのか」「自社で依頼するのか、やってくれるのか」を確実に整理しておきましょう。自社ビルであれば、社内に外部の人間を入れて作業するときはどのような申請が必要なのかを整理しましょう。「緊急時は最低限の情報で入室できる緊急フロー」を建て付けておくことは非常に有効です。これらは一見あたりまえのことのように思えますが、「DCの入室/作業申請の出し方がわからず復旧が大幅に遅れる」は定番なので、必ず整理してください。
他社への連絡
- 契約番号/回線番号を伝える
- 何時から、どのような問題が、継続/復旧していることを伝える
- 機器のLED状態を伝える
- 自分が試したことを伝える
悲しいことに、キャリアやSIerは毎日のように障害対応をしているため、あなたがどれほど焦っていて業務影響が出ていることを力説しても、お医者さんに「不安でしょうけどまぁその歳ではよくあるんですよ」と言われてしまうような、温度感のギャップに苛まれます。どうにか迅速に復旧させるには「うちの部分は異常はない、明確にお前の部分が悪い、準備はしてあるから早く直しに来い」と伝える必要があります。
キャリアやSIerへの連絡は、まず契約番号/回線番号を伝えます。次に「何時から」「どのような問題が起きており」「継続している/復旧している」のか。さらに「装置のLEDの状態」「自分が試したこと」を伝えることが非常に有効です。このようなことを伝えれば、キャリアやSIerは「自分の責任部分が故障している」ことがわかるため「一度電源ケーブルを抜き差ししてください」「もうやったよ!!!」等の悲しい質問を相手する必要もなくなり、かなり対応が早くなります。
社内ネットワークが切れていても上記のことが行えること
- 上記の手順を、NWが全断していても実行できるようにする
意外な落とし穴ですが、しっかりと整備した資料を、例えば「クラウドストレージで管理していた」とき、社内ネットワークが全断してもその資料を見ることができるかを確認してください。また、社内ネットワークを喪失しても「ビル管へ作業申請できるか」「DCへの入館申請Excelを作成して提出できるか」なども非常に重要です。特にDCは、高度なセキュリティ拠点であるほど例外は一切認めません。「容易に更新できるように管理」しつつも「ネットワーク喪失しても参照・依頼することができる」ことは、組織のセキュリティ基準との兼ね合いで非常に難しくなっている場合があるので、必ず確認することをおすすめします。
なるべく切れない回線タイプを選ぶ
- 場合によって帯域確保/ギャランティ系の回線を選ぶ
- むやみに高品質な帯域保証/専用線などを選ばない
- ベストエフォートのベストエフォート感がキャリアによって全く異なるので研究する
ふだん個人で利用している回線はFTTHも4G/5G回線もベストエフォートですが、法人向けでは以下のような品質のグレードがあります。
グレード | 内容 |
---|---|
ベストエフォート | 1Gbpsの契約なら1Gbps出るかもしれない(出ない) |
帯域確保 | 1Gbpsの契約なら一時的な場合を除いて1Gbps出る |
帯域保証 | 1Gbpsの契約ならいつでも1Gbps出る |
専用線 | ほぼ物理レベルで1Gbpsを用意する |
※当然ながら、障害発生時はどのグレードでも0bpsになります
「なら専用線選んでおけばいいじゃん」と思うかもしれませんが、費用が圧倒的に違い、同じ帯域なら1段あがるごとに2~10倍ほどになります。たとえば5倍として、ベストエフォート100Mbpsで月額10万円なら、帯域確保は50万円、帯域保証は250万円、専用線は1000万円という差になってしまうでしょう。予算は有限ですから、むやみに高い品質を選んでしまうと帯域がとれないということになります。同じ予算であれば、1Gbpsベストエフォートがよいのか、200Mbps帯域確保がよいのかは場合によって異なるので、適切な選択をするべきです。
そして、ベストエフォートはベストエフォートでも、1Gbpsで100Mbpsしか出ないキャリアもあれば、1Gbpsで900Mbpsくらいを保証しているキャリアもあります。これは概ね値段に比例しますが、つまりベストエフォートに近づくほどガチャ要素が発生するということであり、これを使いこなすにはより高い知識と技術が必要となります。
これらの問題は、むやみにインターネット回線を利用するべきではないということを別の記事にて書きました。もしトラフィックがインターネット上のゆらぎによって影響を受けている場合、これらは適切なVPN回線に変えるだけで解決しますし、インターネットが滅びたとしてもクラウドを利用し続けることができます。
切れないよう契約を見直し続ける
- 契約している各回線の帯域を定期的にチェックし、どこがボトルネックかを把握する
- 何のためのトラフィックがどれくらいあるかを分析する
- 課題を解決するプランに変更する
- 新しいサービスが登場していないか、それが有用かをトラッキングする
物理・論理的には切れていなくても、トラフィックが逼迫してユーザ(社内の人)が通信できなければ、それは切れていることと同じですから、これらを適時確認し、契約プランを見直しつづけることが必要です。これは簡単なことで、キャリアのトラフィックモニタを見て、輻輳していれば契約帯域を拡張するだけです。昨今の通信サービスは、クラウドライクにブラウザからぽちぽちするだけで契約タイプや帯域を変更できるようになっています。
ありがたいことに、JTC社員はろくに働いていないので、帯域を専有する通信といえばビデオ会議をして仕事をしているふりをするくらいであり、そして勤務中にずっとYoutubeやAmazonプライムビデオを見たりしないほどには勤勉です。つまり一般的な企業ネットワークはあまりバースト的なトラフィックが発生せず、帯域を見積るには楽な状況が多いでしょう。
では、ネットワークエンジニアがなぜこのチンパンジーでもできそうな管理ができないのかといえば、帯域をあげるということはつまりコストが上がるということであり、それは経営者という飼育員に一蹴されるからにほかなりません。ほとんどの組織は想像しているよりも多大なカネを投資して社内ネットワークを構築しています。「社内のネットが遅すぎる。無駄になっている時間コストを計算しろ」という意見はよく見かけますが、いざ自分たちのおちんぎんを直視しつつ計算してみればコスト的には非常に妥当だったという悲しいケースもあるでしょう。
まずは帯域を拡張することが第一となりますが、さらに進んだものとしてはまずローカルブレイクアウトという技術があります。インターネットやクラウドサービスを利用するものは高品質な回線を利用する必要がないので、手前でトラフィック逃がしてしまえば上位側は輻輳しないという発想です。
さらにバーストタイプのサービスも有効です。これはたとえば「1Gbps契約のうち、300Mbpsは帯域確保で、700Mbpsはベストエフォート」といった組み合わせができたり、その配分を後から自由に設定できたりというものです。これは「1Gバースト」とか「バーストイーサ」など、小学3年生が考えた必殺技のような名前がついています。
このようなサービスによって「インターネットにアクセスする大容量トラフィックで社内が輻輳する」という課題に対して「安価なベストエフォート回線にローカルブレイクアウト」したり、「ほとんどは重要度が高くない通信だが、バックアップウィンドウのために確実に帯域を確保したい」という課題に対して「従来ベストエフォートと帯域確保の2回線ひいていたものをバースト回線1本にまとめたりする」ことができ、課題の解決をしながらコストダウンをねらうことができます。これらのサービスは10年ほどまえには登場していましたが、少し使いづらかった面がありました。しかし昨今は上述のようにブラウザから設定変更できるなど使いやすく安定してきたため、積極的に検討してもよい段階に入っています。
切れないためのモバイル回線を検討するがそれは無敵ではない
- モバイル回線を利用するとアクセス回線断でも業務継続できる可能性がある
- モバイル回線はゆらぎが激しく日常的な瞬断を許容する必要がある
- モバイル回線を本気で利用するには、無線系の知識が必須となる
- サーバルームは極めてモバイル回線と相性が悪い
前述したように、昨今では4G/5G系のモバイル回線を用いた半固定型のサービスが揃ってきました。モバイル回線を利用することでアクセス回線の障害を回避できる可能性があるため、検討している組織も多いかもしれません。また「回線が開通するまで時間がかかるので、まずはモバイル回線でしのぐ」といった上手な活用方法も見かけます。
しかし、ふだんスマホを利用している分には気づかないことですが、たとえばモバイル回線をテザリングして長期間Pingを飛ばし続けてみれば気分屋の上司のメンタルくらい安定していないことがわかります。通知なく基地局のメンテナンス作業がはじまってハンドオーバーによる瞬断が発生したり、レンテンシが増えたり、帯域が大幅に減ることもあります。
もし本気でモバイル通信を活用するならば、周辺の基地局を見て、どこのキャリアの基地局であるか、どの周波数のアンテナであるかを判断した上で契約できるようになる必要があります。また、基地局があってもそれが動作しているかわからないため、スペクトルアナライザ等を用意して確認することも必要です(これは普段Wi-Fiを構築している人には容易なことかもしれませんが、屋外であやしい機器を持っていると職質されやすいという点に気を付けてください)。さらに厳しいこととして、サーバルームは概ね建物の最も強固な場所に設置されているため、重厚なコンクリートによって無線の感度が非常に悪いということも通信の劣化に拍車をかけています。場合によってはアンテナだけをサーバルームから出すといった施工が必要だったり、サーバルームが地下にある場合はどうしようもないこともあります。「高い周波数ほど高速で通信できるが、高い周波数ほど減衰しやすい」という物理的な課題を解決するころには私たちは生きてはいないでしょう。
このような点から、モバイル回線バックアップは、ベンチャーやSOHO系なら積極的に導入する候補に入りますが、ある程度の組織であれば「有線で2キャリアバックアップを行う」「その上でさらにモバイル回線バックアップを導入する」「絶対に切れたくないトラフィックのみをそのモバイル回線に流す」といった設定が必要になるでしょう。
そしてもちろん、基地局があなたのオフィスと同じビルに設置されているとか最寄りのビルに設置されている場合、その基地局までのダークファイバもおなじ経路を通っているため、やはりプリウスが電柱にささるとモバイル回線も死んでしまう可能性があります。
モバイル回線は状況によってはとても強い技術であり、今までできなかったことができるようになりますが、それは決して銀の弾丸ではないということを認識した上で、うまく利用する必要があるということを忘れないでください。
◆さいごに
冒頭で「こと物理に関して、気を付けるべきことというのを見たことがありません」と書きましたが、こうして考えてみると、気を付けたところでどうしようもないから誰も書かないんじゃないか、というのが正直なところです。そして、散々社内で冗長の重要さを説き、なんとか予算が出たおかげで冗長構成ができ、実際に切れなかったとしても、あなたが感謝されることはありません!
結局のところ、オフィスの物理回線に依存する部分をなくし、社内閉域など構築せず、マルチクラウドかつ各国リージョンに分散して、インターネット回線さえあれば世界中どこからでも業務ができる状態にしておくことが、回線障害と業務継続という目線だけで見れば最も安全だと思います。(ただしこれはセキュリティ対策および帯域ゆらぎとのトレードオフとなります)さらに、クラウドダイレクトアクセスがあればインターネットが壊滅したとしてもクラウドを利用することさえできます。
そんなアクセス回線ですが、このように毎日違う障害に毎日違う解決法を考えなければならず、光を束ねて400Gをぶっぱなす伝送装置や最上級のコアルータを運用することとはまた違う面白さがあります。「地下機器室の壁ぶちぬいてブルドーザーがつっこんできた」と言われたとき。「電柱に鶴がとまっていて手出しができない」と言われたとき。持っているリソースとをどのように活用すれば早期復旧ができるのか?物理と論理が混ざり合うカオスを体験したい方には是非おすすめします。当然、一切感謝はされませんが!
◆おまけ
ちょっと趣旨とはずれますが、災害対策について。
災害時はすべてのキャリアが災害対策モードに移行します。さまざまな機関から情報を収集し、まず現地の安全を確認。次に現状の維持(緊急電源の供給など)その後に基幹設備の復旧が行われます。個々回線の復旧はその後となり、全国のフィールドエンジニアからその他の社員まで被災地に集中され、全力で復旧にあたります。つまり他の地方も、東日本・西日本レベルで対応力が落ちます。よく聞かれることでもありますが、その企業がどれほど社会的に権力があっても、災害対応に必要でなければ優先対応されることはありません。国という最強のカスタマーが優先されているからです。(最近強化されている、緊急時に備蓄配布所となるような民間企業はこの限りではありません)
災害時に運用/情報システム部門がすべきことは「通信の復旧」ではなく「情報力を活かして自社の状況を整理し支援すること」だと信じています。悲しいことですが、情シス部門が東京/大阪にある大企業では、現地の状況が分かっておらず、被災地の地方拠点が津波や土砂で建物ごと消滅しているにも関わらず「今すぐ回線を復旧しろ」とクレームを上げ続け、インフラ業の輻輳に拍車をかけているというのが現状です(通信業だけではないです)。テレビ・SNS等のITを活用した情報収集を迅速に行い、現地にいる自社の社員さんの安否を第一に考え、サポートできるような災害時フローを整備してくれることを切に願います。
※誤字脱字の修正と、誤解を与えてしまいそうな部分について補足を追記しました(2019/06/30)
※電源、機器、冗長とバランスについて追記しました(2019/07/04)
※文面の修正を行いました(2020/09/26)
※無線と契約プランについて追記しました(2023/02/18)