12
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

NTTドコモ R&DAdvent Calendar 2021

Day 17

サーバ数千台規模のクラウド基盤を6年以上運用して分かってきたこと

Last updated at Posted at 2021-12-16

本記事のサマリ

  • NTTドコモ クロステック開発部では、低コスト・ロングライフをコンセプトに、2015年頃からOSSベースのクラウド基盤(以下、本クラウド基盤)を開発・運用中であり、現在では、数千台のサーバ・十数リージョン規模まで拡大している
  • 本クラウド基盤は、コスト効率化を追求して開発・運用されており、パブリッククラウド利用に対して大幅なコスト優位を実現している
  • 自社でクラウド基盤を持つために重要なことは、パブリッククラウドとの差別化ポイントを明確にし、そのポイントを追求し続けることであると考えている

自己紹介

株式会社NTTドコモ クロステック開発部の浦野と申します。2018年より本クラウド基盤担当に着任しました。物理・仮想リソースのキャパシティプランニングや本クラウド基盤に関わるTCO・コスト戦略などを担当しております。

本クラウド基盤紹介と拡大戦略

本クラウド基盤概要

本クラウド基盤はOSSベースで構成されており、数千台のサーバ、数十万vCPU、全国各地に合計十数リージョンといった規模である。単一ユーザのみにリソース提供するのではなく、マルチテナントとして複数ユーザがリソース共有をしている。

森と木の拡大戦略

規模拡大のきっかけとなったのは、とある大規模社内システムであった。当該システムは、それまで専用ハードウェアを用いていたが、EOLに伴う移行先として、本クラウド基盤が採択された。当該システムは、数万vCPU単位の検証環境・本番環境を持つような大規模システムであるがゆえに、遊休リソースが存在していた。我々は、この遊休リソースに着目し、クラウド基盤上の仮想リソースの有効活用に努めた。具体的には、遊休リソースを他の中小規模プロジェクトに開放し、1つの基盤に用途の異なる複数テナントが混在する形でリソースを提供することとした。まさに、森(大規模システム)を作って、多種多様な木(中小規模システム)を植えるという戦略の結果、現在の規模まで拡大できたと考えている。

テンプレート提供による開発効率化

本クラウド基盤上でのアプリケーション開発効率化のために、Web3層モデルなどのシステム構成を自動構築するテンプレートを提供している。本テンプレートを用いることで、仮想サーバ・仮想ネットワークはもちろんのこと、Web3層モデルであれば、Webサーバ・APサーバ・DBサーバを構成する上で、検証済みミドルウェアまでが自動構築される。さらに、これらシステム構成やミドルウェアは、社内のセキュリティ基準の大半を満たすように設計されているため、ユーザにとってアプリケーション開発に資源集中できるような環境を提供している。

設計思想

本クラウド基盤の特徴は、低コスト・ロングライフとしてバプリッククラウドなどと差別化しているところにある。

ポジショニング.png

これらを実現するために、下記3点のポイントを徹底している。

  1. OSSのAs-Is利用
  2. SLAおよび責任分解モデルのユーザ同意
  3. ハードウェア・ソフトウェアのEOL/EOS対策の工夫

ここでは、1.2.における割り切りついて説明する

OSSのAs-Is利用

クラウドシステムとしての機能および提供テンプレートについて、ゼロスクラッチでソフトウェア開発するのではなく、OSSを組み合わせることで実現している。
OSSにバクがあった場合は、そのバクそのものを直す(ソースコードを変更する)のではなく、バグを避けるような対処(運用対処・代替手段の利用)として割り切りしている。

SLAおよび責任共有モデルの同意

SLAを99.95%(年間約4時間20分)と定め、99.95%以上の信頼性や可用性を求める場合には、アプリケーション(ユーザ)側でカバーしてもらう取り決めをしている。そのために、ユーザにはシステム構成の冗長化を推奨し、さらに、地理的に異なるリージョンを跨いだDR構成をとることも可能としている。
仮想リソースの提供に関して、基盤側はIaaSレベルまでの責任を持ち、それよりも上のレイヤはアプリ側に責任を持ってもらう、責任共有モデルを取っている。なお、先に述べたテンプレートを利用しているユーザには、一部ミドルウェアのサポート(運用対処・代替手段の提供)をしている。
ユーザとは、これら取り決めに対して、事前に同意書を取り交わす形で、基本的に、基盤側は同意書を逸脱した対応はしないこととしている。

責任範囲.png

終わりに

現在、パブリッククラウドがメジャーな存在である一方で、これらと差別化ポイントを確立することは、自社クラウド基盤を運用する上で欠くことはできない。差別化ポイントの徹底した追求により、ようやく自社クラウド基盤を持つ意義が生まれると考えている。

12
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?