前回の記事ではAlibaba Cloudにおけるビッグデータの概要について簡単にご紹介しましたが、今回はAlibaba Cloudでビッグデータがどのように活用されているか、さまざまな導入事例、活用事例などを元にご紹介していきたいと思います。
##そもそもビッグデータでどのようなことができるのか?
今更かもしれませんが、そもそもビッグデータを活用することでどのようなメリットを得ることができるのでしょうか?
Web広告や小売店の売り上げデータなど、業務を行う上で何故成果が出たのか、出なかったのかという分析は欠かせません。
従来のシステムでは、小売店なら店舗ごとに得られるPoSレジのデータから、客層や商品の売れ行きなどから店舗の傾向を分析し、力を入れるべき部分を探していました。
しかし、このような分析手法では、あくまで客層と売り上げ、場合によっては天候などのデータを元に解析を行っていくため、精度が足りず、分析結果から方針を決めても、十分な効果が得られない場合も多かったのです。
ビッグデータを用いた解析では、従来の解析では使用しなかった、収集していなかったさまざまなデータを用いて解析を行うことで、より精度の高い分析を行い、効果を得られる確率を高めることができます。
とは言え、従来の分析、解析ではあくまで売上やそれに付随するわずかなデータを元に処理を行うため、データ量によっては人力での解析や市販のパソコンでの分析が可能でした。
ですが、ビッグデータではこれらの情報に加えて駐車場の入庫情報や近隣道路の混雑情報、地域のイベント情報など、売り上げに影響すると思われるデータを組み合わせて分析を行うため、データ量はとても大きくなってしまいます。
つまり、人力やパソコンなどで処理を行おうとしても、すぐには分析が行えず、耐えず変わりゆく状況にフレキシブルな対応をとることができません。
そのため、ビッグデータを活用するためには、高い処理能力を持つ大規模なデータセンターと、蓄積され続ける膨大なデータを保管するストレージが欠かせないのです。
###ビッグデータの活用にはクラウドサービスが最適
処理能力の高いサーバ機器や、大容量ストレージなどを自社で用意する場合、データセンターに機器を設置し、エンジニアがシステムを導入するとなると膨大な費用がかかってしまいます。
また、データ量の増大傾向によっては、定期的にストレージを拡張しなければならない場合もあり、運用、保守コストの他にシステムの拡張費用まで必要となるかも知れません。
こうなるとビッグデータを活用することで得られるメリットよりコスト面でのデメリットの方が大きくなってしまい、ビッグデータを導入する意味が薄れてしまうでしょう。
つまり、ビッグデータを活用するためには、できるだけ運用保守、拡張にかかる費用を抑えることが望ましいというわけです。
コストを抑えつつビッグデータ解析を導入したいという場合、どのような方法が良いのでしょうか?
近年、ビッグデータ分析を導入している企業などでは、自社でサーバやストレージを用意するのではなく、Alibaba Cloudなどのビッグデータ解析機能を提供しているクラウドサービスの利用が主流となっています。
これは、Alibaba Cloudなどではあらかじめビッグデータ解析及び表示関連のシステムが用意されていること、そしてデータ量や処理能力の拡張が必要となった場合にも、契約内容を変更することですぐに対応できることが理由です。
自社データセンターの場合、システムの拡張には機材の手配や機器設置工事の手配、エンジニアのスケジュール調整などが必要となるため、実際にシステムを拡張して運用を開始するまでタイムラグが発生してしまいます。
Alibaba Cloudなどのクラウドサービスの場合、コンソールにアクセスして必要な処理能力、ストレージ量を選べばすぐに性能面を拡張することができるため、タイムラグはほとんどありません。
また、拡張にともなう費用についても、工事費用や機材の購入費用などがかかりませんし、サーバエンジニアやネットワークエンジニアに作業を依頼する手間もかからないため、コストを大きく抑えることができます。
これらの理由から、現在ビッグデータ分析を導入している、導入しようとしている企業では、クラウドサービスを用いることが主流となっているのです。
##Alibaba Cloudを用いたビッグデータ解析の活用例
ビッグデータ解析を使用することができるクラウドサービスはいくつかありますが、今回は中国で大きなシェアを獲得している阿里巴巴集団(アリババグループ)が運用しているAlibaba Cloudについて見てみましょう。
アリババグループとは、日本で言う楽天やamazonと言ったネット通販サイトの中国版とも言えるサービスを中心に、データセンター事業などを行っている企業体です。
企業向けクラウドサービス、ビッグデータ解析サービスでは、Microsoft社の提供しているAzure、AmazonのAWSなどが有名ですが、これらに匹敵する高機能なサービスとしてAlibaba Cloudが注目されています。
何故Alibaba Cloudは近年高性能なクラウドサービスとして注目されるようになったのでしょうか?
アリババでは、毎年11月11日から1週間「独身の日セール」というキャンペーンが行われ、売り上げはアリババのECサイトだけでなんと約2兆5,000億円、件数にして約15億件。
アメリカでもブラックマンデーやサイバーマンデーなどの大規模セールが行われていますが、これらが1日で3,000億円前後の売り上げですので、独身の日に発生するトラフィックの巨大さがよくわかります。
これだけのトラフィックを問題なく処理しているシステムの基幹として用いられているのがAlibaba Cloudです。
###アリババではどのようにビッグデータ解析を利用しているのか?
独身の日における膨大な取引処理をこなすことで注目されているAlibaba Cloudですが、実際の運用ではどのようにビッグデータが活用されているのでしょうか?
ECサイトでの通販では、どうしても注文や決済の処理に注目が集まりがちですが、注文件数が多いということはそれだけ配送体制にも負担がかかります。
これだけの売り上げにともなって発生する物流トラフィックを処理しようとすると、ただ漠然と配達を行うだけではすぐに物流拠点が飽和してしまうでしょう。
実際に、日本でも年末商戦の時期などには物流のトラフィックが増大し、商品の到着にかかる時間が伸びると言った問題が起こりますが、アリババではこの配送トラフィックの処理にビッグデータ解析が使われています。
アリババでは、注文が行われると決済処理などを行うと同時に効率的な配送ルートがシステムによって調べられ、それを元に実際の配送が行われます。
また、「DataV」というデータ可視化ツールを用い、中国のどこで注文されたのかや、配送ルートも視覚的に表示される仕組みも導入されているのです。
もちろん、これらの解析結果はほぼリアルタイムで解析が行われているため、DataVの画面を確認するだけで注文が多い地域や配送件数が多いルートも確認できます。
その他にも、アリババではビッグデータ解析をWebサイトのセキュリティにも活用しており、実際の攻撃内容を解析することで誤検知を低減し、より利便性を高めています。
##Alibaba Cloudのビッグデータ解析を活用する
自社のシステムにAlibaba Cloudのビッグデータ解析を導入する場合、どのように活用していけば良いのでしょうか?
ビッグデータ解析では、さまざまなデータを元に目的とする情報を得ることができますが、どのような解析結果を得たいのかをはっきりさせておかないと折角の分析能力を生かすことができません。
また、得られたデータの活用についても、データ分析の専門家によって分析結果を判断しなければならない仕組みにしてしまうと、折角のリアルタイム分析を生かすことができません。
ビッグデータ解析を導入して最大限活用するためにどのようなシステムを導入する必要があるのか、運用体制をどう構築するかについて考えてみましょう。
###求めている情報にあわせて蓄積するデータを最適化する
統計などの分析では、解析の際に用いるデータの種類、量によって解析結果の正確性が大きく変化しますが、種類や量をただ漠然と増やしてしまうのは望ましくありません。
データ量の増大はストレージ容量の増大に繋がりますし、解析を行う際の処理負担も大きくなってしまいます。
Alibaba Cloudなどのクラウドサービスを用いた場合、ストレージ容量や処理能力の拡張を簡単に行うことができますが、拡張するとそれだけコストが高額となるため、費用対効果を考えるなら無駄はできるだけ省くことが望ましいのです。
もちろん、導入初期段階で収集するデータの種類や保持する期間などを最適化することは難しいですし、本来は必要なデータまで削ってしまうとデータの正確性に問題が生じてしまいます。
ですので、導入初期段階では目的とする情報に関連すると考えられるデータを収集しておき、分析を続ける中で不要と判断できるもの、正確性に寄与しにくい、寄与が少ないものを削減するという形にすると良いでしょう。
また、データを保持する期間についても、全てのデータを保持し続けるというのは望ましくありません。
ビッグデータ解析で用いられるデータは日夜収集され続けているため、そのままの状態ではどんどんストレージ容量を圧迫してしまいます。
過去のデータについては分析後の結果のみを保持しておく、分析結果に影響が無いと判断できるものについては外部媒体に保管するなどの運用体制を導入し、ストレージ容量の増大を抑える努力を行いましょう。
###専門家による分析を必要としないリアルタイムなシステムを構築する
ビッグデータ解析だけでなく、データ解析の分野では導き出された情報がどういうものか正確に判断するためには、ある程度データ解析の知識と経験、そして時間が必要となります。
例えば配送サービス業で、特定の曜日や期間になると配達時間が遅くなるという問題があったとします。
蓄積されたデータを調査してみると、配達が遅れる時期には、配送量の増加や特定地域での交通量の増加が起こっているという結果が得られました。
それぞれの分析結果から想定される問題点を考えた場合、配送量の増加なら運送車両の不足や人員の不足、交通量の増加なら渋滞などによる移動時間の増大が予想されます。
問題点を正確に把握するためには、これらの情報に加えて、当日の交通事情や人員の配置情報なども複合的に分析しなければなりません。
その上で特定時期には人員や車両を増やす、渋滞の起こりやすい経路を避けるなどの対策を考える必要があるでしょう。
しかし、このような旧来の分析手法は結果が得られるまでに時間がかかってしまうため、次の繁忙期に対する備えにはなりますが、突発的な需要の増大には対応しきれません。
また、時期だけで対策を行ってしまうと、荷物量や交通量が前年より低下した場合、用意していた人員や車両に関するコストが無駄になってしまいます。
この画像は2017年の独身の日セールにおける実際のDataVの画面です。
配送量の多い経路や注文が多い地域ほど光が強く表示され、画面右部分では注文件数や内容、男女比などがグラフ形式で表示されているため、一目で状況が把握できるようになっています。
もし、配送システム向けにビッグデータ解析を導入するなら、倉庫に残っている品物の配送先別の件数や道路状況、人員や配送車両の配分、配送車両の積載状況などを表示する形にしておくと良いでしょう。
オペレータ室にこれらの情報を表示するモニタを設置しておけば、この情報を元に空きのある地域から混雑地域に人員や車両を移動させたり、混雑の少ない移動ルートを指示したりすることでより安定した配送環境を整えることができます。
##まとめ
Alibaba Cloudのビッグデータ解析では、処理速度の速さによるリアルタイム性、情報の正確性など、さまざまなメリットが得られます。
しかし、それらのメリットを最大限活用するためには、情報の速度に対応できる環境の構築が最も重要なポイントとなります。
運用におけるコストも重要なポイントではありますが、構築の際には、解析によって得られた情報をどう活用するかについても入念な設計が必要です。