さまざまな分野でビッグデータの活用が進んでいますが、そもそもビッグデータとはどのようなものなのでしょうか?ビッグデータを活用することでどのようなことができるのか、そしてAlibaba Cloudではどのようにビッグデータを活用することができるのかをご紹介します。
#ビッグデータとはどのようなものなのか?
ビッグデータとは、読んで字のごとく巨大なデータのことを表していますが、ただ単に容量が大きなデータがビッグデータというわけではありません。
ビッグデータの定義は「3つのV」で表されており、「データ量(Volume)」、「速さ(Velocity)」、「多様性(Variety)」が含まれている必要があります。
この3つのVとはどのようなものなのでしょうか?
まずはそれぞれの「V」について見てみましょう。
##ビッグデータの「データ量(Volume)」とはどのような概念なのか?
ビッグデータと聞いてまず思い浮かぶのが「大量のデータ」です。
ビッグデータ収集では、さまざまな情報源、ソースからデータの収拾を行うため、単位時間あたりに蓄積されるデータ量は膨大なものとなります。
そのため、収拾したビッグデータの容量は数百、数千テラバイトに達することも多く、一般的に用いられているデータベース機器では取り扱いが難しいのです。
データ分析では、基本的に分析元となるデータが多ければ多いほど導き出される結果の正確性、有用性が高まるとされています。
つまり、膨大なデータを収集して分析を行うビッグデータは、より有用な情報分析手法と言えるでしょう。
ただ、ビッグデータで収集されるデータは目的とする分析内容に不要な情報が含まれていることも多いため、処理の負担を軽減するために余計なデータを省く場合もあります。
このように、ビッグデータとして収拾した膨大なデータから不要なデータを削除し、分析しやすく調整したものについては「スモールデータ」呼ばれています。
##ビッグデータには「速度(Velocity)」も重要
ビッグデータの定義のひとつである速度とはどのような概念なのでしょうか?
データには常に収拾され続けるものと、一定期間内に収集を行うもの、過去に蓄積されたデータなどがあります。
小売店の場合を例にしてみると、常に収集されるデータはPOSレジに記録される販売情報や監視カメラの動画データ、駐車場がある店舗なら駐車場の入庫情報などもリアルタイムなデータと言えるでしょう。
このリアルタイムで収集され、更新され続けるスピードがビッグデータの「速度(Velocity)」というわけです。
ただ、ビッグデータで重要となるデータの速度(Velocity)はデータの更新速度だけではありません。
リアルタイムで収集され続ける膨大なデータを即座に処理、分析し、有用なデータをすぐに入手できるようにすることもビッグデータの活用では重要とされています。
##ビッグデータには「多様性(Variety)」も必要とされる
データを分析してより有用な情報を得るためには、データの多様性(Variety)も重要なポイントとなります。
小売店なら商品がどれだけ売れたかといった情報のほかに、来客数や天候のデータ、場合によっては店内の室温のデータや使用している店内BGMデータ、客の滞在時間なども有用なデータとなるでしょう。
ただどの商品がどれだけ売れたかではなく、天候や価格、広告戦略などでどれだけ売上が変化したのかをバラエティ豊かな情報から分析すること、これがビッグデータでは重要だといえます。
#ビッグデータを活用する上で起こりやすい問題点とは?
ビッグデータを分析することによってより有用な情報を手に入れることができますが、実際に導入した企業ではビッグデータを上手く活用できていない場合もあるようです。
ビッグデータを導入したにもかかわらず、何故有効利用を行うことができないのでしょうか?
ビッグデータを導入した場合に起こりやすい問題点について見てみましょう。
##データ量(Volume)に関する問題点とは?
ビッグデータでは常時さまざまなデータを収集し続けています。
そのため、収集したデータを保管するデータベースサーバの容量問題が起こりやすいのです。
特に、自社で機材を用意して運用を行っている場合などは容量の問題が起こりやすく、毎月の運用コストの増大や、データベースサーバの拡張費用が大きな負担となります。
Alibaba Cloudなどのクラウドサービスを用いた場合、データ容量が不足したとしてもウェブコンソールからプランを変更すれば容量をすぐに増やすことができますし、容量の拡張にかかる費用についても実機を拡張する場合に比べて安価に実施することができるでしょう。
##速度(Velocity)に関する問題点とは?
ビッグデータの速度に関しては、データがリアルタイムで収集、分析されていないといった問題が起こることがあります。
収集については必要なデータをサーバに送るだけなのでそこまで問題にはなりにくいのですが、システム上の問題でリアルタイムにデータを送れないといった場合は必要な情報が入手できないという問題が起こることもあるでしょう。
もちろん、1日の販売データ等を分析して翌日以降に利用するといった目的なら日次でのデータ収集で十分かもしれませんが、オンラインサービスなどで即時対応が必要なサービスの場合、データの収集速度、分析速度は重要なポイントとなります。
Alibaba Cloudのビッグデータ解析については、独自の解析プラットフォームが用意されており、大容量のデータについてもリアルタイムで解析結果を表示することが可能です。
また、解析結果の表示についても「DataV」というデータ可視化ツールが用意されているため、データ解析の知識がない利用者でもどのような状況となっているかを一目で判断することができるでしょう。
##データの多様性(Variety)に関する問題とは?
ビッグデータの導入にあたり、ある意味最も重要となるのがデータの多様性、バラエティです。
ビッグデータ解析ではさまざまなデータを複合的に分析することによって有用な情報を得ますが、ただ漠然とデータを収集するだけでは十分な分析を行うことはできません。
例えばですが、小売店では販売データの他に来客数や天候、客の年齢層といったデータを収集することが多いのですが、販売品目のデータを取得していなかったとしたらそのビッグデータは売上の向上には活用できないでしょう。
流石に小売店で顧客ごとの販売品目のデータを取らないということは考えにくいのですが、ネット通販ならサイトの滞在時間やサイトの読み込みにかかった時間といった見えにくいデータが重要となります。
ビッグデータを分析してサイトをより売上の見込める形にカスタムしたとしても、サイトが重ければ操作が面倒になって顧客は離脱してしまうかも知れません。
データ収集の際に読み込み時間を取得することで、サイトが重い場合にはサーバや回線の増強などの対策を行うことができます。
ビッグデータを導入する際には、ただ漠然と取得するデータの内容を決めるのではなく、業務上有用と考えられるデータを幅広く取得することが大切です。
###データのバラエティと容量のバランスを考慮した設計を
ビッグデータの活用にはデータのバラエティ(多様性)が重要となりますが、さまざまな分野のデータを取得すると、どうしてもデータベースサーバに記録されるデータ量は大きくなってしまいます。
また、データ量やデータの種類が増大すると、データの分析にかかる時間も指数関数的に増大してしまうため、必要とされるタイミングで必要となる解析結果を確認することができなくなってしまうかも知れません。
もちろん、コストを掛けて高性能な解析システムを導入したり、大容量かつ高速なデータベースを用意したりしておけば対処することもできるでしょうが、将来的な設備の拡大を考慮すると現実的とは言えないでしょう。
ビッグデータ解析を導入する際には、まずどのデータが自社のビジネスに必要となるものかを十分に分析し、不要となるデータの収集を行わないということが重要となります。
しかし、いざ運用を開始してみると、不要として排除したデータがビジネスに影響を与えていたということもあるかもしれません。
ですので、まずは包括的にデータの収集及び分析を行い、ある程度運用データから必要となるデータの傾向が把握できたら取得するデータを減らしていく形にすると良いでしょう。
#Alibaba Cloudではどのようなビッグデータサービスを行っているのか?
Alibaba Cloudでは、さまざまな分野で活用できるビッグデータサービスが用意されています。
Alibaba Cloudで使用することができるビッグデータサービスではどのようなシステムが導入されているのか、代表的なシステムについて見てみましょう。
##ビッグデータ用プラットフォーム「DataWorks」
「DataWorks」とは、Alibaba Cloudで用いられているビッグデータ用のプラットフォームです。
GUIを用いた分かりやすい操作性が特徴で、オフラインジョブのスケジューリング、データ管理権限の付与、ビッグデータの処理や解析といったビッグデータ活用に必要な作業をこれひとつである程度まかなうことができます。
また、システムデータの管理では、処理対象となるデータをフォルダやタグによって管理することができますし、ライフサイクルやオーナー管理といった細かな設定、操作も可能です。
ジョブ操作についても、GUI上からクリックするだけで設定することができるため、今までジョブ設定を行った経験がないという方でも比較的簡単に設定を行うことができるでしょう。
ジョブ操作については、サーバのジョブ管理でおなじみの日立ソフトウェア製「jp1」のようにジョブの処理状態がグラフィカルに表示され、もしジョブの実行が失敗した場合には再実行や復元、停止、一時停止といった対応もワンタッチで行うことができます。
もちろん、データ処理プログラムの開発も可能となっており、複数のプログラミング言語にも対応していますので、より詳細な分析を行いたいという方にも便利です。
##リアルタイムにデータを可視化する「DataV」
「DataV」は、「DataWorks」と違い、分析が完了したデータを分かりやすく表示するためのソフトウェアです。
一般的なデータ解析、分析ではあくまである程度知識があるユーザー向けのデータが表示されますが、DataVではさまざまな形状のグラフに分析結果やリアルタイムの情報を表示することができます。
これにより、データ分析の知識がないユーザーでも直感的に状況を把握できますので、専門家が在席していない状況でもシステムの状況に合わせた対応を行いやすくなるでしょう。
こちらの画像はAlibabaが中国、杭州市と連携して導入した市内の道路状況を表示するシステムですが、動画データや事故件数、公共交通機関の運行情報など道路に関するさまざまな情報がわかりやすく表示されています。
こちらの画像はAlibabaが中国、杭州市と連携して導入した市内の道路状況を表示するシステムですが、動画データや事故件数、公共交通機関の運行情報など道路に関するさまざまな情報がわかりやすく表示されています。
構築についても簡略化が施されており、グラフィカルインターフェイス上からドラッグアンドドロップでパーツをテンプレートに組み込むだけでダッシュボードを作成することが可能です。
もちろん、細かな設定を行いたいという方向けに、JSONを記述する方法も用意されています。
また、データ元の豊富さも特徴で、MySQLやCSVだけでなく、各種APIやAlibaba Cloudのデータベースなどにも対応しているため、幅広い情報を分かりやすく表示させることができるでしょう。
ちなみに、DataVは表示となるディスプレイの解像度に合わせて自動的に最適化が施される仕組みとなっていますので、道路の混雑状況や店内の混雑状況を待合室やロビーなどで表示させたい場合にも便利です。
その他にも、パスワードやアクセストークンの設定も可能となっており、セキュリティ上などの理由で情報を取得できるユーザーに制限を掛けたい場合にも対応できます。
#まとめ
以上がビッグデータの基本的な概要と、Alibaba Cloudのビッグデータサービスの概要についての説明となります。
次回はAlibaba Cloudのビッグデータサービスがどのように利用されているのか、事例を交えて詳細に紹介していく予定です。