この本書は2017年4月1日にTeradata Japanのブログに掲載された内容を、再掲載したものです。
掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。
著者 山本 泰史 (やまもと やすし)
「意思決定の自動化」と「リアルタイム・オファリング」
第12回: データウェアハウスの位置づけはどう変わるか
「意思決定の自動化」、そしてそれを利用した「リアルタイム・オファリング」の実施に関して、整理を重ねてきました。今回からは、これを実現していくためのデータウェアハウス環境について考察を進めていきます。
幼年期の終わり
伝統的なデータウェアハウスは主に、戦略的意思決定に傅くものでした。レポーティングや非定型検索、そしてときにはデータマイニングといった手法を通じて、事実の把握、原因の追究、そして将来に対する予測のために利用されていました。しかしながらこのようなデータウェアハウスの使われ方は、受動的なそれでしかなく、データを活用する(=知識を導き出し、それを行動へと適用する)という観点からはナイーブな活用でしかありません。伝統的なデータウェアハウス活用のナイーブさ - これを紐解いていくと、以下のポイントに集約されます。
1.アクセスされないデータ、発見されない知識が残存してしまう
2.ある利用者が獲得した知識が属人化し、次に知識が必要なときに忘れ去られてしまっている
(もしくは再度その知識を掘り当てなければならない)
3.知識の業務適用がなされない。もしくは適用に時間がかかる
4.上述のロスをカバーするために多くの時間と手間をかけてしまっている
このようなロス、そしてその危険性は、データとその活用に対する投資から、最大限の効果を獲得するという観点において充分ではありません。また、本稿で検討を進めてきた「意思決定の自動化」、そして「リアルタイム・オファリング」を実現していく上でも、充分ではありません。しかしながら一方で、伝統的なデータウェアハウス活用によってもたらされる戦略的意思決定と、そのための分析手法無くして、「意思決定の自動化」と「リアルタイム・オファリング」は成り立ちません。ここで重要になるのは、伝統的なデータウェアハウスの活用を内包しつつ、より先鋭的に、より貪欲に、そしてよりシステマティックにデータから知識を剥き出し、行動へと転換させていくための基盤としてデータウェアハウスを捉えなおすことです。
データウェアハウスの新たなカバレッジ
このような観点から、「意思決定の自動化」、そして「リアルタイム・オファリング」を実現するために、データウェアハウスがカバーしていく領域は以下の通りとなります。
1.A. ビジネスインテリジェンス: レポーティング、OLAP、非定型検索
2.B. データマイニング
3.C. キャンペーン管理
4.D. 各チャネルからのクエリー処理
5.E. データの継続的ロード
伝統的なデータウェアハウスが支援してきたのは上掲リスト内 A および B の一部です。データマイニングに関しては、実施する内容は変わりませんが、よりシステマティックに知識を導き出すため、アプローチが変化します。B と C については「リアルタイム・オファリング」の肝となるコンポーネントであるため別途大きく文章を割くことにして、今回は A、D、E それぞれについて整理すると共に、A から E をカバーするためのデータウェアハウス要件について整理していきます。
A. ビジネスインテリジェンス
ビジネスインテリジェンスは、戦略的意思決定を支援していくために重要なコンポーネントです。また、戦術的意思決定を自動化していくためには、そのための前提条件として「所与の状況や満足させる条件が分析によって理解されている」必要があり、この条件を揃えるためには戦略的意思決定が不可欠となります。また、リアルタイム・オファリングを実施していく際の事前分析段階、そしてオファリングの評価をしていく上でもビジネスインテリジェンスが必要となります。加えて、半自動化(リアルタイム・ビジネスインテリジェンス、例外アラーティング)の実行もサポートされます。
当該業務の特徴は、大規模なユーザーに対して定型的なレポートを配布するような業務から、専門の分析担当者が実施する、ヘヴぃで複雑な検索条件を受付け、回答を提供するような業務まで広範にわたる点です。定型的なアクセスパターンに対しては集約されたビューや多次元分析用のテーブルを準備し、それらに対してアクセスさせることが可能ですが、検索要求の非定型度が増すにつれ、明細レベルで保持された正規形のテーブルにアクセスし、要求に合わせたデータ結合や集計、派生を伴って回答を提供することが求められます。
D. 各チャネルからのクエリー処理
この処理は、オファリングや顧客対応を実施していくにあたって必要なデータを、チャネルに対してフィードする処理です。例えばコールセンターから特定顧客のプロファイルを照会する、Webサイトに来訪した顧客に対して案内するオファー内容を特定する...といった処理(本連載第11回参照)が該当します。
当該業務の特徴として、ピンポイントに絞り込まれたデータを要求する点が挙げられます。このため、処理としては極めて単純なものですが、チャネル上に存在する顧客を待たせないという観点からは、回答要求スピードが求められます。また、企業のフロントエンドチャネル業務の一角を占める処理であることから、高い可用性も求められます。
E. データの継続的ロード
A から D までの各業務において、最新のデータを利用したいという要件が加わります。全てのデータが伝統的なバッチロードからよりリアルタイムに近いロード形態へと移行するわけではありませんが、より鮮度の高いデータを要求する業務が増加します。以下はその例です。
1.A における半自動化処理: ロードされたデータの値を判断し、それをトリガーにユーザー通知
2.B におけるリアルタイム・スコアリング: 最新のデータを変数として用い、確率スコアを析出
3.C におけるイベント主導型マーケティング: 有意な顧客イベントを検知し、それをトリガーにオファー案内
4.D における問い合わせ: 最新の顧客行動履歴、顧客属性を照会
支援するデータウェアハウスの要件
ここまでで触れてきた業務を支援していくためには、幾つかの要件をクリアする必要があります。まず、A から E はそれぞれに多種多様な処理形態であり、優先度や必要パフォーマンス量がそれぞれに異なります。Teradata ではこのような環境を「混合ワークロード」環境と呼んでいます。例えば各チャネルからの問い合わせは、最優先で処理を進めなければなりません。また日常業務の時間帯はユーザーサービスも優先されるべきです。このような要求に対してデータウェアハウスの資源を適切に、しかも動的に割り当てることができなければ、混合ワークロードを支援することができません。Teradata ではこのような要件に対応するため、Teradata Active System Management の機能を提供しています(詳細は以下を参照下さい)。
・Teradata Active System Management
また、伝統的なデータウェアハウス環境下で求められる可用性よりも、高い可用性を実現することが求められます。Teradata では、Teradataデータベースを稼働させるハードウェアに超並列型コンピューターを採用することによって、システムを構成する各コンポーネントを二重化させ、データウェアハウス環境の耐障害性を高めていますが、より高い可用性を実現するために、システムそのものを二重化させる機能を提供しています(詳細は以下を参照下さい)。
・Teradata Dual Active Solution
そして、最新のデータを継続的にデータウェアハウスへとロードするための機能として、TPump というローディングユーティリティを備えています。このユーティリティと Teradata Active System Management の機能を組み合わせることによって、より重要度の高い、利用者向けサービスや、チャネル向けのデータフィードに影響を与えることなく、最新データを取り込むことが可能となります(詳細は以下を参照下さい)。
・TPump(Teradata Load & Unload Utilities内の機能)
データウェアハウスをチャネル管理アプリケーションや、ビジネスインテリジェンス・ツール等と連携させ、企業システムの中に埋め込んで活用していくためには、オープンなインターフェースを利用して接続することが必要となります。Teradata では ODBC、JDBC 接続のドライバーに加えて、Microsoft .NET言語で構築されたアプリケーションからアクセスするためのインターフェース(Teradata用 Microsoft .NETデータプロバイダ)や、Eclipse環境向けのプラグイン(Teradata Plug-in for Eclipse)を提供しています(詳細は以下を参照下さい)。
・Teradataデータベースとのインターフェース(Teradata Utility Pack内の機能)
最後に、当然のことながら、データウェアハウスとしての性能が優れていることが必要です。膨大になるデータとユーザー、複雑になる検索要求に対応するためのパフォーマンスと拡張性を有していることが求められます。Teradata は超並列型の処理を念頭に置いて設計されており、このデザインを最大限に活かすために、シェアードナッシングというアーキテクチャ、ハッシュ分散というアルゴリズムを採用しています。これによって大規模データと多数の同時接続ユーザーをサポートし、複雑な非定型検索からピンポイントクエリーまで、様々な処理要求に対して高いパフォーマンスを提供することが可能であり、必要とされるパフォーマンスの大きさに応じて段階的な拡張性を提供します。そしてその能力は、国内外数多くの企業において実証されています(詳細は以下を参照下さい)。
以上、Teradata の製品機能に関する位置づけも踏まえ、「意思決定の自動化」と「リアルタイム・オファリング」を実現するためのデータウェアハウス基盤について整理をしました。次回以降で、今回触れなかった「データマイニング」と「キャンペーン管理」について整理をします。