How to Generate Business Value From Unstructured Data Analytics - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
パワフルなビッグデータ処理プラットフォームとアルゴリズムの進化に伴い、大規模かつ複雑なデータセットを分析する能力が出現しています。非構造化データ分析によって達成される多大なるビジネス価値により、この能力はデータウェアハウスと互換性がある構造化、準構造化データの枠を超えるものとなっています。
企業はなぜ非構造化データを処理する能力を必要とするのか
非構造化データの量と多様性は増加し続けています。生成される全てのデータの70%から90%が非構造化データとなっています。年間60%の増加が見込まれており、数百ゼタバイトになると推定されています。このようなデータをストレージに格納し、クラウドデータウェアハウスでアクセスすることは間違いなく価値のあることですが、多くの価値は特定のユースケースに合わせたカスタム処理によって得られます。
非構造化データ分析ユースケース
非構造化データ分析のよく知られている例は、医療、自動車領域からのものとなります。非構造化医療データの価値は明確です。例えば、人体の画像データに対する深い理解によって命が救われます。しかし、他の業界でも感情分析、予兆分析、リアルタイムの意思決定など数多くの実世界におけるユースケースが存在しています。もちろん、データタイプの制限はありません。画像、音声、テキストは全て価値のある情報を含んでいます。
Databricksでは最新の機械学習ライブラリをネイティブでサポートしているので、データを移動・コピーすることなしに、あらゆるタイプのデータを意味のある方法で処理することができます。これによって、お客様は自身の分析やモデルに、ソーシャルメディアのポストから画像のカタログを作成するためのメタデータに至る非構造化データの全てのプロパティを含めることができます。
これによって、我々は非構造化データの真の4Vに到達しました: Value、Value、Value、そしてValueです。以下に、さまざまな業界における非構造化データを用いた様々なユースケース例を得られたビジネス価値とともにまとめました。
業界 | ユースケース | Databricksにおけるソリューション | 価値 |
---|---|---|---|
マテリアル | Wood log inventory estimation based on drone imagery | →ドローン画像のバッチ取り込み →カスタムの画像認識アルゴリズムのトレーニング →コンピュータ支援による画像アノテーション |
手動によるデータラベリングの期間を月当たり2日削減 |
メディア&エンターテイメント | Voice control of home domotica | →スポーチサンプルのストリーミング取り込み →カスタムのスピーチ認識(NLP)モデルの定期的トレーニング →顧客エンゲージメントを改善するためのボイスコントロール |
Deltaによるデータ処理パイプラインのコストを10倍削減 |
Eコマース | Background removal in e-commerce fashion images | →衣料品画像のバッチ取り込み →カスタムの前景/背景画像識別モデルのGPUトレーニング →Eコマースで表示する高品質在庫写真 |
アウトソースではなくカスタム処理を行うことで10倍のTCO削減 |
自動車 | Towards self-driving trucks | →トラックから得られる35000時間の動画のバッチ取り込み →画像認識アルゴリズムの適用 →自動運転トラックに向けた取り組み |
分析データのボリュームを75倍に増加 |
ライフサイエンス | Treatment discovery based on genomic sequencing | →10TBのゲノムシーケンスデータ →高性能、高信頼な分散処理のためのDatabricks Spark →創薬ターゲット特定の加速 |
600倍のクエリー実行性能改善 |
Databricksレイクハウスプラットフォームにおける非構造化データの処理
非構造化データに対する多くのユースケースは類似した計算パターンに従っています。構造化データの分析やモデリングと比較して、多くの場合、このようなモデリングの前に膨大な特徴量抽出ステップが必要となります。言い換えると、非構造化データは構造化を必要とします。しかし、それ以外には初歩的な機械学習と比較して根本的な違いはありません。
Databricksのレイクハウスプラットフォームでは、データを構造化(準構造化)データと同じ方法で取り込むことができるので、ネイティブで非構造化データを処理することができます。ここでは、生のデータを徐々に利用可能な状態に洗練していくメダリオンアーキテクチャに従います。
- ドライバーノード、ワーカーノードで特徴量抽出に必要なPythonライブラリが利用できるように、Databricks機械学習ランタイムが稼働するクラスターを作成します。
- バッチあるいはストリーミングの取り込みでクラウドストレージからデータファイルを取得し、ブロンズDeltaテーブル(生データ)に追加します。
- クラスターのワーカーが特徴量抽出を並列に実行できるように、Apache Spark™の分散処理能力を活用し、意味のあるモデリング、分析に必要な追加情報を含む他のデータセットと組み合わせます。結果のデータセットは通常シルバーDeltaテーブルに格納されます。
- シルバーテーブルには、スピーチ認識、画像分類、自然言語処理や上述した様々なユースケースのようなモデルトレーニングに使用する特徴量と目的変数が含まれています。通常、これらの推論は(モデルトレーニングに使われていない)新規データファイルから導出され、ゴールドテーブルに格納されます。
Databricksにおける、ディープラーニングを用いた非構造化データのモデリングに対する一般的なアプローチの詳細については、Databricksによるエンドツーエンドのディープラーニングパイプラインの管理をご覧ください。
非構造化データの分析のネイティブサポートに加え、データウェアハウスの性能に関してDatabricksが世界記録を打ち立てたことをご存知ですか?これは我々がレイクハウスとして意図していることです。データエンジニア、データサイエンティスト、データアナリストが、先進的な機械学習から高性能かつ高信頼のBIワークロードなど、お客様にビジネス価値を提供するためのあらゆるデータドリブンのケースに共に取り込む場所がレイクハウスです。
特にDatabricksにおける画像処理のベストプラクティスに興味があるのでしたら、過去のData + AI Summit session on image processingや関連ブログ記事を参照ください。レコメンデーションシステムにおける画像処理のユースケースに関しては、類似性ベースの画像認識システムに関するブログ記事をご覧ください。自然言語処理に関しては、薬の有害反応イベント検知に関するソリューションアクセラレーターを含むこちらの記事をご覧ください。