Databricksにおけるレコメンデーションシステムのwide-and-deepモデルの構築とサービング

Last updated at 2023-07-20Posted at 2022-11-16

Build and serve a wide-and-deep model in a recommender system | Databricks on AWS [2022/9/23時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

レコメンデーションシステム機械学習パイプラインの構築には、通常は以下のステージが含まれます。

このリファレンスソリューションでは青色のステージをカバーしています。(本書でカバーされていないトピックは？をご覧下さい)

Databricksツールのハイライト

このノートブックでは、機械学習パイプラインの構築をシンプルにするための、いくつかのDatabricksのツールをカバーしています。

データ

このノートブックで使用するデータは以下のDeltaテーブルから構成されています:

user_profile: user_idの値と静的なプロファイルを格納。
item_profile: item_idの値と静的なプロファイルを格納。
user_item_interaction: ユーザーとアイテムのインタラクションがあったイベントを格納。このテーブルは、モデルを構築、評価するために3つのDeltaテーブルに分割されます: train, validation, test

このデータのフォーマットはレコメンデーションの問題においては一般的なものです。いくつかのサンプルとしては:

広告のレコメンデーションにおいては、アイテムが広告で、ユーザー・アイテムのインタラクションはユーザーによる広告のクリックの記録です。
オンラインショッピングのレコメンデーションにおいては、アイテムは商品で、ユーザー・アイテムのインタラクションはユーザーのレビューや注文の履歴です。

ご自身のデータセットにノートブックを対応させるには、ご自身のデータをDeltaテーブルに保存し、テーブル名とロケーションを指定するだけです。データロードのコードは大部分を再利用することができます。

データセット生成ノートブックの詳細を見ていきましょう。

データセットの生成・保存用ノートブック

モデル

このノートブックではwide-and-deepモデルを使用します(論文 | tensorflowの実装)。これは記憶と汎化の両方を取り扱うためにwideな線形モデルとdeepなニューラルネットワークを組み合わせた人気のモデルです。

このモデルは、レコメンデーション問題に対応する数多くのディープラーニングや
一般的な機械学習パイプラインの中の一つの例です。ここでのフォーカスは、どの様にワークフローを構築するのかを説明することです。ご自身のユースケースに応じて別のモデルに切り替えたり、さらに良い評価指標のためにモデルをチューニングすることができます。

レコメンデーションシステムにおけるwide-and-deepモデルの構築・サービング用ノートブック

本書でカバーされていないトピックは？

ここでのノートブックのフォーカスはレコメンデーションシステムの実装方法の説明なので、以下のステージはカバーされていません。これらのステージは、ワークフロー図で灰色のブロックとなっています。

データ収集と探索的データ分析。Databricksで初めてのETLワークロードを実行するをご覧ください。
特徴量エンジニアリング。レコメンデーションシステムにおいて特徴量エンジニアリングは重要な位置を占めており、このトピックに関しては数多くの情報が存在します。このノートブックでは、キュレーションされたユーザー・アイテムインタラクションのデータセットがあることを前提としています。このノートブックd使用したデータセットの詳細については、データを参照ください。特徴量エンジニアリングの詳細に関しては以下のリソースを活用ください。
- DatabricksのソリューションアクセラレータPersonalizing the Customer Experience with Recommendationsでは、レコメンデーションシステムにおける特徴量エンジニアリングのサンプルを説明しています。
- scikit-learn、MLlib、転送学習を用いた特徴量エンジニアリングのサンプルについては、Preprocess dataをご覧下さい。
モデルチューニング。モデルのパフォーマンスを改善するためのモデルチューニングには、特徴量エンジニアリング、モデルの構造、モデルのハイパーパラメータ、さらにはデータ収集ステージのアップデートを含む既存パイプラインのコードの改善が関連します。Databricksにおけるモデルチューニングのためのツールの詳細に関しては、Databricksにおけるハイパーパラメーターチューニングをご覧ください。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up