4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

DataikuのFlow Docoumentation機能

Posted at

7月にver.11にアップデートしたDataikuのドキュメンテーション機能が充実していたので触ってみました。
フロー画面のドキュメンテーションと、モデルのドキュメンテーションの二つがあります。
ここでは、フロー画面のドキュメンテーションを備忘録替わりに触っていきます。

Credit Card Fraud (Tutorial)プロジェクトを使って試しています。

Flow Document Generator

フロー画面のドキュメントが生成できます。今までは、フロー画面の画像イメージをエクスポートできる程度でしたが、なんとドキュメントとして生成してくれます。

参考URLはCrash CourseのHow-To:Flow Document Generator
https://academy.dataiku.com/crash-course-dataiku-11/1276388

画面右下の[Export documentation]を押下

image.png

[EXPORT]押下で生成。

image.png

しばらく待つと[DOWNLOAD]ボタンが出現するので押下。プロジェクトのボリュームにもよりますが、DOWNLOADボタンが出るまで少し待ちます。
image.png

40ページのwordファイルがダウンロードできました。なかなかのページ数です。

記載内容は以下

  • プロジェクトの詳細
  • フロー画面の画像
  • それぞれのデータセットの詳細情報
  • レシピ情報
  • その他情報

その冒頭一部は以下のような雰囲気です。全部英語です。テンプレートのカスタマイズもできるので、ベタ書きの文章は日本語にできそうな気がします。

image.png

もう少し詳しく見てみます。

プロジェクトの詳細

プロジェクトのDescriptionなどに書かれる内容が記載されます。プロジェクトのホーム画面の左下に記載されているやつです。
生成されたドキュメント(左)と実際のDescription(右)を比較したのが以下となります。生成されたドキュメントは中のコードをそのまま出力しています。
image.png

フロー画面の画像

フロー画面の画像、そのままですね。今回のケースは縦長なので手動でトリミングした方がよさそうです。

image.png

それぞれのデータセットの詳細情報

  • サマリととして
    • short descriptionの内容
    • Tag情報
  • a) データセットのステータス
    Typeやファイルサイズ、作成者などの情報が得られます。ここでは、Not computedになっていますが、データセットのStatusタブで計算していれば出力されます。(確認済み)
  • b) Related Recipes
    対象のデータセットに関連するレシピ情報
  • c) Schema
    データセットのスキーマ情報が出力されます。

image.png

レシピ情報

  • サマリととして
    • Descriptionの内容(私が日本語で適当にDescription記載してみました)
    • Tag情報
  • a) データセットのステータス
    Typeや作成者などの情報が得られます。
  • b) Inputs/Outputs
    入出力ファイルの情報が記載されます
  • c) Join
    レシピの実施内容です。今回はJoinレシピなのでここがJoinになっていますが、PrepareレシピならここはPrepareになります。

image.png

ちなみにc)は、上記の画像では切れていますが、実際には以下のように出力されます。

image.png

Prepareレシピの場合は以下のようにステップが表示されます。
左図がドキュメントで出力された内容で、右側が実際のレシピのステップ画面です。Commentに書いた内容がドキュメントにも反映されていることがわかります。
image.png

コード系レシピの場合

ちゃんとpythonコードも記載されています。
image.png

その他情報

このあたりは、そこまで詳しい情報は記載されていません。どのデータセットやレシピと紐づいているか、といった情報が簡単に記載されている程度

  • Saved Models
  • Model Evaluation Stores:Evaluation Storeの簡単な一覧
  • Deployment and Monitoring:Dataikuのアクセス先やバージョン情報など

Saved Models

モデルに対しての基本情報が載っています。Active versionはどれかや、idはどれか、など。モデルの方でもドキュメントは出せるようなので、そちらで見るのがよいかも。
image.png

Automation Docummentation Export

やはりやりたくなるのは、自動的に定期的にこのドキュメントを作っておいて、バックアップがわりにとっておくことです。
ライセンスは必要ですが、シナリオ機能を使うことで実現できます。

まず、フォルダを作成します。

image.png

シナリオ作成します。

image.png

Export flow documentationをステップに追加します。Destination folderに先ほど作成したフォルダを指定します。
image.png

さきほど作成したフォルダの中を見に行くと、ドキュメントができています。ファイル名に日付時間がふくまれているので、複数作ってもそのまま蓄積されてわかりやすそうです。
image.png

あとはシナリオの設定で定期実行させておけば、自動バックアップになる、と。

まとめ

  • DataikuのFlow Documentジェネレータでの出力内容をまとめました。
  • Dataiku内のDescriptionやコメントをきっちり書いておけば、自動的にドキュメント化されるのはすごくよいです。しかもpyhonレシピのコードも記載されます。
  • シナリオで定期的なドキュメント化もできるので、簡易的なバックアップ替わりによさそうです。
  • Defaultではなく日本語テンプレとか、自分とこ用テンプレを作っておけると、なかなか活躍しそうです。
4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?