7月にver.11にアップデートしたDataikuのドキュメンテーション機能が充実していたので触ってみました。
フロー画面のドキュメンテーションと、モデルのドキュメンテーションの二つがあります。
ここでは、フロー画面のドキュメンテーションを備忘録替わりに触っていきます。
Credit Card Fraud (Tutorial)プロジェクトを使って試しています。
Flow Document Generator
フロー画面のドキュメントが生成できます。今までは、フロー画面の画像イメージをエクスポートできる程度でしたが、なんとドキュメントとして生成してくれます。
参考URLはCrash CourseのHow-To:Flow Document Generator
https://academy.dataiku.com/crash-course-dataiku-11/1276388
画面右下の[Export documentation]を押下
[EXPORT]押下で生成。
しばらく待つと[DOWNLOAD]ボタンが出現するので押下。プロジェクトのボリュームにもよりますが、DOWNLOADボタンが出るまで少し待ちます。
40ページのwordファイルがダウンロードできました。なかなかのページ数です。
記載内容は以下
- プロジェクトの詳細
- フロー画面の画像
- それぞれのデータセットの詳細情報
- レシピ情報
- その他情報
その冒頭一部は以下のような雰囲気です。全部英語です。テンプレートのカスタマイズもできるので、ベタ書きの文章は日本語にできそうな気がします。
もう少し詳しく見てみます。
プロジェクトの詳細
プロジェクトのDescriptionなどに書かれる内容が記載されます。プロジェクトのホーム画面の左下に記載されているやつです。
生成されたドキュメント(左)と実際のDescription(右)を比較したのが以下となります。生成されたドキュメントは中のコードをそのまま出力しています。
フロー画面の画像
フロー画面の画像、そのままですね。今回のケースは縦長なので手動でトリミングした方がよさそうです。
それぞれのデータセットの詳細情報
- サマリととして
- short descriptionの内容
- Tag情報
- a) データセットのステータス
Typeやファイルサイズ、作成者などの情報が得られます。ここでは、Not computedになっていますが、データセットのStatusタブで計算していれば出力されます。(確認済み) - b) Related Recipes
対象のデータセットに関連するレシピ情報 - c) Schema
データセットのスキーマ情報が出力されます。
レシピ情報
- サマリととして
- Descriptionの内容(私が日本語で適当にDescription記載してみました)
- Tag情報
- a) データセットのステータス
Typeや作成者などの情報が得られます。 - b) Inputs/Outputs
入出力ファイルの情報が記載されます - c) Join
レシピの実施内容です。今回はJoinレシピなのでここがJoinになっていますが、PrepareレシピならここはPrepareになります。
ちなみにc)は、上記の画像では切れていますが、実際には以下のように出力されます。
Prepareレシピの場合は以下のようにステップが表示されます。
左図がドキュメントで出力された内容で、右側が実際のレシピのステップ画面です。Commentに書いた内容がドキュメントにも反映されていることがわかります。
コード系レシピの場合
その他情報
このあたりは、そこまで詳しい情報は記載されていません。どのデータセットやレシピと紐づいているか、といった情報が簡単に記載されている程度
- Saved Models
- Model Evaluation Stores:Evaluation Storeの簡単な一覧
- Deployment and Monitoring:Dataikuのアクセス先やバージョン情報など
Saved Models
モデルに対しての基本情報が載っています。Active versionはどれかや、idはどれか、など。モデルの方でもドキュメントは出せるようなので、そちらで見るのがよいかも。
Automation Docummentation Export
やはりやりたくなるのは、自動的に定期的にこのドキュメントを作っておいて、バックアップがわりにとっておくことです。
ライセンスは必要ですが、シナリオ機能を使うことで実現できます。
まず、フォルダを作成します。
シナリオ作成します。
Export flow documentationをステップに追加します。Destination folderに先ほど作成したフォルダを指定します。
さきほど作成したフォルダの中を見に行くと、ドキュメントができています。ファイル名に日付時間がふくまれているので、複数作ってもそのまま蓄積されてわかりやすそうです。
あとはシナリオの設定で定期実行させておけば、自動バックアップになる、と。
まとめ
- DataikuのFlow Documentジェネレータでの出力内容をまとめました。
- Dataiku内のDescriptionやコメントをきっちり書いておけば、自動的にドキュメント化されるのはすごくよいです。しかもpyhonレシピのコードも記載されます。
- シナリオで定期的なドキュメント化もできるので、簡易的なバックアップ替わりによさそうです。
- Defaultではなく日本語テンプレとか、自分とこ用テンプレを作っておけると、なかなか活躍しそうです。