はじめに
データ分析のパイプラインツールとしてelyra
というものを導入しました。
JupyterLabで利用可能で、処理単位ごとに部品化することでデータ分析がとてもやりやすくなるツールです。
詳しくは製作者が公開しているリポジトリを参考にしていただけるとどのようなツールかわかるかと思います。またチュートリアルも用意されています。
こちらの記事が日本語で環境構築や概要について説明されています。
(私のメンターだった方がわかりやすく紹介してくれています)
今回はパイプラインを利用していて、.ipynb
形式のファイルをpipline editer上に載せるとエラーになってしまう原因がこういう理由ではないかという事をまとめています。
わかる方がいらっしゃいましたらコメントお待ちしております。
環境
- python3.8
- Docker
- docker_image : Datascience notebook
- Jupyter Lab / jupyter notebook
問題
.ipynb
のファイルをパイプライン上に配置すると実行ができずエラーになってしまう
原因
Dockerのイメージとして利用していたDatascience notebook
がanaconda
でできているため、Elyraをconda-forge
からインストールしていた。
Elyraの最新バージョンが2.1.0
(pipの場合)に対して、condaの場合は1.5.3
となっていた。
2020年10月ごろのissueにそれらしきエラーがあり、回答に修正中でpython3カーネルなら使えるよとあったので。恐らくその修正が入ったバージョンではないというのが原因かと思われます。
.ipynb
で開発して.py
に書き出しパイプラインにするという方式をとって対処しました。
最後に
Elyraを利用してデータ分析に必要な部品を都度作っていくことで、分析を始めるときにすぐに実験ができて分析結果やベースモデルが選べるなどすごく便利だと思ったので、今後はKaggleなどでも利用していきたいと思います。
ドキュメントが少なく間違った点もあるかもしれませんので、コメントいただければと思います。