DSX Desktopをインストール
IBMの分析ソフト、Data Science Experienceのデスクトップ版、DSX Desktop(ベータ)がバージョンアップされているのでインストールしてみた。(ベータ開始直後も少しだけ試してみたけど、数ヶ月ぶり)
ダウンロード量が9GB少しとややボリュームが多いけれど、最初からDockerイメージで提供してくれるのはありがたいかもしれない
ダウンロードはここから
https://datascience.ibm.com/desktop
私はMac版をインストール
ウィンドウの中でDSX Desktopをフォルダーに「Drag&Drop」したらアプリケーションフォルダーに「IBM DSX Desktop」というのができているのでそれを実行
(スクリーンショットを撮り忘れたしまったけれど) Notebook とR Studioをインストールを両方インストールするか、NotebookでSparkは使うかどうか、なんていうオプションを選択する画面が出てくる。
ダウンロード量はNotebookのみ、Sparkなしで6GB程度、Spark付きで3GB程度増えて9GB、それにR Studioをつけると11GB程度となった。
R Studioの部分は後から追加インストールできるようなので、Sparkまででせっかくなので入れてみた。
ダウンロード
インストール作業を続けると、長時間に及ぶダウンロードが始まった。9GB程度だったけど、自宅のLAN環境で実行して5h程度かかったように思う。途中一回失敗してやり直した。失敗した理由はダウンロードが途中でコケていた。リトライ時は、Macのスクリーンセーバーも一時的にオフにして、ひたすら実行。ダウンロード完了後、Extractが5分程度走ってインストール完了。
(インストール作業のうち、ハマるとするとこのダウンロードだけですね。あとはスムーズ)
速っ!!軽快です!!!
実行してみると動きが大変軽快で感動しました
クラウドでSaaSで提供されているDSX に比べきではないかもしれないけれど。
起動したら左上の「≡」というアイコンをクリックすると、Notebookを作る画面になった。
(いろいろ作ってしまってから撮ったスクリーンショットですが、ノートブック作成画面は以下です。add notebookをクリックして作成します。)
Jupyterで作っていたノートブックも当然動きます。(しかし後述するようにディレクトリー構造がMac上ではなく、Dockerコンテナ内となるのでそのあたりはそのままでは動かない。)
試験的に実行してみたらインストール直後は、pandasのread_excelが実行エラーになりました。原因はxlrdが入っていなかったからでした。Notebook内で!pip intallで追加して普通に無事、正常実行できるようになりました。
分析に使用するデータ
DSXはクラウド版と違って、少なくともベータ版ではファイル形式に限定されているようです。add datasetというボタンを押すか、右上のアイコン( 1と0が組み合わされた、"n=2の単位行列"っぽいボタン) を押して登録します。これで取り込むとローカルのファイルがDocker内に取り込まれます。
登録されたデータファイルの格納場所
/opt/notebooks/assetsの配下に格納されるようです。(二つ上のスクリーンショット内でpwdして実行時のデフォルトの実行ディレクトリーと登録したファイルのあるassetsフォルダを確認しました)
ファイルの登録方法(コマンドで登録してみる)
dockerで動いていて、ディレクトリーもわかっているのでMacのターミナルから、コマンドラインで登録してみました。上記スクリーンショット内の list.txtはコマンドラインから登録したものです。
dockerイメージの確認
確認してみると anaconda_with_sparkというところですね。(2番目以降は今回インストールしたものではないかもしれません。)
DSX Desktopが動いているコンテナでシェルを実行していけば、色々中の様子もわかりますね。( docker execでシェル実行 )
カスタマイズしていいのかわかりませんが、自分用にローカル環境にcommitしたコンテナイメージを作ってしまってもいいかもしれませんね。