はじめに
GakuNin RDMデータ解析機能とは、PythonやRの実行環境を比較的簡単に作り、それをブラウザ上で使うことができるサービスです。JDCat分析ツールという別名もあります。Google Colabと似ている部分もありますが、違いも沢山あります。
GakuNin RDMおよびGakuNin RDMデータ解析機能については公式のユーザーマニュアルに詳しく書いてありますので、興味のある方は、まずはそちらを参照して下さい。
ここでは自分が使ってみて分かりづらかった点などを中心にまとめます。
GakuNin RDMとの関係
GakuNin、GakuNin RDM, GakuNin RDMデータ解析機能はそれぞれ別物です。以下の表にまとめます。
名前 | 内容 |
---|---|
GakuNin (学認) | 認証サービス |
GakuNin RDM | データ管理基盤 |
GakuNin RDMデータ解析機能 | 計算環境 |
GakuNin RDMはGakuNinで認証すると使えるデータ管理基盤です。DropboxやGoogle Driveのようなファイル置き場として私は使っています。ムーンショット型研究開発事業がきっかけで使い始めましたが、まだ利用者が少ないようです。
GakuNin RDMデータ解析環境はGakuNin RDMとは別物です。連携しているだけです。公式ページをちゃんと読めば書いてあることですが、分かりづらかったので改めてまとめます。そもそもGakuNin RDMデータ解析機能の英語名称はGakuNin Federated Computing Services at NIIであり、RDMが入っていません。
GakuNin RDM (以下、RDM) では、プロジェクトという単位でデータを管理します。RDMのプロジェクトからGakuNin RDMデータ解析環境 (以下、CS) の解析環境を新規作成すると、その時点でプロジェクト内にあったファイルのコピーが解析環境に作られます。以後、CS側でファイルを変更してもRDM側には影響がありません。
このため、RDMに置いたデータをCS側の操作ミスで消してしまったり上書きしてしまったりすることはありません。逆に、途中で解析対象のデータをCSに追加したい場合は、手動でアップする必要があるようです。
CS側の計算結果などをRDMに保存したい場合は、もちろん一旦ダウンロードしてからRDMにアップすれば良いのですが、CS側のホーム直下にresultという名前のフォルダを作成し、その中に結果ファイルを入れておくと、ボタン一つでRDMに書き込まれます。この部分はユーザーマニュアルに詳しく書いてあるのでそちらを参照して下さい。
注意が必要なのはソースコード (ipynbファイル) です。CSのデータは30日間使っていないと消されます。出力ファイルをRDMに保存しておくだけでなく、ソースコードも定期的にバックアップしておく必要がありそうです。
解析環境の作成
- GakuNin RDMのプロジェクトを開く
- アドオン > GakuNin Federated Computing Services > 有効にする
- 上メニューに「解析」が登場するので選択
- 基本イメージを以下の2つから選択
- Python + R
- Data Science Notebook (こちらを推奨)
- 新しい解析環境を作成
- 終わるまで待つ (下の黒い部分にログが流れている、server running at...で終わり)
基本イメージでPython+Rを選んでしまうと、numpyもpandasも一切入っていないpython環境になります。もちろん、追加パッケージの指定で一通り指定しても構いませんが、インストールに結構な時間がかかります。予め用意されているイメージを利用するのが良いと思います。
足りないパッケージは後からも追加できます。ノートブック内で!pip install <package_name>
のような感じのコードを実行すればOKです。
起動
アイコンは3つ並んでいます。Pythonの場合、左と中央のどちらを選んでも構いません。UIが違うだけで、編集内容なども共有されています。また、解析環境名の右のURLは、左のアイコンと同じ動作です。
位置 | アイコンの文字 | 意味 |
---|---|---|
左 | Jupyter | Jupyrer Hub & Jupyter Notebook (旧UI) |
中央 | lab | Jupyter Lab (新UI) |
右 | R | R Studio |
私は普段CUIで作業しているので、Jupyter Notebook, Jupyter Hub, Jupyter Labのことをあまりよく分かっていません。どうやら、CSの中で1つ目と2つ目を切り替えるには、URLの/treeを/labに手動で書き換えるしかないようです。もちろんRDMから開き直すという手もあります。
もしプログラミングの授業などでの利用する場合は、混乱を避けるため、どちらか一方のUIのみ使うよう受講者に指示しておいた方が良さそうです。
あとは、ipynbファイルがあれば開き、なければ新規作成で、計算環境を使えます。
個人的な感想
使っていないと30日で消えること、変更履歴を管理しづらいことを考えると、プログラミング中級以上の人の開発環境には向いていないかもしれません。一方、プログラミング未経験者や初心者にとっては便利そうです。とはいえ、今はまだGoogle Colabの方が情報も豊富で敷居も低い気がします。今後利用者が増えれば状況が変わるのではないかと思います。