#DataSpider機能紹介
・DataSpider Server
DataSpiderの処理を実行するサーバーエンジンです。DataSpiderを利用するためには
必ず起動しておく必要があります。
・DataSpider Studio
DataSpiderの処理を作成するクライアント・アプリケーションです。
・インストールして利用するもの
・Webブラウザで利用するもの
2つのStudioがあります。ハンズオンではWeb版のStudioを利用します。
・アダプタ
DataSpiderにおいて外部システムとのインターフェイスを担う機能です。
各外部システムごとにアダプタが用意されています。
また、アダプタによって実行可能な機能に差があります。
・グローバルリソース
アダプタが利用する接続先の設定です。この設定はプロジェクトをまたいで利用することが
できます。
・トリガー
DataSpiderの処理を何かしらのきっかけを用いて自動実行する仕組みです。
・コントロールパネル
DataSpiderの各種設定をGUIで行うことのできる設定パネルです。
#DataSpiderの使い方
・DataSpiderの処理の概念
DataSpiderの処理の最小単位はスクリプトです。スクリプトは複数のアダプタや
その他制御アイコンによって形成されます。
連携処理一本が一つのスクリプトとお考えください。そのスクリプトの集合体がプロジェクトです。
プロジェクトの中に複数スクリプトを作成することができます。
・スクリプトの作り方
DataSpider Studio内にあるデザイナというツールを利用します。デザイナを開くと
キャンバスとツールパレットが表示されますので、ツールパレットより処理を行いたいアダプタのアイコンを
キャンバスに貼り付けて処理を作成します。
最後にStartアイコンからEndアイコンまでドラッグ&ドロップで線を引いて完成です。
・Mapperの使い方
スクリプト内でデータの構造や値の変換を行いたい時にはMapperというツールを利用します。
入力と出力の処理をそれぞれ作りその間にMapperを作成すると、
・左側に入力元
・右側に出力先
のデータの構造が表示されます。
それぞれの項目をドラッグ&ドロップでマッピングすることでデータの構造の変換が可能です。
また、ツールパレットがMapper用のものに切り替わってきますので、その中に含まれる関数アイコン
(ロジックアイコンと呼びます)をマッピングの間に挟むことで、データそのものの加工や変換が可能です。
#接続情報
・DataSpider Web版Studio(公開は終了しました)
user1~user10
URL:http://40.115.189.185:7700/WebStudio/
user11~user20
URL:http://40.115.190.235:7700/WebStudio/
user21~user30
URL:http://40.115.191.204:7700/WebStudio/
user31~user40
URL:http://40.115.166.9:7700/WebStudio/
user41~user50
URL:http://40.115.185.124:7700/WebStudio/
#ハンズオン手順
1.[新しいプロジェクト]をクリックしてプロジェクトを作成します。一緒にスクリプトも作成できます。
2.右側のツールパレットから[クラウド][Azure BLOBストレージアダプタ]を開きます。
3.[ファイルディレクトリ書き込み]のアイコンをキャンバスに向かってドラッグ&ドロップします。
4.接続先をクリックして[AzureBLOBストレージ出力接続設定]を選択します。
ローカルディレクトリ:/data/dssxazure-demo/azure
ファイル/ディレクトリ名:input-predictive-user.csv
コンテナ名:recommendation
※処理の名称は任意
5.右側のツールパレットから[クラウド][Azure Machine Learning]を開きます。
6.[ジョブ実行]のアイコンをキャンバスに向かってドラッグ&ドロップします。
7.接続先をクリックして[Azure Machine Learning接続設定]を選択します。
ジョブ実行完了を待機するにチェック
Web service inputに渡すBLOBを指定するにチェック
接続先BLOBストレージ:Azure BLOBストレージ接続設定
コンテナ名から始まるBLOBのパス:recommendation/input-predictive-user.csv
※処理の名称は任意
8.スクリプト変数の設定
directory、filedirectoryの二つを作成します。
9.変数Mapperの設定を行います。
[基本][処理]を開きます。
10.[変数代入]のアイコンをキャンバスに向かってドラッグ&ドロップします。
11.MapperのアイコンをダブルクリックしてMapperの画面を開きます。
12.右側ツールパレットから[文字列][変換]を開きます。
13.[正規表現置換]のアイコンを設定画面中央に向かってドラッグ&ドロップします。(2回)
14.正規表現置換アイコンを開きそれぞれに設定を行います。
①
置換前文字列(正規表現パターン):(^.+)\∕(.+)\∕(.+)$
置換後文字列:$2
②
置換前文字列(正規表現パターン):(^.+)\∕(.+)\∕ (.+)$
置換後文字列:$3
15.入力データ[AzureMLのWebサービスを実行する]-[job]-[output]のrelative_location
とアイコン①と出力データ[スクリプト変数]-[directory]をつなぎます。
16.入力データ[AzureMLのWebサービスを実行する]-[job]-[output]のrelative_location
とアイコン②と出力データ[スクリプト変数]-[filedirectory]をつなぎます。
17.右側のツールパレットから[クラウド][Azure BLOBストレージアダプタ]を開きます。
18.[ファイル/ディレクトリ読み取り]のアイコンをキャンバスに向かってドラッグ&ドロップします。
19.接続先をクリックして「Azure BLOBストレージ出力接続設定」を選択します。
コンテナ名:experimentoutput
仮想ディレクトリ:変数設定 ${directory}
ファイル/ディレクトリ名:変数設定 ${filedirectory}
ローカルディレクトリ: /data/dssxazure-demo/azure
ファイルが存在する場合は上書きするにチェック
※処理の名称は任意
20.Startアイコン、BLOBアイコン、MachineLearningのアイコン、BLOBアイコン、Endアイコンと線を引きます。
(Mapperは設定した段階でプロセス(黒)及びデータ(黄)の線で結ばれています)
21.実行ボタンを押下してスクリプトを実行します。