LoginSignup
2
2

More than 5 years have passed since last update.

Microsoft Azure Machine LearningとDataSpiderの共同ハンズオンセミナー向け情報

Last updated at Posted at 2016-01-21

ハンズオンシナリオ

AzureML_DSS共同セミナー資料_V4_01.jpg

DataSpider機能紹介

・DataSpider Server
  DataSpiderの処理を実行するサーバーエンジンです。DataSpiderを利用するためには
  必ず起動しておく必要があります。
・DataSpider Studio
  DataSpiderの処理を作成するクライアント・アプリケーションです。
  ・インストールして利用するもの
  ・Webブラウザで利用するもの
  2つのStudioがあります。ハンズオンではWeb版のStudioを利用します。
・アダプタ
  DataSpiderにおいて外部システムとのインターフェイスを担う機能です。
  各外部システムごとにアダプタが用意されています。
  また、アダプタによって実行可能な機能に差があります。
・グローバルリソース
  アダプタが利用する接続先の設定です。この設定はプロジェクトをまたいで利用することが
  できます。
・トリガー
  DataSpiderの処理を何かしらのきっかけを用いて自動実行する仕組みです。
・コントロールパネル
  DataSpiderの各種設定をGUIで行うことのできる設定パネルです。

DataSpiderの使い方

・DataSpiderの処理の概念
  DataSpiderの処理の最小単位はスクリプトです。スクリプトは複数のアダプタや
  その他制御アイコンによって形成されます。
  連携処理一本が一つのスクリプトとお考えください。そのスクリプトの集合体がプロジェクトです。
  プロジェクトの中に複数スクリプトを作成することができます。
・スクリプトの作り方
  DataSpider Studio内にあるデザイナというツールを利用します。デザイナを開くと
  キャンバスとツールパレットが表示されますので、ツールパレットより処理を行いたいアダプタのアイコンを
  キャンバスに貼り付けて処理を作成します。
  最後にStartアイコンからEndアイコンまでドラッグ&ドロップで線を引いて完成です。
・Mapperの使い方
  スクリプト内でデータの構造や値の変換を行いたい時にはMapperというツールを利用します。
  入力と出力の処理をそれぞれ作りその間にMapperを作成すると、
  ・左側に入力元
  ・右側に出力先
  のデータの構造が表示されます。
  それぞれの項目をドラッグ&ドロップでマッピングすることでデータの構造の変換が可能です。
  また、ツールパレットがMapper用のものに切り替わってきますので、その中に含まれる関数アイコン
  (ロジックアイコンと呼びます)をマッピングの間に挟むことで、データそのものの加工や変換が可能です。

接続情報

・DataSpider Web版Studio(公開は終了しました)
  user1~user10
   URL:http://40.115.189.185:7700/WebStudio/ 
  user11~user20
   URL:http://40.115.190.235:7700/WebStudio/
  user21~user30
   URL:http://40.115.191.204:7700/WebStudio/
  user31~user40
   URL:http://40.115.166.9:7700/WebStudio/
  user41~user50
   URL:http://40.115.185.124:7700/WebStudio/

ハンズオン手順

1.[新しいプロジェクト]をクリックしてプロジェクトを作成します。一緒にスクリプトも作成できます。
2.右側のツールパレットから[クラウド][Azure BLOBストレージアダプタ]を開きます。
3.[ファイルディレクトリ書き込み]のアイコンをキャンバスに向かってドラッグ&ドロップします。
4.接続先をクリックして[AzureBLOBストレージ出力接続設定]を選択します。
  ローカルディレクトリ:/data/dssxazure-demo/azure
  ファイル/ディレクトリ名:input-predictive-user.csv
  コンテナ名:recommendation
 ※処理の名称は任意
5.右側のツールパレットから[クラウド][Azure Machine Learning]を開きます。
6.[ジョブ実行]のアイコンをキャンバスに向かってドラッグ&ドロップします。
7.接続先をクリックして[Azure Machine Learning接続設定]を選択します。
  ジョブ実行完了を待機するにチェック
  Web service inputに渡すBLOBを指定するにチェック
  接続先BLOBストレージ:Azure BLOBストレージ接続設定
  コンテナ名から始まるBLOBのパス:recommendation/input-predictive-user.csv
 ※処理の名称は任意
8.スクリプト変数の設定
 directory、filedirectoryの二つを作成します。
9.変数Mapperの設定を行います。
  [基本][処理]を開きます。
10.[変数代入]のアイコンをキャンバスに向かってドラッグ&ドロップします。
11.MapperのアイコンをダブルクリックしてMapperの画面を開きます。
12.右側ツールパレットから[文字列][変換]を開きます。
13.[正規表現置換]のアイコンを設定画面中央に向かってドラッグ&ドロップします。(2回)
14.正規表現置換アイコンを開きそれぞれに設定を行います。
  ①
  置換前文字列(正規表現パターン):(^.+)\∕(.+)\∕(.+)$
  置換後文字列:$2
  ②
  置換前文字列(正規表現パターン):(^.+)\∕(.+)\∕ (.+)$
  置換後文字列:$3
15.入力データ[AzureMLのWebサービスを実行する]-[job]-[output]のrelative_location
  とアイコン①と出力データ[スクリプト変数]-[directory]をつなぎます。
16.入力データ[AzureMLのWebサービスを実行する]-[job]-[output]のrelative_location
  とアイコン②と出力データ[スクリプト変数]-[filedirectory]をつなぎます。 
17.右側のツールパレットから[クラウド][Azure BLOBストレージアダプタ]を開きます。
18.[ファイル/ディレクトリ読み取り]のアイコンをキャンバスに向かってドラッグ&ドロップします。
19.接続先をクリックして「Azure BLOBストレージ出力接続設定」を選択します。
  コンテナ名:experimentoutput
  仮想ディレクトリ:変数設定 ${directory}
  ファイル/ディレクトリ名:変数設定 ${filedirectory}
  ローカルディレクトリ: /data/dssxazure-demo/azure
  ファイルが存在する場合は上書きするにチェック
 ※処理の名称は任意
20.Startアイコン、BLOBアイコン、MachineLearningのアイコン、BLOBアイコン、Endアイコンと線を引きます。
(Mapperは設定した段階でプロセス(黒)及びデータ(黄)の線で結ばれています)
21.実行ボタンを押下してスクリプトを実行します。

リンク

Appressoホームページ
Data Spider Technical Network

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2