Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
0
Help us understand the problem. What is going on with this article?
@Masutani

Azure DataLake Analyticsでの.NETライブラリの使用方法

More than 3 years have passed since last update.

AzureDataLake Analyticsの特徴として、UDFとして.NETアセンブリが使えるという点があります。Pythonなどに比べて、データ処理に特化したようなライブラリは少ないのですが、業務に特化していたり、特殊な要件の処理を行わせたい場合に、既存の.NETライブラリを使うと、直接解決できる場合が多いです。

ここでは、.NETコードのU-SQLスクリプト内で使う方法をまとめます。

C#コードのインライン利用

基本型や基本のアセンブリなどは、U-SQLスクリプトの中に直接書くことができます。U-SQLの基本型があるなら、変数やコレクションを特に変換する必要もありません。

C# Functions and Operators (U-SQL)

数はそれほど多くありませんが、データ処理で必要そうな、基本的なオペランドはC#と共通のものが使えると思っていれば良いでしょう。SQLとプログラミング言語の接点で、行き来するときにいつも躓きますが、C#erとしてはこの仕様は非常にうれしいところです。

ちなみに、linqなどもインラインで使えました。

C# Operators
 ● ?: (Conditional)
 ● ?? (Null-Coalescing)
 ● => (Lamda)

String Methods
 ● Compare
 ● CompareOrdinal
 ● CompareTo
 ● Concat
 ● Contains
 ● EndsWith
 ● Equals
 ● Format
 ● GetHashCode
 ● GetTypeCode
 ● IndexOf
 ● Insert
 ● IsNullOrEmpty
 ● IsNullOrWhiteSpace
 ● Join
 ● LastIndexOf
 ● PadLeft
 ● PadRight
 ● Remove
 ● Replace
 ● Split
 ● StartsWith
 ● Substring
 ● ToCharArray
 ● ToLower
 ● ToUpper
 ● Trim

String Properties
 ● Length

Object Methods
 ● GetType

Date & Time
 ● DateTime to String
 ● String to DateTime
 ● Properties
 ● Some Methods
 ● Comparing DateTimes
 ● Some Operators
 ● Date Diff
 ● Add TimeSpan
 ● TimeSpan Plus TimeSpan

Math Methods
 ● Abs
 ● BigMul
 ● Ceiling
 ● Floor
 ● Max
 ● Min
 ● Pow
 ● Round
 ● Sign
 ● Sqrt
 ● Truncate

Random Methods
 ● Next

ちなみに、初期設定でビルトインされているアセンブリは以下です。
REFERENCE SYSTEM ASSEMBLY (U-SQL)

Assemblies:

  • mscorlib.dll
  • System.dll
  • System.Core.dll
  • System.Data.dll

Namespaces:

  • System
  • System.Data
  • System.Text
  • System.Text.RegularExpressions
  • System.Linq

Assemblies:

  • Microsoft.Analytics.Interfaces.dll
  • Microsoft.Analytics.Types.dll

Namespaces:

  • Microsoft.Analytics.Types
  • Microsoft.Analytics.Types.Sql
  • Microsoft.Analytics.Interfaces

コードビハインドによる.NETコードの利用

最も簡単なU-SQLの拡張がコードビハインドによるものでしょう。

Extending U-SQL Expressions with User-Code

以下のクラスをU-SQLから認識させたいとします。関数なども同様に参照可能です。

namespace myFirstNamespace
{
    public class myFirstClass
    {
        public static string myFirstFunction(string s)
        {
            return s + s;
        }
    }
};

コードビハインドを使う場合は、上記のコードを以下の"Script.usql.cs"にU-SQLスクリプトのコードビハインドに張り付けるだけです。

image.png

以下のように、上記関数を直接呼び出すことができます。

@result =
    SELECT EmpName,
           myFirstNamespace.myFirstClass.myFirstFunction(EmpName) AS myFirstFunction_CB
    FROM TestReferenceDB.dbo.simpleTable;

コードビハインドになっていることで、コンパイルなどのタイミングを同期でき、U-SQLとC#を順次変更しながら試すことができます。デバッグなども比較的辿りやすいエラーメッセージが出ますので、非常に使い勝手が良いです。

ライブラリ参照による.NETコードの利用

XAMLでのコードビハインドなどでは、モデルはコードビハインドに書くななどが鉄則ですが、U-SQLでも以下の理由でコードビハインドを多用しすぎるのはあまり推薦されないと思います。

  • 再利用性
  • U-SQL層(準宣言型)とC#層(手続き型)の分離
  • ポータビリティ

そこで、U-SQLでは外部アセンブリの参照が可能です。

Class Library (For U-SQL)の作成

以下のようなプロジェクトテンプレートから、U-SQLのクラスライブラリを作成可能です。これによりU-SQLスクリプトから直接呼び出せるライブラリを開発可能になります。

image.png

これは以下のような最小限のプロジェクトを作成しますので、Class1.csに先ほどのコードをコピーしてコンパイルすればOKです。

image.png

Assembly の登録

(.NETerでない人のために、アセンブリとはアセンブリ言語のことではなくて、.NETのコンパイル済みライブラリの事です。Javaでいうjarのようなもの。.dllという拡張性で保存されることが多いため、Cライブラリなどと混同されることもあるようですが、中身は別です。)

上記で作成したアセンブリをU-SQLスクリプトから参照するには以下となります。
このようなU-SQLスクリプトを走らせることで、手元のdllを登録可能です。

DROP ASSEMBLY IF EXISTS myFirstAssembly;
CREATE ASSEMBLY myFirstAssembly
FROM @"<your path>\myFirstAssembly\bin\Debug\myFirstAssembly.dll";

これは、実際にはローカルのフォルダから、ADLA環境へのアセンブリ登録になります。

Assembly の参照

一度アセンブリが登録されれば、以下のようにライブラリの参照ができます。

REFERENCE ASSEMBLY myFirstAssembly;

UDO

U-SQLでは、Rowごと、Rowをまたいだ処理に対して、Operatorという一連のスーパークラスを継承することで、U-SQLの集約処理などを拡張可能です。

UDOと言いますが、以下のリンクにあるようにコードビハインドでも定義できます。
U-SQL ユーザー定義演算子 (UDO) の開発

上記サンプルでは、 IProcessorという、最も単純な演算子を実装しています。これはデータ1行につき1行の出力を行うという単純な処理を行わせるものです。
以下のIProcessorインターフェイスから継承されたメソッドを定義することで、ユーザ定義の行変換処理を実現可能です。

public override IRow Process(IRow input, IUpdatableRow output)

呼び出しは以下のように、USING句を用いて、Processorのインスタンスを生成した後、PROCESS句により対象となるデータを指定し、PRODUCE句で出力のカラムをU-SQL側から指定します。

 @drivers_CountryName =
     PROCESS @drivers
     PRODUCE UserID string,
             Name string,
             Address string,
             City string,
             State string,
             PostalCode string,
             Country string,
             Phone string
     USING new USQL_UDO.CountryName();

御覧のように、R dplyrのmutateのように同じデータフレーム内の処理を行うわけではなく、新しいカラム定義のデータフ
レームを1by1で作り出していくという感じです。

その他、1:n や n:1などの行処理を行うことができるため、ほぼどのような集約、変換処理も記述可能になります。

  • ユーザー定義エクストラクター

    • 行ごとに抽出
    • カスタム構造化ファイルからのデータ抽出の実装に使用
  • ユーザー定義アウトプッター

    • 行ごとに出力
    • カスタム データ型またはカスタム ファイル形式への出力に使用
  • ユーザー定義プロセッサ

    • 1 つの行を取得し、1 つの行を生成 -列の数を減らしたり、既存の列セットから派生した値を含む列を新しく生成したりする際に使用
  • ユーザー定義アプライヤー

    • 1 つの行を取得し、0 ~ n 個の行を生成
    • OUTER/CROSS APPLY と併用
  • ユーザー定義コンバイナー

    • 行セットを結合 (ユーザー定義の JOIN)
  • ユーザー定義レジューサー

    • n 個の行を取得し、1 つの行を生成
    • 行の数を減らす際に使用
0
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Masutani
データサイエンティストをしています。地理空間情報系の処理を主に扱っています。

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
0
Help us understand the problem. What is going on with this article?