Azure
PowerBI
AzureDataLake

Azure Data LakeとPower BIでログデータを可視化する

独自フォーマットのログをAzure Data LakeとPower BIで可視化しました。
色々ハマったので手順を残しておきます。

元々ログの可視化はLog Analyticsのカスタムログを使って実現しようとしていました。
が、Log Analyticsカスタムログではうまくいかない箇所があったので、Data Lakeに切り替えました。
詳細は以下の記事に纏めていますのでご参考まで。

独自フォーマットのログをAzure Log Analyticsに収集する

Data Lake概要

以降、Azure Data Lake Storeは、ADLS。
Azure Data Lake Analyticsは、ADLAと略します。

ADLA/ADLS作成

  • Market Placeより「Data Lake Analytics」を選択します。(ADLAからADLSを作成できるため、ここではADLAを選択)
    image.png

  • ADLA/ADLSの名称を入力します。グローバルで一意にしないといけません。

  • 2018年4月時点では日本リージョンにきてないので、他のリージョンを選択します。
    image.png

ADLSへのログアップロード

Azure Portalでアップロードする方法

  • 今回は以下のサンプルログをアップロードします。
  • CPU使用率を時系列で記録したファイルです。実際は数十行準備しました。
  • 1番右のカラムがCPU使用率を表します。ファイルの先頭はヘッダー付きです。
sample.txt
"IP ADDRESS","HOST NAME","HOST TYPE","RESOURCE TYPE","TYPE","CAPA","DATE","TIME","USECAPA"
 "192.168.0.1","host01","Windows","CPU","CPU","2597","2018/04/10","00:00:00",1.0
 "192.168.0.1","host01","Windows","CPU","CPU","2597","2018/04/10","00:10:00",1.5
 "192.168.0.1","host01","Windows","CPU","CPU","2597","2018/04/10","00:20:00",3.0
  • ADLSを選択します。
    image.png

  • 左メニューより、[Data Explorer]を選択します。
    image.png

  • [New folder]を選択します。
    image.png

  • 任意の名称を入力します。ここでは[log]にします。
    image.png

  • 同じように[output]という名前のフォルダも作っておきます。これは分析結果を格納するフォルダにします。
    image.png

  • 作成したフォルダを選択し、[Upload]を選択します。
    image.png

  • 事前に準備したサンプルログを選択し、アップロードします。
    image.png

Azure CLIでアップロードする方法

  • 以下コマンドで実現可能です。
az dls fs upload --account [ADLS Name] --source-path C:\sample.txt --destination-path log

ADLAでクレンジング

  • ADLAを選択します。
    image.png

  • 左メニューより、[New job]を選択します。
    image.png

  • 以下のようなクエリ入力画面が表示されるので、ここにクエリを書いていきます。
    image.png

  • クエリを準備します。

    • EXTRACTでカラム名とデータ型を定義します。
    • 今回のサンプルでは日付と時刻が異なるカラムになっているので、DateTime.Parseでマージしています。
    • 最後にoutputフォルダにCSV形式で出力します。
@log =
    EXTRACT
        ip string,
        host_name string,
        host_type string,
        resource_type string,
        typea string,
        capa long,
        date string,
        time string,
        usecapa double
    FROM "log/sample.txt"
    USING Extractors.Csv(skipFirstNRows:1);

@merge =
    SELECT
        DateTime.Parse((date + ' ' + time)) AS daytime,
        ip,
        host_name,
        host_type,
        typea,
        capa,
        usecapa
    FROM @log;

OUTPUT @merge
TO "/output/sample-out.txt"
USING Outputters.Csv(outputHeader:true);
  • クエリを入力して、[Submit」ボタンで実行します。
    image.png

  • こんな感じで処理が走るので完了するまで待ちます。
    image.png

  • クエリ失敗したらエラーメッセージが出力されるので、内容を見てクエリ修正して再実行してと繰り返します。

  • 完了しました。結果を見てみましょう。[Data]タブを選択します。
    image.png

  • [Outputs]を選択します。
    image.png

  • クエリ実行結果ファイルのプレビューが表示されるため、意図した結果になっているか確認します。
    image.png

Power BIで分析

  • Power BI Desktopを開いて、サインインします。
  • もし認証付きProxy配下の場合、以下のアドレスへのアクセスに対しては認証しないようにする設定をProxyサーバに入れないと繋がりません。
PowerBIサインインに必要なURL
login.windows.net
outlook.office365.com
login.microsoftonline.com
api.powerbi.com
ADLS読み込みに必要なURL
azuredatalakestore.net
  • [データを取得]を選択します。
    image.png

  • [Azure Data Lake Store]を選択します。
    image.png

  • AzureポータルのADLS概要ページよりURLをコピーする。
    image.png

  • Power BI Desktopに戻り、先程のURLを貼り付けます。
    image.png

  • 必要に応じてサインインして、[接続]を選択します。
    image.png

  • 事前に作成したフォルダlogとoutputが見えてきてますね。[編集]を選択します。
    image.png

  • クエリエディターが開くので、outputの[Table]を選択します。
    image.png

  • [Binary]を選択します。
    image.png

  • データを確認することができました。
    image.png

  • [閉じて適用]を選択します。
    image.png

  • あとはデータを選んで自由に可視化します。
    image.png

日本語の文字列を可視化してみる

数値データだけでなく、日本語文字列のデータも可視化に加えてみます。

  • 以下のサンプルデータを準備しました。アラートメッセージのイメージです。このとき文字コードはUTF-8で保存してください。
sample_alert.txt
 "host01","3","エラーが発生しました。","2018/04/10","02:10:00",0000
  • ADLSのlogフォルダにアップロードします。
  • クエリ実行します。U-SQLは以下。
    • ポイントは最後のアウトプットです。Unicodeにエンコーディングして出力します。デフォルトはUTF-8ですが、そのままだとPower BI Desktopで読み込んだときに文字化けしてしまう為です。
@log =
    EXTRACT
        host_name string,
        id int,
        msg string,
        date string,
        time string,
        code string
    FROM "log/sample_alert.txt"
    USING Extractors.Csv();

@merge =
    SELECT
        DateTime.Parse((date + ' ' + time)) AS daytime,
        host_name,
        msg
    FROM @log;

OUTPUT @merge
TO "/output/sample_alert_output.txt"
USING Outputters.Csv(outputHeader:true,encoding:Encoding.Unicode);
  • 実行完了すると先ほどと同じようにPower BI DesktopでADLSに接続して読み込みます。
  • CPU使用率とアラートメッセージを同じページで可視化してみました。 image.png

まとめ

ADLSに溜めたデータをADLAで加工し、Power BIで可視化することができました。
Log AnalyticsでサポートしているログデータはLog Analyticsに集めて分析したほうがよいですが、今回のようにLog Analyticsカスタムログの仕様に当てはまらない場合は、Data Lakeも選択肢として使えそうですね。