More than 5 years have passed since last update.

Azure Data Lake Storage Gen2 使ってみた

Last updated at 2019-05-07Posted at 2019-01-11

簡単な分析環境がすぐできるらしいので試してみました
※ちなみにAzure Data Lake Storage Gen2 はまだプレビューだそうです。

そもそもAzure Data Lake Storage Gen2 ってなによ

Azure Blob ストレージと Azure Data Lake Storage Gen1 という、既存の 2 つのストレージサービスの機能を集約したもの。
ファイルシステムセマンティクス、ディレクトリ、ファイルレベルのセキュリティおよびスケーリングなど、Azure Data Lake Storage Gen1 に由来する機能が、Azure Blob ストレージの低コストの階層型記憶域、高可用性/ディザスターリカバリー機能と組み合わされています。

公式引用
よくわかりません

※翻訳してみました※
前身のAzure Data Lake Store がもともとサイズ無制限であらゆる種類のデータを保存することができ、高セキュリティ(AzureADとの連携)・高可用性(3重のレプリカ構造)、WebHDFS互換(Hadoop Distributed File System)の分散型ファイルシステムでした。
要するに大量のログなどをとりあえず生のまま保存することができ、複数の(HDFS接続のできる)分析基盤との接続もできるので多角的にデータを有効活用できるようになるようです。
またGen2でBlob Strageの機能も加わったため、価格がBlob Strageベースの安価なものになり、使いやすくなりました
という理解

Azure Data Lake Storage G2 を使うと何がうれしいの？

大量のログなどを容量を気にすることなく、とりあえず生のまま安価に高機能なストレージに突っ込むことができる
またHadoop互換のシステムとの連携もできるので分析だけではなく機械学習や他の分野にもデータを活用することができる。
あと生データが保存できるので、後で別のシステムで活用することも可能

とりあえず使ってみる

PowerShellとかやり方はいろいろあるみたいだけど、今回はAzureポータルから使用開始してみたいと思います

(1)Azure Data Lake Storage Gen2 対応のストレージアカウントを作成するため
　Azure Portal の左側のメニューから「リソースグループ」をクリック

(2)「追加」をクリック

(3)サブスクリプション、リソースグループ、リージョンを適宜選択し、「確認および作成」をクリック

(4)確認画面が出るので問題なければ「作成」をクリック

(5)Azure Portal の左側メニューから「ストレージアカウント」をクリック

(6)「追加」をクリック

(7)必要項目を記入・選択し、「次:詳細」をクリック

(8)DATA LAKE STORAGE GEN2(プレビュー)を「有効」に変更し、「確認および作成」をクリック

(9)「検証に成功しました」と表示されたら設定項目を確認し「作成」をクリック

データを取り込んでみる

(10)Azure Data Lake Strage Gen2 にログデータなどを取り込みたいので、今回はAzure Data Factoryを利用したいと思います
　どうもいろんなタイプのログやデータを取り込んでアウトプットできるらしい(曖昧)
　Azure Portal の左側のメニューから「すべてのサービス」-> 分析の「データファクトリー」をクリック

(11)追加をクリック