LoginSignup
23
19

More than 3 years have passed since last update.

Azure Data Lake Storage Gen2 使ってみた

Last updated at Posted at 2019-01-11

簡単な分析環境がすぐできるらしいので試してみました
※ちなみにAzure Data Lake Storage Gen2 はまだプレビューだそうです。

そもそもAzure Data Lake Storage Gen2 ってなによ

Azure Blob ストレージと Azure Data Lake Storage Gen1 という、既存の 2 つのストレージ サービスの機能を集約したもの。
ファイル システム セマンティクス、ディレクトリ、ファイル レベルのセキュリティおよびスケーリングなど、Azure Data Lake Storage Gen1 に由来する機能が、Azure Blob ストレージの低コストの階層型記憶域、高可用性/ディザスター リカバリー機能と組み合わされています。

公式引用
よくわかりません

※翻訳してみました※
前身のAzure Data Lake Store がもともとサイズ無制限であらゆる種類のデータを保存することができ、高セキュリティ(AzureADとの連携)・高可用性(3重のレプリカ構造)、WebHDFS互換(Hadoop Distributed File System)の分散型ファイルシステムでした。
要するに大量のログなどをとりあえず生のまま保存することができ、複数の(HDFS接続のできる)分析基盤との接続もできるので多角的にデータを有効活用できるようになるようです。
またGen2でBlob Strageの機能も加わったため、価格がBlob Strageベースの安価なものになり、使いやすくなりました
という理解

Azure Data Lake Storage G2 を使うと何がうれしいの?

大量のログなどを容量を気にすることなく、とりあえず生のまま安価に高機能なストレージに突っ込むことができる
またHadoop互換のシステムとの連携もできるので分析だけではなく機械学習や他の分野にもデータを活用することができる。
あと生データが保存できるので、後で別のシステムで活用することも可能

とりあえず使ってみる

PowerShellとかやり方はいろいろあるみたいだけど、今回はAzureポータルから使用開始してみたいと思います

(1)Azure Data Lake Storage Gen2 対応のストレージ アカウントを作成するため
 Azure Portal の左側のメニューから「リソース グループ」 をクリック
DataLakeG2_01.png

(2)「追加」をクリック
DataLakeG2_02.png

(3)サブスクリプション、リソースグループ、リージョンを適宜選択し、「確認および作成」をクリック
DataLakeG2_03.png

(4)確認画面が出るので問題なければ「作成」をクリック
DataLakeG2_04.png

(5)Azure Portal の左側メニューから「ストレージ アカウント」をクリック
DataLakeG2_05.png

(6)「追加」をクリック
DataLakeG2_06.png

(7)必要項目を記入・選択し、「次:詳細」をクリック
DataLakeG2_07.png

(8)DATA LAKE STORAGE GEN2(プレビュー)を「有効」に変更し、「確認および作成」をクリック
DataLakeG2_08.png

(9)「検証に成功しました」と表示されたら設定項目を確認し「作成」をクリック
DataLakeG2_10.png

データを取り込んでみる

(10)Azure Data Lake Strage Gen2 にログデータなどを取り込みたいので、今回はAzure Data Factoryを利用したいと思います
 どうもいろんなタイプのログやデータを取り込んでアウトプットできるらしい(曖昧)
 Azure Portal の左側のメニューから「すべてのサービス」-> 分析の「データ ファクトリー」 をクリック

(11)追加をクリック
DataLakeG2_11.png

(12)新しいData Factoryを作成するため、必要項目を入力し「作成」をクリックする
 ちなみに、名前はグローバルで一意である必要がある
 リソースグループは(1)で作成したものを選択
 場所はまだ日本はないらしい・・・(早く実装されてほしい)
DataLakeG2_12.png

(13)作成したデータファクトリーを開き「作成と監視」をクリック
DataLakeG2_13.png

(14)別タブでデータ統合アプリケーションが開くので(結構時間がかかる)、「Copy Data」をクリック
DataLakeG2_14.png

(15)Task name を適当に設定し「Next」をクリック
DataLakeG2_15.png

(16)データソースを選択するため、「Create new connection」をクリック
DataLakeG2_16.png

(17)接続させたい接続元サービスを選択する
  Amazon Redshift や Google BigQuery とも連携できるようなのですが、テストとしてAmazonS3にあるファイルを取りこんでみる
  というわけで、「Amazon S3」を選択し「Continue」を選択
DataLakeG2_17.png

(18)設定したいS3の情報を記載し、「Test Connecting」をクリックして問題なければ「Finish」をクリック
 (S3側であらかじめアクセスキーを設定しておく必要あり)
DataLakeG2_18.png

(19)「Next」をクリック
DataLakeG2_19.png

(20)ソースとなるフォルダまたはファイルを「Browse」ボタンから選択し、「Copy file recursively」(ファイルの再起コピー)と「Binary Copy」にチェックを入れて「Next」をクリック
DataLakeG2_20.png

(21)データのストア先を設定するため、「Create new connection」をクリック
DataLakeG2_21.png

(22)「Azure Data Lake Storage Gen2」 を選択して「Continue」Continue をクリック
DataLakeG2_22.png

(23)(7)で指定した Strage account name を指定し「Finish」をクリック
DataLakeG2_23.png

(24)正常に登録されていることを確認し「Next」をクリック
DataLakeG2_24.png

(25)「Folder path」に出力先のフォルダ名を入力し「Next」をクリック
DataLakeG2_25.png

(26)オプション設定なので特に設定せず「Next」をクリック
DataLakeG2_26.png

(27)ここまで設定してきた内容を確認し、問題なければ「Next」をクリック
DataLakeG2_27.png

(28)正常にDeployが完了したら「Monitor」をクリックする
DataLakeG2_28.png

(29)実際に実行してファイルコピーの結果は下図のように確認することができる
  テストでファイルが小さいので早いですね
DataLakeG2_29.png

(30)実際にコピーした情報は、Azure Storage Explorer からも確認することができた
DataLakeG2_30.png

次回はこれを使って分析する方法をテストしてみたいと思います。

23
19
2

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
23
19