hadoop
Azure
hive
MachineLearning
HDInsight


わからなかった単語


  • ADLS

  • U-SQL

  • Hive (Apache)

  • Hadoop

  • HDInsight

  • Blob

  • Jupyter Notebook

  • Data Warehouse

  • Data lake store

  • Azure

  • Azure ML製品

  • Azure Note

  • コラボラトル

  • AWS S3

  • Spark

  • Azure ML Studio

  • Chainer

  • HDFS

  • Ambari


キャッチアップまとめ


Azure

米Microsoftが開発し提供するクラウドサービス


特徴


  • 企業が利用することを前提に考えられているクラウドサービス

  • IaaSとPaaSを包含したクラウドサービス

  • モバイルファースト+クラウドファーストを目指すプラットフォーム

  • パブリッククラウドに属するサービス

  • Azureが各サービスを提供している


参考


Azure Data Lake Store


参考


Azure Data Lake Analytics


参考


U-SQL


参考


Hadoop


参考


HDInsight


参考


Hive


参考


Jupyter Notebook


参考


Microsoft Azure Machine Learning Studio


参考


Ambari



ADFからの動的なファイル名のU-SQLの実行



HiveでCSVファイルからデータ取得


やりたいこと


注意事項

** HDInsightのクラスタは起動しているだけで課金されるため、使い終わった瞬間にクラスタを削除すること **


全体の流れ


  1. AzureでHDInsightクラスタの作成

  2. クエリの実行


AzureでHDInsightクラスタの作成

HiveApache Hadoopの上で動くアプリケーションなので、Hadoopクラスタを作成する

クラスタの作成は、下記の公式ドキュメントを参考にする

Hadoop チュートリアル: HDInsight で Hadoop を使用する | Microsoft Doc


クエリの実行

HDInsight Hadoop #1 Hive クエリ実行 (CUI編) | OSS on Azure 技術ブログ


  • これでやってみる

Azure CLI 2.0 のインストール | Microsoft Doc


  • 自分のOSにあったCLIをインストール

Azure CLI 2.0 を使ってみる | Microsoft Doc


  • 使ってみよう

  • できなかった

HDInsight Hadoop #2 Hive クエリ実行 (Apache Ambari編) | OSS on Azure 技術ブログ


  • CLIでできなかったので、GUIでやってみる


  • Apache Amabriでの作業についての手順がわかりやすい