このブログはHortonworks Advent Calendar 2016の11日目のエントリーです。
最初はHortonworks SandboxのDocker版を紹介しようかと思っていたのですが、@cyberblack28 さんが既にHDP SANDBOX on SoftLayer by Rancherで紹介していたので別のネタでいきます。
タイトル通りなんですが、HDPのチュートリアルを(一部)翻訳したのでそれを紹介します。
翻訳は、今話題のGoogle翻訳をかけて、それを直すというやり方でやっています。世間の評判通り、確かに今のGoogle翻訳はかなり自然な日本語を作ってくれるので比較的時間をかけずに翻訳を作ることができました。それでもたまに誤訳があったりするので、一応直してはいますが、私の英語力は大したことないので修正漏れがあると思います。もし見つけた際にはプルリク等を送ってもらえると嬉しいです。
以下がその翻訳になります。
LAB 1 - LOADING SENSOR DATA INTO HDFS
LAB 2 - HIVE AND DATA ETL
LAB 4 - SPARK RISK FACTOR ANALYSIS
簡単にチュートリアルの内容を説明します。
とある会社でトラックで商品を配送しています。そのトラックにはセンサーが積み込まれており、そのデータは定期的に収集されています。そのデータの中には位置データやイベントデータなどが含まれています。イベントデータには急ブレーキや車間距離が短い、スピード違反しているなどがあります。その会社がHadoopを使ってやりたいことは、事故等のリスクを軽減することです。そのために運転手のリスクファクタ(どれくらい危険なイベント発生させる可能性が高いか)を計算するというのがこのチュートリアルの目的です。
内容としては、トラックのセンサーデータをHDFSにアップロードし(LAB1)、Hiveにロードし(LAB2)、SparkやZeppelinを用いて運転手のリスクファクタを計算する(LAB4)というものになっています。
HDPを始める最初のステップとしてはHDP Sandboxを動かしてみるのが良いと思いますが、さらにチュートリアルをやってみると理解が深まると思います。
興味のある方は是非やってみてください!