Cloudera World Tokyo 2017とは?
インターコンチネンタルホテルで開催されたビッグデータ管理と分析の最先端プラットフォームを提供するCloudera が主催するカンファレンス。
1年に1度開催され、今年で6回目。
Cloudera World Tokyo 2017(CWT2017)まとめ系
~14:20 登壇打ち合わせ、リハーサルなど
D-2 14:20~15:00 登壇
Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
資料
質疑応答(懇親会含む)
- ジョブスケジューラは何を使ってるか?
- 開発体制のところでIaCの他にどんな事をやれば開発エンジニアの人がインフラ構築を進んでやってもらえるようになりますか?
- S3 Guard 具体的にどんな仕組みで動くのか?
- 何人でその規模、及びそのセッションの内容をやったか?
- クラウドでのClouderaのサブスクリプションってどうなってるのか?
- hadoop環境でのopenstackの検討はしたか?また、採用見送りになったならば、その理由を教えて欲しい。
- hive on s3のwrite heavyなクエリ改善でどのような事をやったか?どんなパラメータをどう変えたか教えて欲しい
16:00~16:40 ブース見回り
戦利品
ブース回ってゲットしたもの。時間なくて3ブースくらいしか回れなかった
E-4 Clouderaが提供するエンタープライズ向け運用、データ管理ツールの最新情報と使い方
資料
公開待ち
内容メモ
- セキュリティ事例
- mastercard -> PCI認定取得(Hadoopを使用していて初)
- hadoopデメリット
- データ管理が複雑になる
- メタデータ管理ことビッグデータ基盤の急所
- メタデータ管理ツール -> Cloudera Navigator
- 技術メタデータとビジネスメタデータの管理/可視化
- S3のトレース、監査系可能
考察
前半Cloudera Manager。後半Cloudera Navigator。どちらも前から知ってる。
Cloudera Managerは置いといて、Cloudera Navigatorはクラウドでも便利そう(S3)。
特にAWS CloudTrailでやらせていたところを簡単に手間なくやれそう。
CloudTrailはF.O.Xでも設定をずっとまえから導入し、活用出来てないところもあるので、こうゆう手のあると利用が加速するのかもしれない。
ただ、F.O.Xの規模感でここまでやるかなぁというところも感じられるので何とも。
D-5
Cloudera AltusとAmazon EMRを比較する
資料
公開待ち
内容メモ
- 使えるエコシステムを比較
- Altusはhive/spark/MR/hive on spark
- EMRの方が多機能? 一長一短
- EMRは汎用的なクラスタ用途
- 使い方
- 基本的な仕組みは一緒(タスク、コア、タスク)
- Altusはジョブベース設計思想(本当にやりたいことはジョブ)
- 実行されたジョブを見る方法
- Altusはworkload analyticsを使うとすごく便利
考察
Altus初心者ならばこちらを資料公開されたら、読んだ方が良い
Amazon EMR利用者がCloudera Altusを使ってみた感想
資料
P.17,18は非常に内容が良い
内容メモ
- Altusのノード
- /var/log以下をtd-agentが動いてログ転送をS3にしてた(コメ: なんだと!)
- クラスタシャットダウン後もログ検索が便利(コメ: ClouderaDirectorだと出来ないからなぁ)
- Altusで出来ないこと
- 複数ジョブの依存を組めない(コメ: いわゆるEMRのmulti streaming steps)
- APIによる起動(コメ: まじか)
- ジョブのfork(コメ: なるほど)
- HiveMetaStoreの永続化(コメ: これはAltusリリース時から言われてる事)
- クラスタ起動後のworkerのサイズ変更(コメ: まじか)
- ジョブ失敗時の通知系(コメ: これはAltusでやらなくて良いのでは?)
- 起動時間20分ほど(コメ: これはAltusのゴールデンイメージpreloadで数分起動可能だと思う)
- spotインスタンスはworkerのみ(コメ: まじか)
- SSO/2段階認証(コメ: ふむ)
- アカウント/請求書を分けたい(コメ: ふむ)
- 結論
- Altus workload analytics / cloudera managerの存在が大きい
考察
Altusは、一度試用をしたことがある。
本番で使うにはEMRと比較すると足りない部分が多すぎるので厳しいと思う。
なので様子見かなぁ。
全体的にありがたい知見だった。Cloudera Directorの時は、顧客事例みたいのググってもなくて、人柱的に調べていたので大変だったので。