Ted's talk
完全英語トークでした。
スライドは日本語なのでスライド参照w
RDBによる管理者が支配するスキーマからアプリケーションが支配するスキーマレスな非RDBに移行する。
これらはアジリティを上げてくれる。
即時分析により即断可能なビジネスを実現する。
Drillが動的なスキーマディスカバリをサポートする。
Drillは SQL on Everything を可能にする
いろんなデータ型の扱いができる。
データソースをまたいだクエリも可能。
Prestoとどう違うんだろう…
ディレクトリは暗黙的なパーティション!
これいいな。
アメリカンスタイルは随時質問する!
RDBのSQLサポートってどうなってるのか?
→ 完全にはまだだけど、オープンソースコミュニティがどんどん上げてってくれ
セキュリティは?
細かいアクセス制御あり。
REST APIのドキュメントなくてツラい→ML投げてくれ
Contributeよろしく!!!!
Apache Drill を業務利用してみる(までの道のり)
Future Architect 須田さん
プロダクト選定を通じて思ったところ
顧客業務導入…!
業務導入はもうちょい先の話。
それに向けてのアクションの話。
Hiveかわいそうの巻www
Drillは最新バージョンでRDBMSもやれる。
DWHの分析用にアーカイブDB(RDBMS)に入れて使ってるシステムの話。
業務の都合上、過去データの抽出依頼が別部署から頻繁に発生している。
アーカイブにアクセスして分析してた。
リプレースが近いのでHadoopクラスタ導入に向けて動いている。
SQL on Hadoop
それどんだけ枯れてるの?って言われる
ユーザー視点でのポイント3つ
- ☆操作性(SQLはけっこういける)
- ☆秘伝のたれ化したものを使いたい
- 運用はシンプルに扱いたい
ユーザーにとってどれだけ使いやすいかを重視
当時Prestoが不安があって外された。
残ったのはDrill、HAWQ
Oracleは高いから外した…
HAWQの説明
- 最近OSS化
- ほぼポスグレ
- 意外とダークホース
Drillは日本語の扱いがハマりポイントらしい。
1.2で一人前になった感
スキーマ宣言する以上管理するマスタが必要になる。
そうするとマスタのプロセスも冗長化どうにかしないと…→台数がどんどん増える。
DrillはZookeeperがよしなにやってくれるしマスタもなくていい感じ。
- SQL使える
- マスタレスだから障害ポイント少ない
- 完全OSS
- 将来性 Drillのコンセプトは他にはなさそう
不満な点
- YARNのリソース管理対象だけど、メモリだけ
- CPUリソースは別になってる
よかったポイント
- オンメモリで処理できなかった場合に極端だけど、けっこう安定してた
導入が始まる
今後の検討課題
- エンドユーザーが使ってみてどうなのか
- パフォーマンスチューニング…
- 認証認可をどうしようか、設計をがんばる必要がある
機会があれば実践編を!
乞うご期待!
Drill Explorerがかっこいい
非開発者以外のユーザーに馴染むかどうかと言われれば微妙かもしれん
どんなユーザーに価値がありそうか?
Drillはある程度SQL使えて分析を自分でできる人に向いてる。
HAWQはぽすぐれ。取っつきやすい。ちょっとSQL知ってる人でも扱える。導入ハードルは低い。
日本語を扱ってみる
MapR 梅川さん
全く触ったことない人がどうやって使ってデータ分析するかの話
_UTF16つけるとうまくいく
ロケールはja_JP.UTF08
Apache Drillで見るTwitterの世界
サイバーエージェント 渡部さん
2013年のTwitter APIのデータを使ってユーザーのツイート数とかから色々読み解いてみた話