はじめに
7/31〜8/1に開催されたGoogle Cloud Next Tokyo '19に参加してきました。
この2日間でよく耳にしたGCPサービスTOP10を簡単な説明を添えて紹介していきます。
(注) TOP10についてはデータを取った訳ではなく、完全に独断と偏見である点はご了承ください。
よく出てきたGCPサービスTOP10
1. BigQuery
言わずと知れた安い・早い・使いやすいの三拍子揃ったデータウェアハウス。
リレーショナルデータベース(RDB)のように、SQLを用いることで、ペタバイトスケールのデータ分析からスプレッドシート等の各種ツールへの出力、BigQueryMLによる機械学習まで可能。
公式ドキュメント:Google BigQuery のドキュメント
2. Google Kubernetes Engine (GKE)
コンテナオーケストレーションサービスの代表格。
Dockerコンテナのためのプラットフォームであり、近年、マイクロサービスとの相性の良さと相まってインフラとしての採用が加速。
Google Cloud Next Tokyo '19ではほとんどのセッションの中で出てきていて、デファクトスタンダードとなっている印象を受けました。
公式ドキュメント:Google Kubernetes Engine のドキュメント
3. Anthos
今年4月に発表された、クラウド・オンプレに散在する環境を一元管理できるプラットフォーム。
コンセプトしか理解してませんが、Anthosを用いれば、ベンダーロックインされることなく、AWSやGCPなどの中から使いたいツールを自由に自分のサービスに組み込むことができるイメージになるのかなと思います。
Googleの注力具合を見ると、今後のGCPの主力サービスとして売り出したいのだろうなという印象を持ちました。
公式ドキュメント:Anthos のドキュメント
4. Cloud Pub/Sub
フルマネージドのリアルタイムメッセージングサービス。
データを集める・溜める・送るといった機能を有するため、データ分析基盤におけるデータのハブとして使用したり、ストリーミングデータの欠損を防ぐためのキューとして使用することも可能。
公式ドキュメント:Cloud Pub/Sub ドキュメント
5. Cloud Dataflow
データを加工・変換するツール。
バッチデータ処理パイプラインやストリーミングデータ処理パイプラインを作成する際にPub/Sub、BigQuery、GCSなどと一緒に使われる場合が多い。
OSSで言うと、FluentdやEmbulkのようなイメージ。
公式ドキュメント:Cloud Dataflow ドキュメント
6. Stackdriver
フルマネージドのログ収集ツール。
GCPやAWSからのログデータやイベントの格納、検索、分析、モニタリング、通知が可能であり、GCS、Pub/Sub、BigQueryへのエクスポート機能も揃っています。
Stackdriverには、Monitoring, Logging, ...と様々なものがあり、ログに関する基本的なことは一通りできてしまうイメージです。
公式ドキュメント:Stackdriver Logging ドキュメント
7. CloudRun
今年4月に発表されたコンテナ×サーバーレスを実現するサービス。
KnativeによりKubernetesの複雑さを意識する必要がない点、リクエストを受けたときの実行時間に対して課金される形なので安価に使用できる点、コンテナ利用のため言語・ライブラリを選ばない点が魅力が特徴です。
とても使い勝手が良く、個人的に好きなサービスだったので、本発表で東京リージョンでも利用可能になったことが嬉しかったです💡
公式ドキュメント:Cloud Run documentation
8. AutoML Tables
4月に発表されたExcelやスプレッドシート等で管理している構造化データを用意して読み込ませるだけで、データ前処理・アルゴリズム選定・モデル作成・交差検証・デプロイまでフルオートで実施してくれるAIツール。
裏側で何種類ものアルゴリズムを試して最適なものでモデルを作成してくれるとのこと(アンサンブル学習も自動で実施)。
ものによってはKaggleで上位を狙える程の精度が出るとのことで、ただただ凄いとしか言いようがありません。
公式ドキュメント:AutoML Tables のドキュメント
9. BigQueryML
BigQuery上で機械学習ができるサービス。
通常のSQLに、CREATE OR REPLACE MODEL
のような魔法の呪文を書いたり、どのアルゴリズムでモデルを作成するかを設定してあげるだけで、裏側でデータ前処理・モデル作成・交差検証までやってくれるため、手持ちのデータを基に素早くモデルを作成可能です。
業務で軽く触ったことがありますが、ものの数分でモデルができちゃうのでなかなか便利です。
公式ドキュメント:BigQuery ML のドキュメント
10. Cloud Spanner
スケーリングが容易なリレーショナルデータベース。
スケールアウト・スケールインが難しいというRDBMSのデメリットと、RDBとしての機能が担保できない・トランザクション機能がないというNoSQLのデメリットを克服したデータベースであり、NewSQLとも言われています。
大規模データを扱う事例でよく見かけました。
公式ドキュメント:Cloud Spanner ドキュメント
余談
余談となりますが、その他、Google Cloud Next Tokyo '19に参加してみて感じたことを2点書きたいと思います。
1. 最新の技術動向について
今更のことなので言うまでもないですが、基調講演の内容とか用意されているセッションの内容を見ても今のトレンドとしては
— まさし@元化学系研究職 (@fuku_tech) July 31, 2019
- コンテナ
- マイクロサービス
- サーバーレス
- 機械学習
- データ分析
という感じですね。
この辺はもう避けて通れないかと思います💡#GoogleNext19
2. TOP10以外に気になったサービス・ツールについて
1. Connected sheets(GSuite・近日発表)
- SQL不要でBigQueryに格納したデータをスプレッドシート上で表示させる+シート上で計算の適用、 フィルタなどが可能
- バックエンドでBigQuery BI Engineが動作しているため、1億行のシートもサクサク動く
- BigQueryにデータを用意すれば、使い慣れたスプレッドシート上でビッグデータ活用ができる点が極めて魅力的
- Next ’19 Tokyo 基調講演 2 で紹介されてます
2. Cloud SQL Federation
- BigQueryを通して、MySQLやPostgreSQL中のデータをリアルタイムで分析可能
- アナリストが常に最新のデータにセキュアにアクセス把握可能となる点がgood
3. Apigee(APIマネジメントプラットフォーム)
- API作成時に考慮しなければならないセキュリティなどの問題について、Apigee上でノンコーディングで設定可能であり、エンジニアは開発に集中できるようになる
- マイクロサービス化の流れもあるため、今後導入する企業が増加するのではないかと予想
- お値段は高めらしいので使用する機会があるかは分からないが、気になるツール
- Apigee ドキュメント
まとめ・所感
- 7/31〜8/1に開催されたGoogle Cloud Next Tokyo '19に参加してきたため、2日間で個人的によく耳にしたGCPサービスTOP10を3行程度での簡単な説明を添えて紹介していきました。
- 最新の技術動向はコンテナ・マイクロサービス・サーバーレス・機械学習・データ分析辺りだということを改めて感じました。
- 個人的には、BigQuery自身や、BigQueryと連携させるための周辺サービスがどんどん進化していることが印象的であり、BigQueryをデータウェアハウスとして利用することで、今後益々、より早く・より簡便にデータ活用ができる環境が構築できるようになるのだろうなと実感しました。
- 最後に、この贅沢なカンファレンスに2日間フルで参加させてくれた会社に感謝です。