この記事について
以下のドキュメントの翻訳です。
Clodera のブランディング変更で、CDP(Cloudera Data Platform)を Cloudera と称するなどの名称変更がアナウンスされています。
元のドキュメントでネーミング変更が反映されていない部分については、新しい名称にしていたりしていなかったりします。
翻訳
Cloudera Private Data Services のドキュメンテーションでは、エンタープライズのデータクラウドおよびクラウドコンピューティングに関する以下の用語を使用します。
CDP CLI:
CDPのサービスにアクセスし、管理するためのコマンドラインインターフェースです。
Cloduera On-premise Base (旧名称:CDP Private Cloud Base):
Cloudera のオンプレミスバージョン。Cloudera の DataHub(CDH) と Hortonworks Data Platform(HDP)の良いところを組み合わせ、スタック全体にわたり新機能の追加や機能強化も行なっています。
Cloudera AI:
このデータサービスを使って、データサイエンティストのチームはAIのモデルを開発、テスト、トレーニングし、最終的にはデプロイして、予測用のアプリケーションをビルドすることができます。これらすべてのデータは、エンタープライズデータクラウドの中で管理されています。マネジメントコンソールより、Cloudera AI のワークスペースにアクセスし、エンドユーザー(データサイエンティスト)がアクセスすることができます。
Cloudera Manager for Data Services:
クラスターにサービスをインストールし、管理、監視、設定するためのツールです。Cloudera Manager の 管理コンソールのWebアプリケーションと、Cloudera Manager API を利用します。
Cloudera Runtime:
Cloudera On-premise Base のコアとなる、オープンソースのソフトウェアディストリビューションです。Cloudera の中には、データ管理に関する約50のオープンソースプロジェクトが含まれます。
Control Plane service:
マネジメントコンソール、レプリケーションマネージャ、データリカバリーサービス、サービスディスカバリーサービスなどを含む Cloudera のサービスです。
これらのサービスは、ECS(Embedded Container Services)またはOCP(Openshift Container Services)とやりとりし、HDFS または Ozone に保存されたデータのライフサイクルを管理するための計算インフラを調達・管理します。
Data Catalog:
このデータサービスに様々なアセットを追加することで、データスチュアード、ビジネスアナリスト、データ管理者は異なるデータセットを整理整頓し管理することができます。
ユーザーは、スキーマやセンシティブ情報を識別するためのメタデータをデータレイクが集められるように情報をスキャンし、プロファイリングできます。メタデータはプロファイラーによって収集され、Cloudera Apache Atlas に保存され、検索や発見のオペレーションの際に取得できるようになります。
ユーザーはアセットを定義し、カスタムルールを使ってタグ付けすることで、ビジネス要件に従ってアセットを識別および分類できます。アセットの詳細ページでは、該当のアセットに関するメタデータを発見したり、タグづけしたり、複数のアセットをグルーピングしてデータセットを作成することができます。ユーザーは様々な属性に基づいて、データセットを検索したり管理することができます。
Data Engineering:
このデータサービスでは、Spark のクラスターを作成し保守するオーバーヘッドなしに、Apache Spark のジョブを作成し、管理し、スケジューリングすることができます。CPU、メモリの範囲を定義して仮想クラスタを定義すると、Sparkのワークロードを実行するのに必要なだけクラスターがスケールアップまたはダウンし、クラウドコストの管理を助けます。
Data Lake:
データの周囲に、セキュリティとガバナンスの保護リングを作成します。 Cloudera On-premise では、データレイクのサービスは Cloudera On-premise Base クラスターでホストされます。さらに、データレイクのサービスは複数のワークロード間で共有されます。
Data Service:
Cloudera の機能のサブセットの定義です。ユーザーはこれを使って、データレイクに関する特定の問題(データ処理、分析、予測など)を解決することができます。
サービスの例:Data Engineering, Data Warehouse, Cloudera AI
Data Warehouse:
このデータサービスは、新しいデータウェアハウスを作り、データのサブセットを特定のチームや部門で共有することを可能にします。マネジメントコンソールより、データウェアハウスのクラスタを作成し、エンドユーザー(データ分析者)がアクセスすることができます。
Environment(環境):
Cloudera On-premiseのユーザーアカウントとコンピュートリソースの対応をあらわす論理的なエンティティで、Data Warehouse や Cloudera AI などのワークロードを調達し管理することができます。
Management Console(マネジメントコンソール):
Cloudera On-premise Data Services を管理するためのUIです。Clouderaの管理者は、マネジメントコンソールを使って環境、データレイク、環境のリソース、ユーザーをすべての On-preise Data Services にわたって管理することができます。
Replication Manager:
Cloudera On-premise Base 7.1.8 以上のクラスタおよびCloudera Manager 7.7.3 以上のバージョンでは、このデータサービスを使って、HDFSのデータやHiveの外部テーブル、Ozone のデータをコピーおよびマイグレーションすることができます。