0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Cloudera Data Services 用語集

Posted at

この記事について

以下のドキュメントの翻訳です。

Clodera のブランディング変更で、CDP(Cloudera Data Platform)を Cloudera と称するなどの名称変更がアナウンスされています。
元のドキュメントでネーミング変更が反映されていない部分については、新しい名称にしていたりしていなかったりします。

翻訳

Cloudera Private Data Services のドキュメンテーションでは、エンタープライズのデータクラウドおよびクラウドコンピューティングに関する以下の用語を使用します。

CDP CLI:

CDPのサービスにアクセスし、管理するためのコマンドラインインターフェースです。

Cloduera On-premise Base (旧名称:CDP Private Cloud Base):

Cloudera のオンプレミスバージョン。Cloudera の DataHub(CDH) と Hortonworks Data Platform(HDP)の良いところを組み合わせ、スタック全体にわたり新機能の追加や機能強化も行なっています。

Cloudera AI:

このデータサービスを使って、データサイエンティストのチームはAIのモデルを開発、テスト、トレーニングし、最終的にはデプロイして、予測用のアプリケーションをビルドすることができます。これらすべてのデータは、エンタープライズデータクラウドの中で管理されています。マネジメントコンソールより、Cloudera AI のワークスペースにアクセスし、エンドユーザー(データサイエンティスト)がアクセスすることができます。

Cloudera Manager for Data Services:

クラスターにサービスをインストールし、管理、監視、設定するためのツールです。Cloudera Manager の 管理コンソールのWebアプリケーションと、Cloudera Manager API を利用します。

Cloudera Runtime:

Cloudera On-premise Base のコアとなる、オープンソースのソフトウェアディストリビューションです。Cloudera の中には、データ管理に関する約50のオープンソースプロジェクトが含まれます。

Control Plane service:

マネジメントコンソール、レプリケーションマネージャ、データリカバリーサービス、サービスディスカバリーサービスなどを含む Cloudera のサービスです。
これらのサービスは、ECS(Embedded Container Services)またはOCP(Openshift Container Services)とやりとりし、HDFS または Ozone に保存されたデータのライフサイクルを管理するための計算インフラを調達・管理します。

Data Catalog:

このデータサービスに様々なアセットを追加することで、データスチュアード、ビジネスアナリスト、データ管理者は異なるデータセットを整理整頓し管理することができます。

ユーザーは、スキーマやセンシティブ情報を識別するためのメタデータをデータレイクが集められるように情報をスキャンし、プロファイリングできます。メタデータはプロファイラーによって収集され、Cloudera Apache Atlas に保存され、検索や発見のオペレーションの際に取得できるようになります。
ユーザーはアセットを定義し、カスタムルールを使ってタグ付けすることで、ビジネス要件に従ってアセットを識別および分類できます。アセットの詳細ページでは、該当のアセットに関するメタデータを発見したり、タグづけしたり、複数のアセットをグルーピングしてデータセットを作成することができます。ユーザーは様々な属性に基づいて、データセットを検索したり管理することができます。

Data Engineering:

このデータサービスでは、Spark のクラスターを作成し保守するオーバーヘッドなしに、Apache Spark のジョブを作成し、管理し、スケジューリングすることができます。CPU、メモリの範囲を定義して仮想クラスタを定義すると、Sparkのワークロードを実行するのに必要なだけクラスターがスケールアップまたはダウンし、クラウドコストの管理を助けます。

Data Lake:

データの周囲に、セキュリティとガバナンスの保護リングを作成します。 Cloudera On-premise では、データレイクのサービスは Cloudera On-premise Base クラスターでホストされます。さらに、データレイクのサービスは複数のワークロード間で共有されます。

Data Service:

Cloudera の機能のサブセットの定義です。ユーザーはこれを使って、データレイクに関する特定の問題(データ処理、分析、予測など)を解決することができます。

サービスの例:Data Engineering, Data Warehouse, Cloudera AI

Data Warehouse:

このデータサービスは、新しいデータウェアハウスを作り、データのサブセットを特定のチームや部門で共有することを可能にします。マネジメントコンソールより、データウェアハウスのクラスタを作成し、エンドユーザー(データ分析者)がアクセスすることができます。

Environment(環境):

Cloudera On-premiseのユーザーアカウントとコンピュートリソースの対応をあらわす論理的なエンティティで、Data Warehouse や Cloudera AI などのワークロードを調達し管理することができます。

Management Console(マネジメントコンソール):

Cloudera On-premise Data Services を管理するためのUIです。Clouderaの管理者は、マネジメントコンソールを使って環境、データレイク、環境のリソース、ユーザーをすべての On-preise Data Services にわたって管理することができます。

Replication Manager:

Cloudera On-premise Base 7.1.8 以上のクラスタおよびCloudera Manager 7.7.3 以上のバージョンでは、このデータサービスを使って、HDFSのデータやHiveの外部テーブル、Ozone のデータをコピーおよびマイグレーションすることができます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?