Overview — Ray 2.23.0の翻訳です。
概要
Rayは機械学習のようなAIやPythonのアプリケーションをスケールさせるためのオープンソースの統合フレームワークです。あなたが分散システムの専門家である必要がないように、並列処理の計算レイヤーを提供します。Rayは以下のコンポーネントを用いて、あなたの分散された個々とのワークフローやエンドツーエンドの機械学習ワークフローを実行する際の複雑性を最小化します:
- データ前処理、分散トレーニング、ハイパーパラメータチューニング、強化学習、モデルサービングのような一般的な機械学習タスクに対してスケール可能なライブラリ。
- Pythonアプリケーションを並列化、スケールさせるためのPythonicな分散コンピューティングプリミティブ。
- Kubernetes、AWS、GCP、Azureのような既存ツールやインフラストラクチャとRayクラスターとの連携、デプロイのためのインテグレーションやユーティリティ。
データサイエンスや機械学習の実践者に対して、Rayはインフラストラクチャの専門性を必要とすることなしにジョブをスケール可能にします:
- 複数ノードや複数GPUに対してMLワークロードを容易に並列化、分散。
- ネイティブ、拡張可能なインテグレーションでMLエコシステムを活用。
MLプラットフォーム構築者やMLエンジニアに対して、Rayは以下を提供します:
- スケーラブルで堅牢なMLプラットフォームを構築するための計算資源の抽象化レイヤー。
- 幅広いMLエコシステムへのオンボーディングとインテグレーションをシンプルにする統合ML API。
- ラップトップから大規模クラスターにシームレスにスケールする際に、同じPythonコードを活用することで開発とプロダクションの間の摩擦を軽減。
分散システムエンジニア向けに、Rayはキーとなるプロセスに自動で対応します:
- オーケストレーション - 分散して産むのさまざまなコンポーネントの管理。
- スケジューリング - いつ、どこでタスクを実行するのかを調整。
- 耐障害性 - 不可避な障害ポイントに関係なくタスクの完了を保証。
- オートスケーリング - 動的な需要に割り当てられるリソースの数を調整。
Rayでできること
個人、組織、企業が自身のAIアプリケーションを構築するためにRayを活用できるいくつかの一般的なMLワークロードが存在します。
Rayのフレームワーク
Rayライブラリのスタック - MLワークロードに対する統合ツールキット
Rayの統合コンピュートフレームワークは3つのレイヤーから構成されます:
- Ray AIライブラリ - MLエンジニア、データサイエンティスト、研究者をMLアプリケーションのためのスケーラブルで統合されたツールキットで強化する、オープンソース、Python、ドメイン固有の一連のライブラリです。
- Ray Core - MLエンジニアやPython開発者がPythonアプリケーションをスケールし、機械学習ワークロードを加速させる、オープンソース、Python、汎用、分散コンピューティングライブラリです。
- Rayクラスター - 共通のRayヘッドノードに接続する一連のワーカーノードです。Rayクラスターは固定サイズ、あるいはクラスターで実行されるアプリケーションによってリクエストされるリソースに応じて自動でスケールアップ、ダウンすることができます。
機械学習ワークロードをスケール
分散データ処理、モデルトレーニング、チューニング、強化学習、モデルサービング、その他のためのライブラリのツールキットでMLアプリケーションを構築。
分散アプリケーションをスケール
シンプルかつ柔軟性のあるAPIで分散アプリケーションを構築、実行。数行の変更、あるいはコードの変更なしにシングルマシンのコードを並列化。
大規模ワークロードのデプロイ
AWS, GCP, Azureあるいは、オンプレミスにワークロードをデプロイ。既存のKubernetes、YARN、SlurmクラスターでRayを実行するためにRayクラスターマネージャを活用。
Rayの5つのネイティブライブラリのそれぞれが、特定のMLタスクを分散させます。
- Data: トレーニング、チューニング、予測におけるスケーラブルかつフレームワーク非依存のデータロード、変換処理。
- Train: 人気のトレーニングライブラリと連携する、耐障害性を持つマルチノード、マルチコア分散モデルトレーニング。
- Tune: モデルパフォーマンスを最適化するためのスケーラブルなハイパーパラメータチューニング。
- Serve: パフォーマンスを改善するためのオプションのマイクロバッチを備えた、オンライ推論のためのモデルをデプロイするためのスケーラブルでプログラム可能なサービング。
- RLlib: スケーラブルな分散強化学習ワークロード。
RayのライブラリはデータサイエンスやMLエンジニアの両方向けのものです。データサイエンスは、これらのライブラリを個々のワークロードやエンドツーエンドのMLアプリケーションをスケールさせるために活用することができます。MLエンジニア向けにこのライブラリは、広範なMLエコシステムのツールを容易にオンボード、連携するために活用できるスケーラブルなプラットフォームの抽象化レイヤーを提供します。
カスタムアプリケーションにおいては、ラップトップ、クラスター、Kubernetes上で実行されるスケーラブルかつ分散したシステムをPython開発者が容易に構築できるようにする、Ray Coreライブラリが存在します。これは、Ray AIライブラリやサードパーティインテグレーション(Rayエコシステム)が構築される基盤となります。
Rayはいかなるマシン、クラスター、クラウドプロバイダー、Kubernetesで動作し、これらの機能はコミュニティインテグレーションのエコシステムを成長させています。