はじめに
Oracle Data Pumpは、Oracle Databaseのオンプレミスからクラウドへの移行やバージョンアップの際によく使用される手法の1つです。
今回は、PARALLELパラメータとワーカー・プロセスの関係について、Oracle Data Pumoのアーキテクチャについて触れながらご紹介していきます。
また、本記事の内容は、
第8回 Oracle DBaseCamp
【Oracle Data Pumpによるエクスポートとインポート】
に登壇した際の内容になります。
詳細についてご覧になりたい方は、以下の録画や資料を参考にしてみてください。
- 録画
*資料
Oracle Data Pumpのコンポーネント
まず、ユーザーからエクスポート・インポートコマンドが実行された際のOracle Data Pump内部のコンポーネントの関係を見ていきます。
Oracle Data Pumpのクライアントのexpdpとimpdpは、それぞれエクスポート・ユーティリティとインポート・ユーティリティと呼ばれ、内部的にデータ・ポンプAPIであるDBMS_DATAPUMPを実行します。
DBMS_DATAPUMPは、PL/SQLパッケージで、エクスポートおよびインポートを実行するために、コマンドラインで入力されたパラメータを解釈し実行します。
また、メタデータを移動する場合は、PL/SQLパッケージのDBMS_METADATAで提供される機能が使用されます。
External table APIとDirect path APIについては、データポンプでデータを移動する場合に内部的に利用されます。
Oracle Data Pumpのアーキテクチャ
続いて、Oracle Data Pumpのアーキテクチャについて紹介していきます。
実行ユーザーがexpdpおよびimpdpを実行すると、制御プロセスが作成されます。この制御プロセスというのは、制御表を使用してOracle Data Pumoで実行するジョブ全体を制御しています。
次に、処理の実行を行うワーカー・プロセスが作成されます。制御プロセスは、このワーカープロセスに対して実行するジョブのタスクを渡したり、ワーカー・プロセスが実行中のタスクなどを把握しながら、全体のジョブを制御していきます。
このプロセス間の通信は、Oracle Databaseの機能であるAdvanced Queuingを通して行われ、ワーカー・プロセスはこのキューを通して制御プロセスからジョブのタスクを受け取って、ダンプ・ファイルにデータの書き込みを行います。
また、制御プロセスも制御表に含まれるジョブの情報をタンプ・ファイブに書き込んでいきます。
PARALLELパラメータとワーカー・プロセスの関係
■ PARALLELパラメータとは
PARALLELパラメータを使用することで、複数のダンプ・ファイルに対して同時にデータの書き込みを行うことが可能になるため、エクスポートとインポートの処理速度を上げることができます。
■ PARALLELパラメータとワーカー・プロセスの関係
パラレル値の指定した数に応じてワーカープロセスが作成されます。
【PARALLEL=1(デフォルト)を指定した場合】
この例ではパラレル値がデフォルトの1ですので、制御プロセスが1つワーカープロセスが1つといった構成となっております。
【PARALLEL=4を指定した場合】
この場合は、ワーカー・プロセスが4つ作成されます。
しかし、ワーカー・プロセスがダンプ・ファイルに書き込むとき、1つのファイルを独占するような形で書き込むため、他のワーカープロセスは、全てアイドル状態になってしまい、せっかくプロセスが起動したにも関わらず仕事をしていないことになってしまいます。
では、それをどうやって調整するかというと、DUMPFILEパラメーターを工夫することになります。
これは作成されるダンプ・ファイルの名前を指定するためのパラメーターですが、この名前の中に%Uや%Lなどの置換変数であるワイルドカードを使用することで、複数のファイルに書き込むように指定することができます。
【PARALLEL=4、DUMPFILEパラメータで%Lを指定】
こ場合、PARALLEL値が4で2以上なので、DUMPFILEパラメーターでワイルドカードを指定することで、ワーカー・プロセスが一度に複数のファイルに書き込むことができるようになります。
これにより作成したワーカー・プロセスが活躍できるようになります。
しかし、それでもワーカー・プロセスがアイドル状態になってしまう場合があります。
【%Lを指定したにも関わらず、ワーカー・プロセスがアイドル状態になる場合】
大規模なテーブルなどではワーカー・プロセスがパラレル実行プロセスを使用するように判断する場合があります。
その場合、ワーカー・プロセスはクエリー・コーディネーターとして振る舞います。
このような場合、Oracle Data Pumpの処理全体としてCPUを使いすぎないように、特定のワーカー・プロセスをアイドル状態にします。
このようにしてOracle Data Pumpを実行しているサーバーのCPU負荷を一定に保つように考慮されています。
おわりに
今回は、PARALLELパラメータとワーカー・プロセスの関係について、Oracel Data Pumpのアーキテクチャから理解していきました。
Oracle Data Pumpについて、更に詳しく知りたい方は以下の記事もご参考にしてみてください。