Oracle Cloud Infrastructure(OCI)Data Flowは、Apache Spark ™アプリケーションをフルマネージドで実行できるサービスです。大規模データのバッチ処理やETLに適しており、インフラ管理なしでSparkジョブを実行できます。
本連載では、OCIオブジェクト・ストレージに保存されたCSVファイルを読み込み、Autonomous DB(ADW)へデータロードする一連の流れを3回に分けて解説します。
- Part 1 (本文): Apache Sparkを使って、ローカル環境にSparkを構築し、Pythonプログラムを実行するまでの環境構築手順を紹介します。
- Part 2: アプリケーションをOCI Data Flowへデプロイし実行する方法。
- Part 3: プライベート・エンドポイント経由でADBへセキュアにロードする方法。
【お知らせ】
この記事の詳細は、個人ブログ「OCI Tech Journal」で公開しています。ぜひご覧ください。👉 https://oci-tech.jp/data-flow-object-storage-to-adb-part1/
検証環境
VM: Oracle Linux 8, VM.Standard.E4.Flex (1 OCPU, 16GB)
ADB タイプ: Autonomous Data Warehouse (パブリック・アクセス)
Java バージョン: 11
Python バージョン: 3.8
Apache Spark バージョン: 3.3.2
ステップ
リンクから、詳細をご確認いただけます。
関連記事
クラウド技術ブログ一覧
OCI Data Flowを使ってオブジェクト・ストレージからADBへデータをロードする -- Part 2
OCI Data Flowを使ってオブジェクト・ストレージからADBへデータをロードする -- Part 3
