概要
AWS GlueからAuroraのMySQLにJDBC接続してデータを取得する方法を紹介します。
環境
- python==3.7
- pyspark==2.4.3
手順
- VPCの設定
- AWS Glue接続を追加する
- コード
VPCの設定
こちらを参考に、接続したいAuroraクラスタが所属するセキュリティグループの設定をします。
AWS Glue接続を追加する
こちらを参考に、接続したいAuroraクラスタに対してAWS Glue
接続を追加します。
コード
PySparkでJDBC接続する例を記載します。
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
jdbc_url = f"jdbc:mysql://{ホスト}:{ポート}/{データベース名}"
df = spark.read.jdbc(jdbc_url, {テーブル名}, properties={
"user": {ユーザ名},
"password": {パスワード}
})
JDBCに接続するためのURLの形式は以下
"jdbc:mysql://{ホスト}:{ポート}/{データベース名}"