CData CSV Drivers 2018版では、Amazon S3、Box、Google Drive、SharePoint Online などに格納されているCSV ファイルに外部アプリケーションからアクセスできるようになりました。
各種ログデータやセンサーデータをS3 などのクラウドストレージに格納するケースは多いと思います。ただし、格納したデータをBI やアナリティクスツールで使う際には、ファイルをツールからアクセスできる別の場所にダウンロード・保管しなおしてから使うという手間がありました。特に日次以上の頻度で更新されるファイルとなると負荷が大きくなります。
CData CSV Drivers の2018版では、S3 などに格納されたCSV ファイルに直接BI、帳票、ETL、カスタムアプリケーションからSQL でアクセスすることが可能になります。
CData CSV JDBC Driver をダウンロード
CData Website からCData JDBC Driver for CSVをダウンロードします。30日の試用版があります。他にもODBC/ADO/NET/Excel Add-in/PowerBI/SSIS/FireDAC などのテクノロジーに対応しています。
Amazon S3 の接続設定
JDBC 接続のデータを確認するツールとしてDB Visualizer というツールを使います。JDBC をサポートするツールならどこでもドライバーは動かせるので、Eclipse、IntelliJ などのIDE でも構いません。
Driver の指定
「Tools」タブから「Driver Manager」を選択します。
Driver Manager で左上の「+」マークをクリックして、新しいドライバーを登録します。
・ドライバー名:任意
・URL Format:jdbc:
・Driver File Path:フォルダマークをクリックして、インストールしたCData JDBC Driver から「cdata.jdbc.csv.jar」ファイルを指定します
ディレクトリパスはCData\CData JDBC Driver for CSV 2018J\lib です。
Driver Class に「cdata.jdbc.csv.CSVDriver」と表示されればDriver 指定は完了ですので、Driver Manager を閉じます。
DB Visualizer でAmazon S3 上のCSV ファイル群に接続を確立
接続するAmazon S3 の対象フォルダ
以下に保存されているCSV ファイルをJDBC 接続で利用します。
データソースとして指定できるのはフォルダ単位です。
バケット:csvdrivertest
フォルダ:CSVTest1
CSV への接続設定
DB Visualizer の左ペインで新しい接続を追加します。今回はウィザード無しを選択します。
項目 | Note |
---|---|
Name | 任意 |
Database Type | Generic |
Driver(JDBC) | 先ほどDriver Manager で登録したドライバーを選択 |
Database URL | 以下の接続文字列を入力 |
接続文字列:jdbc:csv:URI=s3://MyBuket/MyFolder;AccessKey=MyAccessKey;SecretKey=MySecretKey;
この例では、URI は、URI=s3://csvdrivertest/CSVTest1; です。
通常のブラウザのURL とは異なりますので注意してください。
「Connect」をクリックすると」接続ができます。
DB Visualizer からCSV データをクエリ
Amazon S3 上のフォルダへの接続が成功すると、左側のConnection ペインにCSV フォルダができ、Amazon S3 のフォルダ内のCSV ファイルがすべてテーブルとして表示されます。
あとは通常のDB と同じように、SELECT * from CSV ファイル名などでCSV データがクエリ可能です。
このように、JDBC をサポートするツール・アプリからAmazon S3 上のCSV にリアルタイム接続ができました。
BI、アナリティクス、ETL などでクラウドストレージ上のCSV データを扱う際に是非活用してください。