ビッグデータの活用が本格的になり、散在する複数のデータソースを横断的に分析するために、データをどう取り扱うべきかを考えることが多くなりました。
アプローチ方法として最も一般的なのは「専用の分析環境のDWHにデータを収集する」というものだと思います。実際、ログの収集はfluentdでオブジェクトストレージへ、WebサービスのデータやDBのデータはDWHへデータ連携して取り込むといったソリューションが広く知られるようになりました。
ただし、データ連携でデータソースから分析環境に連携する場合、データソースとのタイムラグが避けられないことや、データの二重管理やガバナンス面での懸念などが考えられます。
そこで、従来からあるもう一つのアプローチが「データベース仮想化」です。
データベース仮想化のソリューション
データベース仮想化の手法もたくさんありますが、ここで紹介するRed HatのJBoss Data Virtualizationは最もシンプルに複数のデータベースをマッピングして仮想統合できる製品です。
インストール
準備するもの
- Amazon EC2:Windows Server 2008 R2(AMI ID: i-5489ab52、インスタンス: r3.largeくらいだと開発が快適)
- 公式にはアナウンスされていないが、一般的には以下のようなスペックが利用されているらしいです。
○ 本番サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発サーバ
– CPU Dual Core以上
– RAM 8GB以上
– HDD 60GB以上
○ 開発端末
– CPU 特に指定なし
– RAM 4GB以上
– HDD アプリケーション:1.5GB以上
開発物:2GB以上
- redhatのカスタマーポータルから以下を入手
- Red Hat JBoss Data Virtualization 6.0.0 Installer
- Red Hat JBoss Developer Studio 7.1.1 Stand Alone Universal Binary
- JDK 1.6以上をダウンロード
- データソースとの接続用にJDBCドライバーを入手
- Redshift用にはPostgreSQL JDBCドライバーが使える
- 今回はMySQLも使うので、Oracleからダウンロードする
- 参考ドキュメント
インストール作業
- Oracle JDKをダウンロードしてインストールする
- JDBCドライバーをダウンロードして適当なフォルダに格納しておく
- JBoss Data Virtualizationのインストーラーを起動してGUIセットアップ
java -jar jboss-dv-installer-6.0.0.GA-redhat-4.jar
4.Developer Studioのインストーラーを起動してGUIセットアップ
java -jar jbdevstudio-product-universal-7.1.1.GA-v20140314-2145-B688-2.jar
これだけでセットアップはOK。次回以降に仮想データベースの作成やデプロイをしてみます。