この記事は、CData Connectの入門記事のつもりで書いています。
企業活動を行っていれば、日々たくさんのデータが会社に溜まります。
それらのデータは蓄積される場所も様々であることが多く、あるものはMySQLなどのRDBMS、またあるものはパブリッククラウドのDWHであったりするでしょう。
これらのデータベースは、エンジニアにとっては容易にデータをクエリできる一方で、非エンジニアのメンバーにはSQLの習得といったハードルがあるのも事実だと思います。
そのような状況ではデータのサイロ化が発生しやすいですし、非エンジニア部門がエンジニアにデータの取得を依頼するような本来不要な業務が発生することもあります。
ほぼ全ての社員がSQLを活用できるのが理想であると思いますが、そのためには多大なコストを払う必要があり、実現が困難である場合のほうが多いと考えています。
そこで、私が注目しているのはExcelやGoogle Sheetsなどの表計算ソフトです。
表計算ソフトの素晴らしい点は、コンピュータを利用する人であれば大体誰でも使えることだと思います。
どんなデータでも表計算ソフトに入れてしまえば、データにアクセスできる社員を増やすことができます。
問題は、どのようにそれを実現するかです。
様々なサービスがこの問題にアプローチしている認識を持っていますが、今回はCData Connectを利用してみます。
目的
今回検証することは、CData Connectに接続したデータを、Google Sheetsで閲覧できることです。
データソースは問いませんが、検証用に公開範囲を気にせずに利用できるデータとしてGCPの公開データセットしか当てが無かったので、BigQueryをデータソースを利用します。
Google SheetsにはBigQueryのデータを取り込む機能があるので、CData Connectを利用する必要は無いのですが、CData Connectを抽象層と捉え、データの接続元を気にしなくて済む点に価値を感じています
BigQueryとの接続
まずはBigQueryをCData Connectに接続します。
CData ConnectのConnectionsメニューから、BigQueryを選択し、Project IdとDataset Idを入力します。
この時のProject Idは、クエリを実行するProject Idである必要があります。
そのため、公開データセットを利用する場合は、1度自分のGCPプロジェクトへデータをインポートしてから利用します。
ここからはほとんど画面の指示に従うだけで、非常に簡単にCData ConnectにBigQueryのデータを接続できました。
CData ConnectのUIからデータをクエリすることもできるのですが、データのスキャン容量は表示されないので、高額課金の事故を防ぐため避けることにします。
Google Sheetsとの接続
CData Connectに接続したデータは、BIツールやGoogle Sheetsで表示することができます。
記事執筆時点で対応しているのは、Data Studio(データポータル)とGoogle Sheetsだけのようです。
GCPを利用している私には非常に都合が良いのも、CData Connectを選択した理由です。
今後様々なツールに対応すれば、より利用範囲が増やせそうです。
ここでGoogle Sheetsを選択すると、アドオンのインストールを促されるので従います。
インストールすると、SheetsのアドオンメニューにCData Connect Cloud
が表示されるようになります。
あとはTableやカラムを選択すると、次のようにSheetsでデータを表示できます。
1度追加したデータを更新することも可能です。
まとめ
ここまで読んでいただけると、何も難しいことがないことをお察しいただけると思います。
私はこの何も難しいことがないという点にCData Connectの価値を感じました。
SQLやプログラムの知識も不要で、多種多様なデータソースを利用することができて、下手にデータを移行して同じことをやるくらいなら、CData Connectを利用した方が話が早い場面もありそうです。