データウェアハウスに関する基本的な内容をまとめてみたものです。データウェアハウスに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
Redshiftのデータ可視化
Amazon Redshiftへのデータ投入
RedShiftにデータを投入するには、
・データのフォーマットを整える
・Amazon Redshiftにスキーマやテーブルを作成する
といった準備をしてから、Amazon S3からCOPYコマンドを使ってデータを投入します。
データを可視化するBIツールのことも考えて、テーブルやデータの内容を整える必要があります。
SQLによるバッチ処理
データを取り込むだけでは、十分にデータを活用できませんので、データの内容を理解して適切にデータを関連付けなくてはなりません。
そのため、効率的にRedshiftが使えるようにSQLによるバッチ処理で、必要なデータを用意し不要なデータの削除を行います。
Amaozn RedshiftはPostgreSQL準拠のアーキテクチャを採用しているために、INSERT・DELETE・UPDATEなどのSQLが使用できますが、テーブルをクリーンアップするためにVACUUMコマンドを実行する必要があります。
ただし、Redshift のVACUUMコマンドの使い方については、PostgreSQLでのVACUUM使用方法と異なりますので注意しなくてはなりません。
BIツールを使ってデータを可視化する
データへのアクセスが可能になりましたら、データを可視化するためにBIツール(ビジネスインテリジェンスツール)のインストールを行います。
BIツールは大規模なデータを分析するのに使用するツールで、企業の経営に役立つツールです。
Amazon Redshiftで使用するBIツールは、パートナー企業が使いやすいツールを提供しています。
Redshiftのパートナー企業は扱うBIツールの種類によって、
・データ統合パートナー
・ビジネスインテリジェンスパートナー
・コンサルティングパートナー
・クエリおよびデータモデル化パートナー
に分類されます。
数多くのBIツールがありますので、用途に応じたツールを選んで使うことが可能です。
適切なBIツールをインストールしてRedshiftに接続すると、データの内容が表やグラフとして表示されます。