More than 5 years have passed since last update.

BluemixでAnalytics 〜dashDBにデータをロードしてみる

Last updated at 2015-08-23Posted at 2015-08-12

前回、データ分析のためにIBMのBluemixを使ってデータ分析環境を構築することにしました。クラウドということもあり、またサーバーのスペックもEntryレベルなので一番小さいですが、どれくらいのパフォーマンスが出るのかも気になっています。
さて、今回は新規にテーブルを作成して、外部のCSVファイルをロードしてみます。

テーブルの作成

まず、データを格納するためのテーブルを準備します。dashDBは外部から接続して操作することもできますが、せっかくなのでBluemix上に準備されている管理画面を操作していくことにします。

Tablesメニュー

管理画面の左袖のメニューの中からTablesというメニューをクリックするとテーブルを操作できる画面が開きます。テーブルを作成するには以下の手順で操作します。
サンプルのデータが格納されたスキーマがありますが、自分のスキーマを
選択して、その中にテーブルを作成します。

テーブル作成画面では、テーブルの新規作成と同時にデータロードもできますが、まずはテーブルだけ作成してみます。
画面を開くとSQLのCREATE文が書かれていますので、ここを自分の作りたいテーブル定義に書き換えます。
dashDB create table

今回準備したテストデータを格納するテーブルはこんな感じ。dashDBの実装はDB2のようで、定義もDB2のそれに似ています。

CREATE TABLE "APPL_LOG" 
(
  "SERVER_NAME" VARCHAR(13),
  "DATE_STRING" DATE,
  "TIME_STRING" TIME,
  "SQL_ID" VARCHAR(44),
  "ERAPSED_TIME" INTEGER
);

Run DDLボタンを押して、テーブルが作成されると下記のダイアログが表示されます。

再び、tablesメニューへ戻ると新しく作成したテーブルがプルダウンから選択できるようになっています。テーブルを選択するとDDLで定義した内容が表示されます。

これでテーブルが作成できました。
ここまでの流れで気づいたかもしれませんが、分析用のデータベースと言ってもDB2やOracleのRDBと何ら変わりはありません。操作もSQL文で行うことができます。（でも大量データ参照用に最適化されているということです）

データロード

それでは作成したテーブルにデータをロードしていきます。

データロード方法

dashDBで作成したテーブルへのデータロード方法は大きく４つあります。

Load from Desktop
Load from Cloud
Load Geospatial Data
Sync from Cloudant

Load from Desktop

操作しているPCのローカルに保存されているファイルをサーバーにアップロードします。ファイルの形式はExcel形式か、CSV形式になります。ファイルのサイズによってはExcelでは扱えないような行数になりますので、その場合にはCSV形式が便利だと思います。今回はCSV形式のファイルを取り込んでみます。

Load from Cloud

すでにクラウド上に保管されているデータをdashDBのテーブルへ取り込みます。クラウド先は、Amazon S3もしくはSoftlayer object storage(Swift file system)とのことです。これらのクラウド上に配置してあるCSVファイルをロードできるとのこと。また定期的に取り込むようにスケジュールも登録できます。

Load Geospatial Data

地図情報を絡めた分析ができるようになるようです。この分野詳しくないので後で調べておきます。

Sync from Cloudant

同じくBlumix上のサービスとして提供されているNoSQLデータベースであるCloudantに格納されているデータをdashDBの特定のテーブルと同期できます。Coludantのデータが変更されると自動的にdashDB側のデータを書き換えることができるようです。Cloudantにトランザクションデータを格納して、それをdashDBで検索・分析するような使い方ができます。

CSVファイルのロード

Load from Desktopを選択してローカルPC内に保管されているCSVファイルをロードしていきます。
ロード用に４つのCSVファイルを準備しています。それぞれのファイルには各サーバーごとのログが格納されています。ファイルの内容は下記のようなもので、カンマ区切りでSERVER_NAME, DATE, TIME, SQL_ID, ERAPSED_TIME となっています。

server-1,2015-07-20,18:03:38,SQL1JTBL_DAO_002D,1
server-1,2015-07-20,18:03:38,SQL1ITBL_DAO_002D,0
server-1,2015-07-20,18:03:38,SQL1HTBL_DAO_005S,0
server-1,2015-07-20,18:03:38,SQL1NTBL_DAO_001S,1
server-1,2015-07-20,18:03:38,SQLELTBL_DAO_012S,1
server-1,2015-07-20,18:03:38,SQLEJTBL_DAO_015S,1

各ファイルとも３００MBくらいのサイズで、それぞれ６００万行くらい入っています。

それではロードしていきます。Load from desktopの画面で必要事項を設定していきます。

ここまで記入したらLoad Fileボタンを押します。すると警告が表示されました。ファイルは100MBを超えているので時間かかるけど他の方法でやらない？みたいな内容。そのまOKします。

ここで実際にファイルがアップロードされているみたいです。今回使った３００MBのCSVファイルのアップロードに約５分ほどかかりました。

サーバーへのアップロードが完了すると取り込んだファイルの先頭部分が表示されています。問題なくアップロードされているようなので、次へ進みます。

ターゲットを選びます。今回はあらかじめテーブルを準備してあるのでそこを選択します。

テーブルを選びます。

もともとターゲットのテーブルは空ですが、念のためreplaceを選択します

実行するとテーブルにデータが書き込まれます。ここは３０秒ほどで終了します。終了すると読み込まれたレコード件数と先頭の数行が画面に表示されます。問題なく取り込まれたようです。
最初のファイルのレコード件数は６３０万件でした。

ログファイルは後３つありますので同じ手順で同じテーブルにデータをロードしていきます。手順は同じですが、ターゲットのテーブルにデータを書き込む時のオプションで２つ目以降のファイルは、 Append new data into the table　を選ばないと先に入れたデータを上書きしてしまいますので注意してください。

今回は、ここまで。

次回

dashDBの管理画面を利用してSQLを使ってテーブルデータを分析してみます。

シリーズ一覧
1.BluemixでAnalytics 〜dashDBを作って見る
2.BluemixでAnalytics 〜dashDBにデータをロードしてみる
3.BluemixでAnalytics 〜dashDBをSQLで操作してみる
4.BluemixでAnalytics 〜dashDBをRから使ってみる
5.BluemixでAnalytics 〜dashDBにR Studioから接続してみる

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up