はじめに
Tableauはビッグデータを可視化する際、簡単に数表やグラフを作成・可視化することが出来る
便利なツールです。
そんなTableauにビッグデータを取り込み可視化することをよく行っていますが、
データを取り込む際に注意しないとすべてのデータが取り込まれていないことがあります。
特に数十万、数百万件のデータを扱っていると、データが正しく取り込まれていないことに
気づかず集計してしまい、やり直しなんてことがあるので注意が必要です。
サンプルデータ
次の10,000件のテキストデータをサンプルとして読み込みます。
ID | AUTHOR | TITLE |
---|---|---|
1000 | 太宰治 | 人間失格 |
2000 | 太宰治 | 走れメロス |
3000 | 太宰治 | 斜陽 |
0000 | ○○○○ | ×××× |
0000 | ○○○○ | ×××× |
・・・ | ・・・ | ・・・ |
C99998 | 宮沢賢治 | 銀河鉄道の夜 |
D99999 | 宮沢賢治 | セロ弾きのコ"ーシュ |
E10000 | 宮沢賢治 | 注文の多い料理店 |
○ 今回のサンプルデータは、ID「D99999」の「セロ弾きのコ"ーシュ」の
「ゴ」をあえて「コ」+「"」にしてあります。
ファイル読み込み
Tableauを開き「テキストファイル」からファイルを読み込んで、そのままシートで取り込んだ値を
確認してみます。
2つのおかしな点
そうすると、下記の2点がおかしいことに気がつきます。
- 1点目はIDにNULL値が存在すること
- 2点目は総計値が10,000件ではなく、9,999件であること
1点目:データ型に誤りがある
Tableauは最初の凡そ数百レコードで型を自動判定してしまうため、
値に数値と文字列が混在し初めに数値のみが並ぶような列は、特に注意が必要です。
○ データソースシートに戻り、下記赤枠の数値型「#」を文字列型「Abc」に変更することで
正常に取り込むことが出来ます。
これでID列は無事に取り込むことが出来ました。
2点目:テキスト修飾子に誤りがある
Tableauは読み込む値の修飾子がデフォルトで「自動」に設定されています。
「自動」の場合、値が「"」(ダブルクォーテーション)で囲まれていると認識されてしまうようです。
そのため、サンプルで用意した「セロ弾きのコ"ーシュ」の「コ"」以降の行が読み込まれませんでした。
これはなかなか気づきにくいので見落としがちです。
○ データソースシートに戻り、「テキストファイルプロパティ」からテキスト修飾子を「なし」に
変更することで正常に取り込むことが出来ます。
これで10,000件のデータをすべて取り込むことが出来ました!!
おわりに
Tableauは、はじめに述べた通りビッグデータを可視化するのに大変便利なツールです。
設定も自動で色々やってくれるので便利なのですが、ツールをきちんと使うためには、
取り込むデータにはどのような値が入っているのか、
取り込んだ値の型はどうするべきなのか(計算で使用するのか表示値なのか)など、
自分の扱っているデータをちゃんと理解して使うことが大事なのだと思います。