はじめに
本記事は Microsoft Power BI Advent Calendar 2024 2日目の記事です。
Contoso Data Generator の紹介
Power BIを勉強している人にはおなじみのSQLBIが架空の会社、Contosoをモデルとしたサンプルデータを公開してくれています。
Contoso社
そもそもContoso社はMicrosoftのサンプルデータなどでよく出てくるのでみたことがあるひとは多いと思いますが、なんとドキュメントも用意されています🎉
これを読むと、
Contoso Corporation は、パリに本社を置く多国籍企業です。 同社は、100,000を超える製品を持つ製造、販売、サポート組織です。
とあり、
Contoso社の拠点は下図のようにかなり大きなグローバル企業だということがわかります。
Contoso Data Generator V2
SQL BIはそんなグローバル企業のContoso社をモデルとしたサンプルデータを提供してくれています。
SQLBIの紹介記事
ドキュメント
すぐにサンプルデータを扱いたい人
すぐにデータを使いたい人は、以下URLにアクセスして希望のデータをDLしてください。
ファイル形式
さまざまな形式で提供されています。PBIXファイル も提供されているのでビジュアルから作り始めたいシナリオには最適かもしれません。
Format | Description |
---|---|
bak | Backup files for SQL Server databases |
csv | Files in CSV format |
delta | Files in Delta Table format |
parquet | Files in parquet format |
pbit | Template file to import SQL Server database in a Power BI Desktop model |
pbix | Files in Power BI Desktop format |
データサイズ
データサイズも、ファイル形式により選べないものもありますが、最大100M(1億行)のデータまで提供されています。パフォーマンスを調査したいときにも使えそうでいいですよね😊
Size | Description |
---|---|
10K | About 10,000 orders |
100K | About 100,000 orders |
1M | About 1 million orders |
10M | About 10 million orders |
100M | About 100 million orders |
データモデル
Sales
Orders
カスタマイズされたサンプルデータを扱いたい人
カスタマイズしたデータ セットを作成する場合は、GitHub で Contoso Data Generator を入手できます。データを生成用の設定ファイルなどをDLできます。
DLしたフォルダの中には、databasegenerator.exe
が入っており、そちらコマンドライン上で、実行します。その際に、cofig.json
とdata.xlsx
と出力フォルダとCACHEフォルダを指定する必要があります。
※CACHEフォルダはダミーの顧客、為替レート、郵便番号などの静的データを含むファイルが特定の GitHubリポジトリからインターネット経由でダウンロードされます。
実行例:
databasegenerator.exe c:\temp\config.json c:\temp\data.xlsx c:\temp\OUT\ c:\temp\CACHE\
cofig.json
とdata.xlsx
は、ドキュメントを読みながらカスタマイズをしてください。
data.xlsx
のカスタマイズは依存関係も考慮しないといけないため、そこそこ手がかかります😇
まとめ
サンプルとして提供されているデータは1テーブルのものが多く、その場合Power BIで扱うためにスタースキーマへ変更する必要がありました。このサンプルデータはすでにスタースキーマになっており、かつPBIXファイルも提供されていてすぐに使い始めることもできるためかなり重宝するようになりました。
みなさんもお気に入りのサンプルデータがあったら、コメントで教えてください~🎉