1. 生成(ソース)
| カテゴリ | 具体例 | 補足 |
|---|---|---|
| アプリケーション | トランザクションDB、ログファイル、ユーザー行動データ | CRM、ERPシステムからのデータ(例: Salesforce, SAP) |
| IoT/デバイス | センサーデータ、画像/動画、時系列データ | MQTTプロトコル、エッジコンピューティング |
| 外部データ | オープンデータ(政府統計)、SaaSデータ(Google Analytics)、サードパーティAPI | APIレートリミット、OAuth認証 |
| ファイル | CSV/JSON/Excel、PDF/ドキュメント、音声ファイル | 非構造化データの扱い(NLP処理が必要な場合) |
2. 収集(取り込み)
| カテゴリ | 技術・ツール例 | 考慮点 |
|---|---|---|
| バッチ収集 | ETL(Airflow, Talend)、CDC(Debezium)、スクレイピング(BeautifulSoup) | スケジューリング、差分更新の効率化 |
| ストリーミング | Kafka, Pulsar, AWS Kinesis | メッセージ順序保証、Exactly-Once処理 |
| API連携 | REST/gRPC、GraphQL、Webhook | レートリミット、エラーハンドリング(Exponential Backoff) |
| ファイル転送 | SFTP/SCP、AWS S3 Sync、データ転送アプライアンス(AWS Snowball) | 大容量データの圧縮/暗号化、転送監査 |
3. 加工(変換)
| 処理タイプ | 実施内容 | 関連技術 |
|---|---|---|
| データクレンジング | 欠損値補完、異常値検出、重複排除 | Pandas, OpenRefine, Great Expectations |
| 構造化/モデリング | スキーマ設計(正規化、スタースキーマ)、集計(ROLLUP, CUBE) | dbt, ER図ツール(Lucidchart) |
| 分散処理 | 大規模データの並列処理(Spark, Dask)、UDF(User-Defined Functions) | パーティショニング、シャッフル最適化 |
| リアルタイム処理 | ウィンドウ集計(Tumbling/Sliding Window)、複合イベント処理(CEP) | Flink, Kafka Streams |
4. 保存(ストレージ)
| ストレージタイプ | 用途 | 代表例 |
|---|---|---|
| データレイク | 生データの保存(構造化/非構造化) | AWS S3, Azure Data Lake Storage |
| データウェアハウス | 分析用の構造化データ | Snowflake, BigQuery, Redshift |
| NoSQL | スキーマレスデータ(ドキュメント、キーバリュー) | MongoDB(ドキュメント), Redis(キーバリュー), Cassandra(ワイドカラム) |
| キャッシュ | 高速アクセスが必要なデータ | Redis, Memcached |
5. 提供(活用)
| 活用方法 | 出力形式 | ツール/技術例 |
|---|---|---|
| 分析/BI | ダッシュボード、アドホッククエリ | Tableau, Power BI, Metabase |
| API連携 | アプリケーション向けデータ提供(REST, GraphQL) | FastAPI, Apollo Server |
| 機械学習 | 特徴量ストア、モデル推論用データ | Feast(特徴量ストア), TensorFlow Serving |
| リバースETL | 分析結果を業務システムに反映(Salesforce, HubSpot) | Hightouch, Census |