0

More than 1 year has passed since last update.

【情報整理用】データ基盤の全体像

データ基盤

0

Posted at 2025-06-22

1. 生成（ソース）

カテゴリ	具体例	補足
アプリケーション	トランザクションDB、ログファイル、ユーザー行動データ	CRM、ERPシステムからのデータ（例: Salesforce, SAP）
IoT/デバイス	センサーデータ、画像/動画、時系列データ	MQTTプロトコル、エッジコンピューティング
外部データ	オープンデータ（政府統計）、SaaSデータ（Google Analytics）、サードパーティAPI	APIレートリミット、OAuth認証
ファイル	CSV/JSON/Excel、PDF/ドキュメント、音声ファイル	非構造化データの扱い（NLP処理が必要な場合）

2. 収集（取り込み）

カテゴリ	技術・ツール例	考慮点
バッチ収集	ETL（Airflow, Talend）、CDC（Debezium）、スクレイピング（BeautifulSoup）	スケジューリング、差分更新の効率化
ストリーミング	Kafka, Pulsar, AWS Kinesis	メッセージ順序保証、Exactly-Once処理
API連携	REST/gRPC、GraphQL、Webhook	レートリミット、エラーハンドリング（Exponential Backoff）
ファイル転送	SFTP/SCP、AWS S3 Sync、データ転送アプライアンス（AWS Snowball）	大容量データの圧縮/暗号化、転送監査

3. 加工（変換）

処理タイプ	実施内容	関連技術
データクレンジング	欠損値補完、異常値検出、重複排除	Pandas, OpenRefine, Great Expectations
構造化/モデリング	スキーマ設計（正規化、スタースキーマ）、集計（ROLLUP, CUBE）	dbt, ER図ツール（Lucidchart）
分散処理	大規模データの並列処理（Spark, Dask）、UDF（User-Defined Functions）	パーティショニング、シャッフル最適化
リアルタイム処理	ウィンドウ集計（Tumbling/Sliding Window）、複合イベント処理（CEP）	Flink, Kafka Streams

4. 保存（ストレージ）

ストレージタイプ	用途	代表例
データレイク	生データの保存（構造化/非構造化）	AWS S3, Azure Data Lake Storage
データウェアハウス	分析用の構造化データ	Snowflake, BigQuery, Redshift
NoSQL	スキーマレスデータ（ドキュメント、キーバリュー）	MongoDB（ドキュメント）, Redis（キーバリュー）, Cassandra（ワイドカラム）
キャッシュ	高速アクセスが必要なデータ	Redis, Memcached

5. 提供（活用）

活用方法	出力形式	ツール/技術例
分析/BI	ダッシュボード、アドホッククエリ	Tableau, Power BI, Metabase
API連携	アプリケーション向けデータ提供（REST, GraphQL）	FastAPI, Apollo Server
機械学習	特徴量ストア、モデル推論用データ	Feast（特徴量ストア）, TensorFlow Serving
リバースETL	分析結果を業務システムに反映（Salesforce, HubSpot）	Hightouch, Census

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0