0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【情報整理用】データ基盤の全体像

0
Posted at

1. 生成(ソース)

カテゴリ 具体例 補足
アプリケーション トランザクションDB、ログファイル、ユーザー行動データ CRM、ERPシステムからのデータ(例: Salesforce, SAP)
IoT/デバイス センサーデータ、画像/動画、時系列データ MQTTプロトコル、エッジコンピューティング
外部データ オープンデータ(政府統計)、SaaSデータ(Google Analytics)、サードパーティAPI APIレートリミット、OAuth認証
ファイル CSV/JSON/Excel、PDF/ドキュメント、音声ファイル 非構造化データの扱い(NLP処理が必要な場合)

2. 収集(取り込み)

カテゴリ 技術・ツール例 考慮点
バッチ収集 ETL(Airflow, Talend)、CDC(Debezium)、スクレイピング(BeautifulSoup) スケジューリング、差分更新の効率化
ストリーミング Kafka, Pulsar, AWS Kinesis メッセージ順序保証、Exactly-Once処理
API連携 REST/gRPC、GraphQL、Webhook レートリミット、エラーハンドリング(Exponential Backoff)
ファイル転送 SFTP/SCP、AWS S3 Sync、データ転送アプライアンス(AWS Snowball) 大容量データの圧縮/暗号化、転送監査

3. 加工(変換)

処理タイプ 実施内容 関連技術
データクレンジング 欠損値補完、異常値検出、重複排除 Pandas, OpenRefine, Great Expectations
構造化/モデリング スキーマ設計(正規化、スタースキーマ)、集計(ROLLUP, CUBE) dbt, ER図ツール(Lucidchart)
分散処理 大規模データの並列処理(Spark, Dask)、UDF(User-Defined Functions) パーティショニング、シャッフル最適化
リアルタイム処理 ウィンドウ集計(Tumbling/Sliding Window)、複合イベント処理(CEP) Flink, Kafka Streams

4. 保存(ストレージ)

ストレージタイプ 用途 代表例
データレイク 生データの保存(構造化/非構造化) AWS S3, Azure Data Lake Storage
データウェアハウス 分析用の構造化データ Snowflake, BigQuery, Redshift
NoSQL スキーマレスデータ(ドキュメント、キーバリュー) MongoDB(ドキュメント), Redis(キーバリュー), Cassandra(ワイドカラム)
キャッシュ 高速アクセスが必要なデータ Redis, Memcached

5. 提供(活用)

活用方法 出力形式 ツール/技術例
分析/BI ダッシュボード、アドホッククエリ Tableau, Power BI, Metabase
API連携 アプリケーション向けデータ提供(REST, GraphQL) FastAPI, Apollo Server
機械学習 特徴量ストア、モデル推論用データ Feast(特徴量ストア), TensorFlow Serving
リバースETL 分析結果を業務システムに反映(Salesforce, HubSpot) Hightouch, Census
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?