1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

データ基盤系製品から使える合成データ生成(Synthetic Data Generation)機能の調査

1
Last updated at Posted at 2026-01-05

1. 本記事の概要

近年、データ活用の高度化に伴い、「合成データ(Synthetic Data)」の重要性が高まっています。実データの機密性・プライバシーリスクを回避しつつ、分析・機械学習・システム検証などにおいて柔軟に扱える合成データは、さまざまな用途で注目されています。

最近は、SnowflakeやDatabricks等のデータ基盤系製品や、AWS Clean Roomなどのデータ連携分析の仕組みにて、合成データを生成する機能が搭載されるようになっています。これにより、合成データの生成がデータ管理の現場で容易に行えるようになりつつあります。

ただ、合成データだから安全!として、その特徴の詳細を理解しないままに活用・流通させると、合成データの品質によっては、元データのプライバシー漏洩が発生や、想定した活用ができないといった不具合が発生する懸念があります。実際に、合成データに対する攻撃によるプライバシー漏洩リスクが指摘されています。

そこで今回は、独断で選定したデータ基盤・データ連携活用について、利用できる合成データ生成の仕組みについて調査します。安全・有用な合成データ生成を行うために、どのような機能があるかを整理します。狙いとしては、合成データの活用・流通による想定外のプライバシー漏洩が発生しないように、それぞれの製品の機能で作成した合成データについては、安全性・有用性に関してはこういう注意が必要だろう、という示唆を得たいと考えています。

1.1. 本記事に記載すること

本記事では、主要なクラウド型データ基盤等(Snowflake、Databricks、BigQuery、AWS Clean Rooms)から利用できる合成データ生成機能について、調査・比較結果とコメントを記載します。

非構造化テキストや画像など、複雑な依存関係を持つデータは対象外であり、表形式データの入力と合成を前提とします。

MarketplaceやAPI利用等により、データ基盤製品と様々なデータ合成ツールを連携させた合成データ生成は可能です。

1.2. 本記事に記載しないこと

合成データ生成の機能・サービスの提供に特化した製品については、(基本的に)本調査の対象外とします。(例:Syntho, Mostly.ai, Synthia, )

今回は、データ基盤製品にネイティブ実装されている合成データ生成の仕組みにフォーカスします。(BQだけ例外)

合成データ生成に特化した製品との連携は、データ基盤製品と連携したMarketplaceやAPI等を利用して()実現できる場合があります。

2. 調査結果概要

2.1. 調査結果のまとめ(表)

独断で選んだ製品4種について、Synthetic Data(合成データ)に関連する機能を比較した概要は以下の通りです。太字は適当につけています。

個別の調査結果については、後続する節にて言及します。

No. 製品名 想定するユースケース 合成アルゴリズム 安全性評価方法 有用性評価方法 差分プライバシー基準の導入
1 Snowflake 元データと統計的に類似(複数列の相関を維持) したテーブル全体の代替データを生成し、テスト・分析・共有に利用 詳細は不明(非開示)。元データの統計的性質を解析し、列型ごとに分布や出現頻度を模倣して生成。複数テーブルではPK/FK関係を保持 元データと類似しすぎたレコードを除外する similarity filter を提供 相関係数差分など、元データと合成データの統計的差分を比較 なし
2 Databricks(dbldatagen) 元データと統計的に類似(ただし単列の統計) したテーブル全体の代替データを生成し、テスト・共有に利用 詳細はGitHubにて公開。既存データやユーザー定義に基づき、列ごとの分布・値範囲・カテゴリ等を指定して生成 明示的な評価機能の記載なし 明示的な評価機能の記載なし なし
3 BigQuery + Gretel 元データと統計的に類似(複数列の相関を維持) したテーブル全体の代替データを生成し、テスト・分析・共有に利用 詳細は調査中。Gretel による構造保持型生成モデルと差分プライバシー制御を用いた生成 差分プライバシー基準でのノイズ付与、類似レコード検出・除外などの評価機能を利用 統計的類似性(分布・相関など)をスコアやダッシュボードで提示(Gretelの機能) あり
4 AWS Clean Rooms 生データを共有せずに、目的変数のラベル予測を前提としたMLモデル学習用データを複数組織で利用 詳細は不明(非開示)。目的変数の予測(分類タスクを想定)への利用を前提にした合成データを生成。差分プライバシー基準の適用が可能 Membership Inference Attack への耐性を測る Privacy Score を提供 分布差を評価する Fidelity Score(KLダイバージェンス)を提供 あり

2.2. まとめ:調査の感想と今後の課題

「合成データの定義」 について。今回調査した手法から出力される合成データの品質は、それぞれ大きく異なる印象です。ユースケースごとに、どのような合成データを用いるべきか、という整理が必要に思えました。例えば、dbldatagenを用いて合成した合成データは、複数列の相関を維持していないため、複数の列の関係を分析するタスクには不向きです。開発用のテストデータには使えそうです。Snowflakeの合成データは、複数列の相関を維持しているため、統計分析の検証には使えそうです。こういった合成データの向き不向きについて、正しく理解する必要があります。

「合成アルゴリズムの妥当性」 について。 正しく差分プライバシー基準が適用される合成アルゴリズムが正しく実装されているかどうかの調査が必要に思えました。合成アルゴリズムの詳細とその実装が公開されているものは少なく、実は差分プライバシーが正しく実装されていない、ということもあり得ます。

「合成データの活用ノウハウ」 について。 AWS Clean Roomsにて、合成データは分類タスク向けであり、回帰タスクには不向き、という記載がありました。こちらが、どの程度汎用的に通用するのか、にも興味があります。内部の合成アルゴリズムに依存するものかもしれません(参考)


3. 個別調査結果

3.1. Snowflake

3.1.1. Snowflakeとは

製品紹介ページからの引用。

Snowflakeは様々な種類のデータ蓄積と高速処理と複数企業間のデータコラボレーションを実現するSaaS型データプラットフォームです。一般的な企業のビッグデータ活用に必要なシステム領域は「データレイク」「データウェアハウス」「データマート」の3点で構成されますが、Snowflakeはこの3つすべてをカバーできます。マルチクラウドサービス(AWS/Azure/GCP)に対応し、バージョンアップ/チューニング業務からも解放されます。

3.1.2. データ合成機能の概要

データ合成方法
SNOWFLAKE.DATA_PRIVACY.GENERATE_SYNTHETIC_DATA を用いて合成できます1
参考:公式ドキュメント

実行例(長いので折りたたみ)

顧客マスタ

cust_id ethnicity age email
C001 Asian 34 alice@example.com
C002 White 52 bob@example.com
C003 Hispanic 28 charlie@example.com

購買データ

order_id cust_id amount
O1001 C001 12000
O1002 C002 8000
O1003 C001 5000
O1004 C003 15000

合成例です。cust_id列でjoinできるように2つのテーブルを合成します。

-- ============================================================
-- 前提
--  - customers / orders を cust_id で結合できる形で合成する(cust_id は join_key)
--  - customers の email はダミー値に置換(replace: 'email')
--  - customers の age は合成する(数値列なのでデフォルト挙動に任せる)
--  - replace を使うため consistency_secret を指定する
-- ============================================================

-- (1) join_key の一貫性や replace 用の secret(対称鍵)を用意
CREATE OR REPLACE SECRET syndata_db.sch.my_consistency_secret
  TYPE = SYMMETRIC_KEY
  ALGORITHM = GENERIC;

-- (2) 合成データ生成(2テーブル同時)
CALL SNOWFLAKE.DATA_PRIVACY.GENERATE_SYNTHETIC_DATA(
  {
    'datasets': [
      {
        'input_table':  'src_db.sch.customers',
        'output_table': 'syndata_db.sch.customers_synth',
        'columns': {
          -- 結合キー:customers と orders で同じ指定にして、合成後も JOIN 可能にする
          'cust_id': { 'join_key': TRUE, 'replace': 'uuid' },

          -- email:ダミーのメールアドレス形式へ置換(join_keyにはしない)
          'email':   { 'replace': 'email' }

          -- age / ethnicity 等はデフォルト挙動で合成させるため、ここでは指定しない
        }
      },
      {
        'input_table':  'src_db.sch.orders',
        'output_table': 'syndata_db.sch.orders_synth',
        'columns': {
          -- customers 側と同じ join_key 設定にする
          'cust_id': { 'join_key': TRUE, 'replace': 'uuid' }
        }
      }
    ],

    -- 入力行に似すぎる合成行を除外する built-in privacy filter
    'similarity_filter': TRUE,

    -- 既存の出力テーブルがあれば置換
    'replace_output_tables': TRUE,

    -- replace を使うため指定(かつ、複数回実行でも join_key の人工値を一貫させたい場合にも有効)
    'consistency_secret': SYSTEM$REFERENCE('SECRET', 'MY_CONSISTENCY_SECRET', 'SESSION', 'READ')::STRING
  }
);

-- (3) 実行結果(相関係数差分メトリクス)を確認
SELECT *
FROM TABLE(RESULT_SCAN(LAST_QUERY_ID()))
ORDER BY metric_value DESC;

-- (4) 合成後も結合できることを簡易チェック
SELECT COUNT(*) AS joined_rows
FROM syndata_db.sch.orders_synth o
JOIN syndata_db.sch.customers_synth c
  ON o.cust_id = c.cust_id;

-- (5) 生成データの中身を軽く確認
SELECT cust_id, email, age
FROM syndata_db.sch.customers_synth
LIMIT 20;


折りたたみ終わり

Snowflakeは、Enterprise Edition以上のライセンスで合成データ生成機能(Synthetic Data)をネイティブにサポートしています。GENERATE_SYNTHETIC_DATA ストアドプロシージャを利用することで、指定した元テーブルの統計特性を保持した人工データを生成できます1

主な特徴:

  • 列定義(名前・データ型)を維持した状態で、全行が再構成されたテーブルを出力
  • 数値・日付・ブール型などは統計分布を保ち、カテゴリ型は元データからサンプリング
  • 有用性関連の機能:数値列のペアごとに、相関係数のL1誤差を計算して表示
  • 安全性関連の機能:プライバシー強化オプション(similarity_filter:true)により、元データに類似しすぎるレコードを自動除外2
  • 複数テーブル間のリレーションを保持したまま合成可能(主キー・外部キー整合性の維持)3

3.1.3. 合成アルゴリズム

Snowflakeの合成データ生成は、元データの統計的性質を解析し、それを模倣する形で新しいレコードを生成するアプローチです2。詳細は不明。

  • 列ごとの型別処理

    • 数値・日付・ブール型:分布(平均、標準偏差、範囲など)を再現するように乱数生成
    • カテゴリ型:出現頻度に基づきサンプリング
    • ユニーク値が多い文字列:自動でマスク(識別困難なランダム文字列)
  • 複数テーブル対応:外部キー・主キー関係を維持したままマルチテーブル生成が可能

  • 出力形式:元のスキーマと同一構造を保持

3.1.4. 安全性評価方法

特に用意されていません。

ただし、合成データのプライバシー保護に関して再識別リスクの低減を目的とした以下の機能が提供されています。

  • Similarity Filtersimilarity_filter:true):

    • 元データと類似しすぎるレコードを除外する機能です。ユーザが定めたプライバシー閾値と、
      Nearest Neighbor Distance Ratio(NNDR)や Distance to Closest Record(DCR)を用いた類似度判定により、類似行と判定されたレコードを削除します2
  • 自動マスク

    • ユニーク値の多い列は自動的にマスク対象となります

統計的特徴を再現しつつ、元データと類似した行を削除した合成データの作成が可能。ただ、差分プライバシー(Differential Privacy)の導入状況は、確認できていません。

3.1.5. 有用性評価方法

合成データの品質評価指標として、統計的な再現性を確認するための以下のメトリクスを提供しています。

  • 相関係数の差分(correlation coefficient difference)

    • 元データと合成データ間の相関係数を比較し、差分を定量的に出力1
評価の例(長いので折りたたみ)

公式ドキュメント1より、相関係数のDIFFの表示例

+---------------------------+-------------------+--------------+----------------+------------------------+-------------------+---------------------+-----------------------+------------------------+------------------------------------+----------------+
| CREATED_ON                | TABLE_NAME        | TABLE_SCHEMA | TABLE_DATABASE | COLUMNS                | SOURCE_TABLE_NAME | SOURCE_TABLE_SCHEMA | SOURCE_TABLE_DATABASE | SOURCE_COLUMNS         | METRIC_TYPE                        | METRIC_VALUE   |
+---------------------------+-------------------+--------------+----------------+------------------------+-------------------+---------------------+-----------------------+------------------------+------------------------------------+----------------+
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "BLOOD_TYPE,GENDER"    | faker_source_t    | sch                 | syndata_db            | "BLOOD_TYPE,GENDER"    | CORRELATION_COEFFICIENT_DIFFERENCE | 0.02430214616  |
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "BLOOD_TYPE,AGE"       | faker_source_t    | sch                 | syndata_db            | "BLOOD_TYPE,AGE"       | CORRELATION_COEFFICIENT_DIFFERENCE | 0.001919343586 |
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "BLOOD_TYPE,ETHNICITY" | faker_source_t    | sch                 | syndata_db            | "BLOOD_TYPE,ETHNICITY" | CORRELATION_COEFFICIENT_DIFFERENCE | 0.003720197046 |
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "GENDER,AGE"           | faker_source_t    | sch                 | syndata_db            | "GENDER,AGE"           | CORRELATION_COEFFICIENT_DIFFERENCE | 0.004348586645 |
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "GENDER,ETHNICITY"     | faker_source_t    | sch                 | syndata_db            | "GENDER,ETHNICITY"     | CORRELATION_COEFFICIENT_DIFFERENCE | 0.001171535243 |
| 2024-07-30 09:53:28.439 Z | faker_synthetic_t | sch          | syndata_db     | "AGE,ETHNICITY"        | faker_source_t    | sch                 | syndata_db            | "AGE,ETHNICITY"        | CORRELATION_COEFFICIENT_DIFFERENCE | 0.004265938158 |
+---------------------------+-------------------+--------------+----------------+------------------------+-------------------+---------------------+-----------------------+------------------------+------------------------------------+----------------+

3.1.6. そのほか補足

特になし

3.2. Databricks

3.2.1. Databricksとは

製品紹介ページより引用

Databricksは「データ統合」、「データマネジメントとガバナンス」、「BIとAIを統合したデータ活用」を実現するデータインテリジェンスプラットフォームです。
Databricks社はApache Spark、Delta LakeやMlflowなどのオープンソースプロジェクトのオリジナルクリエーターです。Databricksはこれらのオープンなテクノロジーを機能として統合して提供しています。お客様はベンダーロックインされることなく、データ活用を推進できます。

3.2.2. データ合成機能の概要

Databricksは、ネイティブ機能としての合成データ生成機能は備えていませんが、以下の2つの手段で合成データを生成することが可能です:

  1. Databricks Labs dbldatagen ライブラリ3

    • Spark上で合成データを大規模生成するためのOSSライブラリ
    • スキーマ定義(列名・型・制約)や相関関係、分布などをコードで指定し、任意量のデータを生成可能
    • LLM評価やストレステスト、システム検証、ML学習データ生成に活用4
  2. LLM(Foundation Models)との連携

    • Unity CatalogやMLflowと連携したプロンプトベースの合成データ生成が可能(例:英語→構造化CSV変換など)
    • Databricks Model Serving や Notebooks 経由でカスタム生成ワークフローを構築可能4

今回は1.を調査対象とします。

実行例(dbldatagen)

以下は dbldatagen を使って100万件の合成レコードを生成する簡易な例です3

実行例(長いので折りたたみ)

列ごとに値域や分布を指定します。

import dbldatagen as dg
from pyspark.sql.types import IntegerType, FloatType, StringType
column_count = 10
data_rows = 1000 * 1000

## 合成データ生成の設定
df_spec = (dg.DataGenerator(spark, name="test_data_set1", rows=data_rows,
                                                  partitions=4)
           .withIdOutput()
           .withColumn("r", FloatType(), 
                            expr="floor(rand() * 350) * (86400 + 3600)",
                            numColumns=column_count)
           .withColumn("code1", IntegerType(), minValue=100, maxValue=200)
           .withColumn("code2", IntegerType(), minValue=0, maxValue=10)
           .withColumn("code3", StringType(), values=['a', 'b', 'c'])
           .withColumn("code4", StringType(), values=['a', 'b', 'c'], 
                          random=True)
           .withColumn("code5", StringType(), values=['a', 'b', 'c'], 
                          random=True, weights=[9, 1, 1])
 
           )
                            
df = df_spec.build()

設定の作成に手間がかかりそうです。
そこで、実データのスキーマ情報等を利用して上記を生成する仕組みも提供されています。

import dbldatagen as dg

# 既存データの指定
dfSource = spark.read.format("parquet").load("/tmp/your/source/dataset")

# 既存データを分析
analyzer = dg.DataAnalyzer(sparkSession=spark, df=dfSource)

# サマリ確認
display(analyzer.summarizeToDF())

# 既存データから「生成コード」を自動生成(文字列として受け取る)
generated_code = analyzer.scriptDataGeneratorFromData()
print(generated_code)

列ごとの分布を指定してデータを生成します。列ごとのパラメータ設定作業を補助する仕組みとして、合成対象のデータから合成用のコードを作る仕組みもあります。適切な分布とパラメータを推定する仕組みに見えます。

注意点。dbldatagenでは、列ごとに独立したデータ生成が実行されています。列間の相関関係の維持、は行われません。

3.2.3. 合成アルゴリズム

以下のような生成方式が用意されています:

  • 数値・日付・カテゴリ列に対して乱数・線形増分・Zipfian分布・正規分布などを指定可能
  • 列間の依存関係(例:列Cは列A,Bの和)は、Sparkの標準関数として定義すれば反映される

基本的には列ごとに分布を再現する方針。実装がGitHubで公開されています。

3.2.4. 安全性評価方法

安全性評価は明示的には提供されていません。
必要であれば、ユーザ自身で実装する必要があります。

3.2.5. 有用性評価方法

有用性評価は明示的には提供されていません。
必要であれば、ユーザ自身で実装する必要があります。

列間の相関を反映しない、シンプルな合成データ(ダミーデータ)。
AI・機械学習への入力として用いるのは不向き?

3.2.6. そのほか補足

特になし

3.3. BigQuery+Gretel

3.3.1. BigQueryとは

製品紹介ページから引用

BigQuery は、データの取り込みから AI による分析情報の取得まで、データ ライフサイクル全体を自動化する自律型のデータから AI へのプラットフォームです。これにより、データから AI への移行、そしてアクションまでをより迅速に行うことができます。

3.3.2. データ合成機能の概要

BigQuery自身には合成データ生成のネイティブ機能は存在しませんが、Gretelとの組み合わせによる合成データ生成の仕組みが紹介5されていました。

Gretelは、データ合成のAPI・ライブラリ・プラットフォームを提供するベンダであるGretel.aiが提供している製品です。2025年にNVIDIAに買収されました

実行例(Gretel + BigQuery)

実行例は調査中

3.3.3. 合成アルゴリズム

  • Gretel.ai による:構造保持型のGANベース生成モデル、差分プライバシー制御(DP-SGD)6

3.3.4. 安全性評価方法

  • Gretelに実装されているさまざまな安全性評価手法が利用可能5
    • 合成中:差分プライバシー基準を適用した学習7
    • 合成後:類似レコードの検出、外れ値の検出と削除7

3.3.5. 有用性評価方法

  • Gretelは統計的類似性スコア(平均、分布、相関)をダッシュボードで提示
  • BigQuery単体では統計比較は手動対応(NotebookやLooker等と併用)

合成データ生成のツールと連携しているため、高度な合成データの作成と評価が可能。データ基盤製品としてフェアな比較ではありません。すみません。

3.3.6. そのほか補足

特になし


3.4. AWS Clean Rooms

3.4.1. AWS Clean Roomsとは

2025年11月にリリースされました。AWS Clean Roomsの紹介文より。

AWS Clean Rooms は、企業とそのパートナーが、基になるデータを互いに共有したりコピーしたりすることなく、集合データセットをより簡単かつ安全に分析し、コラボレーションできるよう支援します。AWS Clean Rooms を利用すると、お客様は安全なデータクリーンルームを数分で作成し、他の企業と協力して、広告キャンペーン、投資についての意思決定、および研究開発に関する独自のインサイトを得ることができます。

前提として、複数機関が参加するコラボレーション環境にて、データを持ち寄って共通の分析をしようとしている、という状況があります。

3.4.2. データ合成機能の概要

実行例

GUIのみ?調査中です。

機能概要

AWS Clean Rooms では他の参加者が生データ(元レコード)に直接アクセスすることなく、元データの統計的特性を反映した合成データセットを生成し、機械学習モデルの学習に利用できる「プライバシー強化型合成データ生成」機能が提供されています89

従来のマスキングや削除といった匿名化処理とは異なり、元データの分布や関係性を学習したモデルを用いて新たなレコードを生成するアプローチを採用しています。
これにより、データ共有が制約される環境下でも、共同でのMLモデル学習を可能にすることを目的としています8


3.4.3. 合成アルゴリズム

AWS Clean Rooms の合成データ生成は、明示的にGANなどの生成モデルを前面に出した説明はされておらず、元データの統計的パターンを学習する機械学習モデルを用いた方式として説明されています8
差分プライバシー基準でのノイズ付与を行うためのパラメータが定義されています[^12]。具体的な合成データ生成手法は確認できていません。

概要としては、元データから列単位で値をサンプリングしつつ、目的変数(予測対象列)については学習済みモデルの予測結果を用いて再構成する形で合成レコードを生成します。
元データのレコードをそのまま複製する方式ではありません。元データに類似した行が多い場合、結果として元データと酷似した行が含まれる可能性がある点が明示されています8

予測対象の列を指定して合成する、という点が今回の比較対象と比べて特徴的。
具体的な合成アルゴリズムの内容は不明。差分プライバシー基準の適用が可能。


3.4.4. 安全性評価方法

安全性評価としては、Membership Inference Attack(メンバーシップ推論攻撃)への耐性を測る指標として Privacy Score が用意されています89
評価方法としては、元データの一部(約5%)を合成プロセスから除外し、それを用いて攻撃耐性を検証する方式が採られています。
Privacy Score は、攻撃者が特定のレコードが学習データに含まれていたかを推測できる確率を示すもので、50%付近が望ましい水準とされています810

また、合成データ生成時には、差分プライバシー関連パラメータを設定でき、差分プライバシー基準で安全性を考慮した合成データ生成が可能になっています。


3.4.5. 有用性評価方法

有用性評価については、合成データが元データの分布や特性をどの程度再現しているかを測る Fidelity Score が提供されています。
これは、KLダイバージェンスを用いて元データと合成データの分布差を評価する指標です9

3.4.6. そのほか補足

合成データは主に分類タスク(2値分類や限定的な多クラス分類)での利用を想定しています。回帰タスクでは精度低下が生じる可能性があることが明記されており、ユースケース選定時の留意点とされています8

4. まとめ・感想

調査・比較結果を踏まえて、追加で整理したくなった2点を挙げます。

  1. 「合成データ生成」の詳細化について。今回調査した手法から出力される合成データの品質は、それぞれ大きく異なる印象です。ユースケースごとに、どのような合成データを用いるべきか、という整理が必要に思えました。例えば、dbldatagenを用いて合成した合成データは、複数列の相関を維持していないため、複数の列の関係を分析するタスクには不向きです。開発用のテストデータには使えそうです。

  2. 生成した合成データの活用ノウハウについて。AWS Clean Roomsにて、合成データは分類タスク向けであり、回帰タスクには不向き、という記載がありました。こちらが、どの程度汎用的に通用するのか、にも興味があります。内部の合成アルゴリズムに依存するものかもしれません(参考)

2026年度も引き続き、合成データの適切な活用に向けた調査・検証・発信を続けていきます。

5.参考文献

脚注に記載します

  1. https://docs.snowflake.com/en/sql-reference/stored-procedures/generate_synthetic_data (Snowflake公式ドキュメント:generate_synthetic_data) 2 3 4

  2. https://docs.snowflake.com/ja/user-guide/synthetic-data
    (Snowflake ユーザガイド: Synthetic dataの利用) 2 3

  3. https://github.com/databrickslabs/dbldatagen (Databricks Labs dbldatagen GitHub) 2 3

  4. https://www.databricks.com/blog/2023/08/15/generative-ai-model-evaluation-using-synthetic-data.html (Databricks公式ブログ:LLM評価用合成データ生成) 2

  5. https://cloud.google.com/blog/products/data-analytics/create-synthetic-data-with-gretel-in-bigquery?hl=en (Google Cloud公式ブログ:BigQueryとGretelによる合成データ生成の概要) 2

  6. https://github.com/gretelai/gretel-blueprints/blob/main/docs/notebooks/google/bigquery_dataframes_with_gretel_navigator_fine_tuning.ipynb (Gretel公式GitHub:BigQuery DataFramesを用いた合成データ生成の実行例)

  7. https://www.gretel.ai/gdpr-and-ccpa (GretelにおけるGDPR/CCPA対応) 2

  8. https://aws.amazon.com/jp/blogs/news/aws-clean-rooms-launches-privacy-enhancing-synthetic-dataset-generation-for-ml-model-training/ (AWS公式ブログ「AWS Clean Rooms launches privacy-enhancing synthetic dataset generation for ML model training」) 2 3 4 5 6 7

  9. https://docs.aws.amazon.com/clean-rooms/latest/userguide/considerations-for-data-generation.html (AWS公式ドキュメント「Considerations for data generation」) 2 3

  10. https://docs.aws.amazon.com/clean-rooms/latest/userguide/considerations-for-data-generation.html

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?