テキストデータのオーバーサンプリング方法について
解決したいこと
感情分析や含意関係認識のファインチューニング用に特定の状況に特化したデータを準備したいです。chatGPTなどを使ってオーバーサンプリングをしようかと考えているのですが、他にこのようなテキストデータのオーバーサンプリングに適した手法はありますか?
0
感情分析や含意関係認識のファインチューニング用に特定の状況に特化したデータを準備したいです。chatGPTなどを使ってオーバーサンプリングをしようかと考えているのですが、他にこのようなテキストデータのオーバーサンプリングに適した手法はありますか?
状況が今ひとつわかりません。
「ファインチューニング」とのことですからなんらかのLLMを用いるのですよね。
「chatGPTなどを使ってオーバーサンプリング」もLLMを用いていて。
違う傾向のLLMを用いてデータを生成して学習なら 少しは意味があるかもしれませんが
それよりも性能の良いLLMを用いたほうが良いのでは?
「感情分析や含意関係認識」の内容によりますが
ごく特殊な用途であればそれに向けたデータを集めたほうがいいですし
汎用であれば、まずはLLMをそのまま用いれば良い
そんなところじゃないでしょうか