1

More than 1 year has passed since last update.

@mamosanhaeiyuudesu

gpt3.5-turboのfine-tuningをしたら日本語がおかしくなった

Last updated at 2024-03-28Posted at 2024-03-28

原因と対策をまとめる。
ハイパーパラメータは、最適なものが自動で設定されるため、学習データの質を上げるのが最優先事項かと思われる。

原因	詳細説明	対策
学習データの偏り	ファインチューニングに使用される学習データが特定の分野やトピックに偏っている場合、その分野に関する言語パターンを過学習する可能性があります。これにより、他の分野の文脈や言語パターンを適切に扱えなくなり、不自然な日本語の出力が生じることがあります。	学習データの見直し: データセットを拡充または調整して、偏りを減らします。
学習データの品質	ファインチューニングに用いるデータの品質が低い（文法的な誤りや不自然な表現が多い）場合、モデルがこれらの不適切な言語パターンを学習してしまいます。これが原因で、生成される文章も品質が落ち、不自然な日本語を出力する原因となります。	データの品質チェックとクリーニング: 誤りや不自然な表現を含むデータを修正または除外します。
ハイパーパラメータの設定ミス	適切な学習率やエポック数（学習の繰り返し回数）を設定していない場合、モデルが過学習または学習不足に陥る可能性があります。過学習ではモデルが学習データに含まれる特定のパターンやノイズに過敏に反応し、学習不足では十分な言語パターンを学習できず、どちらも不自然な出力を引き起こします。	ハイパーパラメータの調整: 学習率やエポック数などを調整して、過学習や学習不足を防ぎます。
言語特性の理解不足	日本語などの複雑な言語は、文法的な構造が非常に複雑であり、単語の意味が文脈に強く依存しています。ファインチューニングの際、これらの特性を十分に考慮しないで学習データを選定したり、モデルの構成を決定したりすると、不自然な出力を引き起こす可能性があります。	多様な言語データの追加: 日本語の複雑さを考慮して、より多様な文脈やジャンルからのデータを追加します。専門家による評価: 日本語の専門家や言語学者による評価を取り入れ、ファインチューニングプロセスを監視します。

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1