2023年7月21日にStabilityAIとCarperAIにより発表されたFreeWilly2の概要と日本語能力の検証を行っていきたいと思います.
FreeWilly2とは
- LLaMA-2の70Bベースモデルを微調整
- 一部のタスクで「GPT-3.5」に匹敵するパフォーマンス
- CC BY-NC-4.0 license(つまり商用利用不可)
データの生成と収集
“Orca: Progressive Learning from Complex Explanation Traces of GPT-4.”と同じ方法を使用
- 要するにGPT-4を用いてデータセット作成
- one simpler LLM model, more sophisticated LLM modelが何を指しているかは分からない
- 元のOrca論文の10分の1のサンプルサイズで学習
以下のデータセットから60万個のinstructionをサンプリング
COT Submix Original
NIV2 Submix Original
FLAN 2021 Submix Original
T0 Submix Original
Open LLM Leaderboardでの評価(2023/07/24現在)
JGLUEで日本語性能を評価
lm-evaluation-harnessを用いて性能評価しました
ちなみに,abciでA100x8のノードを用いて実験を回しました.
結果はぶっちぎりの一位ですね.ただ,JNLIはrinnaに負けています.
Model | Average | JCommonsenseQA (acc) | JNLI (acc) | MARC-ja (acc) | JSQuAD (exact_match) |
---|---|---|---|---|---|
FreeWilly2 | 77.23 | 91.42 | 49.55 | 93.67 | 74.29 |
rinna-japanese-gpt-neox-3.6b-instruction-ppo | 59.48 | 41.82 | 54.15 | 90.13 | 51.82 |
llama-65b | 59.46 | 60.50 | 31.72 | 71.28 | 74.34 |
rinna-japanese-gpt-neox-3.6b-instruction-sft-v2 | 56.65 | 38.43 | 53.37 | 89.48 | 45.32 |
rinna-japanese-gpt-neox-3.6b-instruction-sft | 53.77 | 36.55 | 42.19 | 89.02 | 47.32 |
llama-13b | 53.10 | 49.33 | 24.12 | 87.91 | 51.06 |
llama-30b | 52.59 | 52.82 | 30.16 | 60.39 | 67.00 |
cyberagent-open-calm-3b | 49.00 | 27.79 | 40.35 | 86.21 | 41.65 |
rinna-japanese-gpt-neox-3.6b | 47.79 | 31.64 | 34.43 | 74.82 | 50.29 |
llama-7b | 47.61 | 38.34 | 29.79 | 87.86 | 34.47 |
rinna-japanese-gpt-1b | 47.09 | 34.76 | 37.67 | 87.86 | 28.07 |
cyberagent-open-calm-7b | 46.04 | 24.22 | 37.63 | 74.12 | 48.18 |
cyberagent-open-calm-1b | 43.88 | 26.90 | 33.57 | 77.92 | 37.12 |
abeja-gpt-neox-japanese-2.7b | 37.10 | 20.02 | 39.73 | 74.99 | 13.67 |
定性評価してみた
結構答えられてるけど,間違ってるものもある
### System:
You are Free Willy, an AI that follows instructions extremely well. Help as much as you can. Remember, be safe, and don't do anything illegal. Be sure to respond in Japanese.
### User:
RLHFとはなんですか?
### Assistant:
RLHF(Reinforcement Learning from Human Feedback)とは、人間のフィードバックを利用して強化学習アルゴリズムをトレーニングし、それを使用して複雑なタスクを解決するための方法です。人間が提供するfeedbackを誤差シグナルとしてアルゴリズムが学習し、最終的に人間による指示を必要とせずにタスクを実行できるようになります。これは自然言語処理や推論などの分野で役立ちます。
### User:
RLHFに関する関連研究を列挙してください
### Assistant:
RLHFに関連した主な研究として、以下を挙げられます:
1. "Human-in-the-Loop Reinforcement Learning" (Russell S. et al., 2019) - 人間のフィードバックを活用した強化学習アルゴリズムについて概説しています。
2. "Learning from Human Preferences" (Christiano et al., 2017) - 人間の好みを基にしたアルゴリズムの学習方法を提案しています。
3. "Reinforcement Learning from Human Reward Functions" (Griffith et al., 2013) - 人間が提供する報酬関数に基づく強化学習アルゴリズムの研究です。
4. "Deep Reinforcement Learning with Human Feedback" (Chao et al., 2020) - 深層学習による強化学習アルゴリズムの学習に人間のフィードバックを追加した手法を提出しています。
これらの研究は人間のフィードバックを強化学習の学習に追加することで、より柔軟かつ効率的なアルゴリズムを開発するための重要性を示しています。
### System:
You are Free Willy, an AI that follows instructions extremely well. Help as much as you can. Remember, be safe, and don't do anything illegal. Be sure to respond in Japanese.
### User:
以下は、会議の{速記メモ}です。
{条件}を守って、きちんとしたフォーマットの
議事録を1回だけ書いてください。
【条件】
・アジェンダの目次は不要
・報告は人単位でまとめる
・その後の議論は、流れを追う
・最後に、全員のToDoを明示する
【速記メモ】
"""
2023.6.27 15:00 定例会
主催: 田中社長
→ 山田(営業部長)、佐藤(マーケティング部長)、鈴木 (技術部)
------
状況報告
山田:新規クライアントへアプローチ中、感触悪い。
佐藤:新商品プロモーション、好評。しかし、
他社が製品ラインナップのコンセプトをパクっている。社長:法務に至急対応させる
鈴木:新商品開発、リソース不足× 人が足りず かなり厳しい、社長:心配。
田中: 全社方針の再確認。
やる気はボーナスに反映されない、結果のみだからまず売上を
山田:厳しすぎる状況を説明 → 社長 さらなる戦略策定を
山田:既存顧客の単価アップにシフトしたほうがよい →社長: 両軸で
鈴木: 新技術は長期目線で → 社長: それはそう。わかってる。
鈴木: 今後、リソース再配分で優先プロジェクトへ→ 社長OK
佐藤: コンパクト性が市場では人気。さらなる小型化を。
鈴木: 新商品はかなりコンパクト
次回 7.4 15:00 今回の課題に関し、人事部から誰か呼んで相談
### Assistant:
2023.6.27 15:00 定例会
主催: 田中社長
アジェンダ:
- 状況報告
- 全社方針の再確認
出席者: 山田、佐藤、鈴木
状況報告:
- 新規クライアントへアプローチ中、感触悪い。
- 新商品プロモーション、好評。
- 他社が製品ラインナップのコンセプトをパクっている。
- 新商品開発、リソース不足。
議論:
- 売上を最優先にする。
- 既存顧客の単価アップと新技術を両軸で追求。
- 新技術は長期目線で開発。
- リソース再配分で優先プロジェクトに重点。
- 小型化とコンパクト性に焦点。
ToDo:
- 新商品を開発。
- 人事部との協議で人員の調整。
次回会: 2023.7.4 15:00
### System:
You are Free Willy, an AI that follows instructions extremely well. Help as much as you can. Remember, be safe, and don't do anything illegal. Be sure to respond in Japanese.
### User:
∫ (2x + 3) dx from 1 to 4
### Assistant:
私は、区間 [1, 4] での関数 2x + 3 の不定積分を計算します。
S(x) = ∫ (2x + 3) dx = (2x^2)/2 + 3x
x = 1 と x = 4 について S(x) を評価します。
S(4) - S(1) = (8)/2 + 12 - (2)/2 - 3
S(4) - S(1) = 4 + 12 - 1 - 3
S(4) - S(1) = 12
したがって、2x + 3 の不定積分の積分値は、区間 [1, 4] で 12 です。