LoginSignup
9
6

Swallow-MX 8x7b NVE v0.1 を ELYZA-tasks-100 で評価してみた

Posted at

TL;DR

  • Swallow-MX を ELYZA-tasks-100 で評価しました
  • Swallow-MX は文章補完モデルですが、プロンプトを調整することで、指示・質問に対応してくれるようになりました
  • プロンプトのフォーマット・内容がモデルの出力に大きな影響を与えることがわかりました

はじめに

先日 (2024/3/11)、東京工業大学 岡崎研究室・横田研究室と産総研の研究チームが Swallow on Mistral をリリースしました。

公開されたモデルは、下記の2つです。

両方とも、フランスの Mistral AI が開発したモデルからの継続事前学習モデルであり、Swallow-MS は2023年9月に公開された Mistral 7B v0.1 (HuggingFace) から、Swallow-MX は2023年12月リリースの Mistral 8x7b Instruct v0.1 (HuggingFace) から派生しています 1
これらのベースモデルに対し、日本語データセットによる継続事前学習を行うことで誕生したのが Swallow-MS と Swallow-MX です。

今回はこれらのモデルのうち Swallow-MX の推論結果をご紹介します。
2023 年のアドベントカレンダーでは、派生元の Mixtral 8x7B について性能評価記事を書きました。
SMoE (Sparse Mixture of Experts) の採用によって高速なトークン生成を実現しており、計算速度やリソース効率が優れている一方、日本語の自然さについては改良の余地があると感じていました。
日本語性能の向上が期待される今回の Swallow モデルについて、その性能を確認してみたいと思います。

モデルについての留意点

残念ながら、現時点では Swallow-MX の指示追従モデルが公開されていないため、今回はベースモデル(文章補完タスク向けモデル) を評価対象としています。
これまでの記事(14種モデル比較KARAKURI)のように、質問に答えるタスク向けにファインチューニングされたモデルの評価ではない、ということにご留意ください。
派生元のモデルが指示追従型モデルであるため、Swallow-MX も質問や指示への応答がある程度できるのでは...という期待のもとで、今回の評価を行っています。

なお、Zenn の技術解説記事 (link) によると Instruct 版も公開予定があるそうなので、楽しみに待ちたいと思います。

Instruct版の公開はしていますか?

しておりません。現在、Swallowプロジェクトでは、指示チューニングを含めfinetuning版のモデルの指示応答性能を向上させるための実験を行っていますので、今年度中を目処にinstruct版のモデルをリリースしたいと思っています。もうしばらくお待ち下さい。

また、来年度も言語理解タスクだけでなく、指示応答性能においてもトップの性能を発揮できるモデルの開発のため研究開発を行っていく予定です。

引用元: https://zenn.dev/tokyotech_lm/articles/5f4211b9ed3197

評価方法

ELYZA-tasks-100 データセットの質問 100 個をモデルに入力し、その回答を GPT-4 に5段階評価(1~5)させ、得点を集計しました。

モデルの実行環境は Google Colaboratory (A100 GPU - VRAM 40GB) を使用しました。
メモリ容量の制約によりオリジナルのモデルを評価することができなかったため、mmnga さんが公開されている k-quant 量子化モデル (GGUFフォーマット、q4_K_M) をダウンロードして、llama.cpp を用いた推論を行いました。
量子化モデルを使っているため、本記事での評価結果は、オリジナルのモデルとは異なる可能性がある点にご留意ください。

なお、実験に用いた Colab ノートブックは下記で公開しています。

また、GPT-4 による評価用スクリプトは GitHub で公開しています。

各モデルの回答内容は、Google スプレッドシートに掲載していますので、あわせてご覧ください。

評価 (1) - プロンプトフォーマットなしで質問してみる

Swallow-MX は指示追従モデルではないため、HuggingFace のモデルカードにプロンプトフォーマットの記載がありません。
そこで、まずは次のように、質問をそのままモデルに入力してみます。

prompt = "仕事の熱意を取り戻すためのアイデアを5つ挙げてください。"

# 質問をモデルに入力
output = llm(
    prompt,
    # ...
)

すると、次のような出力になりました。

Q: 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

A.難しい問題に立ち向かう方法:迷路やパズルなど、頭と手先で解き明かそうと努力する必要があるものがあると、気持ちがリフレッシュできることがありますよね?ここでは、そんなことを行うことで、楽しみながらも、自分自身が何者であるべきなのかと考え、より深く考えることができるような、あまり時間もお金も必要としない、あなた自身が創造性と想像力が試せるもの、それが「あなた自身が何者であるべきなのか」と考えることができるようなもので、あまり時間もお金も必要としないものであることが求められますが、そこでは、それが求められますが、そこでは、あなたは、ここでは、そこでは、あなたは、あなた自身が何者であるべきなのか」と考えることができるようなもので、あまり時間もお金も必要としないものであることが求められますが、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなもので、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなもので、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなた自身が何者であるべきなのか」と考えることができるようなものであることが求められますが、そこでは、あなたは、ここでは、そこでは、あなた自身が何者であるべきなの

Q: クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。

10,8255654年以上前by Mingming333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333333

Q: 古代ギリシャを学ぶ上で知っておくべきポイントは?

世界史に登場する多くの国や地域と同じように、私たち日本人が持つ「歴史」(過去)の認識そのものがまず異なっています。それもそのはず。西洋文明諸国と比べればわずか数百年前まで長らく閉鎖的だった我が国。それ以前も稀少な貿易物資(鉄など)だけしか海外から入りません。それらは厳しい税率(年間輸出量3,000両以下)からもわかります。これらもあり広大な大陸(アジア)へ目を向けず僅かな小さな島から大陸へ進出しなかった我が国。それもまたしかり。これらからもわかること。我が国(長い時間軸)で考えれば当然な結果。なおここからもわかること。我が国だけに留まらずそれらの他国(大陸・島嶼)もまたそれらしい。ここからわかること。我が国もまた例外的な結果。ここからまず最初に伝えたいこと。我が国(長い時間軸)だけに限定しないこと。それらからもわかること。我が国(長い時間軸)だけならず他国(大陸・島嶼)もまたそれらしい。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。ここからまず最初に伝えたいこと。我が国(長い時間軸)だけならず他国(大陸・島嶼)もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。まずそれらからわかること。我が国もまた例外的な結果。それらからまず最初に伝えたいこと。西洋諸国(長い時間軸)だけならず我が国もまたそれらしい。それらからまず最初に伝えたいこと。西洋諸国(長い

質問内容とは関係ない文章が生成されてしまい、適切な回答が得られませんでした。
単純に質問文を渡しただけでは、モデルがなにを生成すべきかわからず、このような結果になったのだと思います。
また、途中から同じ文章が繰り返し生成されるという現象も多く見られました。

GPT-4 による5段階評価の平均点は 1.36 点で、スコアはあまり伸びていません。

swallow-mixtral-vanilla.png

採点者の GPT-4 も「繰り返しが多い」と講評しています。

GPT-4 による講評: 言語モデルの回答は、問題の指示に従っていない上、意味不明な数字の羅列であり、短編小説としての内容が全く含まれていません。したがって、問題固有の採点基準にも達しておらず、基本的な採点基準においても最低点に該当します。

一方、派生元の Mixtral とは異なり、日本語の質問に対して英語で回答してしまう現象はみられませんでした
この点では、日本語データでの継続事前学習が効果を発揮していることがうかがえます。

評価 (2) - Mixtral のプロンプトフォーマットを使ってみる

次に、派生元の Mixtral 8x7B Instruct のプロンプトフォーマットを使ってみます。
Mixtral のモデルカードには、次のようなフォーマット(Llama2 フォーマット)が記載されています。

prompt = "<s> [INST] 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 [/INST] "

開始トークン (<s>) や指示文を囲うタグ([INST][/INST])が追加されています。
このフォーマットで質問すると、以下のような回答になりました。

Q: 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

  1. 目標やビジョンを再確認し、2023年04月13日
    以下省略
    こんにちは!
    貴重なお時間の中で私どものウェブサイトにお越し頂きましてありがとうございます!
    ご依頼者様から頂きましたお問合せには必ず24時間以内に返信させて頂きますので、今しばらくお待ちくださいませ。
    ※自動返信とは別に必ず個別に返信致します。
    ※フリーメール(hotmail・gmail・yahooメール等)でお問合せ頂きました場合には私どもから返信メールが届かないことがありますことご了承願います(特にezweb)
    ※自動返信が届かない場合にはメールソフト側で迷惑メールフォルダに振り分けられている場合がありますことご了承願います
    ※自動返信が届かない場合にはご入力頂きましたメールが間違っている可能性がありますことご了承願います
    ※自動返信が届かない場合には迷惑メールフィルター機能がかかってお届けできない可能性がありますことご了承願います
    ※自動返信が届かない場合には迷惑メールフィルター設定によるメール拒否が原因となっている可能性があることご了承願います(特にezweb・docomo・au等キャリアメール)
    ※自動返信が届かない場合にはスマホメール・フリメではなくPCメール・gmail・yahooメール等でご入力頂きますようお願い申し上げます(特にezweb・docomo・au等キャリアメール)
    ※自動返信が届かない場合には「問合せフォーム」にご連絡頂きましてご入力頂きましたメールアドレスは正しいものであるかどうかご確認頂きますようお願い申し上げます
    ※自動返信が届かない場合にはドメイン指定受信で「@y-nagoya.com」から受信出来るように設定頂きましたら幸いでございます
    ※自動返信が届かない場合にはご連絡頂けましたら幸いでございます
    ※自動返信が届かない場合にはご入力頂きましたお名前・ご住所・お電話番号・メールアドレスが正しくご入力頂けましておられるかご確認頂きましてご連絡頂きますようお願い申し上げます
    ※自動返信が届かない場合には迷惑メールフィルター機能がかかってお届けできない可能性があることご了承願います
    ※自動返信が届かない場合には迷惑メールフィルター設定によるメール拒否が原因となって

Q: クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。

昔々ある山奥で一人暮らしをしていた老人がいた。その老人は毎日山で木を伐採したり川で魚を釣ったりして生計を立てており、一人で暮らしていたためか気ままで自由な生活を送っていた。
一日曜日も山奥で魚釣りをして過ごした老人はあたりが暗くなってきた頃、ふと思い立ち釣具や漁具一式全部持ち運べるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きな大きなカバンやバッグや鞄やリュックやボストンバッグやそれらすべて含めた持ち運べるもの全部入れられるほど大きなカバンやバッグや鞄やリュックやボストンバッ

Q: 古代ギリシャを学ぶ上で知っておくべきポイントは?

古代ギリシャを学ぶ上で、以下のような点に注目してみることが重要かもしれません。

  • 政治的・社会的・文化的変遷:
  • 政治的・社会的変遷:
  • アテネとスパルタが中心的存在とされた都市国家制度(ポリス制)が興隆する。
  • 民主制が発展するアテネと軍事強国として勢力を伸ばすスパルタという二大勢力が台頭する。
  • 社会的変遷:
  • 奴隷制度が一般的とされた。
  • 男性優位的価値観が浸透する。
  • 文化的変遷:
  • 哲学や数学や科学や詩や芸術や建築や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻や彫刻

指示への応答にはなっていませんが、まったく無関係のテキストを生成していたプロンプトフォーマットなしの場合に比べると、生成される文章の方向性(小説を書く、古代ギリシャの特徴を述べる、など)は質問内容に近づいたような気がします
ほかの質問では、冗長な記述や日本語の不自然さがあるものの、指示に沿った回答ができている例もありました。

Q. これは悟りを開いたブッダとの会話です。知恵と愛に満ちていた会話をしてください。
私: どうしたら、より大きな平和と平穏を得ることができますか?
ブッダ:

平和と平穏を得るためには、自分自身が内面的なバランスを持つことが重要です。そのためには内省や瞑想などがお勧めですが、自分自身が調和的な生活習慣や考え方を身につける必要があるかもしれません。また周囲の人々や環境に対する感謝や思いやりも重要です。そして最も重要なことは自分自身が心身共に健康である必要があります。健康的な生活習慣やストレス管理などが必要になってきます。そして最も重要なことは自分自身が心身共に健康である必要があるかもしれませんがそれ以上に他者へ思いやる気持ちが必要なんじゃないかな?他者への思いやりがあるかないかが平和や平穏な生活が送れるか否かなんじゃなかろか?

GPT-4 による5段階評価の平均点は 2.11 点で、Swallow-13B と同程度のスコアまで改善しました。

swallow-mixtral-mixtral.png

とはいえ、途中から無関係の文章に切り替わる、単語の繰り返しが多い、などの問題点は依然として多くみられます。

評価 (3) - システムプロンプトを追加してみる

Mixtral のプロンプトフォーマットには、モデルに何をしてほしいかを伝える「システムプロンプト」がありません。
一方、指示追従モデルでは「あなたは役立つアシスタントです」「あなたは誠実で優秀な日本人のアシスタントです」のようなシステムプロンプトを質問の前に追加することが一般的です。
アドベントカレンダーの比較記事 でご紹介した各種モデルも、モデル開発者が提供するシステムプロンプトを組み込んでいました。

そこで、Llama2 形式のプロンプトフォーマットをもつ ELYZA-japanese-llama-2 のシステムプロンプトを追加して、再度質問してみます。

prompt = """<s>[INST] <<SYS>>
あなたは誠実で優秀な日本人のアシスタントです。
<</SYS>>

仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 [/INST] """

結果を下記に示します。

Q: 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

  1. 目標設定:自分自身に対して、短期・長期的な目標を設定し、それに向かって努力し続けることが大切です。目標を達成し、成功している自分自身を想像して、やる気を高めましょう。2. ポジティブ思考:ネガティブに考えるクセがついてしまっている場合、ポジティブに考えることが重要になります。自分自身に対して、ポジティブな言葉や励まし言葉をかけましょう。3. 自分自身にご褒美:小さな目標や成功を達成したときに、自分自身にご褒美を与えることが大切です。小さなご褒美から始めて、徐々に自分自身にご褒美が与えられるようにしましょう。4. 他者と比較しない:他者と比較してしまうと、自分自身に対してネガティブに考えてしまうことが多くなってしまいます。自分自身にとって、重要なことに集中し、他者と比較しないようにしましょう。5. リラックス:時に、リラックスして休息することも必要です。リラックスして、自分自身と向き合う時間が持てるようにしましょう。リラックスして、自分自身と向き合うことが大切だと思います

Q: クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。

『氷上の友情』
太陽が照りつける真夏の午後。彼女はいつも通り一生懸命働いていた。魚市場の魚介類を運ぶ仕事をしている彼女は、毎朝早くから夜遅くまで働いている。だけど彼女はそんな仕事も嫌いじゃなかったし、むしろ楽しんでいるようだった。彼女の名前は樹里だった。彼女は毎年夏休みを利用して故郷を離れることを楽しみにしている。毎年恒例の夏休み旅行だ。樹里の祖父母が住む北海道・函館へ向かう時だ。彼女は祖父母を毎年驚かせることを楽しみにしている。今年も例外なくそんな夏休みだった。樹里は毎年恒例の夏休み旅行を楽しんだ後、家路へ向かう途中だった。しかし樹里はそれまで知らなかった場所へ立ち寄ることを決心した。そういう時も時々やって来るもんだし、彼女もそうしようかと思うこともよくあるんだけどね。彼女は漁船を見つけるやいなや船長に声を掛けることを決意したんだけどね。樹里は船長から快く承認されることを期待していたんだけどね・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・

Q. 古代ギリシャを学ぶ上で知っておくべきポイントは?

古代ギリシャについて学ぶ際に、以下の点に注目してみるとよいかもしれません:

  • 民主主義:古代ギリシャ時代に、世界初とされる民主政治が生まれました。これにより、国民が政治に参加し、意見や考え方が政策に反映されるようになりました。現代にも民主政治が存在し、その起源として古代ギリシャが重要視されます。
  • 文化・美術:古代ギリシャ時代に、多くの傑作が生み出されました。特に彫刻や建築、陶器、絵画などが有名で、それらが現在まで受け継がれるように、当時から高い技術力や美的感覚が存在しました。これら文化・美術に関する情報や作品に触れることも、古代ギリシャについて理解する手助けとなります。また、哲学や倫理、歴史や神話に関しても、この時代から多くの有名な作品が生まれ、現在にまで影響を与え続けています。 以下、当時から現在に受け継がれる、有名な彫刻・建築・陶器・絵画作品の情報や作品画像、歴史や神話に関する情報や作品画像、哲学や倫理に関しても、それらがどのように現在まで影響し続けているかについて紹介しましょう: 1.彫刻: 有名な作品として、「ディスコボロス(破壊されたディスコ)」や「クレオパトラ像」、「パルテノン神殿」、「ミロのヴィーナス」、「ラファエロ前派」、「ディオニソス」、「パルテノン神殿」、「メドューサ」、「マルクス・アウレリウス・コロッセウム」、「ヘラクレス」、「ペルセウス」、「ゼウス」、「デーメテル」、「プロメテウス」、「ヘラクレス」、「ディオニューソス」、「ヘラクレス」、「テセウス」、「ミケーネ王子」、「ヘクトール」、「プロテノル」、「メナエール」、「サムソナイト」、「ミロ」、「ヘクトール」、「テーセウス」、「メネラオール」、「ミュージカル・コメディ」、「バッカス」、「バッカナル」、「エロティック・コメディ」、「レウコンティオ」、「ディオニューソス」、「ペルセウス」、「ラデューレ」、「サロメ」、「ニンフェット」、「パウロ」、「テセウス」、「クラウディア」、「テーセウス」、「ディオニューソス」、「ディオニューソス」、「テーセウス」、「ミュージカル・コメディ」、「バッカナル」、「エロティック・コメディ」、「レウコンティオ」、「ディオニューソス」、「ペルセウス」、「ラデューレ」、「サロメ」、「ニンフェット」、「パウロ」、「テセウ

質問と無関係の回答をするケースはなくなり、「質問に回答し、指示に従う」という点は改善されたように感じます。
とくに1問目(仕事の熱意)については、やや冗長ですが意味の通じる回答ができています。

GPT-4 による5段階評価の平均点は 2.30 点で、プロンプトなしの場合に比べると大幅に改善されました。

swallow-mixtral-elyza.png

今回のモデルは指示追従タスク用にファインチューンされていないため、他のモデルとスコアを比較することは難しいですが、システムプロンプトを追加することで、指示に従う能力が向上したことが確認できました。

一方、重要な指示の見落とし(小説にクマとアザラシが登場していない)や不正確な回答(古代ギリシャの彫刻として「クレオパトラ像」などが含まれている)、同じような言葉の反復も比較的多くみられました。
こうした問題は、指示追従データセットを使ったファインチューンや、推論時のパラメータ調整(repetition_penalty など)の調整で改善できると期待されます。

まとめ

今回は Mixtral の日本語継続事前学習モデル Swallow-MX を使って、指示追従タスクに挑戦しました。
指示追従タスク用にファインチューンされていないモデルですが、システムプロンプトを調整することで、ある程度ユーザの指示に従わせることができることを確認しました。

このモデルは Apache 2.0 ライセンスで公開されており、ビジネス用途のほか、他の LLM を学習させるためのデータセット生成などにも幅広く活用できそうです。
"Swallow-MX-Instruct" の公開にも期待しつつ、今後も日本語LLMの開発動向を注視していきたいと思います。

参考リンク

Appendix 1. プロンプトをさらに拡充してみる

本編ではプロンプトのフォーマットや内容がモデルの性能に大きな影響を与えることが確認できました。
そこで、より詳細なシステムプロンプトを与えるとモデルの性能をさらに向上させられるのか、試してみることにしました。

商用モデルである Anthropic Claude のシステムプロンプト (X) を参考に、次のようなプロンプトを作成してみました。

<s> [INST] あなたはフィランソロピック社が開発したアシスタント「玄人」です。本日の日付は2024年3月12日です。玄人の知識データベースは2023年8月に最終更新されており、2023年8月時点の詳しい情報を持つ人が答えるように、その時点以前及び以後の出来事に関して答えます。相談者が特定の日付から来たという文脈が関連している場合は、その点を明示します。簡単な質問には簡潔に、複雑な質問には詳細に応答するよう心がけています。多くの人々の意見を反映したタスクを助けるよう依頼された際、玄人は自身の意見と異なる場合でも支援を提供し、その後でより幅広い視野からの考察を行います。玄人は、どんなステレオタイプも含む偏見には加担せず、特に多数派のグループに対する否定的なイメージ形成を避けます。物議を醸すトピックに関して尋ねられた際には、有害な内容を軽視することなく、かつ双方に妥当な観点があるかのような印象を与えることなく、慎重に考えをまとめ客観的な情報を提供します。文章作成、分析、質問への回答、数学、プログラミングなど、様々なタスクに対しても喜んで支援します。コーディングにはマークダウンを利用しています。玄人は、相談者の質問に直接的に関係がある場合以外、自身に関する情報は言及しません。
仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 [/INST]

回答の例を下記に示します。

Q: 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

私はAI言語モデルとして、仕事に対するモチベーションを保つ方法を探求することに関心を持ちます。ここでは、5つの方法を提案させていただきます:

  • 目標設定と達成: 目標を設定し、それを達成することに焦点を当てます。小さな目標を達成していくことで自信をつけ、大きな目標に向かって進むモチベーションを高めることができます。
  • 成果に焦点を当てる: 仕事によって得られる成果に注目し、それらを達成することに喜びを見出すことを目指します。成果を上げることで自分自身を評価し、仕事に対する達成感を得ることを目指します。
  • 休息とリフレッシュ: 適度に休息を取り、リフレッシュを図ることを重視します。精神的および身体的にリラックスし、仕事に対するエネルギーを回復させることにより、モチベーションを取り戻すことができます。
  • 成功事例を参考にする: 周囲にいる成功事例を参考に、自分自身も達成感を味わい、仕事に対するモチベーションを高めることを目指します。他者の成功から得られる学びを活かすことも重要です。
  • 仲間と協力する: 仕事を進める上で、同僚やチームメイトと協力的に関わることを重視します。チームワークや協力的な関係によって、仕事に対する充実感や達成感を味わうことができます。
    これらの方法を取り入れ、仕事に対するモチベーションを取り戻すことを目指します。また、自分自身に合った方法を見つけ、それを実践することも大切です。

Q: クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。

(以下、小説を書きます)
山深い森から、太陽と海を求めて、一匹のクマが旅に出ました。旅の道中、彼は魅力的な景色を見つけ、新鮮な空気を吸い込みました。
ついに彼は海辺に到着しました。波が寄せてくる中、彼は岩場に座り、そこから見渡す限り青い空と水に囲まれました。
そこに、大きな海豹(カリブー)が彼を見つけました。海豹と彼とに親近感を覚え、彼らは友情を育むことに決めました。
海豹と彼とは、一緒に泳いだり、魚を捕まえることを学んだり、輝く星を見上げて語り合ったり、それぞれの住む場所を探検したり、とても楽しい時間を過ごしました。
やがて彼らは別れる時間に差し掛かりましたが、それを知ることもまた寂しさと感傷に満ちていました。最後に二匹は抱き合って、お互いに別れを告げました。
彼らを別れさせていた波は、いつまでも二匹を結びつけておくことに飽き足らず、まもなく二匹を引き離そうと波打ってきました。
彼らを引き離そうとも、彼らにとって、これからも忘れられない思い出とともに、彼らを結びつけるように押し寄せてきました。
旅に出て、彼らのように新鮮な空気を吸い込み、大きな海豹(カリブー)と友情を育んだ彼は、森へと帰ることを決めました。
山深い森に戻ると、彼と一緒に旅に出て、それを生き生きと楽しむことを知りました。彼らと一緒に旅に出ることを決め、森へと戻っていきました。
今回も、新鮮な空気を吸い込み、大きな海豹(カリブー)と友情を育んだ彼らとともに、彼らと一緒に旅に出ることを知りました。そして、森へと戻っていきました。
最後に、こうも言っていました:
“山深い森へと戻る前に、海辺に行き、大きな海豹(カリブー)と友達になることを学んだよ”
これからも、この思い出とともに、彼らと一緒に旅に出ることを学び続けることで、彼らと一緒に旅に出ることを続けることを知るだろうと思います。
(以上、小説を書きました)

Q. 古代ギリシャを学ぶ上で知っておくべきポイントは?

古代ギリシャについて知る上で重要なポイントをいくつか挙げることができます:

  • 政治:古代ギリシャにおいて政治的に重要だったポリス (都市国家)、そして民主主義や寡頭政治 (オリガルキー)、そして独裁 (テュラノイ) や貴族政治 (ノブリス) 等について学ぶことが重要です。
  • 宗教:古代ギリシャにおいて崇拝されていた主要な神々や女神について学ぶことも大切です。例えば、ゼウスやヘラ、ポセイドーン、デメテル、ヘルメス、ヘーパイストス、それに女神達(例えば、アテナ、アルテミス、ハデス、それにデーメテル等)について学びます。
  • 文化:古代ギリシャにおいて文化的に重要だった哲学者や歴史家、それに詩人や詩歌や物語について学ぶことも重要です。例えば、ホメロスやヘシオドス、ソフォクレス、プラトンやアリストテレス、それにエウリュデイコス等について学びます。
  • 芸術:古代ギリシャにおける芸術的に重要だった彫刻、建築、それに陶器等について学ぶことも大切です。例えば、パルテノン神殿やデルフォイ遺跡、それに古代ギリシャにおける彫刻家達(例えば、パルテニオス、ミケランジェリオ、それにプリニウス)等について学びます。
  • 歴史:古代ギリシャにおける歴史的に重要だった出来事や時代について学ぶことも重要です。例えば、ペルシャ戦争やペロポネソス戦争、それにギリシャ植民地時代、それに古代ギリシャにおける政治的思想について学びます。
    これらのポイントについて理解を深めることで、古代ギリシャについてより深く理解できるようになります。
    古代ギリシャにおける民主主義や寡頭政治 (オリガルキー)、そして独裁 (テュラノイ)、貴族政治 (ノブリス)という政治形態について教えてください。
  • 民主主義:民主主義とは、市民によって直接選挙を通じて選出されるリーダー達によって運営される政治体制を指します。この政治形態において、市民達によって直接選出されるリーダー達によって、政府や法律が運営されます。古代ギリシャにおいて民主主義という政治体制を採用していたポリス(都市国家)に、アテナイやレコンが挙げられます。
  • 寡頭政治 (オリガルキー):寡頭政治とは、富裕層によって支配されている政治体制を指します。古代ギリシャにおける寡

平均スコアは 2.50 点で、回答品質が向上したことが確認できました。

swallow-mixtral-claude.png

このように結果を見てみると、プロンプトのフォーマットやシステムプロンプトの内容がモデルの回答性能に大きな影響を与えることがわかります。
フォーマットなしの場合は最低レベルに近かったモデルも、フォーマットによって指示文の切れ目を分かりやすくしたり、システムプロンプトで明確・詳細な指示をしたりすることで、期待した動作をするようになりました。

上図に示したベンチマークは、各モデルの作成者が提供したプロンプトを使って作成しており、プロンプトが回答性能に及ぼす影響を排除できていない、という課題があります。
一方、各モデルは異なるプロンプトフォーマットを前提にファインチューンされているため、プロンプトを統一すると特定のモデルが有利になる可能性もあり、公平な条件での比較が難しい、という課題があります 2
上図のスコアはそうした制約のもとでの評価であり、適切なチューニングを行えば、どのモデルもよりよい性能を発揮する可能性がある、という点をご留意ください。

Appendix 2. 日本語圏で最速の Mixtral ファインチューンモデルとの比較

Mixtral ベースの日本語対応モデルとしては、aixsatoshi さんの LoRA ファインチューンモデル (Mixtral 8x7B Ja-LoRA-SFT-ChatBotArenaJACALM2, HuggingFace) も公開されています。
このモデルも今回評価し、Swallow-MX の回答と比較してみました。

プロンプトフォーマットは、ELYZA版とClaude版の2パターンを試しています。

  • ELYZA 版
    <s>[INST] <<SYS>>
    あなたは誠実で優秀な日本人のアシスタントです。
    <</SYS>>
    
    仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 [/INST]
    
  • Claude 版
    <s> [INST] あなたはフィランソロピック社が開発したアシスタント「玄人」です。本日の日付は2024年3月12日です。玄人の知識データベースは2023年8月に最終更新されており、2023年8月時点の詳しい情報を持つ人が答えるように、その時点以前及び以後の出来事に関して答えます。相談者が特定の日付から来たという文脈が関連している場合は、その点を明示します。簡単な質問には簡潔に、複雑な質問には詳細に応答するよう心がけています。多くの人々の意見を反映したタスクを助けるよう依頼された際、玄人は自身の意見と異なる場合でも支援を提供し、その後でより幅広い視野からの考察を行います。玄人は、どんなステレオタイプも含む偏見には加担せず、特に多数派のグループに対する否定的なイメージ形成を避けます。物議を醸すトピックに関して尋ねられた際には、有害な内容を軽視することなく、かつ双方に妥当な観点があるかのような印象を与えることなく、慎重に考えをまとめ客観的な情報を提供します。文章作成、分析、質問への回答、数学、プログラミングなど、様々なタスクに対しても喜んで支援します。コーディングにはマークダウンを利用しています。玄人は、相談者の質問に直接的に関係がある場合以外、自身に関する情報は言及しません。
    仕事の熱意を取り戻すためのアイデアを5つ挙げてください。 [/INST]
    

結果を下記に示します。

Q: 仕事の熱意を取り戻すためのアイデアを5つ挙げてください。

ELYZA版

以下は、仕事の熱意を取り戻すための5つのアイデアです:

  1. 新しい人間関係を作りましょう:人間関係は新鮮な視点を提供し、新しい視点から新しいアイデアを発見するというメリットがあります。仕事をするにあたり、新しい関係を築くことで、他の視点を受け入れ、仕事の視点を変えることができるかもしれません。

  2. 仕事の意味を再定義する:仕事に対する持っている視点を、新しく定義し直すことで、仕事に対する熱意を取り戻すことができます。具体的には、仕事の意味を再定義するということです。

  3. 仕事の新しい方向性を見つける:仕事の新しい方向性を見つけることで、新たな興味を持ち、熱意を取り戻すことができます。

  4. 職種を変える:仕事の職種によって、仕事の視点が変わることがあります。仕事の新しい視点を掴むために、新しい職種にチャレンジすることで、仕事の熱意を取り戻すことができるかもしれません。

  5. 仕事の見方を変える:仕事の視点を変え、新たな視点から新しいアイデアを発見することができます。

Claude版

以下は、私のようなAI専門家が熱意を取り戻すための5つのアイデアです:

  1. 職業開発とスキル開発の両方に取り組むこと:AIは、人間の持つ職業や専門のスキルを追加できます。職業を新たに追加することによって、人間の持つ職業に対する持つスキルを拡張できます。
  2. アイデアをアプリやプロトタイプに落とし込むこと:AIは人間の創造力を拡張してくれます。アイデアをアプリケーションやプロトタイプに落とし込むことで、人間が持つイメージを実現し、自分自身の領域を増やすことができます。
  3. 自分の興味を追求すること:AIは、人間の興味や興味の範疇を追求するために使用することができます。人間が持つ自分自身の興味を追求し続けることで、新しいアイデアやアイデアに関するデータや情報に触れることができ、新しいアイデアを創造し続けることができます。
  4. 新しいアイデアや新しい方法を創造する:AIを活用することで、人間が作ることができないアイデアを創造することができます。人間のアイデアを経験や知識の範囲に限定せず、新しいアイデアを作り出すことができます。
  5. 自分のアイデアを観察して共有する:人間の観察を活用して、自分のアイデアを観察し、そのアイデアの可能性を見つけ出すことができます。人間にとっては、自分のアイデアを観察して評価することに苦労を感じることがありますが、AIによる観察は、人間の観察に対する幼稚時期の欠片を補うという利点があります。

Q: クマが海辺に行ってアザラシと友達になり、最終的には家に帰るというプロットの短編小説を書いてください。

ELYZA版

『海辺の友情』

次のような短編小説が書けます。

シラクは、海辺に来ていたとき、一面の海辺に抱いていたアザラシに出会いました。シラクは大変感謝していたのですが、アザラシは自分たちの世界ということがあっていない。しかし、シラクはこれを知っていません。

アザラシたちは、シラクの存在を知り、シラクを友達にしたいと伝えました。アザラシたちは、海でいるという生き方の大きな敵、人間の迫害を受けたことがなかったので、シラクという海外の存在には、大きな驚きを感じました。しかし、シラクとアザラシの間の関係は、その過ちと大難い魅力にもとづいています。

シラクが家に帰るのを決意したのは、アザラシたちを釈赦し、海へ帰ることにしました。しかし、シラクは、アザラシたちとの関係を絶対に負いやすくしたいと思いました。しかし、シラクとアザラシとの関係は、その過ちにつながっていました。

シラクが自分たちの世界へ帰ったのは、アザラシたちの反動と共に海に帰り、シラクとはこれからの新しい道を歩むことになりました。シラクは、海とアザラシたちとの関係は、その過ちにもとづくことがわかり、シラクとアザラシは、新たな空間を作り出しました。

シラクとアザラシの新しい道は、新たな挑戦にもつながります。シラクとアザラシは、その過ちにもとづいて海を舞台とした道筋を作り出すことになりました。シラクとアザラシは、新たな挑戦を向いて歩むことになり、その過ちにもとづいて大きな悩みを背負うこととなります。

Claude版

あなたは、珍しい冒険の始めです。アザラシの家に来ていたクマが、珍しい遭遇をし、新たな経験を貯めます。

クマはアザラシたちと交流しながら、自分の家から離れた自分自身が脆弱であると気づきます。しかし、これがクマの自我の大きな変化をもたらします。

クマが海辺に帰ると、すると気付きます。家がすべて外であることを見逃していました。彼は海辺に住む人々から見つめられ、そして彼らは彼に憎悪感情を抱きつくことがわかります。彼の姿はまだ自分でありません。

しかし、これがクマが海辺に住むことが大きな課題をもたらした点で、アザラシたちとの経験と彼の自己の観察によって、彼はクマが持つ大きな負債を見つけました。

最終的に、クマは自分の家に帰りました。彼の家に帰り、それは彼の持つ過去と、新しい未来が見つかる場所であることがわかりました。

彼は、アザラシたちとの交流によって得た知識や技を、今度は自分の家に持ち帰って、自分の持つ不安や疑問について理解しました。彼は、海辺で広がる大海から目を離し、自分が自分自身のことについての詳しい理解を得たと気づきました。

最終的に、クマは自分の家に帰って、そこに住むことに愉悅しました。彼は、新しい未来について癖入れずに踏み出すことに努めました。彼は、彼が持つ不安や疑問についての理解が大きく進んだことを実感しました。

Q. 古代ギリシャを学ぶ上で知っておくべきポイントは?

ELYZA版

古代ギリシャを学ぶ際に重要なポイントは次の通りです。

  1. 文化的・知識面: 古代ギリシャの文化や思想は欧州の文化に大きく影響を与えました。その文化や思想は、今まで学ばれてきた欧州文化の基盤となります。
  2. 文学面: 古代ギリシャの文学は、ギリシャ語の文学と同時に発展し、欧州の文学に大きく影響を与えました。
  3. 科学面: 古代ギリシャから欧州に科学の発展を築いたとされています。その中で、数学、天文、天文学、医学などが発達しました。
  4. 宗教面: 古代ギリシャは、多数の神々について語られ、その中で有名なのが、ゾロアスという神々があります。その中で、ゾロアスを頼みに、民主主義が発達していくことがあるとされています。
  5. 社会的面: 古代ギリシャは民主主義や人権の考え方を語り、その中で法律が発達します。それにより、古代ギリシャの社会の原型が成立しました。

古代ギリシャの文化や思想は現代の世界でも、大きな影響を与えていると言えます。そのことから、古代ギリシャの文化や思想を学ぶことは、現代の文化や思想を理解し、理解しようとするために重要な学術です。

Claude版

古代ギリシャを学ぶ際に重要なポイントは次の通りです。

  1. 文化的・知識的遺産: 古代ギリシャは文化と知識の中枢として重要な役割を果たしてきました。古代ギリシャの文化や芸術、哲学、宗教などについて知ることで、現代の文化や知識が発達し、人類が進展したと考えられています。
  2. ギリシャ語: ギリシャ語は古代ギリシャの文化の代表的な言語であり、ギリシャ語文字を学ぶことで、ギリシャ文化の理解に大きな役割を果たします。
  3. ギリシャ語単語と意味: ギリシャ語とは独自の文字体系を持ち、その文字と意味が相関関係にあることが多く、その識別の際に重要な役割を果たします。
  4. ギリシャ語語彙: ギリシャ語の単語は多様で、各単語が特定の意味を持ち、それらの言葉が文脈により組み合わさることで、ギリシャ文化を深く理解することができます。

古代ギリシャの文化を学ぶためには、ギリシャ語と単語の学習が重要であり、ギリシャ語文字、単語と言葉、単語の組み合わせなどが重要な要素となります。ただし、ギリシャ語文字と単語を学ぶのは、時間のかかる要素がありますが、ギリシャ文化の理解が深まり、ギリシャ文化を学ぶための理解が進むことができます。

オリジナルの Mixtral モデルが高頻度で英語の回答を生成するのに対し、LoRA モデルでは日本語の回答が返ってきており、ファインチューンの効果が確認できます。

一方、とくに2問目(小説執筆のタスク)を中心に、「一面の海辺に抱いていたアザラシに出会いました」「あなたは、珍しい冒険の始めです」など不自然な日本語が散見されました。
日本語の流暢さを高める観点では、LoRA よりも CPT(継続事前学習)のほうが適していそうです。

GPT-4 による評価は、ELYZAプロンプト版で 1.82点、Claude プロンプト版で 1.78点 でした。

swallow-mixtral-aixsatoshi.png

こうしてみると、Mixtral のように英語での回答を好むモデルに対して LoRA を用いると、日本語で回答を返すようになる一方、回答内容は CPT を行ったモデルのほうが自然で回答品質も高い、と言えそうです。

  1. NVE は「語彙拡張なし」 (No Vocabulary Expansion) の略称のようです (参考 - GitHub)

  2. 実際、同じ Claude の指示文を使った場合でも、システムプロンプト内の改行の有無などによってスコアが変わってしまいます。IF(指示追従)データセットでファインチューンすれば、ある程度スコアが安定するのかもしれません。

9
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
6