More than 1 year has passed since last update.

加藤純一AIその4 ELYZA-japanese-Llama-2-7b-fastをファインチューニングして雑談させる

Last updated at 2023-08-30Posted at 2023-08-30

AIの出力を紹介する部分で、暴力的・差別的な表現が記載される場合があります。これは本記事に書かれた手法通りの処理をした場合、AIがどのような結果を示すのか忠実に報告するために記載しているものであり、個人・団体を中傷ないし脅迫など権利を害する意図は全くございませんので、ご理解のほどよろしくお願いします。

加藤純一さんの雑談データから人格のクローンとなるようなAIを作り、最終的には雑談配信ができてしまうことを目標にしています。
データ作成やGPU計算などの協力者も欲しいですが、SNSは特にやっておらず、Youtube向けに動画編集する時間もないので、少し小刻みにQiitaにアウトプットして存在感を示したいと思います。AIの出力結果を意識的に紹介したいと思いますので、技術に興味のない方もAIの成長を楽しんでもらえればと思います。
やったこと・次やること・課題点のフォーマットでお届けします。このシリーズは「加藤純一クローンAI」タグをつけますので、バックナンバーはそちらから確認できるようにします。

やったこと

実際のコードはこちらのtalkerブランチにあります。
Github: https://github.com/konbraphat51/K-A-T-O

おととい、ELYZA社からELYZA-japanese-Llama-2-7bが公開されました。( https://huggingface.co/elyza/ELYZA-japanese-Llama-2-7b )　今年6~8月にかけて日本語LLMがウミガメの卵のごとく産出されていきますね。
これは現時点で最も「賢い」らしく（どの企業も自社LLMをそう評価している気がしますが...）、もともとけっこう強かったLlama 2を、日本語特化させたものになっています。

　"性能について、ELYZA独自作成の性能評価の結果、1750億パラメータを有する「GPT-3.5 (text-davinci-003)」に匹敵するスコアが算出されており、日本語の公開モデルのなかでは最高水準の性能となっています。"
引用元：https://prtimes.jp/main/html/rd/p/000000034.000047565.html

しかも、Tokenizer（テキストを分散表現＝数値化する機器）も日本語特化させることで（fastモデル）、安定性・速度が向上するという。

公開当日にファインチューニングを開始し（Llamaと同じ形式なので設定が簡単で助かりました）、2023そのままデータ（その2参照）15行を学習させ(24時間)、これまでと同様の試行をしました。

時期的にELYZA-japanese-Llama-2-7bの性能、実装、ファインチューニングが気になって見に来ているエンジニアもいるかもしれないので、これまでの記事と繰り返しになりますが、実装内容と注意点を概略しておくと、（コードは上記githubリンクから確認できます）

加藤純一の雑談配信の書き起こしデータを、1行1000文字までに区切り、そのままファインチューニングデータとして利用（inputs_id列にこのテキストを記録したtorchテーブルとしてtransformers.trainerクラスに渡している）
GPUはRTX4070 VRAM12GB、int8量子化+LoRAファインチューニング+batch_size=1によりこのVRAM内で処理できる
Llama系統に限って：LoRA(PEFTライブラリ)設定時に下記コードが必要

target_modules = [
        "q_proj",
        "up_proj",
        "o_proj",
        "k_proj",
        "down_proj",
        "gate_proj",
        "v_proj"
    ]

出力は、一言目を入力として、その続きを考えさせることを想定。

今回完成させたLLMモデルは、こちらからアクセスできます。
https://huggingface.co/konbraphat51/KATO_talker_202308300155

前回同様、
「こんにちは」
「やあ」
「喉痛いわ」
「今週のキングダム見た？」
「ヒカキンは神だと思わない？」
を一言目にした雑談の続きを出力してもらいます。

出力ハイパーパラメーター

{"max_new_tokens": 100, "do_sample": true, "temperature": 0.2, "top_p": 0.75, "top_k": 40, "no_repeat_ngram_size": 4, "chains": 5, "chain_depth": 3}

こんにちは今日も多分頑張ってきゃなちょっと体調が悪かったからちょっと体力に余裕があるからそういう時にかまたどういう動きができてくるんでしょそういう動きができてくれるんでしょって俺ももちろん仕事してないから完全にそういう気持ちでヤマト先生の配信を見せてもらってますいつも俺がどういう気持ちでヤまト先生のコンテンツを見せてくれるか今見せたけどまあいいや行きましょうビッグセーブです監督の指示を受けてピッチに後退選手が投入されます手前の味方に渡します手前の意味わからん人に渡しますいやこれまじでやばいこれ今マジでやばいです俺なら全然平気だね無視するわ今のディフェンス大事しっかりディフェンスしていくゴールキーパー誰ゴールケーパーってミュラーじゃないのワントップは何これちょドイツがドイツが入ってるなんか俺にドイズするドイスねあいつハンドするんだもん吉田麻衣記吉田マジでクソハンドするんだよ吉田あいつハンデするんだもんとあいつクソハンデしてるんだもん
everybodyが5月頭に配信した配信者に対する暴言した配信者に対して怒られてたけどそんな奴クビにしろ一緒にやりたくないの前にやる気が本当にないならもうやめた方がいいって言ったじゃん俺も本当に思うのこれ自分自身のためじゃなくて多分うちってねこれ前も言ったけど必要以上にみんなに対してこれ以上はしてあげられないぐらいのそうことしててこの環境で多分頑張れなかったら多分こういう道を選ばない方がいいと思う別にまだ若いからいろんな道があるじゃん同じこと言うけど今後の人生50年考えた時にマジでこれ全員にとって最後のチャンスだと思ってくれって俺言ったじゃんこの1年は本当に最後のチャンジだぞって言って体調が悪かったっていうのももちろんあるし俺ももちろん仕事で

やあこれまじでネタバレになっちまうまじでこれ本当にいやこれじゃあこの人を別に出さなきゃいいのかいやこれ無職じゃねえだろみたいなさ今さあの昼のさ無職の人はさ昼の無職の一つが無職は昼も無職かあのメール送ってるからねメール送ってるからのよろしくね早く見せたいこれ女もおもろいやつこれみたいな採用通知が言ってるんで倍率10倍からかけやがったできればちょっと確認してもらってもいいですかわかんないと思う多分これいい塩梅だなマジでねいい塩梅なんだなでやっぱ pc から顔出しズーム可能ですかに対してマックブック持ってるんですけどズームのインストールの仕方がわかりませんとかそういうちゃんと無職らしい返信も来てます無職らしい人かかるからその人と一緒に発信してもらおうとかそういう感じで俺も今度マリオ見に行くんだよマジで超楽しみクソいいんでしょなんで配信してるんですか配信が好きだからみんながコメントくれるからそういうことだからみどりさんは昨日ツイッターでうなちゃまの件について触れたけどその4分後に飯田の店で焼肉食べてリプで怒られてさすがに投稿消したなんて別にしょうがないしょうがなくない人が死んでも飯は食うだろ別にしょうがいなくないでしょ仕方なくないだめだろ意味がわからんハイコツ1日どんぐらいだろ 60本ぐらいずっと吸ってない次死んじゃうの誰だと思いますかダソクさんキンバエうわいい今度マリオ見に行くんだよマジで超楽しみクソいいんでしょなんで配信してるんですか配信が好きだからみんながコメントくれるからそういうことだからみどりさんは昨日ツイッターでうなちゃまの件について触れたけどその4分後に飯田の店で焼肉食べてリプで怒られてさすがに投稿消したなんて別にしょうがないしょうがなく

喉痛いわ早めに帰ってきてもう一回スイッチで練習してそんで youtube出るわ ok あその前にさちょっと待ってハンドルの仕方とかわかんねえからさ俺ハンドルのようした動きして調和した動きにして本番も本当に7時からなのかって今思い始めてきたどうする? もう始まってたな切れるわなんで言われんだ! ひでえじゃねえか! 被害者ぶるわ浮気ばれた時と一緒でやめてよ! やられたこれ急げ! 押してだ! 裏ならここにドリルがあるぜオッケー! 出番だぞ! グレネードだ! ノーダメか! 俺! やったぜ! 行け! 死のうとして適当にやってねえよもう飽きないで謝る本当にすいませんでしたって本当にうちのものがすいませんでしたて他人のせいでするわ本当にすいませんうちのスタッフが言うななんて情けないことでしょうって鎌田の選手今日俺やばくね? 強いねその武器さぞかし気持ちいいんでしょうねあいつをお前がどういう声で泣くのか楽しみだおい来いようめえな! お前! うめえてな! おか! 来いね! うわ! おい! あいつハンドするんだもん吉田麻衣記者無職のジャンソー行こうぜ無職の方がさ心配だよ俺大丈夫かよちゃんと返信してくれるかなこっちは全然平気だね無職歴3ヶ月かうわこの人参加させたいなねえスマホからの参加ってできるのかなスマホ参加ってできるかなお前らが配信見ろそれでいいかかあいいね配信しちゃった俺も配信するわうわいいねいいねいいネちょっと待ってハンドルのカードショップ行ってもいいなあ、いいんじゃないすか配信しながら突っ込んでていいの全然オッケーじゃない俺らが

今週のキングダム見た？ちょっと見せたいからちょっと見せてほしいいやこれまじでネタバレになっちまうまじでこれ本当にいやこれじゃあこの人を別に出さなきゃいいのかいやこれ無職じゃねえだろみたいなさ今さあの昼のさ無職の人はさ昼の無職の一つが無職は昼も無職かあのメール送ってるからねメール送ってるからのよろしくね早く見せたいこれ女もおもろいやつこれみたいな採用通知が言ってるんで倍率10倍からかけやがったできればちょっと確認してもらってもいいですかわかんないと思う多分これいい塩梅だなマジでねいい塩梅なんだなでやっぱ pc から顔出しズーム可能ですかに対してマックブック持ってるんですけどズームのインストールの仕方がわかりませんとかそういうちゃんと無職らしい返信も来てます無職らしいReturn信も来てるんであの返信がもう掃除で遅くて 23件中今1件ですページにはあいいね続々と帰ってきてるあいいねいいねいいネこれ男かなこれこれ男か女かわかんねえこれどっちだこれわかんないんだよねまあいいやわかんねえたぜひとも参加してほしい人いるんだよね若者からおじさんまで取り揃えたいねまだ決めてない 10人ぐらいに絞るかなありがとうございますすいませんよく考えたらパソコン持ってませんでしたお手すりかけてすいません 37歳無職無職歴13年いやーこのこの人ぜひ来たかったんだけどね無職歴史が長い人いるからその人来たかったんだよねあんまり働いてない人いるからさお前らそれってメタありえんよこれふざけんなよ油で光ってるマジでお前らいついけよ油まみれの社会人探そう今からガソリンスタンドで日々頑張ってますみたいなやつちょっとさもしかしたら長ビーティー1試合しかできないかもしれないけどちゃんとさわやかだね高生年だな高生

ヒカキンは神だと思わない？それ言ったら俺はキレるようるせえカマちゃん忙しいけどスタート時間遅れてるからここ滞りなくやろうやべえでも俺が選ぶとどうしても年齢数高くなっちゃうから最高この人即決やべエも同意するこの人抜けられないから一回無視するわよーしここを地獄に変えてやるぜおいあっちに行こうぜあそこに敵を発見最悪だ頼む向こうも寝坊しててくれ頼むってなヤマト先生も配信してる? よかった仲間がいた絶対ヤマト teacherに言うなよここにネメシスがあるリーフが閉じるまであと1分まだまだ距離がある向こうに行く拡張エネルギーマガジンを見つけたレベル3だ残り45秒で行くぞ俺なら余裕だなダスクも配信してる? やっぱりそうだよな気のせいだよなってまさか俺がそんな初歩的なミスするわけないよねリーダーだけど俺リーダーなんだ秘宝加藤リーダー向こうの戦車上と下かオッケー本番も本当に7時からなのかって今思い始めてきたどうする? もう始まってたな切れるわなんで言われんだ! ひでえじゃねえか! 被害者ぶるわ浮気ばれた時と一緒でやめてよ! やられたこれ急げ! 押してだ! 裏ならここにドリルがあるぜオッケ! 出番だぞ! グレネードだ! ノーダメか! 俺! やったぜ! 行け! 死のうとして適当にやってねえよもう飽きないで謝る本当にすいませんでしたって本当にうちのものがすいませんでしたて他人のせいでするわ本当にすいませんうちのスタッフが言うななんて情けないことでしょうって鎌田の選手今日俺やばくね? 強いねその武器さぞかし気持ちいいんでしょうね

めっちゃいい！！

前回のOpenCALMより格段に、というよりも断然良いです。（サイバーエージェント社様には悪いですけど、、；；）
現時点でファインチューニングに成功しているのがOpen-CALMとこちらのELYZAなので、どうしてもこの二者比較になってしまいますね。（LINEモデルは出力がかなり望ましくない形式、StabilityAIモデルは仕様がそもそも対応していなさそうでした）

特に制御していないのに、Open-CALMに見られた「繰り返し暴走」などはない。両者ともに文法的正しさ・自然さはOpen-CALMよりかなり格上。主観的ですが、「加藤純一っぽさ」はこちらが勝る気がします。
ただ、こちらはOpen-CALMよりも話題が飛び飛びな気がします。ハイパーパラメーターチューニングで制御できるか？
あと、あからさまに元データの文章（特に無職人狼、FIFA）から話題をむりやり引っ張ってきている。もしかすると、こちらの方がファインチューニングデータに忠実で、いろいろな話題に対応するには、元データが15行では足りないからこうなのかもしれません。

今思い始めてきたどうする? もう始まってたな切れるわなんで言われんだ! ひでえじゃねえか! 被害者ぶるわ浮気ばれた時と一緒でやめてよ! やられたこれ急げ!

個人的にこの部分がとても好きです。コメント読んで感情に起伏ができている感じが見られます。仕組み的にコメント見ていないはずのに。

GPT3.5並みとのたまうだけあって、性能がとても高いように感じた。7bパラメータでこれを動かせるのはかなりありがたい。（欲を言うと100倍ぐらいコンパクトになってくれれば安価なGPUでも済みますが、、、）

もっと良いLLMが出るか分からないですが、それまではこちらをメインに開発を続行しようと思います。

次やること

第一に、
まずは、データ数を増やすかどうなるかを観察します。現在50行を学習させています（80時間かかるそうです。GPUの寿命が、、、；；）

第二に、
インターネッツ上にて、「LLMのファインチューニングにより知識を学習できるか」について議論が起こりました。

「事実」を学習するタスクは、LLMのファインチューニングは不得意です。
npakaさん：https://note.com/npaka/n/nec63c01f7ee8 より引用

LLMのファインチューニングで新たな知識を付与できないというのは普通に言い過ぎでしょ。本来の慣習に従ったフルパラメータファインチューニングであれば当たり前に可能だし、効率が劇的に落ちるというだけで、PEFTでも決して不可能ではない （更新/新たに付与するパラメータ数に依存する） ので。
X:@kyo_takanoさん：https://twitter.com/kyo_takano/status/1696409487538901225より引用

LoRAの「事実」の学習がうまくいかないとすれば問題です。プロジェクトの主旨として加藤純一のクローンを作成するので、加藤純一の思想・知識をコピーできなければならない。
そこでこちらを注意して出力を再度確認しましたが、自分が何言っているのかわかってなさそうなOpen-CALMはともかく（一応自分が38歳であることは認識できていました）、こちらもそんなこともなさそう。
しかし、@kyo_takanoさんの「更新/新たに付与するパラメータ数に依存する」というのは非常に重要な指摘であると感じます。LoRAは全てのパラメーターではなく、大事そうなパラメーターだけをいじるという性質のもので、ちょっと変えただけではモデル全体が動かないだろう、という直観に合う言葉です。
今までLoRAハイパーパラメーターに無頓着であったので、こちらの調整を検討します。

現在の課題

新しい課題

LINEモデルがうまくいかなかったのはLoRAハイパーパラメーターがよくなかったからでは？
その2でLINEモデルがうまくいかなかったのは、いじるパラメーター数が少なかったからという可能性があります。
多い場合はどうなるのか、検証の余地があります。

引き続きの課題

<重要> 書き起こし精度が最善とは言い難いです。例えばよく登場する配信者「もこう」さんは「モコ」とかに書き起こされ、検索しても0件ヒットです。今開発しているこのAIも知識は完全に書き起こしデータに依存するので、この書き起こし精度がプロジェクト全体のボトルネックになっています。
書き起こしAIにOpenAI社の「Whisper」のlarge-v2モデルを使用していますが、こちらをファインチューニングする必要があるものと考えています。
文字ベースのデータでも出来るという情報もありますが、できれば音声+文字データでファインチューニングした方がよさそう、しかしデータがない。誰か手動書き起こしデータ作りしてほしいものです；；（時間がない）
stabilityai/japanese-stablelm-base-alpha-7bのファインチューニングができない。
Open-CALMよりずっといいことを自称している（出典）ので、使ってみたかったのですが、エラーが発生してファインチューニングまでたどり着かない。(建てたissue)仕様としては、transformersとは別のコードでモデルを構築させ、transformers経由でそのコードにアクセスして実行しているため、おそらく今回やろうとしているint8+LoRAファインチューニングを想定していない可能性があると予想しています。さすがに僕のGPUでは丸ごとファインチューニングには耐えられないので、開発者の対応を待ちます。
シンプルにChatGPTをファインチューニングするべきではないか？
LLMの性能で悩むぐらいなら、もう金払ってChatGPTをファインチューニングすればいいという考え方もできます。ただ出力のたびにお金がかかるのがしんどいですが。やるとしたらcurieモデルが適切だと思います。とりあえずクレジットカードが必要とのことなので、現在クレジットカード申請中です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up