オープンソースの中で日本語最強のRWKVを皆様御存知でしょうか?
RWKV(Raven's World-Knowledge Vectors)は、RNNとTransformerの性能を組み合わせたモデルです。
このモデルは、GPT Transformerのように直接トレーニングでき(並列化可能)、Transformerレベルの言語モデル(LLM)の性能を持っています。
また文字数に入力制限がないところが特徴です。
今回はこのモデルの日本語版がGPT-4、GPT3.5の次の3位になったと下記のツイートに作者が投稿しています。
https://x.com/BlinkDL_AI/status/1679816885695807489?s=20
今回はこのモデルが、どんな性能か少し遅いですが見ていこうかなと思います。
Jupyterで簡単に動かせるノートブックを作ったのでそちらで検証していきたいと思います。
使うもの
- Google Colab
- https://huggingface.co/BlinkDL/rwkv-4-world/blob/main/RWKV-4-World-JPNtuned-7B-v1-20230718-ctx4096.pth (日本語のモデル)
- https://colab.research.google.com/github/umaxiaotian/RWKV-Notebook/blob/main/RWKV_ChatRWKV_WORLD%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA%E5%B0%82%E7%94%A8.ipynb (簡単に動かせるノートブック)
BlinkDL/rwkv-4-worldとは
BlinkDL/rwkv-4-world · Hugging Face
rwkv-4-worldは、100以上の世界の言語から学習されたモデルで、そのトレーニングデータは英語が70%、他の多言語が15%、コードが15%で構成されており、
データのソースには、さまざまなソースから収集されたデータが使用されており、「Some_Pile」、「Some_RedPajama」、「Some_OSCAR」、「All_Wikipedia」、「All_ChatGPT_Data_I_can_find」などが含まれています。このモデルはMC4、OSCAR、Wikipediaなどのデータセットでファインチューニングされてるとのことです。
検証
ノートブックのインポート
RWKV_ChatRWKV_WORLDシリーズ専用.ipynb - Colaboratory (google.com)
まずはこちらから、GoogleColabにノートブックをインポートします。
◆下記はリポジトリ
https://github.com/umaxiaotian/RWKV-Notebook
GoogleColabランタイムの設定
デフォルトの設定で行く場合、必ずA100~T4のハイメモリを指定してください。
この設定を選べば、「ランタイム>すべてのセルを実行」で、デフォルトの設定のまま実行できます。
RWKV-Worldの感想
これはすごいです。正直ここまで的確に返してくれるとは思っていませんでした。
さすが日本語LLM3位なだけありますね。
日常会話、とくに対人チャットには支障はなさそうです。
ただ、コード生成部分ではまだ課題がありそうです。
全然答えてくれていません。
しかし、フリーでここまでできるのはすごいです。コードのデータセット持ってきてファインチューニングすれば答えれるようにもなりますし、期待です。