2023年8月18日に東京大学松尾研究室より、大規模言語モデル(Large Language Model)の"Weblab-10B"が公開されました。100億のパラメータサイズで日本語と英語の2ヶ国語に対応しています。2023年8月22日現在、商用利用はできません。
他の方の記事を読んで気になったので試してみました。
環境
Google Colaboratory Pro A100
参考
公式サイト
コードはこちらの記事を参考にさせていただきました。
1.パッケージのインストール
!pip install transformers sentencepiece accelerate bitsandbytes
2.トークナイザーとモデルの準備
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained(
"matsuo-lab/weblab-10b-instruction-sft"
)
model = AutoModelForCausalLM.from_pretrained(
"matsuo-lab/weblab-10b-instruction-sft",
torch_dtype=torch.float16,
device_map="auto",
)
3.推論の実行
# プロンプトの準備
text = """以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
### 指示:
山形県の人口は?
### 応答:
"""
# 推論の実行
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
output_ids = model.generate(
token_ids.to(model.device),
max_new_tokens=100,
do_sample=True,
temperature=0.7,
top_p=0.9,
)
output = tokenizer.decode(output_ids.tolist()[0])
print(output)
実行結果
以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。
### 指示:
山形県の人口は?
### 応答:
山形県の人口は約120,000,000人です。
日本国民のほとんどが山形県に移住したようです。
もう一回試してみました。
### 指示:
山形県の人口は?
### 応答:
山形県の人口は2019年1月現在、約120万人である。
それっぽい回答ですが、2019年6月1日時点で108万人なので正確な値ではないですね。
何回か実行した結果、毎回数値が変わってしまいました。
使い方を変えてみます。
せっかくなので庄内弁で自己紹介をしてもらいましょう。
### 指示:
庄内弁で自己紹介をお願いします。
### 応答:
庄内弁で自己紹介します。私の名前はジョン・バトラーです。
私はアメリカのカリフォルニア州で育ち、現在は庄内に住んでいます。
私は大学で経済学を専攻し、現在はソフトウェアエンジニアとして働いています。
私はスポーツやアウトドアが好きで、最近はサーフィンに夢中です。
私は庄内に来てから、日本の文化と歴史について学び、日本人と交流する機会を得ました。
私は日本語の学習を続けており、日本語で話すことを楽しんでいます。
また、私は日本文化と歴史の授業にも参加しています。
日本語に特化したLLMなので、方言が話せたら面白いかな?と思いましたがさすがに難しいようですね。
改めて、Weblab-10Bについて説明してもらいます。
### 指示:
Weblab-10Bについて説明してください.。
### 応答:
Weblab-10Bは、Webベースのマイニングソフトウェアです。
これは、Webサイト、Webサイト、およびWebサイトからのデータを使用して、
Webサイト上でのマイニングに使用されます。
Weblab-10Bは、Webサイトのアクティブな訪問者数を追跡し、
Webサイト上でのトラフィックを追跡することによって、Webサイトのトラフィックを分析します。
Weblab-10Bは、Webサイト上のトラフィックを追跡し、
Webサイトのパフォーマンスを測定するための分析ツールを提供します。
また、Weblab-10Bは、Webサイトのトラフィックを追跡するためのWebサイト分析ツールも提供します。
Weblab-10Bは、Webサイトを訪問したユーザーを追跡し、Webサイト上のユーザーの行動を分析することによって、Webサイ
どうやら、同じ単語を繰り返す傾向があるみたいです。
有用な使い方が見つかったらまた更新します。
まとめ
素人がWeblab-10Bを試してみた感想ですが、ChatGPTと同じようには使えなさそうです。
現状ChatGPTの方が実用性は高いですが、ここ最近日本語板LLMの開発が盛んなので、今後の商用利用可能なオープンソースが公開されることを期待します。