LoginSignup
4
3

日本語版ChatGPT? "Weblab-10B"を試してみた

Posted at

  
2023年8月18日に東京大学松尾研究室より、大規模言語モデル(Large Language Model)の"Weblab-10B"が公開されました。100億のパラメータサイズで日本語と英語の2ヶ国語に対応しています。2023年8月22日現在、商用利用はできません。

他の方の記事を読んで気になったので試してみました。

環境

Google Colaboratory Pro A100

参考

公式サイト

コードはこちらの記事を参考にさせていただきました。


1.パッケージのインストール

!pip install transformers sentencepiece accelerate bitsandbytes

2.トークナイザーとモデルの準備

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# トークナイザーとモデルの準備
tokenizer = AutoTokenizer.from_pretrained(
    "matsuo-lab/weblab-10b-instruction-sft"
)
model = AutoModelForCausalLM.from_pretrained(
    "matsuo-lab/weblab-10b-instruction-sft",
    torch_dtype=torch.float16,
    device_map="auto",
)

3.推論の実行

# プロンプトの準備
text = """以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。

### 指示:
山形県の人口は?

### 応答:
"""

# 推論の実行
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")
with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_new_tokens=100,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
    )
output = tokenizer.decode(output_ids.tolist()[0])
print(output)

実行結果

以下はタスクを説明する指示です要求を適切に満たす応答を書きなさい

### 指示:
山形県の人口は

### 応答:
山形県の人口は約120,000,000人です

日本国民のほとんどが山形県に移住したようです。

もう一回試してみました。

### 指示:
山形県の人口は

### 応答:
山形県の人口は2019年1月現在約120万人である

それっぽい回答ですが、2019年6月1日時点で108万人なので正確な値ではないですね。
何回か実行した結果、毎回数値が変わってしまいました。

使い方を変えてみます。
せっかくなので庄内弁で自己紹介をしてもらいましょう。

### 指示:
庄内弁で自己紹介をお願いします

### 応答:
庄内弁で自己紹介します私の名前はジョンバトラーです
私はアメリカのカリフォルニア州で育ち現在は庄内に住んでいます
私は大学で経済学を専攻し現在はソフトウェアエンジニアとして働いています
私はスポーツやアウトドアが好きで最近はサーフィンに夢中です
私は庄内に来てから日本の文化と歴史について学び日本人と交流する機会を得ました
私は日本語の学習を続けており日本語で話すことを楽しんでいます
また私は日本文化と歴史の授業にも参加しています

日本語に特化したLLMなので、方言が話せたら面白いかな?と思いましたがさすがに難しいようですね。
改めて、Weblab-10Bについて説明してもらいます。

### 指示:
Weblab-10Bについて説明してください.

### 応答:
Weblab-10BはWebベースのマイニングソフトウェアです
これはWebサイトWebサイトおよびWebサイトからのデータを使用して
Webサイト上でのマイニングに使用されます
Weblab-10BはWebサイトのアクティブな訪問者数を追跡し
Webサイト上でのトラフィックを追跡することによってWebサイトのトラフィックを分析します
Weblab-10BはWebサイト上のトラフィックを追跡し
Webサイトのパフォーマンスを測定するための分析ツールを提供します
またWeblab-10BはWebサイトのトラフィックを追跡するためのWebサイト分析ツールも提供します
Weblab-10BはWebサイトを訪問したユーザーを追跡しWebサイト上のユーザーの行動を分析することによってWebサイ

どうやら、同じ単語を繰り返す傾向があるみたいです。

有用な使い方が見つかったらまた更新します。

まとめ

素人がWeblab-10Bを試してみた感想ですが、ChatGPTと同じようには使えなさそうです。
現状ChatGPTの方が実用性は高いですが、ここ最近日本語板LLMの開発が盛んなので、今後の商用利用可能なオープンソースが公開されることを期待します。

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3