More than 1 year has passed since last update.

ChatGPTに人格と記憶と声を持たせて話し相手になってもらう

Last updated at 2023-05-07Posted at 2023-04-02

はじめに

今回は、私が作成したCLIアプリ「chat_my_assistant」を紹介します。

このアプリは、gpt-3.5-turboモデルを使用して自分専用のチャットボットを作成することができます。GPT-3は、OpenAIが開発した最先端の自然言語処理技術で、あらゆるテキストを生成することができます。chat_my_assistantは、ChatGPTのCLIアプリであり、人格、記憶、声を持たせ、より人間に近い会話を目指しています。

インストール

chat_my_assistantは、GitHubからクローンして使うことができます。そして、pipで必要なライブラリをインストールします。

$ git clone https://github.com/u1and0/chat_my_assistant
$ cd chat_my_assistant
$ pip install -r requirements.txt

以上でインストールは完了です。次に、基本的な使い方について説明します。

基本的な使い方

openaiのAPIを使うので、環境変数にopenaiのAPI¹を設定する必要があります。

export CHATGPT_API_KEY='sk-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

GitHubからクローンしたディレクトリ上で下記コマンドを実行します。

$ python chatme.py

コンソール上でアプリケーションが立ち上がって入力待ち受け状態になります。質問を入力してください。空行(行に何も入力しないでEnter)が入力されるまで、入力を受け付けます。
入力を確定すると回答待ち受け状態になります。回答が来ると1文字ずつ回答が出力されます。
回答を表示しきると1へ戻って、質問待ち受け状態になります。1-3を繰り返します。
終了したいときは"q"または"exit"を入力して入力を確定すると終了処理(会話の要約と記憶)が走って、しばらくするとステータス0でコマンドが終了します。

以上が基本的な使い方です。ここまでだとただのChatGPTをコマンドラインから使えるようになっただけです。次項からこのコマンド特有のキャラクター設定、音声の再生、会話の記憶について説明します。

オプション

chatme.pyコマンドには次のオプションがあります。

chatme.py/usage

usage: chatme.py [-h] [--character CHARACTER] [--voice] [--speaker SPEAKER]
                 [--yaml YAML]

ChatGPT client

options:
  -h, --help            show this help message and exit
  --character CHARACTER, -c CHARACTER
                        AIキャラクタ指定(default=ChatGPT)
  --voice, -v           AI音声の生成先 (-v=SLOW, -vv=FAST, -vvv=LOCAL, default=None
                        = 音声で話さない)
  --speaker SPEAKER, -s SPEAKER
                        VOICEVOX キャラクターボイス(str or int, default None)
  --yaml YAML, -y YAML  AIカスタム設定YAMLのファイルパス

キャラクターのカスタマイズ

--yamlオプションの説明です。

あなたのgist上にcharacter.ymlという名前のYAMLファイルを作成してください。YAMLファイルの書き方はsample/character.ymlに例があります。このファイルではAIのキャラクター、性格、話のトーン、話の長さを決めることができます。
gistの準備、gistを操作できるGitHubトークンが必要です。
　

仮にここでは"俺専用GPT"という名前で作成します。
デフォルトのAIキャラクタはコメントアウト内の設定を読み込みます。

# デフォルトのAIキャラクタ
# BaseAIクラスに定義してあります。
#
# - name: "ChatGPT"
#   max_tokens : 1000
#   temperature : 1.0
#   system_role: "さっきの話の内容を聞かれたら、話をまとめてください。"
#   filename: "chatgpt-assistant.txt"
#   voice: Mode.NONE
#   speaker: CV.ナースロボタイプ楽々
#
# カスタムキャラクタを設定してください。
# https://api.github.com/gists/{gist_id}/character.yml
# にこのファイル内の設定を記載してもロードできます。
# ローカル上のファイルを使う場合は次のようにYAMLファイルのパスを指定してください。
# $ python memory_chat_digest.py -y path/to/character_sample.yml
#
- name: "俺専用GPT"
  filename: "ai_memory.txt"
  max_tokens : 500
  temperature : 0.5
  system_role: "
            XXXとして振る舞ってください。\
            XXXXXな口調で話してください。\
            さっきの話の内容を聞かれたら、話をまとめてください。\
            "

キャラクターの割り当て

--characterオプションの説明です。
先ほどのYAMLファイルに書き込んだnameを-c, --characterオプションに割り当てます。

$ python3 chatme.py -c 俺専用GPT

動画ではさっきの動画と同じ挨拶から始まりますが、キャラ付けにより返答内容にバリエーションをもたせています。

会話の記憶

上記で説明したgist上に例えばai_memory.txtというファイルを作ります。さらにそのファイル名filename: ai_memory.txtをcharacter.ymlファイルに書き込んでください。

さらに環境変数にGithubトークンとgistのIDを書き込みます。Gist IDはGistのURLのユーザー名の後に続く文字列です。例えGistのURLがhttps://gist.github.com/u1and0/b47b454ac12a335bacd62ac5b0e8c6da3だったら、b47b454ac12a335bacd62ac5b0e8c6da3がGistIDです。

export GITHUB_TOKEN='ghp_XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
export GIST_ID='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

この設定により、会話ごとの要約を別のChatGPT APIが作成し、gistへアップロードします。一旦会話を終了してから会話を再開すると要約文gistを読み込み、その文脈を元にChatGPTが返答を考えてくれるので、先ほどの会話の内容を憶えていてくれるかのような振る舞いができます。

この時点での彼女の記憶の中身をgist上で確認するとこうなっていました。

chatgpt-chan.txt

-Kristelが映画か散歩かを提案し、Junichiroは映画なら何でもいいと回答する。
-Kristelが映画に決定し、ポップコーンとソフトドリンクを持っていくことを提案する。
-Assistantが好みのドリンクや食べ物について尋ねる。
-Kristelが炭酸が苦手であり、チキンが食べたいことを回答する。
-Assistantが甘い味の飲み物と特製ウタマロソースを提案する。
-Kristelが感謝の言葉を述べ、楽しい時間を過ごすことを約束する。

アシスタントの名前がクリステルで私が進次郎なんですけど、いつの間にか英語でKristelになってるし、私の名前が純一郎(Junichiro)でお父さんの名前になっちゃっています。
よくあることです。プロンプトの改良が必要です。

-Kristelが炭酸が苦手であり、チキンが食べたいことを回答する。
-Assistantが甘い味の飲み物と特製ウタマロソースを提案する。
-Kristelが感謝の言葉を述べ、楽しい時間を過ごすことを約束する。

この部分はユーザーとアシスタントが逆になってはいますが、先ほどの動画の会話を反映しています。それより前の映画とポピーシードの話は動画より前に話していた内容を記憶しています。

音声再生

Ubuntuではsoxと²いうライブラリが必要です。

$ apt update && apt install sox

音声の合成方法は方法は3つあります。

API(低速)¹を使う。
API(高速)³を使う。
ローカル環境のVOICEVOX⁴を使って文字列から音声(wavファイル)を作る。

1は設定不要です。ただし、リクエスト間隔に間を開けないと音声の合成が完了していない場合があるため、このクライアントソフト上からの呼び出しでは動作がまだ不安定です。
2はapiKeyを設定した上で、環境変数 VOICEVOX_API_KEYが必要です。ただしリクエスト回数がポイント制で上限があります。24時間ごとにリセットされます。

export VOICEVOX_API_KEY='XXXXXXXXXXXXXXXX'

3はVOICEVOXをインストールして、ローカルマシンに起動しておく必要があります。

それぞれコマンドラインオプション-v, -vv, -vvvで呼び出せます。
vの数が多くなるほどに設定難易度が難しくなる代わりに、レスポンスが高速で確実性があります。

キャラクターボイスの設定

--speakerオプションの説明です。

キャラクターの声はVOICEVOXで生成しています。キャラクターボイスは基本的に先ほどのcharacter.ymlにプリセットしますが、コマンドラインオプションで好きに変えることもできます。指定できるオプションはVOICEVOXで指定できるキャラクターボイスの文字列か、それに紐づいたIDです。例えばID=0は四国めたんあまあまがセットされます。

Gistレート制限の緩和

Gistのリクエスト制限(60分あたり60回)を緩和するために、GistクライアントのIDとトークンを環境変数に設定します⁵。

設定まとめ

以上をまとめてホームディレクトリに.secretなどというファイルを作成し、.bashrcなどにsource ~/.secretと書いて読み込んでください。

.secret

#!/bin/sh
export OPENAI_API_KEY='sk-XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' \
    GITHUB_TOKEN='ghp_XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' \
    GIST_ID='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' \
    VOICEVOX_API_KEY='XXXXXXXXXXXXXXXX' \
    GIST_CLIENT_ID='XXXXXXXXXXXXXXXXXXXX' \
    GIST_CLIENT_SECRET='XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'

$ chatme.py -c 俺専用GPT  -vv -s 0

オプションの意味は次のとおりです。

-c: 俺専用GPTという名前のキャラクター設定を読み込む
-vv: VOICEVOX高速APIで音声合成をする
-s 0: ID 0 の四国めたんあまあまで発声させる

Vim/Neovimから使う

コーディングのお供になります。イメージとしてはGitHub Copilotです。

まず、:source plugin/chat_function.vimコマンドを実行して、プラグインの関数を読み込みます。その後、　leader c キーバインドを割り当てているため、テキストを選択し、leader c により、選択範囲のテキストをchatme.pyコマンドの標準入力に貼り付けることができます。

さらに、追加のテキストを入力することで、様々なタスクを実行することができます。

タスクの例

上記のコードのリファクタリングをして
上記のコードのデバッグをして
上記のコードのテストコード作って
上記のコードのドキュメント / READMEを作って

docを書かせています。

更にリファクタリングさせています。
:se ft=pythonでシンタックスハイライトを有効にしています。

別の関数のテストを書かせています。

これらのコマンドを使って、よりスムーズなコーディングを実現することができます。

似ているプラグイン²があった、と言うかこのプラグインに影響されて作り始めたこのプロジェクトなのですが、影響を受けたプラグインでは下記のような実装で、私のやりたいこととズレが有りました。

ファイルのコードまるごと送っていたので、特定の関数だけに関する質問ができない。
Vimコマンドに組み込まれた指示しか呼び出せないので、ケースバイケースの質問ができない。

chat_my_assistantでは選択範囲のテキストをyank/pastしてすぐにChatGPTへ送ることができ、返答をyank/pasteしてすぐにコードへ反映することができます。そして、指示を思いついたままに自然言語で指示することができます。

おまけ機能: 入力がなくても勝手に話し始める

5分黙っていると勝手にChatGPTが話し始めます。

実態は入力待ち中に非同期に5分カウンターを回し、5分入力がないと下記の入力をランダムに選んでChatGPTに渡しています。

続けて
他の話題は？
これまでの話題から一つピックアップして
""

最後のダブルクォーテーションは「無言」の意味です。
無言を渡すと再び5分タイマーが起動します。

要するに、「5分黙っていると75%の確率でなんか喋りだす」AIになります。
起動させっぱなしにご注意ください。無制限にトークンを消費します。

さいごに

APIの恩恵により、私が作ったCLIはクエリとデータをエンドポイントに送信するだけで、ChatGPT APIでセリフと要約を考え、要約をGist APIで保存し、VOICEVOX APIで発声することができました。このような便利なAPIを提供してくれるChatGPT開発元のOpenAI、Gistの開発元Github、VOICEVOXの作者に感謝いたします。私たちの生活は、APIによってより快適で効率的になっていることを改めて実感しました。

【2023年版】OpenAIのAPIキ発行手順！ChatGPTや文生成AI、画像生成AIを利用可能 ↩ ↩²
Sox、UbuntuターミナルからMP3ファイルを再生します ↩ ↩²
WEB版VOICEVOX API（高速） (オプション-vv) ↩
VOICEVOX (オプション-vvv) ↩
GitHubのAPIのリクエスト制限を避けるためにclient idなどを取得する ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up