こんにちにゃんです。
水色桜(みずいろさくら)です。
今回はVOSKというライブラリを用いて声を文字起こしし、それに対して自然な返答を行うようなAIを作っていきたいと思います。
まず、実行の様子を示します。
このようにゆっくり話すとしっかり認識して、返答を返してくれます。音声認識はVOSK、返答の生成はGiNZAを用いて行っています。#vosk というライブラリを用いて音声認識を行い、#GiNZA で返答を生成するプログラムを作ってみました。
— 水色桜 (@Mizuiro__sakura) September 24, 2022
ゆっくり喋ればちゃんと会話ができます。#自然言語処理#プログラミング#プログラミング初学者と繋がりたい #駆け出しエンジニアと繋がりたい#男の娘#femboy pic.twitter.com/gV9ChK7sPR
まず、それぞれのライブラリについて説明します。
VOSKはalphacepheiさんが開発した20言語以上に対応した音声認識ツールキットです。言語モデルが約50MBと軽く、組み込みを容易に行うことが可能です。
VOSK Offline Speech Recognition API
https://alphacephei.com/vosk/
VOSKのインストールは
pip install vosk
で行うことができます。またalphacepheiさんのWebページから日本語のモデル(https://alphacephei.com/vosk/models/vosk-model-small-ja-0.22.zip
)をダウンロードすることで日本語で音声認識をすることができます。zipファイルは展開して「vosk_model」に名前を変更してください。そしてpythonのプログラムと同じディレクトリにおいてください。
GiNZAはリクルートさんと国立国語研究所さんの開発した自然言語処理ライブラリです。GiNZAはspaCyというライブラリを元に作られています。spaCyはExplosion社さんが提供している自然言語処理ライブラリで、アメリカなどでは人気のあるライブラリです。製品利用を念頭に尽きられているためとっても使い勝手が良いのですが、なんと2019年までは日本語には対応していませんでした。そこでリクルートさんと国立国語研究所さんが日本語の学習済みモデルを作成し、さらに導入を超簡略化までしてくれました❕
GiNZAの導入はコマンドプロンプトなどで
pip install ginza
で行うことができます。
導入は以上にして、ここからはコードを見ながら、AIの実装に移っていきたいと思います。プログラム全体は以下の通りです。
# 必要なモジュールをインポート
import json
import vosk as vs
import pyaudio
import wave
import spacy
import tkinter as tk
time=5 # 録音する時間
samplerate=44100 # サンプリング周波数
fs=1024 #
index=1 # オーディオ機器の内、マイクの番号を指定する
# tkinterを用いてGUIを作成
root = tk.Tk() # ウィンドウを作成
root.title(u'VOSKとGiNZAを用いたボット') # タイトルの定義
root.geometry('500x500') # ウィンドウサイズを定義
frame=tk.Frame(root,bg='Green yellow') # テキストボックスなどを載せるフレームを定義
frame.pack() # フレームを設置
sc=tk.Scrollbar(frame) # スクロールバーの定義
sc.pack(side='right',fill='y') # スクロールバーを設置
msgs=tk.Listbox(frame,width=70,height=25,x=0,y=0,yscrollcommand=sc.set,bg='azure',fg='black') # テキストボックスの定義
msgs.pack(side='left',fill='both',pady=20) # テキストボックスの設置
nlp = spacy.load('ja_ginza') #GiNZAのロード
def record(index,samplerate,fs,time):
pa=pyaudio.PyAudio() # pyaudioを読み込み
global data
data=[] # 音声データを格納する配列
dt=1/samplerate #
format=pyaudio.paInt16 # 量子化ビット数。大きくするほど解像度が良くなる
stream=pa.open(format=format,channels=1,rate=samplerate, # channelsは使用するマイクの本数
input=True,input_device_index=index,frames_per_buffer=fs) # 録音機器を準備し、録音を開始する
for i in range(int((time/dt)/fs)):
frame=stream.read(fs) # time/dt/fsごとに音声を録音
data.append(frame) # dataの末尾に録音したデータを追加
stream.stop_stream() #録音の終了
stream.close() # 録音機器を消す
pa.terminate() # pyaudioの終了
wav=wave.open('voice.wav','wb') # 音声を記録する音声ファイルを開く
wav.setnchannels(index) # ファイルはどのマイクを使用したか設定
wav.setsampwidth(pa.get_sample_size(format)) # ファイルの量子化ビット数を設定
wav.setframerate(samplerate) # ファイルのサンプリング周波数を設定
wav.writeframes(b"".join(data)) # データをまとめる(ビット形式に書き換え)
wav.close() # 音声ファイルを閉じる
return data
def vos():
vs.SetLogLevel(-1) #vosk関連のログが出ないように指定
wav=wave.open('voice.wav','rb') #音声ファイルの読み込み
model= vs.Model("vosk_model") #日本語モデルの読み込み
rec = vs.KaldiRecognizer(model, samplerate) # 日本語モデルを用いて音声を解析
rec.AcceptWaveform(b"".join(data)) # 音声データの読み込み
rec.SetWords(True) # 文章のセット
output=rec.Result() # 結果を出力
js=json.loads(output) # 結果(jsonファイル)の読み込み
txt=js['text'] # テキスト部分のみ抽出
return txt
def ret():
data=record(index,samplerate,fs,time)
txt=vos()
i=0
msgs.insert('end','あなた:'+txt)
doc=nlp(txt) #GiNZAで入力文章を解析
with open('ginza_voice.txt',encoding='utf-8_sig') as m: #想定返答集のロード(使う場合はファイル名を変更してください)
r=m.read().split('\n') #\nで一つ一つの文章が区切られているので、\nごとに分解して配列化
float_list=[] #計算した類似度を保持する配列
for i in range(len(r)):
k = nlp(r[i]) #想定返答集のi番目の文章の解析
float_list.append(doc.similarity(k)) #類似度を計算し、float_listに格納
i=i+1
j=float_list.index(max(float_list)) #最も類似度の高かった文章のインデックスを取得
if max(float_list)<0.7: #類似度が低すぎる場合(ここの条件(0.7以上)は適宜変えてください)
txt='僕はAIだからこういう時どう返せばいいかわからないかな。'
msgs.insert('end','えいみ:'+txt)
if max(float_list)>0.7: #類似度がある程度高い場合
txt=r[j]
msgs.insert('end','えいみ:'+txt)
#ボタンとテキストボックスの定義
btn=tk.Button(root,text='声から生成した文章を送信',font=('utf-8_sig',10),bg='cyan',command=ret)
btn.pack(side='top')
#画面の保持
root.mainloop()
まずtkinterを用いてGUIを作製していきます。
# tkinterを用いてGUIを作成
root = tk.Tk() # ウィンドウを作成
root.title(u'VOSKとGiNZAを用いたボット') # タイトルの定義
root.geometry('500x500') # ウィンドウサイズを定義
frame=tk.Frame(root,bg='Green yellow') # テキストボックスなどを載せるフレームを定義
frame.pack() # フレームを設置
sc=tk.Scrollbar(frame) # スクロールバーの定義
sc.pack(side='right',fill='y') # スクロールバーを設置
msgs=tk.Listbox(frame,width=70,height=25,x=0,y=0,yscrollcommand=sc.set,bg='azure',fg='black') # テキストボックスの定義
msgs.pack(side='left',fill='both',pady=20) # テキストボックスの設置
その後、音声を録音して、音声ファイルを出力する関数recordを定義します。
def record(index,samplerate,fs,time):
pa=pyaudio.PyAudio() # pyaudioを読み込み
global data
data=[] # 音声データを格納する配列
dt=1/samplerate #
format=pyaudio.paInt16 # 量子化ビット数。大きくするほど解像度が良くなる
stream=pa.open(format=format,channels=1,rate=samplerate, # channelsは使用するマイクの本数
input=True,input_device_index=index,frames_per_buffer=fs) # 録音機器を準備し、録音を開始する
for i in range(int((time/dt)/fs)):
frame=stream.read(fs) # time/dt/fsごとに音声を録音
data.append(frame) # dataの末尾に録音したデータを追加
stream.stop_stream() #録音の終了
stream.close() # 録音機器を消す
pa.terminate() # pyaudioの終了
wav=wave.open('voice.wav','wb') # 音声を記録する音声ファイルを開く
wav.setnchannels(index) # ファイルはどのマイクを使用したか設定
wav.setsampwidth(pa.get_sample_size(format)) # ファイルの量子化ビット数を設定
wav.setframerate(samplerate) # ファイルのサンプリング周波数を設定
wav.writeframes(b"".join(data)) # データをまとめる(ビット形式に書き換え)
wav.close() # 音声ファイルを閉じる
return data
色々複雑な変数の定義などを行っているので、もし使う場合はそのままにしておいてください。
次にVOSKを用いて文字起こしをするための関数vosを定義します。
def vos():
vs.SetLogLevel(-1) #vosk関連のログが出ないように指定
wav=wave.open('voice.wav','rb') #音声ファイルの読み込み
model= vs.Model("vosk_model") #日本語モデルの読み込み
rec = vs.KaldiRecognizer(model, samplerate) # 日本語モデルを用いて音声を解析
rec.AcceptWaveform(b"".join(data)) # 音声データの読み込み
rec.SetWords(True) # 文章のセット
output=rec.Result() # 結果を出力
js=json.loads(output) # 結果(jsonファイル)の読み込み
txt=js['text'] # テキスト部分のみ抽出
return txt
文字起こししたテキストを出力してくれます。
最後にGiNZAを用いて入力と最も類似度の高い返答を返す関数retを定義します。
def ret():
data=record(index,samplerate,fs,time)
txt=vos()
i=0
msgs.insert('end','あなた:'+txt)
doc=nlp(txt) #GiNZAで入力文章を解析
with open('ginza_voice.txt',encoding='utf-8_sig') as m: #想定返答集のロード(使う場合はファイル名を変更してください)
r=m.read().split('\n') #\nで一つ一つの文章が区切られているので、\nごとに分解して配列化
float_list=[] #計算した類似度を保持する配列
for i in range(len(r)):
k = nlp(r[i]) #想定返答集のi番目の文章の解析
float_list.append(doc.similarity(k)) #類似度を計算し、float_listに格納
i=i+1
j=float_list.index(max(float_list)) #最も類似度の高かった文章のインデックスを取得
if max(float_list)<0.7: #類似度が低すぎる場合(ここの条件(0.7以上)は適宜変えてください)
txt='僕はAIだからこういう時どう返せばいいかわからないかな。'
msgs.insert('end','えいみ:'+txt)
if max(float_list)>0.7: #類似度がある程度高い場合
txt=r[j]
msgs.insert('end','えいみ:'+txt)
以上が音声認識して文字起こしして、自然な返答を返すAIの概要です。
認識精度の問題で早口だとうまく認識してくれません。もし用いる場合はゆっくり、活舌よく話しかけてみてください。
では、ばいにゃん~
参考にさせていただいたもの
【Python】VOSKによるスピーカーからの音声出力のオフライン文字起こし
https://qiita.com/3998/items/a18b50aaf58e0176e6a5
PythonのPyAudioで音声録音する簡単な方法
https://watlab-blog.com/2019/06/20/pyaudio-record/