#人工知能学会全国大会 LSTMを用いた句のベクトル表現学習
この研究ではLSTMを用いて句の特徴を獲得し,句のベクトル表現を学習するモデルを提案するというようなものでした.LSTMは単語列などの系列データを扱えるニューラルネットワークの一種である.
内部にメモリを持ち,入力ベクトルによってメモリを更新し,更新したメモリの値から出力ベクトルを求めることで,入力した系列データの時系列関係を考慮することができる。
手法としては,LSTMを用いて句を表現し,句の尤もらしさ(句が文章中に現れるか否か)を学習することで,主語 S,動詞 V ,目的語Oからなる句のベクトル表現を獲得するモデルを提案する.提案モデルが対象とする句は,主語・動詞・目的語の 3 単語からなる句である.テキストや発話を大規模に集めたコーパス(テキストや発話を大規模に集めてデータベース化した言語資料)を構文解析することで主語・目的語が名詞である動詞を句として抽出する.抽出した句から学習用データを作成し,この学習用データを提案するモデルに入力することで,句のベクトル表現を獲得する.
#HARKを用いた録音
次にいくつかのパラメータ値を自分で割り当てる。
サンプリング周波数を16000Hzとし、今回は5秒間録音したいので録音フレーム数を5[sec] = (512+(fram-1)*160)/16000より498と設定する。
チャンネル数を8とし、使用するデバイスの種類をDS、使用するデバイス名をTAMAGO-03と設定。
実際に実行してみると。
networksのところにsep_0からsep_7までの音声ファイルが確かに保存されていた。
#HARKを用いた音源定位
こちらでもまず、録音ネットワークを作成
パラメータの設定の際にA_MATRIX のパラメータ値として定位用伝達関数ファイルのファイル名を入力する必要がある。なので定位用伝達関数ファイルを作成する必要がある。
定位用伝達関数ファイルを作成するには、まずマイクロフォン位置情報ファイルとインパルス応答リストファイルを作成する必要がある。
とりあえずデフォルト値で作成したものをプロットしたものが以下のようなものになった。
この二つを用いて定位用伝達関数ファイルを作成しようとしたところでエラーが出たので今回はここまでしかできていません。