LoginSignup
6
3

More than 1 year has passed since last update.

Griffin-Limの位相復元について調べてみた。

Last updated at Posted at 2022-06-10

はじめに

信号処理の基本(STFTなど)についての説明は割愛しています。そのあたりの説明込みでしたらこちらの記事がおすすめです。(本記事はこちらの記事となるべく被らないような内容にしているので読んだ後にまた戻って来てくれると嬉しいです)
この記事を作成するにあたり使用したPythonコードはgithubに挙げていますので参考になれば幸いです。(googlecolabで動かしたものになります)

位相復元とは(ざっくり)

位相復元とは、複素数で表される信号の,絶対値のみが分かっている状況において,元の複素数値の信号を復元することです。図で見てみると、
image.png
(https://www.logical-arts.jp/archives/112 より)
振幅Aだけが分かっている状況で位相θを復元することになります。

どんな時に使うか

例えば、振幅スペクトログラムを生成するタイプの音声合成手法は、最終的な音声合成を得るのに位相復元が必要になります。ただ音の世界だと、人は位相に鈍感なのとマイクロホンは音の圧力変動をセンシングしているので位相情報も取得できるためあまり使われていません。
一方、光の世界だと周波数帯が高く光の強弱しかセンシングできないため、位相復元が重要な役割を果たす場合があるそうです。

Griffin-Limアルゴリズム

それではどのように復元するかを見てみましょう。
image.png
すごいシンプル!!!振幅はわかっているので固定して、位相だけ入れ替える感じですね。(1)~(3)を繰り返すことでスペクトログラムの無矛盾性から位相が得られます。
...無矛盾性?

スペクトログラム無矛盾性

STFTで得られるスペクトログラムには一貫した近傍共起関係がある(時間と周波数の両方向に滲んでいる)そうです。このことがスペクトログラムの無矛盾性と呼ばれています。画像で見ると、
image.png
(https://www.slideshare.net/DaichiKitamura/ss-244176576 より)
このようなイメージ。これはSTFTの窓関数乗算やオーバーラップシフトが原因とのこと。オーバーラップしている=隣のフレームとは似ているべき=滲む というようなことでしょうか。失われた値を推定するのではなく、辻褄のあった位相スペクトログラムを推定する手法だそうです。

本当に戻るのか?音声聞いてみた編

実際にやって聞いてみました。Qiitaに音声を埋め込む方法がわからず時間波形ですみません。(githubにあげたこのコードを動かせばご自身で聞けるかと思います。)

download.png
上から、元信号、繰り返し1回、繰り返し100回になります。1回ではまだ不十分そうですが100回だとかなり復元できていそうに見えますね。
実際に音で聞いてみると100回は完全に元信号と同じように聞こえ、1回でもかなりいい線行っているように聞こえました。

本当に戻るのか?位相スペクトログラム編

続いて位相スペクトログラムを見てみます。
download.png
左から、繰り返し回数1回、繰り返し回数100回、元信号です。
...これを見てもよくわからないですね。元信号との差をそれぞれ見てみます。
download.png
左は繰り返し数1回、右は繰り返し数100回のものとそれぞれ元の信号の差を見たものになります。
繰り返し回数が1回だとランダムになっているのに対して100回のものは局所的に同じ色になっている=誤差にまとまりが出ています。
繰り返し数を増やしてみるとどうなるのかも見てみました。
image (3).png
左から100回、1000回、10000回です。
最初は隣同士でSTFTスペクトログラムの無矛盾性によりつじつま合わせがなされ、それが徐々に広がり、繰り返し回数を増やしまくれば最終的には1色になる(ある誤差をもって元信号と同じになる)のかな...と思っていたら1000回と10000回にはほぼ差がないように見えます。もっと時間信号が短かったりFFTサイズが小さいと変わるのかもしれないですが、あちらがたてばこちらが立たず...か繰り返されているんですかね。
いずれにせよ誤差は大きいですね、これが聞いても分からないなんて驚きです。

おわりに

pythonで学ぶ音声合成という本を読んでいる途中に位相復元なるものにぶちあたり勉強したことの備忘録でした。
コードなしですみません。オーバーラップやFFTのフレームサイズによって実行時間も性能もかなり変わったのでよければご自身でいじってみてください。(github)
なんとなくわかった気がする...くらいの理解度なので間違っている箇所あるかもしれません。ご指摘いただけると幸いです!
聴感上は非常によく戻っているけれど、実際はつじつま合わせをしているだけなので元信号との位相スペクトログラムの差を見てみるとかなりズレがあることがよくわかりました!

参考文献

今回とても参考になった文献です。おすすめです。
短時間フーリエ変換の基礎と応用 小野順貴
音響信号処理における位相復元 矢田部浩平
スペクトログラム無矛盾性を用いた独立低ランク行列分析の実験的評価 北村大地 矢田部浩平

6
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
3