こんにちは。
普段は産婦人科の臨床をしつつ、機械学習や疫学的な研究をしています。
先日、産後の女性の声の声質から精神疾患をDetectできるかに関する研究をPublishしました。
これはその解説や感想をまとめたものになります。
研究の概要
我々は、妊娠中から産後にかけて何らかの精神疾患を持つ妊婦さんを含む約200名を対象に音声データと診療情報を集めました。
その後、最終的に分析・評価ができた172名分の音声を用いて、深層学習モデルにより「精神疾患があるか」「ないか」を判定できるかを検証しました。
既存の自己記入式質問票であるEPDSを比較対象とし、新しい音声ベースのモデルがどの程度正確にメンタルヘルスの不調を見つけられるかを調べています。
研究の背景
妊娠中や産後の女性が経験するメンタルヘルスの問題(うつ病や不安障害など)は、母体や赤ちゃんの健康に大きな影響を及ぼすことがあります。
こうした問題を早期に発見・対応するため、従来は「エジンバラ産後うつ病質問票(EPDS)」などの質問票方式が広く使われてきました。
しかしアンケート式の方法は、回答者の主観や回答しづらさ、時間の制約などの課題があります。
そこで本研究では、人工知能(AI)技術の一種であるディープラーニングと音声解析を用いて、妊婦さんの声から客観的にメンタルヘルスの状態を調べられないかに着目しました。
研究方法
まず産後1か月の定期健診中の自然な会話を録音し、不要な雑音や本人以外の声をできるだけ除去しました。
これが地味に大変で、思っていたよりほとんど音声が取れませんでした。
なぜなら、検診時は医者側が一方的にずっと喋っているので、お母さんの声は基本的に相槌(「はい」とか「うん」とか「ええ」とか)しかとれず、おしゃべりなお母さんであっても、環境音や赤ちゃんの泣き声などが入ってしまうとそこはノイズとして切らないといけなくなります。
結果として1時間の面談にもかかわらず、お母さんの声は5分もとれない、みたいなことがざらにあり、それがつらかったです。
同様の理由のため、会話内容から精神疾患を予測する、といったこともできないことがわかりました。
ここは対面式よりもZoomのようなオンライン診療の方が誰の声かをはっきりと区別し、それなりにしゃべらせられるという意味では音声解析を行う上ではよいのかなと思いました。
次に、その音声を短いセグメント(5000ミリ秒ごと)に区切り、それぞれを周波数ごとの強さがわかる「メルスペクトログラム」という画像に変換することで、画像解析用のAIモデルでも扱いやすい形にしました。
一般的に、音声をスペクトログラム化する際は周波数領域と時間領域の解像度がトレードオフの関係にあります(Szep, J. & Hariri, S. Paralinguistic classification of mask wearing by image classifiers and fusion. in Interspeech 2020 (ISCA, 2020).)
そのため、各メルスペクトログラムについてwindow length=(256,512,1024)の3つの画像を作成し、それを3チャネルの画像として統合して解析に用いました(カラー画像のRGBのような処理です)
前処理として、より多様な音声パターンを学習させるためのデータオーグメンテーションや、少ないクラスを補う工夫(Context-rich minority oversampling:CMO)なども行いました。
CMOはCutmix+少数派クラスのオーバーサンプリング+多数派クラスのアンダーサンプリングを組み合わせた手法です(Park, S., Hong, Y., Heo, B., Yun, S. & Choi, J. Y. The Majority Can Help The Minority: Context-rich Minority Oversampling for Long-tailed Classification. arXiv [cs.CV] (2021).)
今回自分も研究をしていてとても勉強になったのですが、Cutmixはそれ自体が正則化効果を持ち、前景と背景の異なる分布からサンプリングすることで、様々な情報を含めることができます。
Cutmixは元の2サンプルの役割を区別するため、画像のコンテキストやパッチの情報が制限されることがありません(「pの確率で前景データ」、「(1-p)の確率で背景データ」となるため)
一方、Mixupはサンプルの役割が区別されず、どちらの割合がより大きいのかが不明です。
そのため、スペクトログラムを扱う際はCutmixを行うほうがいいのではないかと考えました。
また、不均衡データを扱う際につきもののアンダーサンプリングvsオーバーサンプリング論争ですが、我々は Wallace, B. C., Small, K., Brodley, C. E. & Trikalinos, T. A. Class Imbalance, Redux. in 2011 IEEE 11th International Conference on Data Mining (IEEE, 2011). doi:10.1109/icdm.2011.33.のunder sampling + baggingの考え方をベースにしました。
以下はこの論文の解説スライド(https://course.ccs.neu.edu/cs6140sp15/4_boosting/slides/wallace_imbalance_icdm_11_for_class_2012_final.pptx)を基に、今回の研究に応用したもののかいせつです
我々のモチベーションは真の分類決定境界𝑤を推定することです。
しかし実際は多数派クラスを多く学習してしまうため、予測された決定境界$\hat𝒘$は少数派クラスに寄ってしまいます。
これが不均衡データを扱うのが難しい理由です。
予測された決定境界$\hat𝒘$ ̂を、真の分類決定境界𝒘に近づけたいわけです。
1回アンダーサンプリングを行うと、1つ決定境界を引くことができます。
重複を許して何回もアンダーサンプリングする(Bootstrap )ことで、いくつかの決定境界を得ることができます。
これによってバイアスは減ります($\hat𝒘$が真の分類決定境界𝒘に近づく)が、バリアンスが増えます($\hat𝒘$がとり得る値の範囲が増える)
得られた決定境界をアンサンブルする(Aggregating)ことで、バリアンスも下がります。
これが、アンダーサンプリングされたデータセットから導かれた分類境界($\hat𝒘'$) がバイアスが少なくなる理由です。
前置きが長くなりましたが、CMOの話に戻ります。
前景画像において、多数派クラスは各ミニバッチ内でアンダーサンプリングされる一方、全体としては少数クラスのオーバーサンプリングを行うことになります。
ミニバッチ学習によってバギングのような効果が得られるため、先の前置きのような効果が得られると考えられます。
将来的に携帯などのエッジデバイスで動くものを想定していたので、画像解析モデルには“EfficientFormer V2-L”という軽量かつ高性能なモデルを用いました。
結果
声から精神疾患の有無を判定するモデルは、精神疾患を「見落とさない」という点で良い成績を示しました(高い感度、sensitivity=1.00)。
一方、EPDSは「本当は問題がない人を、誤って陽性とするリスクが低い」ことが特徴でした(高い特異度、specificity=0.97)。
医療現場での実用を考えたときに、発見率の高さを重視するなら音声モデル、スクリーニングを重視するならEPDS、という使い分けが考えられます。
総合的に見て、両者の成績に大きな差はなかったものの、音声解析が早期発見に寄与しうる可能性が示唆されました。
従来のスクリーニングツールであるEPDSとは異なる特性があることも分かったので、これらを組み合わせることで、より頑健なスクリーニングが非侵襲的にできるのではないか?とも思っています。
結論
本研究は、妊婦さんや産後女性の声を用いたディープラーニング技術によるメンタルヘルススクリーニングが、従来の質問票方式に加えて有力な手段となる可能性を示しました。
今後さらに多くのデータを集め、妊婦さんの声の特徴や多様な精神疾患をより正確に捉えられるように改良が進めば、簡便かつ客観的にメンタルヘルスの状態を把握できるツールになるのではないかと考えています。
これにより早期介入と支援ができ、母子ともに健やかな生活を送れる手助けになればよいなと思います。