論文概要
User-Driven Research of Medical Note Generation Software
(医療ノート生成ソフトウェアに関するユーザー主導型調査)
Tom Knoll, Babylon
NAACL, 2022
NAACLとは
The Annual Conference of the North American Chapter of the Association for Computational Linguistics
北米で開催される自然言語処理分野のトップカンファレンス
モチベーション
生成AIの出現により、AIやツールに頼れることの幅、曖昧さに対する許容度、他プロダクトとの親和性から多くの人の「よき友」として生成AIが浸透しつつある。
生成AIが組み込まれたサービス/プロダクトの利用機会は今後格段に増えていくことが想定されるが、開発側に回った際、ユーザーへの導入展開を図っていく際に押さえておくべきポイントは何なのか?
どんな論文?
- 医師と患者の診察の音声記録から自動的にメディカルノートを生成するために、自然言語処理(NLP)法を用いる研究が増えている
- しかし、それを実際に臨床現場で扱う際にぶつかる課題や、ユースケースを考慮したシステム設計に関する研究は少ない
- 本論文では、医療メモ生成システムの開発を通じて実施された3ラウンドのユーザー調査と3週間のテストランについて紹介する
先行研究と比べて何がすごい?
- 従来の研究は音声認識およびNLPを用いた「医療相談の書き起こし」に対する精度向上を目標としており、人間とシステムとの相互作用(Human-Centered Interaction)には着目していない
- 医療ノート生成のような、自動生成されたコンテンツを人がチェックする"Human in the Loop"システムの開発・導入において、ユーザビリティに焦点を合わせることは重要
技術や手法(この場合は調査)のキモは?
- 3ラウンドのユーザー調査実施後に、ノート生成システムを開発し3週間の試用実験(テストラン)を実施
- ユーザー調査の一部では、WOZ(Wizard-of-OZ)を用いて、システムの裏側で臨床医があたかも自動生成したかのようなコンテンツを作成することで、アウトプットに対する評価・FBをクイックに実施した
調査によって分かったことは?
- ユーザー観察によって、臨床医は会話メモを取る際に5つのペルソナに分類されることがわかり、そのうち90%が「Touch-Typer」「Sketcher」「Doodler」のいずれかに該当する。つまり生成AIが支援する方法としてはこの3分類に沿う形でのコンテンツ生成方法が望ましい
- 生成AIの精度を確認しながらヒアリングを進められることから、リアルタイムにコンテンツが生成されることがとても重要視される
- WOZ法による調査を通じて、引き続きノート生成のリアルタイム性が必要であることが強調されたほか、初めは生成AIの出力内容を見ながらヒアリングを実施していた医師たち大半は、彼ら自身でもメモを残すようになり、生成AIは彼らの内容を補完・肉付けする用途で使われるようになった(作業の代替 < 協働・補完)
調査結果に対する課題・議論は?
- ユーザー体験に着目した研究・調査の実施により、これまでは完全なスクリプトに対するノート生成が試みられていた一方で、会話の部分部分からリアルタイムに文章生成を行う必要性が明らかになった
- 患者は自分の症状を大袈裟に言う、都合の悪いことは隠してしまうことがあるため、会話内容をその言葉通りに捉えて要約するとミスリードした結果になってしまう可能性がある
- 専門用語に対する課題
所感
生成AIがもたらすUXの観点
生成AIに関しては、その多様な機能性とさまざまなツールとの高い親和性により、人間の業務を奪うのではないかという懸念が出ているが、生成AIはルールベースのシステムとは異なり、生成物には曖昧さや不確実性が含まる。そのため、この技術を利用するうえでの本質は、業務を完全に置き換えるのではなく、人間の作業を部分的に省力化するか、補完・補足することにあると考えられる。
生成AIの登場により、サービスやアプリ開発のハードルが下がり、低コストでの試作検証が容易になった。
この変化はユーザーにとっても同じことが言えそう。
プロダクト開発においては、ユーザーが生成結果を迅速に、できればリアルタイムで確認し、再生成や修正が行えることでストレスなく高品質なアウトプットを得ることができることが、ユーザーが求める体験である可能性がある。
(実際自分もChatGPTの出力結果をそのまま使うことはないし、使っていると出力速度に不満を感じてくるので、、、)
生成AIプロダクト開発におけるUXリサーチの観点
プロダクトやツールが実際に使われる現場・業務を理解することの重要性は以前から言われているが、生成AI(特にLLM)が「人のように」振る舞えるようになったことで、ローコストで実際の挙動に近いアウトプットを出せるWOZ法によるユーザーリサーチの重要性は増しそう。
今回は臨床医がWizardになったが、専門外の人を配置させることで「学習が不十分なモデル」を実装した場合の挙動の再現や、どの程度の品質までならユーザーも許容できるのかを調査できる可能性がある。
本記事のタグ
LTS データ分析・AI事業部では週に一度、ランチを食べながら各自持ち回りで読んだ論文をシェアする回を実施しています。
まとめた内容・メモを内部に留めておくのも勿体無いので、Qiitaを中心に情報発信していくことを見据えて、これらの記事を束ねるタグを考えました。
#L4P (LTS Lunch Learn & Lightening talk of Papers)
まだまだ記事は少ないですが今後増やしていきたいですね。